L'exploitation des satellites d'observation de la Terre, marché en pleine croissance, génère des quantités de données phénoménales et qui doivent être mises à la disposition d'une clientèle très variée. Comment archiver et gérer ce flot grandissant ? Nous avons posé la question à Michel Ackerman, Business consultant chez EBRC, et Gilbert Barrot, CIO chez ACRI-ST.

Ce qu'il faut retenir Sans données spatiales correctement archivées, classées et d’accès rapide, les applications et les services qui les commercialisent ne pourront plus fonctionner correctement.

L’archivage des données spatiales est la partie la moins visible des missions spatiales et conditionne la bonne utilisation et exploitation à la fin de la mission du satellite.

Les solutions de stockage tiennent compte de nombreux paramètres dont le coût de rétention au TB, la sécurité et la rapidité de l’accessibilité.

Aujourd'hui, la quantité très importante de données générées par les satellites d’observation de la Terre constitue un défi majeur en matière de stockage, de facilité à les diffuser et d'y accéder pour les utiliser à des fins scientifiques et commerciales. À cela s'ajoute que le marché de l'exploitation de ces données représente une opportunité inédite pour le secteur du New Space, des start-up de la Silicon Valley et des grands acteurs des TIC (technologies de l'information et de la communication) tels que les Gafa (Google, Apple, Facebook, Amazon). Tous s'appuient sur la production et le traitement des données satellitaires pour fournir des services à valeurs ajoutées à une très grande variété d'utilisateurs.

Pour répondre à ce besoin, ces données sont gérées par les agences spatiales mais aussi des sociétés, comme la française ACRI-ST, en charge du traitement et de l'archivage des données satellitaires stratégiques de l'Agence spatiale européenne (EODAS). Elle s'est récemment rapprochée des services cloud d'EBRC pour migrer une partie des données dans ses data centers et d'être prête, à terme, à faire face à une volumétrie massive rendant tout futur transfert soit trop long, soit trop coûteux.

Pour prendre un exemple dans un domaine comparable, rien que le satellite Sentinel 3A (février 2016) du programme Copernicus, produit quelques téraoctets quotidiennement. La volumétrie globale des données passe ainsi rapidement de quelques « dizaines de térabytes à plusieurs pétabytes », nous expliquent Michel Ackerman, Business consultant chez EBRC et Gilbert Barrot, CIO chez ACRI-ST. Le travail de gestion de cette masse d'information est essentiel. En effet, il faut savoir que si les données de ce programme de la Commission européenne sont mises gratuitement à disposition des utilisateurs du monde entier, elles le sont à l'état brut. Aux utilisateurs ensuite de voir comment les utiliser et les commercialiser. D'où l'importance de l'archivage et le rôle fondamental des acteurs comme ACRI-ST.

Deux catégories de supports d’archivages de données spatiales

Aujourd'hui, pour archiver les données il existe globalement deux catégories de supports. Le « choix du support de stockage dépend en très grande partie de l'utilisation finale ». Dans le cas où les données doivent être préservées sur une longue durée, le support le plus adapté reste la bande « avec un coût de rétention au TB [téraoctet] très bas et offrant une fiabilité plus importante que dans le passé ». De plus, les dernières évolutions technologiques diminuent fortement l'impact sur l'environnement avec « une consommation électrique très faible pour une densité très élevée (la densité offerte en 2017 est de 8 pétaoctets par rack de 42U avec des solutions de type LTO8) ».







Un data center d'ACRI-ST. © ACRI-ST

D'un autre côté, pour des services nécessitant un accès aléatoire, et pour lesquels chacune des données de l'archive peut être demandée sur base d'un temps de réponse rapide, « le support le mieux adapté reste le disque ». Enfin, il existe aussi des « systèmes hybrides permettant un accès rapide à une fraction de l'archive (cache sur disque), le reste étant placé sur bande ». Cette solution articulée autour de la fréquence d'utilisation répond aux cas d'usages d'utilisateurs qui ont besoin d'accéder à des données récentes qui « seront écrites sur disque et disponibles en mode rapide et qui ponctuellement accèderont à des enregistrements plus anciens qui, eux, seront placés sur bande ». Dans ce contexte, des solutions automatisées existent, basées sur du « tiering », c'est-à-dire la migration automatique ou programmée de données entre systèmes de stockage plus ou moins performants, donc plus ou moins coûteux. Ces migrations, internes au système de stockage, sont entièrement transparentes pour l'utilisateur de la donnée. Seul le temps d'accès va varier.

Le bel avenir du stockage sur bande

Le classement de ces données spatiales, est réalisé en leur associant « des métadonnées (étiquetage) qui sont des informations descriptives, telles que : type, plage temporelle, géolocalisation, indices de qualité ainsi que des informations spécifiques aux différents métiers ». Ces métadonnées vont permettre de qualifier les jeux de données sans avoir à y accéder en profondeur ou à les traiter (tri, filtrage...) « comme effectuer les opérations de tri et de filtrage nécessités par les services offerts aux utilisateurs ». Le format de mise à disposition de la donnée, dépend des environnements métiers, les « méthodes de transfert les plus fréquentes sont basées sur les préconisations et outils de l'OGC (Open Geospatial Consortium) : WMS, WPS, CWS, etc. ».

Concernant l'avenir du stockage, il est « difficile aujourd'hui de vraiment prédire l'évolution du stockage massif à long terme ». Pour les prochaines années, la tendance du stockage pour les petites volumétries sera « sans aucun doute d'opter pour des supports SSD » par contre pour le stockage massif, les « classiques disques rotatifs et les bandes resteront encore les supports privilégiés ». La date de la bascule entre ces différents supports est « encore très largement incertaine et nous sommes plutôt devant un mouvement de transition permanente intégrant sans cesse les nouveaux développements ». Le tarif actuel des SSD n'est pas compatible avec un stockage massif. « Seule une diminution très importante de leur prix permettra son utilisation comme support d'archivage. »

De son côté, le stockage sur bande, « outre son coût au TB qui reste de loin le plus faible parmi les différents systèmes », de nouvelles opportunités s'ouvrent à lui, « en particulier concernant les cyberattaques ». La sauvegarde sur bandes offre l'avantage d'une copie parfois plus sécurisée dont le modèle séquentiel est « plus figé » que sur disque. Ainsi, en cas de cyberattaque par malware, les données ne « sont naturellement pas accessibles en direct par le virus et se trouvent ainsi mieux protégées par défaut ».

Peu importe le choix technologique opéré, la « fiabilité restera toujours au cœur de ces différents supports et les nouveautés ou évolutions qui pourront également apparaître ».

