L’IBMP passe au stockage objet Swarm de Datacore pour gérer l’explosion de ses données R&D

Data / IA

L’IBMP passe au stockage objet pour gérer l’explosion de ses données R&D

Par Laurent Delattre, publié le 11 décembre 2023

De la microscopie avancée générant des téraoctets de données au stockage objet, le laboratoire du CNRS d’Alsace montre comment la science végétale s’adapte à la transformation numérique et aux défis majeurs qui l’accompagnent en adoptant la solution Swarm de DataCore.

Plus grand laboratoire français travaillant dans le domaine du végétal, l’Institut de biologie moléculaire des plantes (IBMP) du CNRS d’Alsace constitue un pôle incontournable en matière de recherche et d’enseignement en biologie végétale. Associé à l’Université de Strasbourg, il mobilise ses 160 chercheurs, doctorants et étudiants de toutes nationalités dans l’étude du développement des végétaux, de leurs structures moléculaires et de leurs maladies virales.

Des contraintes d’accessibilité sur une donnée qui explose

Au cours de la dernière décennie, le milieu de la recherche s’est profondément digitalisé, cette transformation provoquant une explosion des besoins en stockage d’autant plus colossale que, parallèlement, les outils scientifiques génèrent une masse d’informations toujours plus importante. « À titre d’exemple, notre “super microscope métabolomique” SolariX permet d’analyser en une seule passe toutes les molécules d’une plante, et il est tellement sensible qu’il permet de voir tous les isotopes contenus dans chaque molécule. On compte entre 4 000 à 5 000 molécules différentes par plante. Multipliez ce nombre par X variantes d’isotopes et vous comprenez aisément à quel point les volumétries explosent. Pour avoir un ordre d’idée, la plus petite de nos manipulations génère au minimum 2 To de données », explique Jean-Luc Evrard, DSI de l’IBMP.

À la problématique de l’explosion de la capacité nécessaire pour stocker les données des expériences s’ajoute celle de l’intégration des métadonnées pour les retrouver.

Ces données doivent être conservées sur le long terme (une quinzaine d’années en moyenne), pour pouvoir être consultées et les comparées avec des études plus récentes. Ce qui signifie qu’elles doivent aussi demeurer disponibles à tout instant. Autre contrainte, l’IBMP travaille en mode projet, sachant qu’un projet peut durer dix ans et plus. Pour autant, les chercheurs sont souvent engagés en CDD pour une durée de trois ans en moyenne. Beaucoup sont étrangers et n’utilisent pas toujours l’alphabet latin.
« Nous accueillons jusqu’à quarante nationalités différentes, et même en faisant abstraction de cette spécificité, les méthodes de classement ou encore la façon de nommer les fichiers sont souvent propres à chaque chercheur, précise Jean-Luc Evrard. Dit autrement, nous avions besoin de mettre en place une méthodologie vraiment universelle d’identification des fichiers, permettant de savoir à quoi correspondent nos données, afin de pouvoir ensuite mener des recherches approfondies et rapides dans nos bases. »

Un stockage objet de longue durée pour retrouver facilement ses données

En 2021, à l’heure du remplacement de son NAS en Raid 6 qui ne répondait plus aux nouvelles contraintes générées par ces méthodes avancées de séquençage, l’IBMP était déjà arrivé à la conclusion qu’il devait enrichir ses données brutes de métadonnées pour permettre aux chercheurs de retrouver ensuite plus facilement l’information.
« En commission interne, nous avons défini des métadonnées obligatoires et d’autres optionnelles à renseigner par les chercheurs. Le stockage objet S3 s’est rapidement imposé comme la seule solution réellement adaptée à notre archivage sur le long terme. Il peut gérer des volumes importants, évoluer au fil de nos besoins et il convient aussi parfaitement à notre approche basée sur les métadonnées pour retrouver plus facilement un contenu », explique Jean-Luc Evrard.

Jean-Luc Evrard

DSI de l’IBMP

« Notre laboratoire fait un bond en avant dans sa capacité à séquencer l’ADN des végétaux selon les méthodologies les plus en pointe grâce à un stockage qui démultiplie nos capacités d’analyse et améliore finalement notre performance scientifique. »

Après un tour d’horizon des offres sur le marché, l’IBMP s’est tourné vers Swarm, solution tout juste arrivée dans le giron de DataCore au moment de la décision.
Plusieurs critères ont guidé ce choix, dont un argument économique qui a particulièrement pesé dans la balance : « Le cloud public n’était pas une option : officiellement, il est interdit au CNRS et nous stockons des données de recherche trop sensibles pour être externalisées. De plus, le locatif, quelle que soit la solution, n’est pas adapté au mode de financement du laboratoire : d’une année sur l’autre, nous ne savons pas quel budget nous sera attribué. Comment je fais si je n’ai pas le budget l’année prochaine pour payer mon abonnement ? C’est notamment pour cette raison que nous avons écarté le seul véritable concurrent à Swarm, car son modèle reposait sur un abonnement annuel », explique le DSI de l’IBMP.

Swarm présentait d’autres avantages, dont notamment une architecture matérielle autogérée et une disponibilité renforcée par une indexation des objets adaptative, de sorte que le système garantit une restauration rapide de l’accès aux données en cas d’incident. « Ce qui signifie aussi que, contrairement à la majorité des solutions concurrentes, nous n’avons pas à nous préoccuper de la santé du système : quoi qu’il arrive, vous ne pouvez pas perdre vos données », souligne Jean-Luc Evrard.

Un système pérenne et fiable

La solution Swarm a été installée sur site en début d’année 2022 par la DSI du laboratoire, sur un ensemble de dix serveurs Dell, trois en tête du cluster pour supporter les services et sept pour le stockage proprement dit. La virtualisation des applications est assurée par des ESXi VMware. Le déploiement a été effectué directement par DataCore. L’architecture est interconnectée par des liens redondants à 25 Gbps transitant par un switch FS S5860-48SC, lui-même en liaison avec le coeur de réseau par une fibre optique de 10 Gbps. La pérennité logicielle de la solution est assurée par une licence « à vie » pour 850 To de stockage, sur le 1,3 Po brut disponible, et un contrat de maintenance de trois ans. Côté matériel, le laboratoire bénéfice d’un contrat de maintenance de sept ans. L’ensemble représente une enveloppe de 145 K€ HT.

Complètement opérationnel, le système accueille déjà les données de certains chercheurs. L’IBMP doit encore affiner certains processus et travaille notamment encore sur la méthode d’intégration des métadonnées dès l’ingestion des données dans le système. « C’est un travail de longue haleine, d’autant que le stockage objet, ici au standard S3, constitue un véritable changement de paradigme : il faut penser le stockage autrement avec une métadonnée qui devient clairement beaucoup plus importante que la donnée elle-même, faute de quoi on ne retrouve pas ses informations. Mais le jeu en vaut la chandelle : le système est plus fiable, plus évolutif, plus facile à gérer et aussi plus résilient aux attaques… soit autant d’avantages qui démultiplient nos capacités d’analyse et améliorent finalement notre performance scientifique », conclut Jean-Luc Evrard.


Les chiffres du projet

850 To de stockage utile

15 ans Durée moyenne de conservation des données dans un format accessible

145 K€ Coût de l’infrastructure de stockage


L’entreprise IBMP

Activité : Institut de recherche du CNRS
Effectif : 180 collaborateurs
Budget de fonctionnement : 2,4 M€


À LIRE AUSSI :


À LIRE AUSSI :

Dans l'actualité

Verified by MonsterInsights