@Work
Health 2030 accélère ses transferts de données génomiques
Par Pierre Berlemont, publié le 17 août 2023
Sans le connaître et alors qu’il avait perdu un marché lancé par le consortium, Pure Storage a été choisi par le département Genome Center de la fondation Health 2030 pour accélérer ses recherches sur la médecine personnalisée.
Fondation dédiée à la médecine personnalisée, Health 2030 est un consortium suisse à but non lucratif qui traite de toute la partie génomique de cette approche différente de la maladie. Elle prend en effet le contre-pied de la médecine traditionnelle. Dans ce dernier cas, les personnes qui consultent un praticien ou se rendent dans un centre hospitalier vont se voir proposer, sur la base de leurs symptômes, un ou des médicaments qui ont donné de bons résultats sur une majorité d’autres patients.
Au contraire, la médecine personnalisée repose sur l’idée qu’il faut admettre que « chaque personne a un historique différent, des caractéristiques distinctes et qu’en analysant non seulement ses symptômes, mais aussi son passé médical, en séquençant son ADN dans certains cas, on peut se rendre compte d’un danger potentiel à lui administrer ce même traitement. Ou de son inutilité si le médicament ne peut lui procurer aucun effet thérapeutique », explique Arnaud Hungler, head of IT infrastructure du Genome Center, un des départements du consortium.

Pour avancer dans ses recherches, le Genome Center de la fondation Health 2030 doit travailler sur de grandes variétés et de grandes quantités de données patients, avec des contraintes de sécurité, et en particulier d’intégrité, très élevées.
Cette approche élargit donc les choix médicaux possibles, les rend plus précis et plus efficaces, mais aussi plus économes, car la prescription de médicaments inutiles génère des dépenses conséquentes. « En France, la solution serait facilitée avec “Mon Espace Santé”, que n’a pas encore développé la Suisse, et le Genome Center ne collabore pas avec des pays étrangers, car ces derniers n’échangent pas facilement leurs données de santé considérées comme sensibles », regrette Arnaud Hungler.
Un panel plus large de patients avec des données précises (allergies, incompatibilités avec d’autres maladies…) permettrait en effet de mieux cibler le traitement à dispenser.
À LIRE AUSSI :
Des traitements complexes
Pour traiter ces données, le centre helvétique a mis en place un premier pipeline. En entrée, les échantillons transmis par les hôpitaux ou universités passent dans un séquenceur. « Mais ce processus est très coûteux ; il faut compter 15 000 € environ par séquençage. On regroupe donc les échantillons pour diminuer le coût unitaire », précise Arnaud Hungler.
Conséquence : en sortie, les données passent par une étape de démultiplexage qui permet de séparer les différentes analyses. Puis elles sont ordonnées lors d’une étape de mapping, consistant à replacer chaque séquence au bon endroit dans le génome humain. C’est une procédure standard depuis maintenant deux ans, estampillée ISO 15189 pour les laboratoires médicaux.
Ce mode de fonctionnement nécessite toutefois le transport de très grands volumes de données. Le laboratoire a donc vite été confronté à des difficultés pour pouvoir transférer ces données depuis et surtout vers ses partenaires externes (hôpitaux ou centres de recherche), lesquels ne disposent généralement que d’une bande passante limitée et d’un espace de stockage également réduit. « De notre côté, nous avions prévu ce problème et anticipé sur nos espaces de stockage. Mais de l’autre côté de notre écosystème, ils étaient insuffisants », se rappelle Arnaud Hungler.
Optimisation et simplification
D’où la construction d’un second pipeline qui, plutôt que d’envoyer jusqu’à 200 Go pour chaque analyse, vise à intégrer cette phase via une plateforme spécialisée fournie par l’éditeur britannique Congenica. Il permet d’éviter d’envoyer l’intégralité de ces données en limitant les doublons (grâce à des tags) sur l’ADN. En effet, la majorité du génome humain est constitué de références déjà connues et les scientifiques peuvent se contenter d’analyser seulement les variations par rapport aux références et leur importance d’un point de vue clinique.

Arnaud Hungler,
Head of IT infrastructure du Genome Center
« Nos anciens systèmes de stockage utilisaient le mode bloc et nous touchions à leurs limites. La nouvelle solution simplifie grandement notre travail. »
Désormais, avec une partie des calculs exécutée en interne, la taille des fichiers à envoyer a nettement diminué. « Dans ce modèle, nous restituons une dataviz permettant d’explorer les données issues du séquençage et nous intégrons une partie des traitements sur ces données, comme des filtres », précise Arnaud Hungler.
La mise en place de l’infrastructure technique a permis la remise en selle du constructeur Pure Storage, après une première déconvenue. En effet, celui-ci avait répondu à un appel d’offres pour un autre projet concernant de l’archivage pour lequel il n’avait pas été retenu, sa baie Pure Storage Flash s’étant révélée trop chère pour ce type d’utilisation. « Par contre, ils avaient une autre solution qui correspondait exactement à nos attentes pour cette fois. Nous avons donc choisi leur Pure Storage FlashBlade via l’abonnement Evergreen//One [paiement à l’usage, NDLR] pour avoir une grande flexibilité et éviter de payer pour 500 To alors qu’on en utilise actuellement 10 », explique Arnaud Hungler.
Côté performances, la vitesse de téléchargement de données depuis l’extérieur a ainsi été multipliée par deux, et celle des transferts internes par dix. La flexibilité de l’architecture et sa simplicité d’exploitation sont également appréciées, d’autant que l’équipe IT du Genome Center est réduite. Arnaud Hungler a par ailleurs pu réaliser un POC avec Pure Storage et ainsi déterminer la baie de stockage du constructeur la mieux adaptée. La mise en production s’est ensuite opérée à partir du POC via un export NFS en quelques clics.
Autre gros avantage par rapport au mode bloc employé précédemment, le mode fichier exploité par le FlashBlade exige peu de maintenance et la création d’un nouveau volume est extrêmement rapide. D’ailleurs, le DSI, qui avait réservé une journée entière pour l’installation des machines, a finalement dû prévoir une invitation au restaurant pour le déjeuner : « La matinée a suffi pour la mise en place ! », conclut-il dans un sourire.
La flexibilité, l’autre nerf de la guerre
La flexibilité sur les ressources de stockage disponible est cruciale, car les besoins des scientifiques du Genome Center varient fortement. Lorsqu’aucune tâche n’est nécessaire sur la partie analyse secondaire, la demande de stockage est nulle. Mais lorsque, de temps en temps, deux ou trois projets sont menés en parallèle, elle peut monter jusqu’à 200 voire 300 To. Autre avantage de cette flexibilité, la possibilité pour les métiers d’utiliser plus directement la solution, sous réserve que des responsables contrôlent l’usage à bon escient de la quantité de stockage disponible.
LE PROJET EN CHIFFRES
200 Go maximum de données pour un échantillon
30 échantillons traités simultanément
2 baies FlashBlade
L’ENTREPRISE
Activité : Consortium universitaire dans le domaine de la santé
Effectif : 2 017 collaborateurs
CA : NC
À LIRE AUSSI :
À LIRE AUSSI :
