Le stockage sur ADN, une piste sérieuse face à l'explosion des volumétries de données

Cloud

Les défis du stockage sur ADN

Par La rédaction, publié le 24 mai 2022

L’idée de stocker des informations sur des nucléotides n’est pas nouvelle, mais la possibilité de synthétiser des brins d’ADN adaptés à l’archivage informatique permet de grands pas, en attendant de pouvoir résoudre les problèmes de vitesse.

En Europe, deux projets de recherche principaux s’intéressent au stockage de données sur ADN.

L’un, financé au niveau européen, Oligoarchive, se terminera dans un an. Coordonné par l’Imperial College London, il embarque l’irlandais Helixworks pour la synthèse d’ADN et, côté français, le CNRS, Eurecom et l’Université Côte d’Azur.

L’autre, 100 % français, est un projet PEPR (Programmes et équipements prioritaires de recherche) doté d’un budget de 20  M€ sur sept ans. Baptisé MoleculArXiv, il est en phase de démarrage et fédère une vingtaine de laboratoires : des chimistes pour la synthèse ; des biologistes pour le séquençage ; et des informaticiens pour le traitement de l’information, notamment des images.

Même si les spécialistes du stockage vont prochainement parvenir à fournir des supports dont la capacité atteint les 50  To, ils ne peuvent soutenir le rythme d’accroissement des volumes de données à stocker avec des technologies classiques. D’autant que ces supports ont des durées de vie limitée.

D’où l’idée – née à la fin des années 1950 dans un contexte légèrement différent, non encore empreint de numérique – de conserver les données binaires sur les quatre nucléotides A, T, C, G de l’ADN. Un ADN qui présente, en plus d’une réserve inextinguible et d’un faible volume physique, l’avantage crucial, à la fois pratique et écologique, d’une durée de conservation illimitée.

Reste que, les technologies de séquençage étant imparfaites, cette conversion crée des erreurs, impliquant l’utilisation de systèmes de correction. « Pour réduire le nombre d’erreurs qui pourraient survenir au niveau de la synthèse des brins d’ADN, on crée des brins relativement courts, d’une taille maximale de 300 nucléotides », explique Marc Antonini, directeur de recherche CNRS au laboratoire d’Informatique, Signaux et Systèmes de Sophia Antipolis (I3S). « Dans le futur, on peut imaginer qu’on utilisera des brins d’ADN beaucoup plus longs, mais il faudra gérer le bruit », poursuit le chercheur.

La gestion des images est un problème en soi. Il faut en effet plusieurs milliers ou dizaines de milliers de nucléotides pour stocker une image. Les chercheurs essaient donc de mettre au point un système de compression d’image spécifique qui doit par ailleurs tenir compte d’un problème inhérent à l’ADN : la nature semble préférer la diversité à la répétition et, ainsi, une séquence trop longue de nucléotides identiques (une suite de A par exemple) est susceptible de générer des erreurs par instabilité de la chaîne.

La réponse apportée par les chercheurs est de ne pas effectuer un simple transcodage (par exemple A=00, C=01, G=10 et T=11), mais d’utiliser un système plus complexe qui, à la fois évite les trop longues répétitions, et minimise le nombre de nucléotides nécessaires, de manière à réduire les coûts de synthèse. Parallèlement, les chercheurs conçoivent aussi des algorithmes de correction des erreurs liées au processus de séquençage du code ADN, lors du décodage permettant de retrouver les données.

Sur ce point, les technologies progressent également. Certains séquenceurs comme ceux d’Illumina sont plus efficaces. Ceux d’Oxford Nanopore apparaissent, eux, moins performants. Mais il faut savoir qu’un séquenceur d’Illumina occupe la taille d’un gros ordinateur, alors que celui d’Oxford Nanopore est à peine plus grand que deux clés USB…

PARALLÉLISER MASSIVEMENT POUR ACCÉLÉRER

La synthèse de l’ADN est encore lente et il faut compter environ 100 secondes pour écrire 1 bit… Mais cette synthèse a un avantage : la technologie est facilement parallélisable. Autrement dit, avec des millions d’électrodes, il faut le même temps pour écrire autant de bits, soit plusieurs mégabits.
Les acteurs américains travaillent sur cette parallélisation massive. Les scientifiques français, eux, espèrent arriver à une vitesse de 1 bit par seconde pour, à l’aide de cette même parallélisation, parvenir au Gbit/s d’ici cinq ans.

 


À lire également :

Dans l'actualité