La croissance exponentielle des données de toutes sortes impose de trouver de nouvelles solutions fiables et efficaces pour leur stockage et leur archivage. En effet les gigantesques centres de données (data centers) des géants du numérique commencent à poser des problèmes compte tenu, entre autres, des milliards de kilowatts d’électricité qu’ils consomment pour refroidir les ordinateurs. Aux États-Unis, ils représentent déjà quelque 5% de la consommation totale d’énergie.
Parmi les options possibles, l’ADN est une solution originale qui pourrait s’avérer particulièrement adaptée et performante. L’ADN fournit déjà le manuel d’instruction qui permet de construire tous les êtres vivants. Avec ses 4 bases nucléotides – adenine (A), thymine (T), guanine (G) et cytosine (C) – l’ADN est un langage quaternaire potentiellement plus performant que le langage binaire des ordinateurs actuels.
Un seul gramme d’ADN peut théoriquement contenir jusqu’à 455 exabits d’informations, soit 455 milliards de milliards de bits (1). Les 250 mille milliards de milliards de bits (250 zettabits) de données que le monde produira en 2025 pourraient alors tenir dans une balle de tennis. De plus l’ADN peut aujourd’hui être copié pour un coût marginal et, avantage majeur pour le stockage des données, il résiste à l’épreuve du temps : des chercheurs ont pu séquencer l’ADN de mammouths vieux de plus d’un million d’années (2).
Grâce aux progrès de la biologie moléculaire il est aujourd’hui possible de synthétiser un polymère ADN pour “écrire” les données” en utilisant les 4 composants ATGC comme on le fait pour les bits dans un fichier numérique. La lecture des données se fait alors avec un séquenceur d’ADN conçu pour cet usage. Dès 2012 des chercheurs américains réussirent ainsi à encoder et à lire un livre de 300 pages (3). La voie vers les puces ADN était ouverte.
En 2016, Microsoft et l’Université de Washington ont mis au point la première machine automatique capable de stocker des données et de les restituer comme le ferait un séquenceur automatique d’ADN (4). Le système de Microsoft était cependant encore trop lent et encombrant pour être commercialisable. Aujourd’hui des progrès spectaculaires ont été réalisés, ainsi DNA Script une entreprise française du secteur des biotechnologies, devenue le leader mondial de la synthèse à la demande de polymère ADN, teste à cette fin un appareil, baptisé Syntax dans plusieurs grands laboratoires de recherche.
En 2020, DNA Script, qui a une implantation à San Francisco, a rejoint le Molecular Encoding Consortium qui comprend également le Broad Institute où sont partenaire le Massachusetts Institute of Technology (MIT) et l’Université Harvard (5). Financé à hauteur de 23 millions de dollars par l’agence américaine Intelligence Advanced Research Projects Activity (IARPA), dans le cadre du programme MIST (Molecular Information Storage), le consortium a pour objectif de produire un système capable d’écrire et de lire sur un support moléculaire 1 téraoctet (mille milliard d’octets) en moins de 24h pour moins de 1000$. Dans le cadre du programme MIST, le Laboratoire National de Los Alamos (Université de Californie) a par ailleurs développé une suite logicielle, l’ADS Codex, pour optimiser l’écriture du stockage moléculaire et convertir sans erreur les fichiers binaires numériques en alphabet génétique (6).
En Europe, le projet OligoArchive (7), lancé en 2019 a également de grandes ambitions. Coordonné par l’Imperial college of science technology and medecine de Londres, le projet regroupe plusieurs grandes structures de recherche dont le CNRS et l’Institut de Pharmacologie Moléculaire et Cellulaire (IPMC) de Sophia Antipolis. Le but est de démontrer, d’ici à 2023, la validité des concepts et des technologies qui permettront dans une dizaine d’années la production de disques ADN. Au-delà les chercheurs européens veulent utiliser l’ADN non seulement comme support de stockage mais aussi comme substrat de calcul. Selon des recherches préliminaires, il semble en effet que des calculs actuellement exécutées par les processeurs à base de silicium puissent être réalisés efficacement par des réactions biochimiques ultra-rapides directement sur l’ADN.
______________________________
(1) https://lejournal.cnrs.fr/articles/stockage-de-donnees-les-promesses-de-ladn-synthetique ).
(2) https://www.futura-sciences.com/planete/actualites/paleontologie-cet-adn-mammouth-plus-vieux-jamais-sequence-85870/
(3) Next-Generation Digital Information Storage in DNA », George M. Church, Yuan Gao et Sriram Kosuri, Science, 28 septembre 2012, vol. 337 (6102) : 1628.
(4) https://youtu.be/60Gi5lqL-dA
(5) https://www.lesechos.fr/pme-regions/innovateurs/dna-script-mise-le-stockage-des-donnees-dans-ladn-a-dix-ans-1164638
(6) https://www.scientificamerican.com/article/dna-the-ultimate-data-storage-solution/
(7) https://oligoarchive.github.io/