Expédition Tara Océan : un Google de la génomique pour traiter la quantité de données collectées

0 Shares
0
0
0

Lorsqu’on part à la pêche avec de gros filets, mieux vaut s’assurer que les cales seront assez larges pour tout contenir, ou que les gamelles seront assez grandes pour faire mijoter le butin. Faute de quoi les efforts ne seront pas récompensés. Une telle mésaventure a failli arriver à la Fondation Tara Océan, qui, depuis 2009, s’est lancée dans un vaste et quasi inédit programme de collecte d’échantillons marins à partir d’une goélette pour y repérer plancton, algues, virus, bactéries, etc. Tous ces organismes sont séquencés, et les milliards de bases de leurs génomes sont stockées dans une base de données… inexploitable, ou presque. La quantité est telle « qu’il n’est pas possible d’explorer facilement cette masse d’informations », résume Eric Pelletier, directeur de recherche au Génoscope-CEA. Les outils informatiques plantent devant l’obstacle.

Jusqu’à l’arrivée d’une série de programmes mis au point depuis 2021 par une équipe française. « Nous avons fait le “Google” de la génomique ! », plaisante Pierre Peterlongo, chercheur à l’Institut national de recherche en sciences et technologies du numérique (Inria) à Rennes, fier de la mise en ligne d’un moteur de recherche qui, en moins d’une seconde, dit si la suite de lettres demandées est présente ou non dans l’un des 1 393 échantillons prélevés lors de la première phase de Tara Océan autour du monde (2009-2013). La suite de lettres peut faire plusieurs centaines de bases de long. « Nous avions rêvé très tôt d’un tel outil. Maintenant c’est fait », confirme Eric Pelletier, coauteur de l’article à paraître dévoilant les secrets des algorithmes qui ont fait sauter les verrous.

Les secrets des algorithmes dévoilés

En réalité, le tableau n’était évidemment pas aussi sombre avant l’avènement de ce moteur de recherche. Les scientifiques de Tara Océan n’ont pas attendu les derniers progrès de leurs collègues pour publier de nombreux articles à partir des données collectées. Dans certains cas, environ un tiers de la base de données, les logiciels permettent de dire rapidement si un gène est présent en le comparant à des génomes de référence.

Désormais, cette tâche, qui prenait jusqu’à deux semaines de calculs sur un supercalculateur spécifique, est quasi instantanée pour l’intégralité de la base de données. Depuis le 5 juin, les serveurs enregistrent plusieurs dizaines de requêtes par jour. Les spécialistes peuvent rapidement savoir si un gène est présent, dans quel océan, dans quelles conditions de température, de salinité, de pH… Ils peuvent même, en étudiant des variants de gènes, voir sous quelles contraintes de l’environnement ces gènes évoluent. Cela peut aussi aider à repérer des virus dans des régions où ils n’étaient pas connus, voire d’en identifier plus rapidement de nouveaux.

Il vous reste 46.94% de cet article à lire. La suite est réservée aux abonnés.

source

0 Shares
Leave a Reply

Your email address will not be published. Required fields are marked *

You May Also Like