Meriem Youssef - Modèles de langage à l'échelle des graphes de pangénomes pour la prédiction de fonctions biologiques

Les procaryotes jouent un rôle essentiel dans le vivant. Leur influence sur la biosphère est considérable, affectant la santé, la biogéochimie terrestre et marine, ainsi que de nombreux autres processus. L’exploration à large échelle des génomes microbiens a permis de révéler les mécanismes moléculaires sous-jacents à cette diversité, en particulier le rôle des éléments génétiques mobiles (MGE). L’essor des projets de séquençage a conduit au développement de méthodes bioinformatiques basées sur le concept de pangenome, permettant de gérer efficacement d’importants volumes de données [1]. La pangénomique analyse la variabilité génétique d’un groupe (souvent une espèce) en considérant tous ses génomes, plutôt qu’un seul de référence. Elle distingue le génome cur (gènes présents chez tous les individus) et les gènes accessoires (présents de façon variable), pouvant expliquer certaines spécificités phénotypiques. Les méthodes pangénomiques facilitent ainsi l’analyse des données massives en biologie en aidant à la compréhension de l’évolution des microorganismes au regard de données épidémiologiques ou environnementales.

Dans ce contexte, le laboratoire LABGeM a développé un modèle pour représenter les données génomiques sous forme de graphes de pangénome au niveau des familles de gènes, permettant de compresser l’information issue de milliers de génomes tout en conservant l’organisation chromosomique des gènes. La suite logicielle PPanGGOLiN (https://github.com/labgem/PPanGGOLiN; [2]; prix science ouverte du logiciel libre de recherche 2023) a été développée pour reconstruire et analyser les graphes de pangénomes. Elle inclut des méthodes telles que l’identification des régions de plasticité génomique (méthode panRGP) [3] et leur description fine en modules conservés (méthode panModule) [4], démontrant leur utilité pour identifier les îlots génomiques et leurs MGEs. Le LABGeM développe également PANORAMA, un outil innovant qui exploite les graphes de pangénome reconstruits par PPanGGOLiN pour identifier des systèmes biologiques à l’aide d’algorithmes à base de règles, tout en détectant des contextes génomiques conservés à travers les pangénomes de différentes espèces. Les méthodes actuelles d’analyse de contextes génomiques [5,6] ont montré leur efficacité pour la prédiction de fonctions biologiques mais souffrent de problèmes de passage à l’échelle pour exploiter pleinement la diversité de génomes disponibles dans les bases de données. PANORAMA offre une des premières perspectives en pangénomique comparée pour analyser les contextes génomiques dans des milliers de génomes, mais s’appuie sur des règles algorithmiques prédéfinies pour identifier des systèmes biologiques similaires, ce qui limite sa capacité à en découvrir de complètements nouveaux. Les nouvelles méthodes d’intelligence artificielle (IA) à base de Transformeur pour les modèles de langage ont montré leur efficacité pour capturer des relations sémantiques à grande échelle grâce aux mécanismes d’attention [7] et commencent à être utilisées pour prédire et générer de nouveaux contextes génomiques [8-9].

Ce sujet de thèse propose d’exploiter des méthodes d’IA, en particulier des modèles de langage, appliquées aux graphes de pangénome. En représentant leur contenu sous forme de séquences de phrases, où chaque mot correspond à une unité fonctionnelle codée par une famille de gènes, cette approche ouvre de nouvelles perspectives pour révéler des motifs complexes grâce à l’apprentissage sur des ensembles de données à grande échelle. Cela permettra de prédire des annotations manquantes ou incertaines, offrant ainsi des éclairages sur la fonction des gènes et des processus biologiques non caractérisés.