Les procaryotes jouent un rôle essentiel dans le vivant. Leur influence sur la biosphère est considérable, affectant la santé, la biogéochimie terrestre et marine, ainsi que de nombreux autres processus. L’exploration à large échelle des génomes microbiens a permis de révéler les mécanismes moléculaires sous-jacents à cette diversité, en particulier le rôle des éléments génétiques mobiles (MGE). L’essor des projets de séquençage a conduit au développement de méthodes bioinformatiques basées sur le concept de pangenome, permettant de gérer efficacement d’importants volumes de données [1]. La pangénomique analyse la variabilité génétique d’un groupe (souvent une espèce) en considérant tous ses génomes, plutôt qu’un seul de référence. Elle distingue le génome cur (gènes présents chez tous les individus) et les gènes accessoires (présents de façon variable), pouvant expliquer certaines spécificités phénotypiques. Les méthodes pangénomiques facilitent ainsi l’analyse des données massives en biologie en aidant à la compréhension de l’évolution des microorganismes au regard de données épidémiologiques ou environnementales.
Dans ce contexte, le laboratoire LABGeM a développé un modèle pour représenter les données génomiques sous forme de graphes de pangénome au niveau des familles de gènes, permettant de compresser l’information issue de milliers de génomes tout en conservant l’organisation chromosomique des gènes. La suite logicielle PPanGGOLiN (https://github.com/labgem/PPanGGOLiN; [2]; prix science ouverte du logiciel libre de recherche 2023) a été développée pour reconstruire et analyser les graphes de pangénomes. Elle inclut des méthodes telles que l’identification des régions de plasticité génomique (méthode panRGP) [3] et leur description fine en modules conservés (méthode panModule) [4], démontrant leur utilité pour identifier les îlots génomiques et leurs MGEs. Le LABGeM développe également PANORAMA, un outil innovant qui exploite les graphes de pangénome reconstruits par PPanGGOLiN pour identifier des systèmes biologiques à l’aide d’algorithmes à base de règles, tout en détectant des contextes génomiques conservés à travers les pangénomes de différentes espèces. Les méthodes actuelles d’analyse de contextes génomiques [5,6] ont montré leur efficacité pour la prédiction de fonctions biologiques mais souffrent de problèmes de passage à l’échelle pour exploiter pleinement la diversité de génomes disponibles dans les bases de données. PANORAMA offre une des premières perspectives en pangénomique comparée pour analyser les contextes génomiques dans des milliers de génomes, mais s’appuie sur des règles algorithmiques prédéfinies pour identifier des systèmes biologiques similaires, ce qui limite sa capacité à en découvrir de complètements nouveaux. Les nouvelles méthodes d’intelligence artificielle (IA) à base de Transformeur pour les modèles de langage ont montré leur efficacité pour capturer des relations sémantiques à grande échelle grâce aux mécanismes d’attention [7] et commencent à être utilisées pour prédire et générer de nouveaux contextes génomiques [8-9].
Ce sujet de thèse propose d’exploiter des méthodes d’IA, en particulier des modèles de langage, appliquées aux graphes de pangénome. En représentant leur contenu sous forme de séquences de phrases, où chaque mot correspond à une unité fonctionnelle codée par une famille de gènes, cette approche ouvre de nouvelles perspectives pour révéler des motifs complexes grâce à l’apprentissage sur des ensembles de données à grande échelle. Cela permettra de prédire des annotations manquantes ou incertaines, offrant ainsi des éclairages sur la fonction des gènes et des processus biologiques non caractérisés.
Références:
[1] Computational Pan-Genomics Consortium. Computational pan-genomics: status, promises and challenges. Brief Bioinform. 2016. doi:10.1093/bib/bbw089 [2] Gautreau G, et al. PPanGGOLiN: Depicting microbial diversity via a partitioned pangenome graph. PLoS Comput Biol. 2020;16: e1007732. doi:10.1371/journal.pcbi.1007732 [3] Bazin A, et al. panRGP: a pangenome-based method to predict genomic islands and explore their diversity. Bioinformatics. 2020;36: i651–i658. doi:10.1093/bioinformatics/btaa792 [4] Bazin A, et al. panModule: detecting conserved modules in the variable regions of a pangenome graph. bioRxiv. 2021. p. 2021.12.06.471380. doi:10.1101/2021.12.06.471380 [5] Snel B, et al. STRING: a web-server to retrieve and display the repeatedly occurring neighbourhood of a gene. Nucleic Acids Res. 2000;28: 3442–3444. doi:10.1093/nar/28.18.3442 [6] Zhang R, et al. De novo discovery of conserved gene clusters in microbial genomes with Spacedust. BiorXiv 2024 doi:10.1101/2024.10.02.616292 [7] Vaswani A, et al. Attention Is All You Need. arXiv 2023. doi:10.48550/arXiv.1706.03762 [8] Hwang Y, et al. Genomic language model predicts protein co-regulation and function. Nat Commun. 2024 Apr 3;15(1):2880. doi: 10.1038/s41467-024-46947-9 [9] Nguyen E, et al. Sequence modeling and design from molecular to genome scale with Evo. Science. 2024 Nov 15;386(6723):eado9336. doi: 10.1126/science.ado9336
Encadrement: David Vallenet, Alexandra Calteau et Guillaume Gautreau
Lien sur theses.fr: https://theses.fr/s420149
Financement: CEA-CFR
|