Contexte
La pangénomique vise à comprendre la variabilité génétique d’un groupe d’organismes, généralement d’une même espèce, en agrégeant l’information issue de l’ensemble des génomes disponibles plutôt que d’utiliser un seul génome de référence ou de réaliser des comparaisons deux à deux. A l’échelle du contenu en gènes, on distingue d’une part le génome cœur, c’est-à-dire les gènes présents dans tous les individus et d’autre part les gènes accessoires (ou variables) plus ou moins conservés dans les génomes, donc susceptibles d’expliquer des particularités phénotypiques. Ces dernières années, avec l’explosion des projets de séquençage, plusieurs approches bioinformatiques ont été développées pour permettre la construction de pangénomes de dizaines voire des milliers de génomes en offrant des solutions pour gérer et exploiter efficacement de grandes quantités de données [1]. Elles répondent ainsi à l’enjeu du big data en biologie et sont une aide à la compréhension de l’évolution des organismes au regard de données épidémiologiques ou environnementales.
Dans cette optique, le laboratoire LABGeM (https://labgem.genoscope.cns.fr) travaille depuis plusieurs années sur une structuration des données de génomes procaryotes sous la forme d’un graphe de pangénome à l’échelle des gènes. Ce modèle permet de compresser l’information de milliers de génomes d’une même espèce tout en conservant l’information d’occurrence et de co-localisation des gènes. Nous avons ainsi développé la suite logicielle PPanGGOLiN (https://github.com/labgem/PPanGGOLiN ; [2]) qui propose des méthodes pour la reconstruction et l’analyse de pangénomes avec notamment un partitionnement statistique des familles de gènes (méthode NEM) et l’identification des régions de plasticité génomique (RGP ; méthode panRGP ; [3]) avec leur description fine en modules conservés (méthode panModule ; [4]). Les RGP regroupent à la fois des régions qui sont échangées entre les souches par transfert horizontal de gènes (comme par exemple les îlots génomiques) et des régions perdues différentiellement dans différentes lignées. Elles sont d’une importance primordiale pour comprendre le potentiel adaptatif des microorganismes.
En parallèle, nous développons également de nouvelles méthodes d’analyses comparées basées sur les graphes de pangénomes (suite logicielle PANORAMA ; https://github.com/labgem/PANORAMA). Il s’agit notamment de workflows d’annotation pour l’identification de divers systèmes biologiques qui utilisent des algorithmes à base de règles combinant la détection d’unités fonctionnelles et la co-localisation des familles de gènes correspondantes dans le graphe de pangénome. Ce type d’analyse à l’échelle de plusieurs dizaines ou centaines d’espèces permet de mieux appréhender la dynamique évolutive en termes de transferts horizontaux de modules fonctionnels à l’origine de l’adaptation des microorganismes à différents écosystèmes par une diversification de leur métabolisme.
Objectif du stage
Le présent sujet de stage a pour objectif de participer au développement de la suite logicielle PANORAMA. Le premier objectif concernera l’intégration de nouvelles règles d’annotation fonctionnelle pour la prédiction de voies métaboliques (i.e. modules de la base de données KEGG). Le second objectif vise au développement d’une méthode de comparaison de contextes génomiques. L’algorithme utilisé est basé sur la construction d’un multigraphe regroupant l’information de N pangénomes pour rechercher des composantes connexes communes et ainsi détecter des modules conservés dans plusieurs espèces.
Ces développements seront réalisés en langage Python pour le traitement de données massives dans une structure de graphes. Il s’agira également de mettre en place des sorties textuelles et graphiques pour faciliter l’analyse.
Ces méthodes seront ensuite mises en application afin d’étudier les contextes génomiques de différentes familles d’enzymes et leur implication dans des voies métaboliques.
Profil :
- Master 2 Bioinformatique
- Maîtrise du langage de programmation Python
- Notions d’algorithmes sur les graphes
- Connaissances en microbiologie et en génomique
Environnement :
Le stage se déroulera au Genoscope (Institut de biologie François Jacob – CEA – Evry) dans le cadre de son unité de recherche (UMR8030 Génomique Métabolique CEA/CNRS/Université d’Evry Val d’Essonne). Le travail s’effectuera dans le Laboratoire d’Analyses Bioinformatiques pour la Génomique et le Métabolisme (LABGeM) dirigé par David Vallenet.
Encadrement : Alexandra CALTEAU & David VALLENET
Durée : 6 mois à partir de janvier-février 2025, rémunéré par gratification. Possibilité de poursuite en thèse.
Pour postuler, merci de nous faire parvenir un CV ainsi qu’une lettre de motivation aux adresses suivantes : acalteau@genoscope.cns.fr, vallenet@genoscope.cns.fr.
Références
[1] Computational Pan-Genomics Consortium. Computational pan-genomics: status, promises and challenges. Brief Bioinform. 2016. doi:10.1093/bib/bbw089
[2] Gautreau G, Bazin A, Gachet M, Planel R, Burlot L, Dubois M, et al. PPanGGOLiN: Depicting microbial diversity via a partitioned pangenome graph. PLoS Comput Biol. 2020;16: e1007732. doi:10.1371/journal.pcbi.1007732
[3] Bazin A, Gautreau G, Médigue C, Vallenet D, Calteau A. panRGP: a pangenome-based method to predict genomic islands and explore their diversity. Bioinformatics. 2020;36: i651–i658. doi:10.1093/bioinformatics/btaa792
[4] Bazin A, Medigue C, Vallenet D, Calteau A. panModule: detecting conserved modules in the variable regions of a pangenome graph. bioRxiv. 2021. p. 2021.12.06.471380. doi:10.1101/2021.12.06.471380