Stage M2 – Graphes de pangénomes et annotation fonctionnelle

Bioanalyse de modules fonctionnels dans des graphes de pangénomes

Contexte scientifique

Ces dernières années ont vu l’explosion des projets de séquençage, conduisant à un déluge de plusieurs centaines de milliers de génomes disponibles dans les banques de séquences. Les approches de génomique comparative en microbiologie utilisent maintenant des milliers de génomes pour analyser la diversité d’une espèce. En effet, de nombreuses études se concentrent sur le contenu global en gènes d’une espèce (le pangénome) pour comprendre son évolution en termes de gènes communs (“core-genome”) et accessoire (“variable-genome”) au regard de données épidémiologiques ou environnementales [1]. Néanmoins, le traitement de cette masse de données impose un changement de paradigme dans la représentation des connaissances et dans les algorithmes utilisés [2].

Le Laboratoire d’Analyses Bioinformatiques pour la Génomique et le Métabolisme (LABGeM) est une équipe de bioinformatique qui développe des outils destinés à l’analyse de génomes microbiens. Depuis plusieurs années, le groupe développe la suite logicielle PPanGGOLiN (https://github.com/labgem/PPanGGOLiN) qui propose des méthodes pour la reconstruction et l’analyse de pangénomes avec notamment l’identification des régions de plasticité génomique (méthode panRGP) [3,4] et leur description fine en modules conservés (méthode panmodule) [5].

Dans le cadre du projet PANORAMA, de nouveaux développements sont en cours au laboratoire afin de pouvoir réaliser des analyses de pangénomique comparative basées sur les résultats de la suite logicielle PPanGGOLiN. De nouveaux workflows d’analyse fonctionnelle ont été implémentés dans le but d’analyser les modules inter pangénomes. Le stage proposé a pour but de tester et de valider ces nouveaux workflows d’analyse en comparant les résultats obtenus à des publications de référence utilisant des méthodes de génomique comparée classique. Dans un premier temps, les analyses seront focalisées sur les systèmes de défense aux phages [6,7].

Ce travail bénéficiera des développements ainsi que de l’expertise de l’équipe LABGeM sur la génomique microbienne et le métabolisme.

Tâches :

  • Utilisation des workflows de PANORAMA sur différents pangénomes
  • Validation des développements avec une application biologique sur plusieurs pangénomes

Profil :

  • Master 2 Bioinformatique ou Microbiologie
  • Programmation : Linux/Bash, Python
  • Bonnes connaissances en microbiologie et en génomique

Environnement : 

Le stage se déroulera au Genoscope (Institut de biologie François Jacob – CEA – Evry) dans le cadre de son unité de recherche (UMR8030 Génomique Métabolique CEA/CNRS/Université d’Evry Val d’Essonne). Le travail s’effectuera dans le Laboratoire d’Analyses Bioinformatiques pour la Génomique et le Métabolisme (LABGeM) dirigé par David Vallenet.

Encadrement :

Alexandra CALTEAU (acalteau@genoscope.cns.fr)

Jérôme ARNOUX (jarnoux@genoscope.cns.fr)

Durée : 6 mois. 

Références :

1. Golicz AA, Bayer PE, Bhalla PL, Batley J, Edwards D. Pangenomics Comes of Age: From Bacteria to Plant and Animal Applications. Trends Genet. 2020;36: 132–145.

2. Computational Pan-Genomics Consortium. Computational pan-genomics: status, promises and challenges. Brief Bioinform. 2016. doi:10.1093/bib/bbw089

3. Gautreau G, Bazin A, Gachet M, Planel R, Burlot L, Dubois M, et al. PPanGGOLiN: Depicting microbial diversity via a partitioned pangenome graph. PLoS Comput Biol. 2020;16: e1007732.

4. Bazin A, Gautreau G, Médigue C, Vallenet D, Calteau A. panRGP: a pangenome-based method to predict genomic islands and explore their diversity. doi:10.1101/2020.03.26.007484

5.   Bazin A, Medigue C, Vallenet D, Calteau A. panModule: detecting conserved modules in the variable regions of a pangenome graph. bioRxiv 2021.12.06.471380

6. Bernheim A, Sorek R. The pan-immune system of bacteria: antiviral defence as a community resource. Nat Rev Microbiol. 2020;18: 113–119.

7. Tal N, Sorek R. SnapShot: Bacterial immunity. Cell. 2022;185: 578–578.e1.

Stage M2 – Graphes de pangénomes et annotation fonctionnelle