19
Jérôme Gouzy Responsable Bioinformatique du LIPM et du « Workpackage » Bioinformatique du programme investissement d’avenir SUNRISE 1 Le décryptage du génome du tournesol, la pierre angulaire des outils pour la caractérisation de la diversité 1 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Le décryptage du génome du tournesol, la pierre … · • PF GET-Plage Genotoul: Cécile Donnadieu, ... (.xls) – Analyse de sol (.pdf) ... associer un fichier Excel de description

Embed Size (px)

Citation preview

Jérôme Gouzy

Responsable Bioinformatique du LIPM et du « Workpackage » Bioinformatique du

programme investissement d’avenir SUNRISE

1

Le décryptage du génome du tournesol, la pierre angulaire des outils pour la

caractérisation de la diversité

1 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

• Pourquoi décrypter le génome du tournesol?

• Comment a fait-on fait ? Pourquoi le problème était (très) difficile ?

• Le navigateur de génome: le GPS de l’analyse des génomes

2 29/06/2016

Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Pourquoi décrypter le génome du tournesol ?

• Identifier le catalogue de gènes du tournesol va permettre de:

• Caractériser et localiser son « potentiel »

• Quels sont les gènes associés a un caractère d’intérêt

• Quels sont les gènes qui constituent son potentiel de défense contre les attaques d’un pathogène ou d’un stress

• Pour caractériser chaque gène on va :

• Extraire de la littérature les informations acquises sur d’autres espèces

• Regarder quels sont les gènes qui sont activés lors d’une interaction avec un pathogène ou au moment d’un stress (transcriptome)

• Regarder les variations au niveau du gène entre des génotypes présentant des différences sur le caractère d’intérêt ciblé (analyse de la diversité)

3 29/06/2016

Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Comment décrypter le génome du tournesol ?

• Double hélice d’ADN (2 brins): les nucléotides C sont complémentaires des G et les A sont complémentaires des T (alphabet a 4 lettres)

CGCAAGACCTCAAGAT

GCGTTCTGGAGTTCTA

• Les technologies actuelles de « séquençage » permettent seulement de lire des fragments des brins d’ADN

• Ils sont très courts par rapport à la molécule d’ADN

• Ils sont coupés et lus au hasard, sur les deux brins !

CAAG, GCA, AGA, AGAC, CTCA, AAGA,

AGAC, CCT, TCA, AGAT etc.

• La reconstitution de la molécule d’ADN est faite en « assemblant » les fragments grâce à des programmes informatiques

4 29/06/2016

https://adncristal.wordpress.com/2012/12/24/adn-cristal-liquide/

Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Comment décrypter le génome du tournesol ?

GCA

CAAG

AGA

AGAC

ou AGAT ?

5 29/06/2016

L’assemblage informatique des fragments est compliqué du fait que des régions du génome soient des copies de la même suite de lettres (« séquence ») et du fait que la taille des fragments que l’on obtient est inférieure à la taille de la séquence dupliquée.

Séquence inconnue que l’on cherche a reconstituer CGCAAGACCTCAAGAT

Fragments produits par le robot de séquençage CAAG, GCA, AGA, AGAC, CTCA, AAGA, AGAC, CCT, TCA, AGAT Le programme informatique va identifier les zones apparentées entre fragments pour les ordonner les uns par rapport aux autres

Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Le tournesol a un génome très complexe

GCA

CAAG

AGA

AGAC

ou AGAT ?

6 29/06/2016

Séquence inconnue que l’on cherche a reconstituer CGCAAGACCTCAAGAT

Le problème des régions dupliquées

Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Fragments produits par le robot de séquençage CAAG, GCA, AGA, AGAC, CTCA,

AAGA, AGAC, CCT, TCA, AGAT

Le génome est estimé a 3,6 milliards de nucléotides (20% plus gros que le génome humain)

Il contient un très grand nombre de régions dupliquées de 8000 et 12000 nucléotides (dans le génome humain il y en a beaucoup moins et elles sont moins longues)

En 2015 on peut enfin obtenir des fragments de taille supérieure à 15000 nucléotides (vs quelques centaines précédemment)

• PF GET-Plage Genotoul: Cécile Donnadieu, Denis Milan

• Projets Pilotes

• Programme Investissement d’avenir SUNRISE

• Coordinateur: Nicolas Langlade (LIPM) • Séquençage du génotype XRQ de tournesol Génome de Référence

• SOFIPROTEOL HELIOR

• Coordinateur: Stéphane Muños (LIPM) • Séquençage du génotype PSC8 de tournesol

• Séquençage du génome de l’orobanche

Mars 2015 1er PacBio installé en France

7 26/06/2016

Construction du génome de référence

8

Molécules d’ADN du tournesol

• 17 chromosomes

• 3.6G nucléotides (paires de bases)

Construction du génome de référence

• 17 pseudomolecules

• Intégration de 4 cartes génétiques et de la carte « physique » développé par le consortium international

• Novembre-Décembre 2015

Assemblage • 12,318 Contigs

• 2.93 milliards de nucléotides

• Juillet-Novembre 2015

Séquençage

• 407 SMRT Cells

• Avril-Juillet 2015

5600 nucléotides du chr11 645 000 dia pour le génome entier

TGTTTATAATCACAAACAATAGTCTAACGATTCACATGAACATACAACCGATCACTTCATCATAACTCGATTTACTTCGAACAATAACAAGTTAACAATCGGAATCTATCAAACAACACAGTGGATAACATCA

TCTTATAATTCCGATTTCATAATCATGCCATCTATTTCATATGAACCTATATCCGGTTAACAAACATCATTCGGTTTCATATATCAAACAATCCGATTATATTTGCTAAACACATATAAGCCGATTCATCTTG

ACATTAATAGCTATAACACAACATCAAATAACAACAACAAACACTTAACATACTAACCGGATTAGAGAAGGAACAAGGATGATCCGAACAAGGAATGATCTTCGGTTGTAAGGGTGTGTGTGCCGTCGGGTTC

CAAGCAAAACGAGAGAGAGAGAGGAAGTCGTCTAGGGTTTCTAGTGTGTTGTGAGTGTTTAGTAACAAATGAGAAACGACCCTTCCTATTGTGTGGGTTGCACGAATAAGAGAAAGGGCAATGGGCCGGCCCT

TACTTGGGCTGCCCTTGAAGTCCGATTGCAAGTTATACGGCCCAAAGGGCTTGTGCGAGTGATACACGTTGTGTGGTTTGGGTTGTGTTCTTAACATACATACACGTAACACATAAAGTACATAACATAATCA

CATAATTATTCAATTAATAACATTCTCATAGCCACGTATCGTTACACAAAGTAGGTCTAAAGTTCGAGTTGTCACAGTTATCTCCTGAAAGTTTTCAATTTTATTTTGCAGATCACTTGGAGAAACTGAATGA

GAGACGAGCAACAAAAGAGCAGAAAAAGAAGAAATGTGAAAGTGTTGATCAAGAAAGAAATAACATCGCATGAAAAACAAAACTGACCTGGGTTTTGATCGGGGTTTGCGGTTTTGGTTGCAGGGGAGGCGCT

CAGGTATGTCGATTTTGAACAACAAAGGGGTTCAAAAGCCCACCAAGAATGACAGGCATAGATCGCCGCTATCGAATCTTGTCTTCAACGACATGTCTCTGAACCTCAATTAACTTCTACGATGAATGAAGCT

GGTCAAGTTATGGCAGAATGTAAACAGAAAGGTGAAGATACGATCCCAGCTCAACACCTCATCTCCCCTAATTGGGATTCTAAATCACTGATGGAGGTGGAAACGACTCATCTGGGTGCACATATGGATCTGG

CGGTGGCAAGTTCATTTGATGAAGCTGTTTTTTCGATTAAACAACCAAAAGCGCCCACCCAGCAGGTAATTACCCCATCAAAATCTCCCTGTGTGTTGAATGCCTCGTGTTATGCTGTTCCATCTCCAGTGAA

AGTCTTGGATTTTGATATGTGTGCTGAAGATTATGGGGAAGAAAATGTGGAAAATGGGGTTAGGGGTAGTGCCTGATGCTGAACAACAGATTAATCAGGCCAAAAATCTTGAACATTCTGTTCAAGTGAACTG

GGGTACAGGGGTCAGAACTGGGTTTGAATGTGCAATTTTTATTTTTTTATTTTTAAAATGAAATAGGTGAAATTACAATAGTACCATCATGTGCCTTGCACATGACATAAGTTAACAGAAAATTATAATTTGG

TTTGGCCTAAAGAACATAACATGCAAGATTTTGAAAGGTTAAGAACACCGCCTGTAAACTTTTGAAGAAAAGGACAACATCTGTAATTTGCTATAAACATAATAAATGACAAAACTTGTAATTTCTTAAAAAT

AAAATTGTATAAAAAAATGAGCCGTTAGCGCACATTTCCCGAGATAAAACCACGTAAAATATACCGTTAAATTCTCACCTCTCCTTACTCTTTTGTCTCTTCTTCACTCTCACTCACAATCTCTATTATAACC

ATCTTTCTAGGGTTTCAGATCCCCCCAAAACGATCCCCTAGAGCTTTTCGATCCGACCCATGGAACCACTTGCCAATGACAGTGGCGTGAGGGGTGAGGTTGACACGTCAGCACCGTTTGAGTCGGTTAAAGA

GGCCGTGACCCGGTTCGGTGGAGTTGGGTTCTGGAAGCCCCATCAGAAGCAGCAGCAGCAGCATGTTCGTCATTCTGAGGTCCCCTCTTTCTCTCTCTCTCTCTCTTTAAAGAACAATTGTTTTGACTTTATT

TTATCGGTCAAAATTGTCACTTTTTTATATTATGGTCAAAGTTGAGTCAAGATGATTGAAGCTCTAGTTAATGTTTGTTGTCTTATTGTTTTTTGTTATTTTCTGATTGTTATTTTTGTATTAGGGTCGGGTT

TGGTTGGTTTTGATGAAAATCTTGGGCCAAGTTTGGGGGACTAATTGGTTTATATTTTTCTTAAAGGTTTTAGAATAATTAAAGATGGTTTTATAACCTATCTCATACTCGAATGGCCGTCCTGGATGTTTTG

GGCTTCAGCATCCCTAGTTTGAAGTAGAAATATTCCTTTCGAAGAAGATTAGTAGGATTGCAGGACCTGAACAATTTGAATTTTCTTTAACTGATAAGTAACATTTTGACTTTTGATTGCAGAATGGAACTGA

AGAAGAATTTAATGCTGCTAAAGCTGAAGAGCAGGCTGTGCGGTTGGCAAACGAACTCATGATGAAAGAAAGGGAAACGCTACAAGTCTTGAAAGAACTCGAAGCCACAAAAACCACTGTTGAAGAGTTAAAA

CTCAAACTACTGAAAGAATCTGCTACAGTCAACGATCACGTACCAAGAGAGGGAAATGACAACAATACCCTTGACCCCCAATCAGCTGGTGACAACTTGATGTGCCCTTCTTCATCTCCAGGTTTCATCTTGA

TGGAATTGAAGCAGGCGAAACTCAACTTAACAAGAACAACAAGTGATCTTGCTGACATCAGATCGACTGTTGAAACGTATAACAAATTGATCGAGAAAGAAAGATTGGAACTTGAGAAAACCCGTCAACGATT

ATCTTCAAATTGTTCAAAAATTTCGTATTTCGAAAAAGACGTTGACTTTCCGAGGGAGATCCATAGGTTGACTTCTGAAACAGAGGAGTTCAAAAGGGTTGGGGAGGTAGCAAAATCACAAGTTTTAAAAGCA

ATGGATCAAATCAAACAAACAAAAAGAAATATAAAAACAGCCGAAATTCGTCTTCTTGCTGCTAGAAAGTTGAAGGAAGCTGCTAGAGCGAGTGAAGCGCTTGTGCGATCAGAAATAAACTCAATGTCAAAAA

GTCAAACTTTATCCGAACACGAAGGGGTCACTCTTTCGCTTGATGAATACTCATGTTTAAAACAGAAAGCTCGAGAGGCAGATGAGGCTTTAGTTAGAAAAGTCAACGAATCAGTGGTCAAAGTCAACGAATC

CGAGTTGTCAAAATCAGAGATGTTGACTAGGGTAGAGAAAGCAGCAGAAGAAGCGAAGAATAGTAAGACGATTCTAGAAGAAGCTTTGAGTAAAGTAGAAACCGCTAATAAGGAGAAACTAAAAGCTGAAGAA

GCTCTAAGGAAATGGCGATCGGATCATGGTCAAAGAAGAAAGTCAACTGTTCAAAACTTGACCAAGTTCAAGAACTCTTCATGCAGGACCAACAGCACTCGTTTGCTGGACGTAAACGGGGTTCATTTGGGAA

CTAACACGCCTGGCCCGGTTTTGAGGCAAACGATGTCAATCGGGCAGATTTTGAGCCGGAAGTTGCTTTTGACAGAAGAGTATTCCGGCAAAAGCAATACGAAAAGGAAGGTTTCTTTGGCACAAATGTTGGG

TAAACCTAATGACGGCGGTGGTGGTGACGGTGGGAAACGGCGATCAGGAAAGAGAAAGAAGTTCGGGTTCGGTAAGATTTCGTTTCTGGGAGCAAAGCCGAGCAAGAAGAAGAAGAAGAAACATAGCGTAAGT

TCGCGACTTTCATGCACCGCGGATTAGAAAGTTTAACGTGTTATAAGATGTGTCTAGGATGTTATTGTATAATGAAGTTATAACTTAATCGTCTTTGAATGTTATGTCTCAAAAGTAGATGTTGTACATTGTT

TAATGTAGTAGTATAGAGACTTCACTAAGTTAAGTAAAATGCTACTTAATTACTTACTGCTCCTCTAAAACTAAGGGTTTCGTTTTTAATTCAATAGAATAGAATAGAATATATTTAACTAAACGTTCAAGTT

TTGATAAACTTAGCAGTGAAATTATAAAGTTTAAGAGCAAATGTTCATCAAAAACCCAAATCGATTTCATTTCTTGTCAGATGTTGAATTATCACTTGTAAAAGCTCAACTTTCTCTATCAAATGTAGGTTCT

TCGATAATACTTTTTGGCTACTTTATTAATACCCGTCAAATTATTTCACAGATTAATATACAATAAAAAGATCATAAACAGTTTTTATTCAGTATCAAACAGTTTTTTTTGGGTGATACTATACACACCCCCC

TTAATTCCTGATTACACCCCCCCTATAAAAACATCATATCCATCAATCATTGGTTTTTGTTTTTAGTCTTTTTTTGTCTTTTTATTGTCTTTTTTATTTTATTTTAGAGCCTTATTTTATTGTCTTTTTTATA

TTTTTGTTATTATTATTATTATTTACTATTAGTCTTTGAACAAATAAAAATAGAAAAAAAGCTTCAAACTTTATCACAATAGATCTGAGCCCATATGGACACAAAAATATAAAAAAGACAATAATAATGAGCC

GTGCAAATAGTAAATAATAATAATAATAATAACAAAAATATTTTTTTAGTGAACACAAAAAGACACAAAAAGACAAATAAAAAACACAAACTGGTCATACATCCAAATAATTTCCATATTTTTTATTTTATTT

ACTATCTCATGGTGATATAATAATGAACACAAAAAGCTCATATGAGCCGTGCTATTATTGCTGCAAGATATTAAATAGTGATCTATTTATGTTTGAGAAAGCTATACTTGAGAATCCATATTTTTAACACAAA

AAGCTCATATGAGCCGTTCTATTATTCCTCCAAAATATCACCAGTTTCCTCCAAAATTGGGAACTTCAGTGCATTCGCTTCATATACTTGAGAAAGCTATTCAAAGAGCTGCATAAATTTACTTGTTCAAAGA

GTGATCTATTTATGTTTCATCATAGCATTCAGAAAAGTTAAAGAGATGTCTGGATTTTCAACAGATCAGGTATAGTTTTTAATTCCCATGTTTCAAGTTTCAACTTAGTTATATAATCTAGCTAGGTTAAGGG

TCTTGTTTTAGTTTAAATGGGTTTGTTTGGATAATATATATTTTGTAACTACTCAAGTGCCTGGTGAAACAAGTCCGTTCATAAATCAAGATATTTACGGAAAAAAACCATTCAAGGACGATCCTGGTGAACC

AAGTCCGTTCATGACACAAGATACAGACGGACAAGGTTTTTTTACCAACCTTTTAAACACATCGGGATATGATTTCATGGGGTTGAACCAAGATATTGTCGGACAAAGTTCTTTCGCCAACTCTACAAGTGCG

CCAGGCTATGACTTCATGGGGTTGAACCAAGATCAAGCATCACAGGTGATACACAACTATATTCATCTAATTCCAAAAATATTCCATGCGTATGTTACACGCATACATAACGTGTTAGGTGATGGAAATTGTG

9 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Le navigateur de génome: le GPS de l’analyse des génomes

• Coordonnées: chr11 (chr1, chr2, chr3, …, chr17)

• Position début: 1 Position de fin: 5600

10

• On visualise les endroits ou sont les gènes.

• On essaye de prédire la fonction.

• On visualise dans quelles conditions le gène est activé

Etude de la diversité 1) Reséquençage « rapide et « pas cher » » de différents génotypes/variétés (centaines de millions de petits fragments) 2) Comparaison avec le génome de référence 3) Identification des variants/mutations

Référence (XRQ)

TGTTTATAATCACAAACAATAGTCTAACGATTCACATGAACATACAACCGATCACTTCATCATAACTCGATTTAC

TTCGAACAATAACAAGTTAACAATCGGAATCTATCAAACAACACAGTGGATAACATCATCTTATAATTCCGATTT

CATAATCATGCCATCTATTTCATATGAACCTATATCCGGTTAACAAACATCATTCGGTTTCATATATCAAACAAT

CCGATTATATTTGCTAAACACATATAAGCCGATTCATCTTGACATTAATAGCTATAACACAACATCAAATAACAA

CAACAAACACTTAACATACTAACCGGATTAGAGAAGGAACAAGGATGATCCGAACAAGGAATGATCTTCGGTTGT

Genotype XXX

TGCTTATATTCACAAACAATAGTCTAACGATTCACATGAACATACAACCGATCACTTCATCATAACTCGATTTAC

TTCGAACAATAACAAGTTAACAATCGGAATCTATCAAACAACACAGTGGATAACATCATCTTATAATTCCGATTT

CATAATCATGCCATCTATTTCATATGAACCTATATCCGGTTAACAAACATCATTCGGTTTCATATATCAAACAAT

CCGATTATATTTGCTAAACACATATAAGCCGATTCATCTTGACAATAATAGCTATAACACAACATCAAATAACAA

CAACAAACACTTAACATACTAACCGGATTAGAGAAGGAACAAGGATGATCCGAACAAGGAATCATCTTCGGTTGT

11 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

<raisonnement_simpliste_je_sais> On sait que si cela se passe dans un gène, la variation d’un seul nucléotide peut engendrer une

protéine ayant des propriétés plus (ou moins) intéressante au niveau de la plante entière. On peut chercher à identifier les variations qui font que le génotype XXX est plus intéressant que

XRQ pour un caractère donné On peut essayer de planifier un plan de croisement pour intégrer la région d’intérêt du génotype

XXX dans une variété cultivée </raisonnement_simpliste_je_sais>

12 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Gene qui semble très activé lorsque la plante est soumise a un stress hydrique

Est-ce qu’il y a une différence au champ entre la tolérance au stress des plantes portant le variant « rouge » et celle portant la version « bleu » (idem XRQ) du gène ?

Les partenaires peuvent accéder au lien avec les sondes des puces de génotypages 600k et 50k développées par SUNRISE

13 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

On peut interroger le navigateur à partir de mot clés pour pointer sur les régions potentiellement intéressantes (sur la base d’un transfert de connaissances)

14 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

On peut visualiser des « thèmes » associés à des régions (fenêtres de 2M de nucléotides)

15

16 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

SUNRISE Archive: un environnement pour structurer et préserver les données et les métadonnées sur un temps long

17 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

12 Tb (compressés)

1439 éch.

SUNRISE Archive: Phenotypage au champ

• Liste des fichiers pour une manip de phénotypage – Météo (.xls) – Analyse de sol (.pdf) – Plan de culture (.pdf) – Protocole (.pdf) – Fichier ITK (.pdf) – Graines , Génotypes (.xls) – Traitement phytosanitaire (.xls) – Fichier de conformité (.xls) – Les mesures (.xls)

18

- quelle mesure a été effectuée précisément ? - quelle unité de mesure ? - dans quelles conditions ?

associer un fichier Excel de description des mesures i.e des colonnes pour permettre un contrôle de cohérence garder une version texte de tous les documents pour être toujours capable de les lire

Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives

Merci pour votre attention

19

Financeurs Partenaires

www.sunrise-project.fr