Upload
dangtruc
View
213
Download
0
Embed Size (px)
Citation preview
Jérôme Gouzy
Responsable Bioinformatique du LIPM et du « Workpackage » Bioinformatique du
programme investissement d’avenir SUNRISE
1
Le décryptage du génome du tournesol, la pierre angulaire des outils pour la
caractérisation de la diversité
1 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
• Pourquoi décrypter le génome du tournesol?
• Comment a fait-on fait ? Pourquoi le problème était (très) difficile ?
• Le navigateur de génome: le GPS de l’analyse des génomes
2 29/06/2016
Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Pourquoi décrypter le génome du tournesol ?
• Identifier le catalogue de gènes du tournesol va permettre de:
• Caractériser et localiser son « potentiel »
• Quels sont les gènes associés a un caractère d’intérêt
• Quels sont les gènes qui constituent son potentiel de défense contre les attaques d’un pathogène ou d’un stress
• Pour caractériser chaque gène on va :
• Extraire de la littérature les informations acquises sur d’autres espèces
• Regarder quels sont les gènes qui sont activés lors d’une interaction avec un pathogène ou au moment d’un stress (transcriptome)
• Regarder les variations au niveau du gène entre des génotypes présentant des différences sur le caractère d’intérêt ciblé (analyse de la diversité)
•
3 29/06/2016
Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Comment décrypter le génome du tournesol ?
• Double hélice d’ADN (2 brins): les nucléotides C sont complémentaires des G et les A sont complémentaires des T (alphabet a 4 lettres)
CGCAAGACCTCAAGAT
GCGTTCTGGAGTTCTA
• Les technologies actuelles de « séquençage » permettent seulement de lire des fragments des brins d’ADN
• Ils sont très courts par rapport à la molécule d’ADN
• Ils sont coupés et lus au hasard, sur les deux brins !
CAAG, GCA, AGA, AGAC, CTCA, AAGA,
AGAC, CCT, TCA, AGAT etc.
• La reconstitution de la molécule d’ADN est faite en « assemblant » les fragments grâce à des programmes informatiques
4 29/06/2016
https://adncristal.wordpress.com/2012/12/24/adn-cristal-liquide/
Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Comment décrypter le génome du tournesol ?
GCA
CAAG
AGA
AGAC
ou AGAT ?
5 29/06/2016
L’assemblage informatique des fragments est compliqué du fait que des régions du génome soient des copies de la même suite de lettres (« séquence ») et du fait que la taille des fragments que l’on obtient est inférieure à la taille de la séquence dupliquée.
Séquence inconnue que l’on cherche a reconstituer CGCAAGACCTCAAGAT
Fragments produits par le robot de séquençage CAAG, GCA, AGA, AGAC, CTCA, AAGA, AGAC, CCT, TCA, AGAT Le programme informatique va identifier les zones apparentées entre fragments pour les ordonner les uns par rapport aux autres
Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Le tournesol a un génome très complexe
GCA
CAAG
AGA
AGAC
ou AGAT ?
6 29/06/2016
Séquence inconnue que l’on cherche a reconstituer CGCAAGACCTCAAGAT
Le problème des régions dupliquées
Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Fragments produits par le robot de séquençage CAAG, GCA, AGA, AGAC, CTCA,
AAGA, AGAC, CCT, TCA, AGAT
Le génome est estimé a 3,6 milliards de nucléotides (20% plus gros que le génome humain)
Il contient un très grand nombre de régions dupliquées de 8000 et 12000 nucléotides (dans le génome humain il y en a beaucoup moins et elles sont moins longues)
En 2015 on peut enfin obtenir des fragments de taille supérieure à 15000 nucléotides (vs quelques centaines précédemment)
• PF GET-Plage Genotoul: Cécile Donnadieu, Denis Milan
• Projets Pilotes
• Programme Investissement d’avenir SUNRISE
• Coordinateur: Nicolas Langlade (LIPM) • Séquençage du génotype XRQ de tournesol Génome de Référence
• SOFIPROTEOL HELIOR
• Coordinateur: Stéphane Muños (LIPM) • Séquençage du génotype PSC8 de tournesol
• Séquençage du génome de l’orobanche
Mars 2015 1er PacBio installé en France
7 26/06/2016
Construction du génome de référence
8
Molécules d’ADN du tournesol
• 17 chromosomes
• 3.6G nucléotides (paires de bases)
Construction du génome de référence
• 17 pseudomolecules
• Intégration de 4 cartes génétiques et de la carte « physique » développé par le consortium international
• Novembre-Décembre 2015
Assemblage • 12,318 Contigs
• 2.93 milliards de nucléotides
• Juillet-Novembre 2015
Séquençage
• 407 SMRT Cells
• Avril-Juillet 2015
5600 nucléotides du chr11 645 000 dia pour le génome entier
TGTTTATAATCACAAACAATAGTCTAACGATTCACATGAACATACAACCGATCACTTCATCATAACTCGATTTACTTCGAACAATAACAAGTTAACAATCGGAATCTATCAAACAACACAGTGGATAACATCA
TCTTATAATTCCGATTTCATAATCATGCCATCTATTTCATATGAACCTATATCCGGTTAACAAACATCATTCGGTTTCATATATCAAACAATCCGATTATATTTGCTAAACACATATAAGCCGATTCATCTTG
ACATTAATAGCTATAACACAACATCAAATAACAACAACAAACACTTAACATACTAACCGGATTAGAGAAGGAACAAGGATGATCCGAACAAGGAATGATCTTCGGTTGTAAGGGTGTGTGTGCCGTCGGGTTC
CAAGCAAAACGAGAGAGAGAGAGGAAGTCGTCTAGGGTTTCTAGTGTGTTGTGAGTGTTTAGTAACAAATGAGAAACGACCCTTCCTATTGTGTGGGTTGCACGAATAAGAGAAAGGGCAATGGGCCGGCCCT
TACTTGGGCTGCCCTTGAAGTCCGATTGCAAGTTATACGGCCCAAAGGGCTTGTGCGAGTGATACACGTTGTGTGGTTTGGGTTGTGTTCTTAACATACATACACGTAACACATAAAGTACATAACATAATCA
CATAATTATTCAATTAATAACATTCTCATAGCCACGTATCGTTACACAAAGTAGGTCTAAAGTTCGAGTTGTCACAGTTATCTCCTGAAAGTTTTCAATTTTATTTTGCAGATCACTTGGAGAAACTGAATGA
GAGACGAGCAACAAAAGAGCAGAAAAAGAAGAAATGTGAAAGTGTTGATCAAGAAAGAAATAACATCGCATGAAAAACAAAACTGACCTGGGTTTTGATCGGGGTTTGCGGTTTTGGTTGCAGGGGAGGCGCT
CAGGTATGTCGATTTTGAACAACAAAGGGGTTCAAAAGCCCACCAAGAATGACAGGCATAGATCGCCGCTATCGAATCTTGTCTTCAACGACATGTCTCTGAACCTCAATTAACTTCTACGATGAATGAAGCT
GGTCAAGTTATGGCAGAATGTAAACAGAAAGGTGAAGATACGATCCCAGCTCAACACCTCATCTCCCCTAATTGGGATTCTAAATCACTGATGGAGGTGGAAACGACTCATCTGGGTGCACATATGGATCTGG
CGGTGGCAAGTTCATTTGATGAAGCTGTTTTTTCGATTAAACAACCAAAAGCGCCCACCCAGCAGGTAATTACCCCATCAAAATCTCCCTGTGTGTTGAATGCCTCGTGTTATGCTGTTCCATCTCCAGTGAA
AGTCTTGGATTTTGATATGTGTGCTGAAGATTATGGGGAAGAAAATGTGGAAAATGGGGTTAGGGGTAGTGCCTGATGCTGAACAACAGATTAATCAGGCCAAAAATCTTGAACATTCTGTTCAAGTGAACTG
GGGTACAGGGGTCAGAACTGGGTTTGAATGTGCAATTTTTATTTTTTTATTTTTAAAATGAAATAGGTGAAATTACAATAGTACCATCATGTGCCTTGCACATGACATAAGTTAACAGAAAATTATAATTTGG
TTTGGCCTAAAGAACATAACATGCAAGATTTTGAAAGGTTAAGAACACCGCCTGTAAACTTTTGAAGAAAAGGACAACATCTGTAATTTGCTATAAACATAATAAATGACAAAACTTGTAATTTCTTAAAAAT
AAAATTGTATAAAAAAATGAGCCGTTAGCGCACATTTCCCGAGATAAAACCACGTAAAATATACCGTTAAATTCTCACCTCTCCTTACTCTTTTGTCTCTTCTTCACTCTCACTCACAATCTCTATTATAACC
ATCTTTCTAGGGTTTCAGATCCCCCCAAAACGATCCCCTAGAGCTTTTCGATCCGACCCATGGAACCACTTGCCAATGACAGTGGCGTGAGGGGTGAGGTTGACACGTCAGCACCGTTTGAGTCGGTTAAAGA
GGCCGTGACCCGGTTCGGTGGAGTTGGGTTCTGGAAGCCCCATCAGAAGCAGCAGCAGCAGCATGTTCGTCATTCTGAGGTCCCCTCTTTCTCTCTCTCTCTCTCTTTAAAGAACAATTGTTTTGACTTTATT
TTATCGGTCAAAATTGTCACTTTTTTATATTATGGTCAAAGTTGAGTCAAGATGATTGAAGCTCTAGTTAATGTTTGTTGTCTTATTGTTTTTTGTTATTTTCTGATTGTTATTTTTGTATTAGGGTCGGGTT
TGGTTGGTTTTGATGAAAATCTTGGGCCAAGTTTGGGGGACTAATTGGTTTATATTTTTCTTAAAGGTTTTAGAATAATTAAAGATGGTTTTATAACCTATCTCATACTCGAATGGCCGTCCTGGATGTTTTG
GGCTTCAGCATCCCTAGTTTGAAGTAGAAATATTCCTTTCGAAGAAGATTAGTAGGATTGCAGGACCTGAACAATTTGAATTTTCTTTAACTGATAAGTAACATTTTGACTTTTGATTGCAGAATGGAACTGA
AGAAGAATTTAATGCTGCTAAAGCTGAAGAGCAGGCTGTGCGGTTGGCAAACGAACTCATGATGAAAGAAAGGGAAACGCTACAAGTCTTGAAAGAACTCGAAGCCACAAAAACCACTGTTGAAGAGTTAAAA
CTCAAACTACTGAAAGAATCTGCTACAGTCAACGATCACGTACCAAGAGAGGGAAATGACAACAATACCCTTGACCCCCAATCAGCTGGTGACAACTTGATGTGCCCTTCTTCATCTCCAGGTTTCATCTTGA
TGGAATTGAAGCAGGCGAAACTCAACTTAACAAGAACAACAAGTGATCTTGCTGACATCAGATCGACTGTTGAAACGTATAACAAATTGATCGAGAAAGAAAGATTGGAACTTGAGAAAACCCGTCAACGATT
ATCTTCAAATTGTTCAAAAATTTCGTATTTCGAAAAAGACGTTGACTTTCCGAGGGAGATCCATAGGTTGACTTCTGAAACAGAGGAGTTCAAAAGGGTTGGGGAGGTAGCAAAATCACAAGTTTTAAAAGCA
ATGGATCAAATCAAACAAACAAAAAGAAATATAAAAACAGCCGAAATTCGTCTTCTTGCTGCTAGAAAGTTGAAGGAAGCTGCTAGAGCGAGTGAAGCGCTTGTGCGATCAGAAATAAACTCAATGTCAAAAA
GTCAAACTTTATCCGAACACGAAGGGGTCACTCTTTCGCTTGATGAATACTCATGTTTAAAACAGAAAGCTCGAGAGGCAGATGAGGCTTTAGTTAGAAAAGTCAACGAATCAGTGGTCAAAGTCAACGAATC
CGAGTTGTCAAAATCAGAGATGTTGACTAGGGTAGAGAAAGCAGCAGAAGAAGCGAAGAATAGTAAGACGATTCTAGAAGAAGCTTTGAGTAAAGTAGAAACCGCTAATAAGGAGAAACTAAAAGCTGAAGAA
GCTCTAAGGAAATGGCGATCGGATCATGGTCAAAGAAGAAAGTCAACTGTTCAAAACTTGACCAAGTTCAAGAACTCTTCATGCAGGACCAACAGCACTCGTTTGCTGGACGTAAACGGGGTTCATTTGGGAA
CTAACACGCCTGGCCCGGTTTTGAGGCAAACGATGTCAATCGGGCAGATTTTGAGCCGGAAGTTGCTTTTGACAGAAGAGTATTCCGGCAAAAGCAATACGAAAAGGAAGGTTTCTTTGGCACAAATGTTGGG
TAAACCTAATGACGGCGGTGGTGGTGACGGTGGGAAACGGCGATCAGGAAAGAGAAAGAAGTTCGGGTTCGGTAAGATTTCGTTTCTGGGAGCAAAGCCGAGCAAGAAGAAGAAGAAGAAACATAGCGTAAGT
TCGCGACTTTCATGCACCGCGGATTAGAAAGTTTAACGTGTTATAAGATGTGTCTAGGATGTTATTGTATAATGAAGTTATAACTTAATCGTCTTTGAATGTTATGTCTCAAAAGTAGATGTTGTACATTGTT
TAATGTAGTAGTATAGAGACTTCACTAAGTTAAGTAAAATGCTACTTAATTACTTACTGCTCCTCTAAAACTAAGGGTTTCGTTTTTAATTCAATAGAATAGAATAGAATATATTTAACTAAACGTTCAAGTT
TTGATAAACTTAGCAGTGAAATTATAAAGTTTAAGAGCAAATGTTCATCAAAAACCCAAATCGATTTCATTTCTTGTCAGATGTTGAATTATCACTTGTAAAAGCTCAACTTTCTCTATCAAATGTAGGTTCT
TCGATAATACTTTTTGGCTACTTTATTAATACCCGTCAAATTATTTCACAGATTAATATACAATAAAAAGATCATAAACAGTTTTTATTCAGTATCAAACAGTTTTTTTTGGGTGATACTATACACACCCCCC
TTAATTCCTGATTACACCCCCCCTATAAAAACATCATATCCATCAATCATTGGTTTTTGTTTTTAGTCTTTTTTTGTCTTTTTATTGTCTTTTTTATTTTATTTTAGAGCCTTATTTTATTGTCTTTTTTATA
TTTTTGTTATTATTATTATTATTTACTATTAGTCTTTGAACAAATAAAAATAGAAAAAAAGCTTCAAACTTTATCACAATAGATCTGAGCCCATATGGACACAAAAATATAAAAAAGACAATAATAATGAGCC
GTGCAAATAGTAAATAATAATAATAATAATAACAAAAATATTTTTTTAGTGAACACAAAAAGACACAAAAAGACAAATAAAAAACACAAACTGGTCATACATCCAAATAATTTCCATATTTTTTATTTTATTT
ACTATCTCATGGTGATATAATAATGAACACAAAAAGCTCATATGAGCCGTGCTATTATTGCTGCAAGATATTAAATAGTGATCTATTTATGTTTGAGAAAGCTATACTTGAGAATCCATATTTTTAACACAAA
AAGCTCATATGAGCCGTTCTATTATTCCTCCAAAATATCACCAGTTTCCTCCAAAATTGGGAACTTCAGTGCATTCGCTTCATATACTTGAGAAAGCTATTCAAAGAGCTGCATAAATTTACTTGTTCAAAGA
GTGATCTATTTATGTTTCATCATAGCATTCAGAAAAGTTAAAGAGATGTCTGGATTTTCAACAGATCAGGTATAGTTTTTAATTCCCATGTTTCAAGTTTCAACTTAGTTATATAATCTAGCTAGGTTAAGGG
TCTTGTTTTAGTTTAAATGGGTTTGTTTGGATAATATATATTTTGTAACTACTCAAGTGCCTGGTGAAACAAGTCCGTTCATAAATCAAGATATTTACGGAAAAAAACCATTCAAGGACGATCCTGGTGAACC
AAGTCCGTTCATGACACAAGATACAGACGGACAAGGTTTTTTTACCAACCTTTTAAACACATCGGGATATGATTTCATGGGGTTGAACCAAGATATTGTCGGACAAAGTTCTTTCGCCAACTCTACAAGTGCG
CCAGGCTATGACTTCATGGGGTTGAACCAAGATCAAGCATCACAGGTGATACACAACTATATTCATCTAATTCCAAAAATATTCCATGCGTATGTTACACGCATACATAACGTGTTAGGTGATGGAAATTGTG
9 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Le navigateur de génome: le GPS de l’analyse des génomes
• Coordonnées: chr11 (chr1, chr2, chr3, …, chr17)
• Position début: 1 Position de fin: 5600
10
• On visualise les endroits ou sont les gènes.
• On essaye de prédire la fonction.
• On visualise dans quelles conditions le gène est activé
Etude de la diversité 1) Reséquençage « rapide et « pas cher » » de différents génotypes/variétés (centaines de millions de petits fragments) 2) Comparaison avec le génome de référence 3) Identification des variants/mutations
Référence (XRQ)
TGTTTATAATCACAAACAATAGTCTAACGATTCACATGAACATACAACCGATCACTTCATCATAACTCGATTTAC
TTCGAACAATAACAAGTTAACAATCGGAATCTATCAAACAACACAGTGGATAACATCATCTTATAATTCCGATTT
CATAATCATGCCATCTATTTCATATGAACCTATATCCGGTTAACAAACATCATTCGGTTTCATATATCAAACAAT
CCGATTATATTTGCTAAACACATATAAGCCGATTCATCTTGACATTAATAGCTATAACACAACATCAAATAACAA
CAACAAACACTTAACATACTAACCGGATTAGAGAAGGAACAAGGATGATCCGAACAAGGAATGATCTTCGGTTGT
Genotype XXX
TGCTTATATTCACAAACAATAGTCTAACGATTCACATGAACATACAACCGATCACTTCATCATAACTCGATTTAC
TTCGAACAATAACAAGTTAACAATCGGAATCTATCAAACAACACAGTGGATAACATCATCTTATAATTCCGATTT
CATAATCATGCCATCTATTTCATATGAACCTATATCCGGTTAACAAACATCATTCGGTTTCATATATCAAACAAT
CCGATTATATTTGCTAAACACATATAAGCCGATTCATCTTGACAATAATAGCTATAACACAACATCAAATAACAA
CAACAAACACTTAACATACTAACCGGATTAGAGAAGGAACAAGGATGATCCGAACAAGGAATCATCTTCGGTTGT
11 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
<raisonnement_simpliste_je_sais> On sait que si cela se passe dans un gène, la variation d’un seul nucléotide peut engendrer une
protéine ayant des propriétés plus (ou moins) intéressante au niveau de la plante entière. On peut chercher à identifier les variations qui font que le génotype XXX est plus intéressant que
XRQ pour un caractère donné On peut essayer de planifier un plan de croisement pour intégrer la région d’intérêt du génotype
XXX dans une variété cultivée </raisonnement_simpliste_je_sais>
12 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
Gene qui semble très activé lorsque la plante est soumise a un stress hydrique
Est-ce qu’il y a une différence au champ entre la tolérance au stress des plantes portant le variant « rouge » et celle portant la version « bleu » (idem XRQ) du gène ?
Les partenaires peuvent accéder au lien avec les sondes des puces de génotypages 600k et 50k développées par SUNRISE
13 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
On peut interroger le navigateur à partir de mot clés pour pointer sur les régions potentiellement intéressantes (sur la base d’un transfert de connaissances)
14 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
16 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
SUNRISE Archive: un environnement pour structurer et préserver les données et les métadonnées sur un temps long
17 Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives
12 Tb (compressés)
1439 éch.
SUNRISE Archive: Phenotypage au champ
• Liste des fichiers pour une manip de phénotypage – Météo (.xls) – Analyse de sol (.pdf) – Plan de culture (.pdf) – Protocole (.pdf) – Fichier ITK (.pdf) – Graines , Génotypes (.xls) – Traitement phytosanitaire (.xls) – Fichier de conformité (.xls) – Les mesures (.xls)
18
- quelle mesure a été effectuée précisément ? - quelle unité de mesure ? - dans quelles conditions ?
associer un fichier Excel de description des mesures i.e des colonnes pour permettre un contrôle de cohérence garder une version texte de tous les documents pour être toujours capable de les lire
Journées d’échanges Tournesol – Toulouse 28 & 29 juin 2016 10 années de recherches collaboratives