46
ALLIER BIOLOGIE ET INFORMATIQUE Décoder les génomes Hugues Roest Crollius Ecole Normale Supérieure

Décoder les génomes

  • Upload
    shadow

  • View
    33

  • Download
    2

Embed Size (px)

DESCRIPTION

Décoder les génomes. ALLIER Biologie eT Informatique. Hugues Roest Crollius Ecole Normale Supérieure. La Génomique. Le Génome - est le support de l’information génétique - est grand. La Génomique nécessite la production de données à grande échelle - grands projets collaboratifs - PowerPoint PPT Presentation

Citation preview

Page 1: Décoder les génomes

ALLIER BIOLOGIE ET INFORMATIQUE

Décoder les génomes

Hugues Roest CrolliusEcole Normale Supérieure

Page 2: Décoder les génomes

La Génomique

Le Génome - est le support de l’information génétique- est grand

La Génomique nécessite la production de données à grande échelle

- grands projets collaboratifs- automatisation

Les problèmes: - le stockage- intégrer et centraliser les données- interroger et analyser les données

Page 3: Décoder les génomes

La production des données de génomiqueLes données: de quoi s’agit-il?

Cellule

Génome

Chromosome

Chromosome

ADN

ADN

Squelette phosphate

Paire de bases

Adénine Thymine

Guanine Cytosine

TGCACTC

ACGTGAG

Séquence d’ADN

Page 4: Décoder les génomes

La production des données de génomiqueDe l’expérience manuelle aux systèmes automatisés

Applied Biosystems 3730Broad Institute (USA)

1990 2008

Page 5: Décoder les génomes

La production des données de génomiqueUne croissance exponentielle

1995

1998

1996

1997

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

Levure

Nématode

Drosophile

Homo

Souris

Chimpanzé

Poule

Chien

Arabette

Tetraodon

Fugu

Rat

H. influenzae

OpossumC. Venter Macaque

100 200Gb

Progression du volume de données de séquences stockées dans les bases de données publiques

Ornithorynque J. Watson (09 JUIN 2008)

Sources : EMBL statistics

Page 6: Décoder les génomes

16 463 812 séquences distribuées selon 8135 positions géographiques

Sources : EMBL statistics

La production des données de génomiqueUne grande diversité

Page 7: Décoder les génomes

Source:EMBL statistics

Distribution des données de séquences

par groupes taxonomiques:Les vertébrés

représentent 70% du totalHumain

Invertébrés

Autres mammifères

Souris

Plantes

Autres vertébrés

Autres rongeurs

Bactéries

Champignons

La production des données de génomiqueUne grande diversité

Page 8: Décoder les génomes

La production des données de génomique

L’informatique est impliquée tout au long du processus de production:

- contrôle des machines à séquencer automatiques- Interprétation des signaux fluorescents produits par les machines- contrôles qualité- transfert de l’information de séquence- assemblage des génomes- stockage dans des bases de données- distribution à la communauté des chercheurs

Quelles sont les bases de donnée?

Page 9: Décoder les génomes

Les bases de données en génomique

GenbankNational Center for Biotechnology

Information (NCBI)

DDBJDNA Databank of Japan

EMBL-bankEuropean BioInformatics Institute (EBI)

Echange quotidien de

données

Génériques:

Spécialisées:

Animaux vertébrés Genome Animaux

Plantes (céréales, vigne,…) Bactéries

Et bien d’autres…

Page 10: Décoder les génomes

L’information de séquence

Est:- informatisée- standardisée- centralisée

- de très haute qualité

Une situation idéale pour l’analyse par des outils informatiques.

Mais quelle information est « codée » dans le génome, et comment l’identifier?

Page 11: Décoder les génomes

Le contenu en information d’un génome

La raison principale qui motive le séquençage d’un génome est d’accéder à son contenu en gènes

Mais un génome contient également des instructions pour:

- spécifier où et quand utiliser (exprimer) un gène- compacter l’ADN de chaque cellule (~2 mètres) dans le noyau- maintenir l’intégrité de la molécule d’ADN

- …

Qu’est ce qu’un gène ?

Page 12: Décoder les génomes

Le dogme central de la biologie moléculaire(le point de vue du biologiste)

ADN ARN Protéine

Sayo-Art Science Illustration pour la NSF

Page 13: Décoder les génomes

Qu’est ce qu’un gène?

KératineKRT31

Apolipoprotein E precursor

APOE

DoublecortineDCX

ADN

L’ADN des gènes portant les instructions nécessaires à la synthèse des protéines ne représente que 1,5 % des bases du génome humain

Le nombre total de gènes dans le génome humain a longtemps été une inconnue, et n’est pas encore déterminé avec précision. Il est estimé aujourd’hui à environ 23000 gènes.

Page 14: Décoder les génomes

Identifier la position d’un gène dans le génome

(le point de vue du bioinformaticien)

Les génomes sont trop grands pour espérer identifier les gènes un par un, par des approches ciblées et spécifiques à chacun d’eux.

Il faut des approches systématiques, automatiques

Une stratégie possible consiste à découvrir les « clés » qu’utilise la cellule pour lire les instructions, par des moyens informatiques

Annoter les gènes des génomes de manière automatique a été un objectif majeur de la bioinformatique pendant les 12 dernières années.

Page 15: Décoder les génomes

Identifier la position d’un gène dans le génome

(le point de vue du bioinformaticien)GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA

Page 16: Décoder les génomes

Qu’est ce qu’un gène?

exon intron

CTTGCAGATGTCGATGCTGGCAGTCA-----ATGAGGTTACATGGCCACAGGTA---GAGTGGCTGCAGATGACTGA

Récepteur olfactifOR6N1

KératineKRT31

Apolipoprotein E precursor

APOE

DoublecortineDCX

Page 17: Décoder les génomes

Identifier la position d’un gène…

Page 18: Décoder les génomes

Identifier la position d’un gène de manière automatique

Les signaux de début (ATG), de fin (TAA,TAG, TGA) et de bornes d’intron (GT et AG) ne sont pas suffisamment discriminant (ou spécifiques): seul certains parmi tous les signaux disponibles sont réellement utilisés pour marquer les limites des gènes.

Il faut donc rajouter de l’information.

Page 19: Décoder les génomes

Le dogme central de la biologie moléculaire

ADN ARN Protéine

Sayo-Art Science Illustration pour la NSF

Page 20: Décoder les génomes

Le séquençage des ARN messagersUne source d’information pour annoter les gènes dans le génome

CelluleNoyau

ADN

ARN

Protéine

Séquençage

ATGCCCTTCCCCAGCATCAGGTCTCCAGAGCCTTGCGGTGGCCTATAAAGCCTCCTAG

Séquence du génome

GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT

Annotation bioinformatiq

ue

GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT

Page 21: Décoder les génomes

Analyser la séquence d’un génomeIdentifier une séquence particulière

Le génome humain est composé de 3 milliards de bases A,T,C et G.

Comment connaître la positions exacte d’une séquence d’ARN de 100 bases, parmi les différents chromosomes humain, c’est-à-dire parmi les 3 milliards de bases?

Cela a revient à rechercher son nom et prénom dans la liste du nom et prénom de tous les français et tous les allemands listés dans le désordre, sans espaces.

Un algorithme a été développé dans ce but: BLAST

Développé en 1990 par des informaticiens aux USA, leur article a été cité plus de 23.000 fois depuis (4 citations par jour en moyenne), or en moyenne un article n’est cité que 24 fois. Il s’agit du logiciel le plus utilisé dans les Sciences du Vivant dans le monde.

Comment fonctionne BLAST ?

Page 22: Décoder les génomes

BLAST(Basic Local Alignment Search Tool)

ATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACG

GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA

Page 23: Décoder les génomes

A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C

T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C

Match exact

Séquence « requête »

Séquence « cible »

“mot” de taille W = 11 bases

BLAST(Basic Local Alignment Search Tool)

Page 24: Décoder les génomes

A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C

T T A C G C G A T G T A G A C A G C G T A G C A A TG T T G

Séquence requête

Séquence cibleG T A T G

Matrice de score

A T G C NA 5 -4 -4 -4 -2T -4 5 -4 -4 -2G -4 -4 5 -4 -2C -4 -4 -4 5 -2N -2 -2 -2 -2 -1paramètre X= seuil à ne pas dépasser = -21

BLAST(Basic Local Alignment Search Tool)

C A G C G T A G C A A ××

+5+5-4-4

Somme = -8

Page 25: Décoder les génomes

BLAST(Basic Local Alignment Search Tool)

Etape 1: ancrage par un mot de taille définie (paramètre W)

Etape 2: extensions de chaque côté (paramètre X)

Si l’on recherche une identification 100% exacte, alors X=0

Sur un ordinateur familial, la dernière version de BLAST trouve la position correcte d’une séquence de 100 bases dans le génome humain en moins de 2 minutes.

Page 26: Décoder les génomes

Identifier les gènes dans un génome

Nécessite d’associer l’identification de signaux (début, fin, bornes des introns) avec des informations obtenues à partir de l’expression des gènes (ARN). Est-ce ce suffisant?

Annotation automatique des

gènes

Identifier les signaux

(début, fin, bornes des

introns

Informations dérivées de l’expression des gènes

(ARNs)

Génomique comparative

Page 27: Décoder les génomes

1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09

J.C. VenterBactérie Levure Ver MoucheHumain Souris Poule Chimpanzé

Au delà du génome humain, ceux de bien d’autres espèces ont été séquencés, pour les mêmes raisons: accéder à leurs gènes. Ces ressources permettent d’appliquer une stratégie de génomique comparative,très puissante pour aider à l’annotation des gènes.

La génomique comparative

Page 28: Décoder les génomes

Poisson zèbre

Medaka

Epinoche

Fugu

Tetraodon

Crapaud

Poule

Ornithorynque

Opossum

Eléphant

Tenrec

Tatou

Hérisson

Vache

Chien

Macaque

Humain

Chimpanzé

Carnivora

Boreoeutheria

Xenarthra

Metatheria

Prototheria

Theria

Mammalia

Amniota

Osteichthyes

0100 50200 150300 250400 350450

LapinRat

SourisMurinae

Lagomorpha

Catarrhini

Insectivora

Millions d’années

Eutheria

Actinopterigii Teleostei

RequinChondrichthyes

Sarcopterigii

Tetrapoda

Percomorpha

Otocephala

Poissons

Mammifères

AmphibiensOiseaux

Euarchontoglire

Humain

Souris

La génomique comparativeEvolution des vertébrés

Page 29: Décoder les génomes

La génomique comparativeUne ressource pour l’annotation des gènes

Exemple: Le gène de la kératine, protéine entrant dans la composition des poils, des ongles et des cheveux chez les mammifères.

L’homme et la souris ont hérité leur gène de kératine de leur dernier ancêtre commun. La fonction de la protéine est toujours la même, il est donc raisonnable de supposer que le gène de la kératine contient toujours des instructions (une séquence) très similaire entre l’homme et la souris.

Comparer la séquence du génome de l’homme et de la souris permettrait d’identifier les deux gènes en une seule opération.

cacagacctggaa-caaactaaagccagacacatactATGGACACCAAGG……ctcagactcagagacaacgtgaagctgaacacacaccATGGATACCAAGG……

……GAGGAGCTCCAGCAGAAGgtaagattcctaagaac……ttctagATCTTGTG…………GAGGAGCTGCAGCAGAAGgtaaga-gctcagcaag……ttctagATCTTGTG……

Page 30: Décoder les génomes

La génomique comparativeUne ressource pour l’annotation des gènes

Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent les mêmes grandes fonctions de la vie

- reproduction- développement- système nerveux central- système digestif- système musculaire- ….

On estime que les gènes présents dans le génome de la souris ou du chien peuvent être informatifs pour identifier les gènes humains (ou vice-versa) simplement par alignement de séquence.

Généralisation: Toutes les informations importantes contenues dans le génome (codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces différentes et donc d’être découvertes par alignement de séquences.

Page 31: Décoder les génomes

Identifier les gènes dans un génome

Annotation automatique des

gènes

Identifier les signaux

(début, fin, bornes des

introns

Informations dérivées de l’expression des gènes

(ARNs)

Analyse du texte- alphabet- grammaire

- informatique- algorithmique- statistique

Génomique expérimentale- échantillons biologiques - molécules

- biologie moléculaire- bioinformatiqueGénomique

comparative

Séquençage haut débit - procédé industriel - évolution- bioinformatique

Page 32: Décoder les génomes

Historique des estimations du nombre de gènes dans le génome

92 93 94 95 96 97 98 99 00 01 02 03 04 05 06

20 000

40 000

160 000

140 000

120 000

100 000

80 000

60 000

Estimations publiées

Estimations non publiées

Publication génome humain

07

Page 33: Décoder les génomes

Identifier les régions fonctionnelles dans les génomesAu delà des gènes codant les protéines, que reste-t-il à découvrir?

Aujourd’hui (juin 2008) , 22740 gènes ont été annotés dans le génome humain.

1°) Une énigme: Certaines régions du génomes ne sont pas des gènes, mais sont 100% identiques entre l’homme et la souris sur de longue distances : régions « ultra conservées ». Quelles sont leurs fonctions?

TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC

TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC

TTGCCATTCATTAGTTATGTTCACAATAAGATTACCAACTCCCGGGACTAGCTCATC-------

Page 34: Décoder les génomes

Identifier les régions fonctionnelles dans les génomesAu delà des gènes codant les protéines, que reste-t-il à découvrir?

Un gène pour fonctionner au bon moment et au bon endroit, a lui-même besoin d’instructions, qui sont également contenue dans la séquence du génome: les séquences de régulation.

Il n’existe pas de signaux connus qui soient systématiquement associés à ces régions. Les méthodes expérimentales sont très laborieuses et coûteuses.

Annotation automatique

des régions de régulation

Identifier les signaux

Informations dérivées

de l’expression des gènes

(ARNs)

Génomique

comparative

✗ ✗

Page 35: Décoder les génomes

Navigateur de Génome à UCSC : http://genome.ucsc.edu/

Identifier les régions de régulationLa génomique comparative à la rescousse

Le gène MCM2 code une protéine importante pour la réplication des chromosomes. Il possède 16 exons bien conservés au cours de l’évolution, des primates aux poissons.

Page 36: Décoder les génomes

Identifier les régions de régulationLa génomique comparative à la rescousse

Le gène GATA2 code pour une protéine importante pour la mise en place du système vasculaire au cours du développement. Il possède 6 exons bien conservés au cours de l’évolution, des primates aux poissons

Donc, ce n’est à priori pas un exon « oublié »

Il contient de multiple signaux « STOP »

Page 37: Décoder les génomes

Identifier les régions de régulationUne expérience de biologie

Région inconnue LacZ

ProtéineLacZ+

Β-lactamase=

Couleur bleue

Embryon de

souris

Khandekar, M. et al. Development. 2007 May;134(9):1703-12.

Artère ombilical

e

Veine ombilical

e

Système vasculaire

du sac vitellin

21 jours

Page 38: Décoder les génomes

Identifier les régions de régulation

L’analyse bioinformatique fournit une piste importante: - la région est conservée au cours de l’évolution, donc elle a une fonction importante - mais ce n’est pas un fragment de gène

L’expérience de biologie moléculaire confirme: la région est une région de régulation qui spécifie l’endroit et le moment où le gène doit être exprimé.

Page 39: Décoder les génomes

Conclusion

Séquencer les génomes, identifier l’information qu’ils contiennent et comprendre sa signification nécessite à toutes les étapes une alliance étroite entre biologie et informatique.

Page 40: Décoder les génomes
Page 41: Décoder les génomes
Page 42: Décoder les génomes
Page 43: Décoder les génomes
Page 44: Décoder les génomes
Page 45: Décoder les génomes
Page 46: Décoder les génomes