Upload
shadow
View
33
Download
2
Embed Size (px)
DESCRIPTION
Décoder les génomes. ALLIER Biologie eT Informatique. Hugues Roest Crollius Ecole Normale Supérieure. La Génomique. Le Génome - est le support de l’information génétique - est grand. La Génomique nécessite la production de données à grande échelle - grands projets collaboratifs - PowerPoint PPT Presentation
Citation preview
ALLIER BIOLOGIE ET INFORMATIQUE
Décoder les génomes
Hugues Roest CrolliusEcole Normale Supérieure
La Génomique
Le Génome - est le support de l’information génétique- est grand
La Génomique nécessite la production de données à grande échelle
- grands projets collaboratifs- automatisation
Les problèmes: - le stockage- intégrer et centraliser les données- interroger et analyser les données
La production des données de génomiqueLes données: de quoi s’agit-il?
Cellule
Génome
Chromosome
Chromosome
ADN
ADN
Squelette phosphate
Paire de bases
Adénine Thymine
Guanine Cytosine
TGCACTC
ACGTGAG
Séquence d’ADN
La production des données de génomiqueDe l’expérience manuelle aux systèmes automatisés
Applied Biosystems 3730Broad Institute (USA)
1990 2008
La production des données de génomiqueUne croissance exponentielle
1995
1998
1996
1997
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
Levure
Nématode
Drosophile
Homo
Souris
Chimpanzé
Poule
Chien
Arabette
Tetraodon
Fugu
Rat
H. influenzae
OpossumC. Venter Macaque
100 200Gb
Progression du volume de données de séquences stockées dans les bases de données publiques
Ornithorynque J. Watson (09 JUIN 2008)
Sources : EMBL statistics
16 463 812 séquences distribuées selon 8135 positions géographiques
Sources : EMBL statistics
La production des données de génomiqueUne grande diversité
Source:EMBL statistics
Distribution des données de séquences
par groupes taxonomiques:Les vertébrés
représentent 70% du totalHumain
Invertébrés
Autres mammifères
Souris
Plantes
Autres vertébrés
Autres rongeurs
Bactéries
Champignons
La production des données de génomiqueUne grande diversité
La production des données de génomique
L’informatique est impliquée tout au long du processus de production:
- contrôle des machines à séquencer automatiques- Interprétation des signaux fluorescents produits par les machines- contrôles qualité- transfert de l’information de séquence- assemblage des génomes- stockage dans des bases de données- distribution à la communauté des chercheurs
Quelles sont les bases de donnée?
Les bases de données en génomique
GenbankNational Center for Biotechnology
Information (NCBI)
DDBJDNA Databank of Japan
EMBL-bankEuropean BioInformatics Institute (EBI)
Echange quotidien de
données
Génériques:
Spécialisées:
Animaux vertébrés Genome Animaux
Plantes (céréales, vigne,…) Bactéries
Et bien d’autres…
L’information de séquence
Est:- informatisée- standardisée- centralisée
- de très haute qualité
Une situation idéale pour l’analyse par des outils informatiques.
Mais quelle information est « codée » dans le génome, et comment l’identifier?
Le contenu en information d’un génome
La raison principale qui motive le séquençage d’un génome est d’accéder à son contenu en gènes
Mais un génome contient également des instructions pour:
- spécifier où et quand utiliser (exprimer) un gène- compacter l’ADN de chaque cellule (~2 mètres) dans le noyau- maintenir l’intégrité de la molécule d’ADN
- …
Qu’est ce qu’un gène ?
Le dogme central de la biologie moléculaire(le point de vue du biologiste)
ADN ARN Protéine
Sayo-Art Science Illustration pour la NSF
Qu’est ce qu’un gène?
KératineKRT31
Apolipoprotein E precursor
APOE
DoublecortineDCX
ADN
L’ADN des gènes portant les instructions nécessaires à la synthèse des protéines ne représente que 1,5 % des bases du génome humain
Le nombre total de gènes dans le génome humain a longtemps été une inconnue, et n’est pas encore déterminé avec précision. Il est estimé aujourd’hui à environ 23000 gènes.
Identifier la position d’un gène dans le génome
(le point de vue du bioinformaticien)
Les génomes sont trop grands pour espérer identifier les gènes un par un, par des approches ciblées et spécifiques à chacun d’eux.
Il faut des approches systématiques, automatiques
Une stratégie possible consiste à découvrir les « clés » qu’utilise la cellule pour lire les instructions, par des moyens informatiques
Annoter les gènes des génomes de manière automatique a été un objectif majeur de la bioinformatique pendant les 12 dernières années.
Identifier la position d’un gène dans le génome
(le point de vue du bioinformaticien)GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA
Qu’est ce qu’un gène?
exon intron
CTTGCAGATGTCGATGCTGGCAGTCA-----ATGAGGTTACATGGCCACAGGTA---GAGTGGCTGCAGATGACTGA
Récepteur olfactifOR6N1
KératineKRT31
Apolipoprotein E precursor
APOE
DoublecortineDCX
Identifier la position d’un gène…
Identifier la position d’un gène de manière automatique
Les signaux de début (ATG), de fin (TAA,TAG, TGA) et de bornes d’intron (GT et AG) ne sont pas suffisamment discriminant (ou spécifiques): seul certains parmi tous les signaux disponibles sont réellement utilisés pour marquer les limites des gènes.
Il faut donc rajouter de l’information.
Le dogme central de la biologie moléculaire
ADN ARN Protéine
Sayo-Art Science Illustration pour la NSF
Le séquençage des ARN messagersUne source d’information pour annoter les gènes dans le génome
CelluleNoyau
ADN
ARN
Protéine
Séquençage
ATGCCCTTCCCCAGCATCAGGTCTCCAGAGCCTTGCGGTGGCCTATAAAGCCTCCTAG
Séquence du génome
GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT
Annotation bioinformatiq
ue
GCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCGTCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCAGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCT
Analyser la séquence d’un génomeIdentifier une séquence particulière
Le génome humain est composé de 3 milliards de bases A,T,C et G.
Comment connaître la positions exacte d’une séquence d’ARN de 100 bases, parmi les différents chromosomes humain, c’est-à-dire parmi les 3 milliards de bases?
Cela a revient à rechercher son nom et prénom dans la liste du nom et prénom de tous les français et tous les allemands listés dans le désordre, sans espaces.
Un algorithme a été développé dans ce but: BLAST
Développé en 1990 par des informaticiens aux USA, leur article a été cité plus de 23.000 fois depuis (4 citations par jour en moyenne), or en moyenne un article n’est cité que 24 fois. Il s’agit du logiciel le plus utilisé dans les Sciences du Vivant dans le monde.
Comment fonctionne BLAST ?
BLAST(Basic Local Alignment Search Tool)
ATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACG
GGAAGGAGCCATAGCCCAGGCAGGAGGGCTGAGGACCTCTGGTGGCGGCCCAGGGCTTCCAGCATGTGCCCTAGGGGAAGCAGGGGCCAGCTGGCAAGAGCAGGGGGTGGGCAGAAAGCTGGCACGCCGCCTGCTGGCAGCTAGGGACATTGCAGGGTCCTCTTGCTCAAGGTGTAGTGGCAGCACGCCCACCTGCTGGCAGCTGGGGACACTGCCGGGCCCTCTTGCTCCAACAGTACTGGCGGATTATAGGGAAACACCCGGAGCATATGCTGTTTGGTCTCAGTAGACTCCTAAATATGGGATTCCTGGGTTTAAAAGTAAAAAATAAATATGTTTAATTTGTGAACTGATTACCATCAGAATTGTACTGTTCTGTATCCCACCAGCAATGTCTAGGAATGCCTGTTTCTCCACAAAGTGTTTACTTTTGGATTTTTGCCAGTCTAACAGGTGAAGCCCTGGAGATTCTTATTAGTGATTTGGGCTGGGGCCTGGCCATGTGTATTTTTTTAAATTTCCACTGATGATTTTGCTGCATGGCCGGTGTTGAGAATGACTGCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTAGTTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCGTCAGCCTTTTCTTTGACCTCTTCTTTCTGTTCATGTGTATTTGCTGTCTCTTAGCCCAGACTTCCCGTGTCCTTTCCACCGGGCCTTTGAGAGGTCACAGGGTCTTGATGCTGTGGTCTTCATCTGCAGGTGTCTGACTTCCAGCAACTGCTGGCCTGTGCCAGGGTGCAAGCTGAGCACTGGAGTGGAGTTTTCCTGTGGAGAGGAGCCATGCCTAGAGTGGGATGGGCCATTGTTCATCTTCTGGCCCCTGTTGTCTGCATGTAACTTAATACCACAACCAGGCATAGGGGAAAGATTGGAGGAAAGATGAGTGAGAGCATCAACTTCTCTCACAACCTAGGCCAGTAAGTAGTGCTTGTGCTCATCTCCTTGGCTGTGATACGTGGCCGGCCCTCGCTCCAGCAGCTGGACCCCTACCTGCCGTCTGCTGCCATCGGAGCCCAAAGCCGGGCTGTGACTGCTCAGACCAGCCGGCTGGAGGGAGGGGCTCAGCAGGTCTGGCTTTGGCCCTGGGAGAGCAGGTGGAAGATCAGGCAGGCCATCGCTGCCACAGAACCCAGTGGATTGGCCTAGGTGGGATCTCTGAGCTCAACAAGCCCTCTCTGGGTGGTAGGTGCAGAGACGGGAGGGGCAGAGCCGCAGGCACAGCCAAGAGGGCTGAAGAAATGGTAGAACGGAGCAGCTGGTGATGTGTGGGCCCACCGGCCCCAGGCTCCTGTCTCCCCCCAGGTGTGTGGTGATGCCAGGCATGCCCTTCCCCAGCATCAGGTCTCCAGAGCTGCAGAAGACGACGGCCGACTTGGATCACACTCTTGTGAGTGTCCCCAGTGTTGCAGAGGTGAGAGGAGAGTAGACAGTGAGTGGGAGTGGCGTCGCCCCTAGGGCTCTACGGGGCCGGCGTCTCCTGTCTCCTGGAGAGGCTTCGATGCCCCTCCACACCCTCTTGATCTTCCCTGTGATGTCATCTGGAGCCCTGCTGCTTGCGGTGGCCTATAAAGCCTCCTAGTCTGGCTCCAAGGCCTGGCAGAGTCTTTCCCAGGGAAAGCTACAAGCAGCAAACAGTCTGCATGGGTCATCCCCTTCACTCCCAGCTCAGAGCCCAGGCCAGGGGCCCCCAAGAAAGGCTCTGGTGGAGAACCTGTGCATGAAGGCTGTCAACCAGTCCATAGGCAAGCCTGGCTGCCTCCAGCTGGGTCGACAGACAGGGGCTGGAGAAGGGGAGAAGAGGAAAGTGAGGTTGCCTGCCCTGTCTCCTACCTGAGGCTGAGGAAGGAGAAGGGGATGCACTGTTGGGGAGGCAGCTGTAACTCAAAGCCTTAGCCTCTGTTCCCACGAAGGCAGGGCCATCAGGCACCAAAGGGATTCTGCCAGCATAGTGCTCCTGGACCAGTGATACACCCGGCACCCTGTCCTGGACACGCTGTTGGCCTGGATCTGAGCCCTGGTGGAGGTCAAAGCCACCTTTGGTTCTGCCATTGCTGCTGTGTGGAAGTTCACTCCTGCCTTTTCCTTTCCCTAGAGCCTCCACCACCCCGAGATCACATTTCTCACTGCCTTTTGTCTGCCCAGTTTCACCAGAAGTAGGCCTCTTCCTGACAGGCAGCTGCACCACTGCCTGGCGCTGTGCCCTTCCTTTGCTCTGCCCGCTGGAGACGGTGTTTGTCATGGGCCTGGTCTGCAGGGA
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C
T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C
Match exact
Séquence « requête »
Séquence « cible »
“mot” de taille W = 11 bases
BLAST(Basic Local Alignment Search Tool)
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C
T T A C G C G A T G T A G A C A G C G T A G C A A TG T T G
Séquence requête
Séquence cibleG T A T G
Matrice de score
A T G C NA 5 -4 -4 -4 -2T -4 5 -4 -4 -2G -4 -4 5 -4 -2C -4 -4 -4 5 -2N -2 -2 -2 -2 -1paramètre X= seuil à ne pas dépasser = -21
BLAST(Basic Local Alignment Search Tool)
C A G C G T A G C A A ××
+5+5-4-4
Somme = -8
BLAST(Basic Local Alignment Search Tool)
Etape 1: ancrage par un mot de taille définie (paramètre W)
Etape 2: extensions de chaque côté (paramètre X)
Si l’on recherche une identification 100% exacte, alors X=0
Sur un ordinateur familial, la dernière version de BLAST trouve la position correcte d’une séquence de 100 bases dans le génome humain en moins de 2 minutes.
Identifier les gènes dans un génome
Nécessite d’associer l’identification de signaux (début, fin, bornes des introns) avec des informations obtenues à partir de l’expression des gènes (ARN). Est-ce ce suffisant?
Annotation automatique des
gènes
Identifier les signaux
(début, fin, bornes des
introns
Informations dérivées de l’expression des gènes
(ARNs)
Génomique comparative
1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09
J.C. VenterBactérie Levure Ver MoucheHumain Souris Poule Chimpanzé
Au delà du génome humain, ceux de bien d’autres espèces ont été séquencés, pour les mêmes raisons: accéder à leurs gènes. Ces ressources permettent d’appliquer une stratégie de génomique comparative,très puissante pour aider à l’annotation des gènes.
La génomique comparative
Poisson zèbre
Medaka
Epinoche
Fugu
Tetraodon
Crapaud
Poule
Ornithorynque
Opossum
Eléphant
Tenrec
Tatou
Hérisson
Vache
Chien
Macaque
Humain
Chimpanzé
Carnivora
Boreoeutheria
Xenarthra
Metatheria
Prototheria
Theria
Mammalia
Amniota
Osteichthyes
0100 50200 150300 250400 350450
LapinRat
SourisMurinae
Lagomorpha
Catarrhini
Insectivora
Millions d’années
Eutheria
Actinopterigii Teleostei
RequinChondrichthyes
Sarcopterigii
Tetrapoda
Percomorpha
Otocephala
Poissons
Mammifères
AmphibiensOiseaux
Euarchontoglire
Humain
Souris
La génomique comparativeEvolution des vertébrés
La génomique comparativeUne ressource pour l’annotation des gènes
Exemple: Le gène de la kératine, protéine entrant dans la composition des poils, des ongles et des cheveux chez les mammifères.
L’homme et la souris ont hérité leur gène de kératine de leur dernier ancêtre commun. La fonction de la protéine est toujours la même, il est donc raisonnable de supposer que le gène de la kératine contient toujours des instructions (une séquence) très similaire entre l’homme et la souris.
Comparer la séquence du génome de l’homme et de la souris permettrait d’identifier les deux gènes en une seule opération.
cacagacctggaa-caaactaaagccagacacatactATGGACACCAAGG……ctcagactcagagacaacgtgaagctgaacacacaccATGGATACCAAGG……
……GAGGAGCTCCAGCAGAAGgtaagattcctaagaac……ttctagATCTTGTG…………GAGGAGCTGCAGCAGAAGgtaaga-gctcagcaag……ttctagATCTTGTG……
La génomique comparativeUne ressource pour l’annotation des gènes
Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent les mêmes grandes fonctions de la vie
- reproduction- développement- système nerveux central- système digestif- système musculaire- ….
On estime que les gènes présents dans le génome de la souris ou du chien peuvent être informatifs pour identifier les gènes humains (ou vice-versa) simplement par alignement de séquence.
Généralisation: Toutes les informations importantes contenues dans le génome (codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces différentes et donc d’être découvertes par alignement de séquences.
Identifier les gènes dans un génome
Annotation automatique des
gènes
Identifier les signaux
(début, fin, bornes des
introns
Informations dérivées de l’expression des gènes
(ARNs)
Analyse du texte- alphabet- grammaire
- informatique- algorithmique- statistique
Génomique expérimentale- échantillons biologiques - molécules
- biologie moléculaire- bioinformatiqueGénomique
comparative
Séquençage haut débit - procédé industriel - évolution- bioinformatique
Historique des estimations du nombre de gènes dans le génome
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
20 000
40 000
160 000
140 000
120 000
100 000
80 000
60 000
Estimations publiées
Estimations non publiées
Publication génome humain
07
Identifier les régions fonctionnelles dans les génomesAu delà des gènes codant les protéines, que reste-t-il à découvrir?
Aujourd’hui (juin 2008) , 22740 gènes ont été annotés dans le génome humain.
1°) Une énigme: Certaines régions du génomes ne sont pas des gènes, mais sont 100% identiques entre l’homme et la souris sur de longue distances : régions « ultra conservées ». Quelles sont leurs fonctions?
TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC
TTGCCATTCATTAATAATGCTCACAATAAGATTAAATCATTCTGGAAAAT-CTCATAAAATCCCC
TTGCCATTCATTAGTTATGTTCACAATAAGATTACCAACTCCCGGGACTAGCTCATC-------
Identifier les régions fonctionnelles dans les génomesAu delà des gènes codant les protéines, que reste-t-il à découvrir?
Un gène pour fonctionner au bon moment et au bon endroit, a lui-même besoin d’instructions, qui sont également contenue dans la séquence du génome: les séquences de régulation.
Il n’existe pas de signaux connus qui soient systématiquement associés à ces régions. Les méthodes expérimentales sont très laborieuses et coûteuses.
Annotation automatique
des régions de régulation
Identifier les signaux
Informations dérivées
de l’expression des gènes
(ARNs)
Génomique
comparative
✗ ✗
Navigateur de Génome à UCSC : http://genome.ucsc.edu/
Identifier les régions de régulationLa génomique comparative à la rescousse
Le gène MCM2 code une protéine importante pour la réplication des chromosomes. Il possède 16 exons bien conservés au cours de l’évolution, des primates aux poissons.
Identifier les régions de régulationLa génomique comparative à la rescousse
Le gène GATA2 code pour une protéine importante pour la mise en place du système vasculaire au cours du développement. Il possède 6 exons bien conservés au cours de l’évolution, des primates aux poissons
Donc, ce n’est à priori pas un exon « oublié »
Il contient de multiple signaux « STOP »
Identifier les régions de régulationUne expérience de biologie
Région inconnue LacZ
ProtéineLacZ+
Β-lactamase=
Couleur bleue
Embryon de
souris
Khandekar, M. et al. Development. 2007 May;134(9):1703-12.
Artère ombilical
e
Veine ombilical
e
Système vasculaire
du sac vitellin
21 jours
Identifier les régions de régulation
L’analyse bioinformatique fournit une piste importante: - la région est conservée au cours de l’évolution, donc elle a une fonction importante - mais ce n’est pas un fragment de gène
L’expérience de biologie moléculaire confirme: la région est une région de régulation qui spécifie l’endroit et le moment où le gène doit être exprimé.
Conclusion
Séquencer les génomes, identifier l’information qu’ils contiennent et comprendre sa signification nécessite à toutes les étapes une alliance étroite entre biologie et informatique.