Modélisation markovienne et phylogénie moléculaire:reconstruction de l'histoire d'un gène
N. Galtier
CNRS UMR 5171 – "Génome, Populations, Interactions, Adaptation"Université Montpellier 2
RNG Phylogénie, Marseille, Novembre 2005
L'APPROCHE PHYLOGENETIQUE EN EVOLUTION MOLECULAIRE
seq1: AAGACATGTGGCACTGTGACTGAseq2: AGGACATGTGGCAGTGTGACTGAseq3: AGTACATGTGACAGAGTGACTGAseq4: AGCACATGTGACTGAGTGACCGAseq5: AGCACATGTGACAGAGTGACCGG
seq1
seq4
seq5
seq3
seq2
- reconstruction phylogénétique: pattern vs process
- décrire/comprendre les processus de l'évolution des molécules
- déduire le mode d'action de la sélection naturelle à l'échelle moléculaire
- interpréter les données structurales et fonctionnelles à la lumière de l'évolution
MODELISER l'évolution des séquences ADN et protéines
LES PROCESSUS MARKOVIENS
- Processus: description/caractérisation du mode de changement d'un système au cours du temps
- Markovien = sans mémoire : le futur ne dépend que du présent, pas du passé
- Quelques exemples: temps discret, états discrets: processus de branchementtemps discret, états continus: marches aléatoirestemps continu, états discrets: processus de Poissontemps continu, états continus: mouvements browniens
- En bioinformatique, on considère typiquement des processus markoviens courant le long d'une séquence (chaînes de Markov cachées) ou dans le temps (modèles évolutifs).
- Dans ce dernier cas, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.
EXEMPLES DE MODELES DE SUBSTITUTION (NUCLEOTIDES)
Jukes & Cantor 1969
A C G T
A
C
G
T
X X X X1 paramètre
Kimura 1980
A C G T
A
C
G
T
X X X X
2 paramètrestaux de transition taux de transversion
Tamura 1992
A C G T
A
C
G
T
X
X X X
1-2
2
1-2
1-2
1-2
1-2
1-2
2
2
2
2
2
3 paramètresGC% stationnaire = 50%
protéines: matrices 20x20 (PAM, JTT, WAG, …)
codons: matrices 61x61 (Goldman-Yang, …)
MODELES MARKOVIENS EN PHYLOGENIE
- parce que l'évolution est très généralement sans mémoire
Pourquoi?
Comment?
- approche statistique en phylogénie moléculaire
- pour simuler des données
- pour reconstruire des phylogénies en tenant compte des particularités du processus réel
- pour estimer des processus et apprendre des choses sur les mécanismes de l'évolution moléculaire
Pour quoi faire?
L'APPROCHE STATISTIQUE EN PHYLOGENIE MOLECULAIRE
1- modéliser
2- calculer les attendus sous le modèle
3- ajuster le modèle aux données
L'évolution d'une séquence est représentée par un processus de Markov courantle long d'un arbre.
Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle.
Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenirles estimateurs au maximum de vraisemblance des paramètres
ou
Calculer la probabilité postérieure des paramètres sachant les données et lesa priori (approche bayésienne).
A
C
G
T
A C G T
matrice de substitution : M
X0
X1
X2X3
l1
l2
l3 l4
l5
l6
l7 l8
A A C A GT T C T TA A A A A
y1:y2:y3:
données : Y
CALCUL DE VRAISEMBLANCE EN PHYLOGENIE MOLECULAIRE
topologie d'arbre T longueurs de branches: li
CALCUL DES PROBABILITES DE TRANSITION
Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.)
Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T).
La probabilité d'être dans l'état A à l'instant t+dt est:
Dynamique instantanée:
Dynamique de long terme:
A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1)
et de même pour les 3 autres états.
La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2):
Ces 4 équations différentielles s'expriment matriciellement comme:
F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t
F(t+dt)=F(t)+M.F(t).dt F(t)=eM.t.F(0)
La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t:pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.
(3)
L(li, T Pr(Y | li, T Pryi | li, Ti
Pr(y1 | li, T = Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1).Pr(y11=A| X2=x2). Pr(y12=A| X2=x2).
Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) x0 x1 x2 x3
CALCUL DE VRAISEMBLANCE EN PHYLOGENIE MOLECULAIRE
A
C
G
T
A C G T
matrice de substitution : M
X0
X1
X2X3
l1
l2
l3 l4
l5
l6
l7 l8
A A C A GT T C T TA A A A A
y1:y2:y3:
données : Y
topologie d'arbre T longueurs de branches: li
Analyse phylogénétique du ratio dN/dS
- objectif: reconstruire l'histoire des changements synonymes et non-synonymes aux différents sites (positions) de la molécule, et dans différentes lignées.
- données: la séquence codante d'un gène échantillonnée dans diverses espèces.
- méthode: modélisation Markovienne de l'évolution des codons, et ajustement au maximum de vraisemblance.
- le modèle codon de Goldman & Yang (1994 Mol Biol Evol 11:725):
0 si les 2 codons X et Y diffèrent par plus d'une base
.Y si les 2 codons X et Y diffèrent par une transversion synonyme
Y si les 2 codons X et Y diffèrent par une transversion non-synonyme
.Y si les 2 codons X et Y diffèrent par une transition synonyme
.Y si les 2 codons X et Y diffèrent par une transversion non-synonyme
mXY =
- le paramètre d'intérêt peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. Il est estimé (conjointement avec les autres paramètres du modèle) par la méthode du maximum de vraisemblance.
Pisum1 lhbPisum3 lhb
Vicia4 lhbM sat1M sat6M trun2
Pisum2 lhbVicia3 lhb
Vicia2 lhbM sat3M sat4M trun1
M sat7 Vicia1 lhbSesba1 lhb
Sesba3 lhbSesba2 lhb
Lotus lhbGlyc2 lhbGlyc3 lhba
Glyc4 lhbIPsopho lhb
Vigna1 lhbVigna2 lhbPhase lhb
Cana lhbLupin lhb1
Lupin lhb2Casuar1 S
Arab nS2Brassi nS2
Gossyp nS2Cicho nS
Tomat nS2 Hbn2T2.vir
T.orienT.tomenT1.vir
ParasponiaGlyc5 nS
Casuar2 nSGossyp nS1
Citrus nS1Arab nS1
Tomat nS1Hordeum
Zea maysOryza nS1Oryza nS2
Hbn1mos Ceratomos Physco
W0=3.5
W2 = 0.8
W1 = 0.3
Evolution moléculaire de l'hémoglobine des plantes
- deux types d'hémoglobine chez les plantes
- type 2 impliqué dans la symbiose azotéetype 2
type 1
Guldner et al 2004 J. Mol. Evol. 59:416
* *Parasponia ...ALVVKAWAVMKKNSAELGLQFFLKI...Tomat_nS1 ...ALVVKSWGSMKKDAGEWGLKFFLKI...Arab_nS1 ...ALVVKSWSVMKKNSAELGLKLFIKI...Oryza_nS1 ...ALVLKSWAILKKDSANIALRFFLKI...Nenu_type1 ...ALVVKSWGVMKKDAGQLGVKFFAKI...Pisum1_lhb ...ALVNSSWELFKQN-PGYSVLFYNII...Vicia2_lhb ...ALVNSSWESFKQN-PSYSVLFYTII...M_sat6 ...ALVNSSWESFKQN-PGNSVLFYTII...M_sat4 ...ALVNSSWEAFKQNLPRYSVFFYTVI...M_trun1 ...ALVNSSYEAFKQNLSGYSVFFYTVI...Sesba3_lhb ...ALVNASYEAFKQNLPGNSVLFYSFI...Phase_lhb ...ALVNSSWEAFKGNIPQYSVVFYTSI...Glyc3_lhba ...ALVSSSFEAFKANIPQYSVVFYTSI...Cana_lhb ...SLVKSSWEAFKQNVPHHSAVFYTLI...Lupin_lhb1 ...ALVKSSFEEFNANIPKNTHRFFTLV...Casuar1_S ...ALLKQSWEVLKQNIPAHSLRLFALI...Cicho_nS ...ALVKESWEVMKQDIPALSLYLYAMI... | | | | | 10 20 30
Sites rapides et adaptation
Evolution physico-chimique: cas du MHC classe 1 chez l'Homme
Vert: volume Bleu: polarité Orange: chargeMarron: dN/dS
Sainudiin et al 2005 J. Mol. Evol. 60:315
Le modèle "codon" est étendu pour prendre en compte les propriétés des amino-acides.
Une approche génomique chez l'homme
Fonction n p-val
Immunité
Perception sensorielle
Gametogenèse
Inhibition apoptose
417
51
40
133
<10-10
<10-3
<10-2
<5%
Tissu n p-val
Testicules
Cerveau
Thyroïde
Sang
247
66
405
133
<10-3
<5%
NS
NS
Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire,la perception/communication, et la compétition spermatique/conflit génomique.
Nielsen et al 2005 PLoS 3:170
Le ratio dN/dS est calculé pour 13731 paires de gènes chez l'homme et le chimpanzé,et l'effet de différents facteurs est analysé:
mutation favorable
fonction 1 fonction 2
covarion
Une approche alternative pour détecter l'adaptation: les covarions
Vitesse d’évolution constante entre sites
Variation de vitesse site-spécifique = COVARIONS
Vitesse d’évolution variable entre sites
A C G T
ACGT
M
mij: taux de substitution de i vers j
A- C- G- T- A C G T A+ C+ G+ T+
M.r1
M.r2
M.r3
A-
C-
G-
T-
ACGTA+
C+
G+
T+
Galtier 2001 Mol. Biol. Evol.
LR = 2 . [ln(L1) – ln(L0)] ~2 (1 ddl)
Un test de rapport de vraisemblance pour détecter les covarions
r < 1r = 1
r > 1
M0
(pas de covarion)
r2 > r1 r1 > r2
M1
(covarion)
a b c d e f gS T M F S L PS T M F S L PS T M F I F PS T M F T F PS T M F Y F MS T M F H F HS T M F H F TS T M F Y F PS T M F L F PS T M F F F FS T M F H F TS T M F Y F AS T M F P F PS T M F P F PS T M F P H LS T M F P F PS T M F L H TS T M F W V FS T M F F T PS T M F T V FS T M F L F LA A M V L F IA T M I L F I A T N A L F IA I V S L F IS V M F L F I T T V I L F IF T T L L F IS T M F W S IS T M M W S TS T M F M N QS T M F P H YS T M F P H P
PRIMATES
Pupko & Galtier 2002 Proc Roy Soc London B
A UG CG CG CA UA UA U
Détecter la coévolution entre sites
a b
fort signal de coévolution pas de signal de coévolution
D'où l'idée de détecter la coévolution en localisant les changements sur un arbre ("substitution mapping") et en repérant les cosubstitutions.
A UG CG CG CA UA UA U
a b
1 2
3
4
9
5
6
7
8
11
10
1234567891011
00000101010
00000101010
Va Vb
- estimer les vecteurs de substitution pour chaque site
- calculer leur coefficient de corrélation
- le comparer à l'attendu sous l'hypothèse d'indépendance
Méthode:
Détecter la coévolution entre sites (2)
o
UG
AAACA
UCU
U
CGGG U U G
UGA
GGUUAAGC
GA
CU
AA
GCGUACACGGUGGA
UGCCCUGGC AGUC AGAG
GCGAUGAAGGAC
GUGCUA
AUCUGCGAUAAGC
GUCGGUAA G
GUGAUA
UGAA
CCGUUAUA
ACCGGCGAUUUCCGAAUG
GGGAAACCCAGUGUGUUUC
GACACACUAUCAUUAACUGAA
UCCAUAG
GUUAAUGAGGCGAACCGGGG
GA A C
UGA AA
CAUCU
AAGUACCCCGA
GGAAAAGA
AAUCAACC
GAGAUU
CCCC C
AGUAG
CGGCG
AGCG
AACGGGGAGC
AGCC
C
A
GAGCCUGAAUC
AGUGUGUGUGUUAGUGG
AAGCGUCUGG
AAAGGCGCG
CGAUACAGGG
UGACAGCCCC
GUA
CACA
AA AAUGCACAUGCUGUGAGCUCGAU
GAGUAGGGCGGGA
CACGUGGUA
U CCUGU CUGAAUA
U GGGGGGACCAUCCUCC A A G
GCUAAAUACU
CCUGACUG
ACC
GAUAGUGAACC
AGUACCGU
GAGGGAA A
GGCGAAAAGAA
CCCCGGC
GAGGGGAGUGAAAAAG
A A C CUGAAACCGUGUACGUACAAGCAG
UGGGAG
CACGCUUA
GGCGUGUGACUGCGUACCUUUUGUAUAAUGGGUCAGCG
AC
UUAUAUUCUGUAGCAA
GGUUA A C
CGAA
UAG
GGGAGC
CGAA
GGGAAA
CCGAGU
CUUAA
CUGGGCGUUAA GUUGCAGGGUAUAGA
CCCGA
AACCCGGUGAUCUA
GCCAUGGGC
A
GGU U G
AAGGUUGGGUAACA
CUAACUGGA
GGACCGAA
CCGACU
AAUGUUG
AAAA A
UUAGC
GG
A
UGACUUGUGGCUGG
GGGUGAAAGGCC
AAUCA
AACCGGGAGAUAGCU
GGUUCUCCCCGAAAG
CUAUUUA
GGUAGCGCCU
CGUGAAUUCA
UCUCCGGGGGUAGAGCAC
UGUUUCGGCAA
GGGGGUCAUC
CCG
ACUUACCA A CC
CGAUGCAAACUGCG
A A U ACCGGAGA A
UGUUA U C
ACGGGA
GACACACGGCGGGUGC
UAACGU CCGU CGUG
AAGAGGGA
AAC AA
CCCA
GACCGCCAGCUAAGGUCC
CAA AGU
CAUGGUUA
AGUGGGAAACGAUGUGGGAAGGCCC
AGACAG
CCAGG
AUGUUGGCUUA
GAAGCA
GCC A UC A UUU A AAG A
A AGCGUA
AUAGCUC
A
CUGGUCGA
GUCGGCCUGCGCGGA AGA
UGUAACGGGGCUAA
ACCAUGC
ACCGAAGCUGCGGCAGCGACGCUUA
UGCGUUGUUGG
G
U
A
GGGGAGC
GUUCUGUAAGCCUG
CGAA G
GUGUGCUGUGAGGCAUGCUGGA
GGUAUCAGAAGUGC
GAAUGC UG A C
A
U
A
A
G
U
A
ACGAUA
AAGCGGGUGAA
AAGC
CCGCUCGCCGGAA
GACCAAG
GGUUCCUGUCC AACGUUAAU
CGG
GGCAGGGUGAG
UCGA
CCC
C UAAG
GCGAGGCCGAAA
GGCGUAGUCG
AUGGG
AAACAGG
UUAAUAUUCCUGU
ACUUGGUGUUACU
GCGAAGGGG
GGACGGAG
AAGGC
UAUGUUGGCCGGGCGACG
GUUGUC
CCGGUUUAA
GCGUGU
AGGCU
GGUUUUCCAGGC
AAAU
CCGGAAAAUC AAGGCU GA
GGCGUGAUGA C GA
GGC A CUACGGUGCU
GAAGC
AACA AAUG
CC CUGC
UUCC AG
GAAAAGC
CUCUA
AGCAUCAG
GUAACAUCAAAU CG
UACCCCAA A C
CGACA
CAG
GUGGUC
AGGUAGAGA
AUACCAAGGCG C
U UGAGA
GAA CUCGGGUGAAGGAACUAGGCAAAA
UGGUGCCGUAA
CUUC
GGG
AG AAGGCACGCUGAUA
UG UAGG
UGAA GCGACUUG
CUCGUGGAGC
UGAA
AUCAGUCG
A AGA U A CC AGC
UGGCUGCAA
CUGUUUAU
UAAA A A C A
CAGCACUGUGCA
AA CACGAAAGUGGACG UAUA
CGGUGUG
ACGCC
UGCCC
G GU
GCCGGA
A GGUU
AAUUGAUG
GGGU
UAGCGCAAGC GAAG
CUCUU
GAUCGAAG
CC
CCGGU AAA
C
GGC G
GCCGUAACU
AUAA
CGGUCCUA A GGU A
GCGAAAA
UUCCUUGUCGGGUAAGU
UCCGACCUGCA
CGAAUGGCG
UAAU
GAUGGCCAGGCUGUCUCCACCCGAGACUCA
GUGAAAUUGAACUC
GCUGUGAAGA
UGCAGUG U A C
CCGCGGCA AGACG
G
A
A
A
G
A
CCCCGUGA
ACCUUUACUAU
AGCUUGACACUGAACAUUGAGCCUUGAUGU
GUAGGA
UAGGUGGGAGGCUU
AGAA G
UGUGGACGCCAGUCUGCAUGGA
GCCG
ACCUUGAAAUA
CCACCCUUUAAUGUUUGAUGUUCU
A ACGUUG
ACCCGUAA
UCC
GGGUUGCGGACAG
UGUCUGG UGGG
UAGUU U G
ACUGGGGCGGUC U
CCUCCUAAAGA
GUAACG
GAGGAG
C
AC
G
AAGGUUGGCU AAUCCUGGUCGGA
CAUCAGGA GGUU
A
GUGCAAUGGCAUAA
GCCAGCUUGACUGC
GAGCGUGA
CGGCGCGA
GCAGGUGCGAAA
GCA
GGUCAUAGUGAUCCG
GUGGUUCUGA
AUGGA
AGGGCCAUCGCUCA
ACGGAUAA
AAGGU ACU
CCGGGG A U A A C AG
GCUGA U A CCGCCC A A
G AGUU
CAUA
UCGAC
GGCGGUGUUU
GGCACCUCGAUGUCGGC U
CAUCACA UCCUGGGGCUGA AG
UAG
GUCC
CCAAGG
GUAUGCUGUUC
GCCAUUU
AAAGUGGUA
CG
CGAGCUGGGUUUAG
AACGUCGUG
AGACAGUUCG
GUCCCUAUC
UGCCGUGGG
C
G
C
U
GGAG A A C UG A
GGGGGGCUGCUCCU
AGUACG
AGAGGACCG
GAGUGGACGC A U
CACU
GGUGUUCGGGU UG
UC A UGC
CAAUGCACU
GCCCGGUAGCU
AAAUGCG
GAAG
AG A
UAAG
UGCUGAAA
GCAUCUAAGCACG
AAA CUUGCCCC
GAGAU
GAGUUCUCC
CUG A CC CUU
UAAGGGUC
C
U
G
A
A
GGAA CGUUGAAGAC
GACGACGUU
GAU AGGCCGG
G UGUGU A
AGCGC AGC
GAUGCGUUGA
GCUAA
CCGGUACUAAUGAA
CC
G
U
G
A
G
GCUUAACCUUo
A1
B1
B2B3
B4B5
B6
B7
B8
B9
B10
B11
B12
B13
B14
B15
B16B17
B18
B19B20
B21
C1
D1
D2
D3
D4D5
D6
D7
D8
D9
D10
D11
D12D13
D14
D15
D16
D17
D18 D19
D20
D21
D22
E1
E2
E3
E4E5
E6
E7
E8
E9
E10
E11
E12
E13
E14
E15
E16E17
E18
E19
E20E21
E22
E23
E24
E25
E26
E27
E28
F1
G1
G2
G3
G4
G5
G6G7
G8
G9
G10
G11
G12
G13
G14
G15
G16
G17
G18
G19
G20
H1H2
H3
H4
H1_1
I1
I2
I3
Application à l'ARN ribosomique bactérien
- molécule repliée, avec des appariements de type Watson-Crick et formation de tiges.
- les paires structurales ont été documentées par une batterie de méthodes.
- les retrouve-t-on?
o
UG
AAACA
UCU
U
CGGG U U G
UGA
GGUUAAGC
GA
CU
AA
GCGUACACGGUGGA
UGCCCUGGC A GU C A G A G
GCGAUGAAGGACG
UGCUA
AUCUGCGAUAAGC
GUCGGUAA G
GUGAUA
UGAA
CCGUUAUA
ACC
GGCGAUUUCCGAAUG
GGGAAACCCAGUGUGUUUC
GACACACUAUCAUUAACUGAA UC
CAUAG
GUUAAUGAGGCGAACCGGGG
GA A C
UGA AA
CAUCU
AAGUACCCCG
AGGAAAAGA
AAUCAACC
GAGAUU
CCCC C
AGUAG
CGGCG
AGCG
AACGGGGAGC
AGCC
C
A
GAGCCUGAAUC
AGUGUGUGUGUUAGUGG
AAGCGUCUGG
AAAGGCGCG
CGAUACAGGGUGA
CAGCCC C
GUA
CACA
AA AAUGCACAUGCUGUGAGCUCGAU
GAGUAGGGCGGGA
CACGUGGUA
UC C UGU C UGAAUA
U GGGGGGACCAUCCUCC A A G
GCUAAAUACU
CCUGACUG
ACC
GAUAGUGAACC
AGUACCGU
GAGGGAAA GGCGAAAAGAA
CCCCGGC
GAGGGGAGUGAAAAAG
A A C CUGAAACCGUGUACGUACAAGCAG
UGGGAG
CACGCUUA
GGCGUGUGACUGCGUACCUUUUGUAUAAUGGGUCAGCG
AC
UUAUAUUCUGUAGCAA
GGUUA A C
CGAA
UAG
GGGAGC
CGAA
GGGAAA
CCGAGU
CUUAA
CUG
GGCGUUAA GUUGCAGGGUAUAGA
CCCGA
AACCCG
GUGAUCUA
GCC
AUGG
GC
A
GGUU G
AAGGUUGGG
UAACA
CUA
ACUGGA
GGACCGAA
CCGACUA
AUGUUG
AAAA A
UUAGC
GG
A
UGAC
UUGUGGCUGG
GGGUGAAAGGCC
AAUCA
AACCGGGAGAUAGCU
GGUUCUC
CCCGAAAG
CUAUUUA
GGUAGCGCCU
CGUGAA
UUCAU
CUCCGGGGGUA
GAGCACUGUUUCGGCAA
GGGGGUCAUC
CCG
ACUUACCA A CC
CGAUGCAAACUGCGA
A U ACCGGAGA A
UGUUA U C
ACGGGA
GACACACGGCGGGUGC
UAACGU C CGU CGUG
AAGAGGGA
AAC AA
CCCA
GACCGCCAGCUAAGGUCC
CAA AGU
CAUGGUUA
AGUGGGAAACGAUGUGGGAAGGCCC
AGACA G
CCAGG
AUGUUGGCUUA
GAAGCA
GC C A U C A UUU A AAG A
A AGCGUA
AUAGCUC
A
CUGGUCGA
GUCGGCCUGCGCGGA AGA
UGUAACGGGGCUAA
ACCAUGC
ACCGAA
GCUGCGGC
AGCGACGCUUA
UGCGUUGUUG
G
G
U
A
GGGGAGC
GUUCUGUAAGCCUG
CGAA G
GUGUGCUGUGAGGCAUGCUGGA
GGUAUCAGAAGUGC
GAAUGCUGAC
A
U
A
A
G
U
A
ACGAUA
AAGCGGGUGAA
AAGC
CCGCUCGCCGGAAGACCAAG
GGUUCCUGUCC AACGUUAAU
CGG
GG
CAGGGUGAG
UCGA
CCC
C UAAG
GCGAGGCCGAAA
GG
CGUAGUCG
AU GGG
AAACAGG
UUAAUAUUCCUGUA
CUUGGUGUUACU
GCGAAGGGG
GGACGGAG
AAGGC
UAUGUUGGCCGGGCGACG
GUUGUC
CCGGUUUAA
GCGUG
UAGGCU
GGUUUUCCAGGC
AAAU
CCGGAAAAUC AAGGCU GA
GGCGUGAUGA C GA
GGC A CUACGGUGCU
GAAGC
AACA AAUG
CC CUGC
UUCC AG
GAAAAGC
CUCUA
AGCAUCAG
GUAACAUCAAA
UCGU
ACCCCAA A C
CGAC
ACAG
GUGGUC
AGGUAGAGA
AUACCAAGGCG C
U UGAGA
GAA CUCGGGUGAAGGAACUAGGCAAAA
UGGUGCCGUAA
CUUC
GGG
AG AAGGCACGCUGAUA
UG UAGG
UGAA GCGACUUG
CUCGUGGAGC
UGAA
AUCAGUCGA
AG AU A C C AGC
UGGCUGCAA
CUGUUUAU
UAAA A A C A
CAGCACUGUGCA
AACACGAAAGUGGACG UAUA
CGGUGUG
ACGC C
UGCCC
G GU
GCCGGA
A GGUU
AAUUGAUG
GGGU
UAGCGCAAGC GAAG
CUC UU
GAUCGAAG
CC
CCGGU AAA
C
GGC G
GCCGUAA CU
AUAA
CGGUCC
UA A GGU A
GCGAAAA
UUCCUUGUCGGGUAAGU
UCCGACCUGCA
CGAAUGGCGU
AAUGAUGGCCAGGCUGUCUCCACCCGAGACUCA
GUGAAAUUGAACUC
GCUGUGAAGA
UGCAGUG U AC
CCGCGGCAAGACG
G
A
A
A
G
A
CCCCGUGA
ACCUUUACUAU
AGCUUGACACUGAACAUUGAGCCUUGAUGU
GUAGGA
UAGGUGGGAGGCUU
AGAA G
UGUGGACGCC
AGUCUGCAUGGA
GCCG
ACCUUGA
AAUACCACCCUUUAAUGUUUGAUGUUCU
A ACGUUG
ACCCGUAA
UCC
GGGUUGCGGACAG
UGUCUGGU
GGG
UAGUU U G
ACUGGGGCGGUC U
CCUCCUAAAGA
GUAACG
GAGGAG
C
AC
G
A
AGGUUGGCU AAUCCUGGUCGGA
CAUCAGGA GGUU
A
GUGCAA
UGGCAUAAG
CC
AG
CUUGAC UGC
GAGCGUGA
CGGCGCGA
GCAGGUGCGAAA
GCA
GG
UCAUAGUGAUCCG
GUGGUUCUGA
AUGGA
AG
GGC
CAUCGCUCA
ACGGAUAA
AAGGU ACU
CCGGGG A U A A C A G
GCUG A U ACCGC CC A A
GAGUU
CAUAUCGAC
GGCGGUGUUU
GGCACCUCGAUGUCGGC U
CAUCACA U
CCUGGGGCUGA AG
UAG
GUCC
CCAAGG
GUAUGCUGUUC
GCC
AUUU
AAAG
UGGU
ACG
CGAG
CUGGGUUUAG
AACGUCGUG
AGACAGUUCG
GUCCC
UAU
CUG
CC
GU
GG
G
C
G
C
U
GG AGA A C UG A
GGGGGGCUGCUCCU
AGUACG
AGAGGACCG
GAGUGGACGCAU
CACU
GGUGUUCGGGU UG
UCAUGC
CAAUGCACU
GCCCGGU
AGCUAAAUGCGG
AAGAGA
UAAG
UGCUGAAA
GCAUCUAAGCACG
AAA CUUGCCCC
GAGAU
GAGUUCUCC
C
U
G A C C CUUUAAGGGUC
C
U
G
A
A
GGAA CGUUGAAGAC
GACGACGUU
GAU A GGCCGG
G UGUGU A
AGCGC AGC
GAUGCGUUGA
GCUAA
CCGGUACUAAUGAA
CC
G
U
G
A
G
GCUUAACCUUo
A1
B1
B2B3
B4B5
B6
B7
B8
B9
B10
B11
B12
B13
B14
B15
B16B17
B18
B19B20
B21
C1
D1
D2
D3
D4D5
D6
D7
D8
D9
D10
D11
D12D13
D14
D15
D16
D17
D18 D19
D20
D21
D22
E1
E2
E3
E4E5
E6
E7
E8
E9
E10
E11
E12
E13
E14
E15
E16E17
E18
E19
E20E21
E22
E23
E24
E25
E26
E27
E28
F1
G1
G2
G3
G4
G5
G6G7
G8
G9
G10
G11
G12
G13
G14
G15
G16
G17
G18
G19
G20
H1H2
H3
H4
H1_1
I1
I2
I3
Escherichia coli D U18997
Dutheil et al 2005 Mol Biol Evol
Sur >2.106 paires testées, 182 sont detectées,parmi lesquelles 162 sont des paires structurales,soit 85% des paires structurales détectables.
Les paires structurales non-detectées sont souvent E.coli-spécifiques.
80% des 20 paires non-structurales détectées correspondent à des interactions 3D.
Application à l'ARN ribosomique bactérien
1 23
4 5
stationnaire,homogène
Un modèle non-homogène et non-stationnaire
1 2 34 5
non-stationaire,non-homogène
1
2
4
7
3
5 86
actual MP NHML
18%10%22%14%14%
low GCanc(10-25%)
high eqGC(90%)
mediumsequence GC
(~40%)
Estimation du GC% ancestral (simulations)
actual MP NHML
18% 32%10% 27%22% 40%14% 30%14% 28%
actual MP NHML
18% 32% 19%10% 27% 11%22% 40% 21%14% 30% 16%14% 28% 15%
0
40
80
0
40
80
50 60 70
SSU
LSU
Topt
Topt
rRNA G+C-content
Température optimale de croissance et GC% de l'ARNr chez les procaryotes
Giardia 70.4%Entamoeba 43.7%
Desulfurococcus 64.2%Thermoproteus 63.5%
M.jannashi 62.3%M.vannieli 57.7%
Halococcus 58.9%Halobacterium 58.7%
Thermus 61.3%Thermotoga 60.9%
Euglena 51.7%
FUNGI 48.6%
PLANTA 50.4%
METAZOA 52.4%
EUCARYA
CRENARCHAE
EURYARCHAE
BACTERIA
LOW GC GRAM+ 54.2%
PROTEOBACTERIA 54.1%
HIGH GC GRAM+ 57.0%
CHLOROPLASTS 52.5%
La phylogénie universelle vue par l'ARNr
56.1%estimated
ancestral GC% :
0
40
80
0
40
80
50 60 70
SSU
LSU
Topt
Topt
rRNA G+C-content
Un ancêtre non-hyperthermophile ?
Giardia 70.4%Entamoeba 43.7%
Desulfurococcus 64.2%Thermoproteus 63.5%
M.jannashi 62.3%M.vannieli 57.7%
Halococcus 58.9%Halobacterium 58.7%
Thermus 61.3%Thermotoga 60.9%
Euglena 51.7%
FUNGI 48.6%PLANTA 50.4%
METAZOA 52.4%
EUCARYA
CRENARCHAE
EURYARCHAE
BACTERIA
LOW GC GRAM+ 54.2%
PROTEOBACTERIA 54.1%
HIGH GC GRAM+ 57.0%
CHLOROPLASTS 52.5%
56.1%
57.3%
Eukaryote 1 70.9%Eukaryote 2 70.9%Crenarchae 1 65.4%Crenarchae 2 65.1%Euryarchae 1 65.2%Euryarchae 2 65.0%Bacteria 1 63.2%Bacteria 2 62.3%
Contrôle: l'échantillonnage d'espèces
0
40
80
0
40
80
50 60 70
SSU
LSU
Topt
Topt
rRNA G+C-content
Un ancêtre non-hyperthermophile ?
Galtier et al 1999 Science 283:220