31
Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions, Adaptation" Université Montpellier 2 [email protected] RNG Phylogénie, Marseille, Novembre 2005

Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Embed Size (px)

Citation preview

Page 1: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Modélisation markovienne et phylogénie moléculaire:reconstruction de l'histoire d'un gène

N. Galtier

CNRS UMR 5171 – "Génome, Populations, Interactions, Adaptation"Université Montpellier 2

[email protected]

RNG Phylogénie, Marseille, Novembre 2005

Page 2: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

L'APPROCHE PHYLOGENETIQUE EN EVOLUTION MOLECULAIRE

seq1: AAGACATGTGGCACTGTGACTGAseq2: AGGACATGTGGCAGTGTGACTGAseq3: AGTACATGTGACAGAGTGACTGAseq4: AGCACATGTGACTGAGTGACCGAseq5: AGCACATGTGACAGAGTGACCGG

seq1

seq4

seq5

seq3

seq2

- reconstruction phylogénétique: pattern vs process

- décrire/comprendre les processus de l'évolution des molécules

- déduire le mode d'action de la sélection naturelle à l'échelle moléculaire

- interpréter les données structurales et fonctionnelles à la lumière de l'évolution

MODELISER l'évolution des séquences ADN et protéines

Page 3: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

LES PROCESSUS MARKOVIENS

- Processus: description/caractérisation du mode de changement d'un système au cours du temps

- Markovien = sans mémoire : le futur ne dépend que du présent, pas du passé

- Quelques exemples: temps discret, états discrets: processus de branchementtemps discret, états continus: marches aléatoirestemps continu, états discrets: processus de Poissontemps continu, états continus: mouvements browniens

- En bioinformatique, on considère typiquement des processus markoviens courant le long d'une séquence (chaînes de Markov cachées) ou dans le temps (modèles évolutifs).

- Dans ce dernier cas, les états du système sont les 4 nucléotides / 20 amino-acides / 61 codons, et le processus est typiquement représenté par une matrice de transition en temps continu.

Page 4: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

EXEMPLES DE MODELES DE SUBSTITUTION (NUCLEOTIDES)

Jukes & Cantor 1969

A C G T

A

C

G

T

X X X X1 paramètre

Kimura 1980

A C G T

A

C

G

T

X X X X

2 paramètrestaux de transition taux de transversion

Tamura 1992

A C G T

A

C

G

T

X

X X X

1-2

2

1-2

1-2

1-2

1-2

1-2

2

2

2

2

2

3 paramètresGC% stationnaire = 50%

protéines: matrices 20x20 (PAM, JTT, WAG, …)

codons: matrices 61x61 (Goldman-Yang, …)

Page 5: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

MODELES MARKOVIENS EN PHYLOGENIE

- parce que l'évolution est très généralement sans mémoire

Pourquoi?

Comment?

- approche statistique en phylogénie moléculaire

- pour simuler des données

- pour reconstruire des phylogénies en tenant compte des particularités du processus réel

- pour estimer des processus et apprendre des choses sur les mécanismes de l'évolution moléculaire

Pour quoi faire?

Page 6: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

L'APPROCHE STATISTIQUE EN PHYLOGENIE MOLECULAIRE

1- modéliser

2- calculer les attendus sous le modèle

3- ajuster le modèle aux données

L'évolution d'une séquence est représentée par un processus de Markov courantle long d'un arbre.

Calculer la fonction de vraisemblance, c'est-à-dire la probabilité des données sachant les paramètres du modèle.

Maximiser la vraisemblance sur l'espace des paramètres, de manière à obtenirles estimateurs au maximum de vraisemblance des paramètres

ou

Calculer la probabilité postérieure des paramètres sachant les données et lesa priori (approche bayésienne).

Page 7: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

A

C

G

T

A C G T

matrice de substitution : M

X0

X1

X2X3

l1

l2

l3 l4

l5

l6

l7 l8

A A C A GT T C T TA A A A A

y1:y2:y3:

données : Y

CALCUL DE VRAISEMBLANCE EN PHYLOGENIE MOLECULAIRE

topologie d'arbre T longueurs de branches: li

Page 8: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

CALCUL DES PROBABILITES DE TRANSITION

Hypothèses: les sites évoluent indépendamment selon un processus Markovien commun (i.i.d.)

Le processus est typiquement représenté par une matrice M=(mij), où mij est le taux instantané de changement de l'état i vers l'état j (A, C, G ou T).

La probabilité d'être dans l'état A à l'instant t+dt est:

Dynamique instantanée:

Dynamique de long terme:

A(t+dt) = A(t) + C(t) mCA dt + G(t) mGA dt + T(t) mTA dt - A(t) (mAC + mAG + mAT) dt (1)

et de même pour les 3 autres états.

La dynamique sur le long terme s'obtient en intégrant les équations différentielles (2):

Ces 4 équations différentielles s'expriment matriciellement comme:

F(t+dt)=F(t)+M.F(t).dt (2) , où F(t) = (A(t), C(t), G(t), T(t))t

F(t+dt)=F(t)+M.F(t).dt F(t)=eM.t.F(0)

La matrice P(t)=eMt donne les probabilités de changement sous M pendant la durée t:pij(t) est la probabilité d'être dans l'état j au temps t sachant qu'on était dans l'état i au temps 0.

(3)

Page 9: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

L(li, T Pr(Y | li, T Pryi | li, Ti

Pr(y1 | li, T = Pr(X0=x0).Pr(X1=x1| X0=x0). Pr(X2=x2|X1=x1).Pr(y11=A| X2=x2). Pr(y12=A| X2=x2).

Pr(y13=C| X1=x1). Pr(X3=x3| X0=x0). Pr(y14=A| X3=x3). Pr(y15=G| X3=x3) x0 x1 x2 x3

CALCUL DE VRAISEMBLANCE EN PHYLOGENIE MOLECULAIRE

A

C

G

T

A C G T

matrice de substitution : M

X0

X1

X2X3

l1

l2

l3 l4

l5

l6

l7 l8

A A C A GT T C T TA A A A A

y1:y2:y3:

données : Y

topologie d'arbre T longueurs de branches: li

Page 10: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Analyse phylogénétique du ratio dN/dS

- objectif: reconstruire l'histoire des changements synonymes et non-synonymes aux différents sites (positions) de la molécule, et dans différentes lignées.

- données: la séquence codante d'un gène échantillonnée dans diverses espèces.

- méthode: modélisation Markovienne de l'évolution des codons, et ajustement au maximum de vraisemblance.

- le modèle codon de Goldman & Yang (1994 Mol Biol Evol 11:725):

0 si les 2 codons X et Y diffèrent par plus d'une base

.Y si les 2 codons X et Y diffèrent par une transversion synonyme

Y si les 2 codons X et Y diffèrent par une transversion non-synonyme

.Y si les 2 codons X et Y diffèrent par une transition synonyme

.Y si les 2 codons X et Y diffèrent par une transversion non-synonyme

mXY =

- le paramètre d'intérêt peut être estimé pour l'ensemble du jeu de données, ou bien séparément pour différentes lignées, ou bien séparément pour différents sites. Il est estimé (conjointement avec les autres paramètres du modèle) par la méthode du maximum de vraisemblance.

Page 11: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Pisum1 lhbPisum3 lhb

Vicia4 lhbM sat1M sat6M trun2

Pisum2 lhbVicia3 lhb

Vicia2 lhbM sat3M sat4M trun1

M sat7 Vicia1 lhbSesba1 lhb

Sesba3 lhbSesba2 lhb

Lotus lhbGlyc2 lhbGlyc3 lhba

Glyc4 lhbIPsopho lhb

Vigna1 lhbVigna2 lhbPhase lhb

Cana lhbLupin lhb1

Lupin lhb2Casuar1 S

Arab nS2Brassi nS2

Gossyp nS2Cicho nS

Tomat nS2 Hbn2T2.vir

T.orienT.tomenT1.vir

ParasponiaGlyc5 nS

Casuar2 nSGossyp nS1

Citrus nS1Arab nS1

Tomat nS1Hordeum

Zea maysOryza nS1Oryza nS2

Hbn1mos Ceratomos Physco

W0=3.5

W2 = 0.8

W1 = 0.3

Evolution moléculaire de l'hémoglobine des plantes

- deux types d'hémoglobine chez les plantes

- type 2 impliqué dans la symbiose azotéetype 2

type 1

Guldner et al 2004 J. Mol. Evol. 59:416

Page 12: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

* *Parasponia ...ALVVKAWAVMKKNSAELGLQFFLKI...Tomat_nS1 ...ALVVKSWGSMKKDAGEWGLKFFLKI...Arab_nS1 ...ALVVKSWSVMKKNSAELGLKLFIKI...Oryza_nS1 ...ALVLKSWAILKKDSANIALRFFLKI...Nenu_type1 ...ALVVKSWGVMKKDAGQLGVKFFAKI...Pisum1_lhb ...ALVNSSWELFKQN-PGYSVLFYNII...Vicia2_lhb ...ALVNSSWESFKQN-PSYSVLFYTII...M_sat6 ...ALVNSSWESFKQN-PGNSVLFYTII...M_sat4 ...ALVNSSWEAFKQNLPRYSVFFYTVI...M_trun1 ...ALVNSSYEAFKQNLSGYSVFFYTVI...Sesba3_lhb ...ALVNASYEAFKQNLPGNSVLFYSFI...Phase_lhb ...ALVNSSWEAFKGNIPQYSVVFYTSI...Glyc3_lhba ...ALVSSSFEAFKANIPQYSVVFYTSI...Cana_lhb ...SLVKSSWEAFKQNVPHHSAVFYTLI...Lupin_lhb1 ...ALVKSSFEEFNANIPKNTHRFFTLV...Casuar1_S ...ALLKQSWEVLKQNIPAHSLRLFALI...Cicho_nS ...ALVKESWEVMKQDIPALSLYLYAMI... | | | | | 10 20 30

Sites rapides et adaptation

Page 13: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Evolution physico-chimique: cas du MHC classe 1 chez l'Homme

Vert: volume Bleu: polarité Orange: chargeMarron: dN/dS

Sainudiin et al 2005 J. Mol. Evol. 60:315

Le modèle "codon" est étendu pour prendre en compte les propriétés des amino-acides.

Page 14: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Une approche génomique chez l'homme

Fonction n p-val

Immunité

Perception sensorielle

Gametogenèse

Inhibition apoptose

417

51

40

133

<10-10

<10-3

<10-2

<5%

Tissu n p-val

Testicules

Cerveau

Thyroïde

Sang

247

66

405

133

<10-3

<5%

NS

NS

Les principales cibles de l'adaptation moléculaire chez l'homme sont la défense immunitaire,la perception/communication, et la compétition spermatique/conflit génomique.

Nielsen et al 2005 PLoS 3:170

Le ratio dN/dS est calculé pour 13731 paires de gènes chez l'homme et le chimpanzé,et l'effet de différents facteurs est analysé:

Page 15: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

mutation favorable

fonction 1 fonction 2

covarion

Une approche alternative pour détecter l'adaptation: les covarions

Page 16: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Vitesse d’évolution constante entre sites

Variation de vitesse site-spécifique = COVARIONS

Vitesse d’évolution variable entre sites

Page 17: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

A C G T

ACGT

M

mij: taux de substitution de i vers j

A- C- G- T- A C G T A+ C+ G+ T+

M.r1

M.r2

M.r3

A-

C-

G-

T-

ACGTA+

C+

G+

T+

Galtier 2001 Mol. Biol. Evol.

Page 18: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

LR = 2 . [ln(L1) – ln(L0)] ~2 (1 ddl)

Un test de rapport de vraisemblance pour détecter les covarions

r < 1r = 1

r > 1

M0

(pas de covarion)

r2 > r1 r1 > r2

M1

(covarion)

Page 19: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

a b c d e f gS T M F S L PS T M F S L PS T M F I F PS T M F T F PS T M F Y F MS T M F H F HS T M F H F TS T M F Y F PS T M F L F PS T M F F F FS T M F H F TS T M F Y F AS T M F P F PS T M F P F PS T M F P H LS T M F P F PS T M F L H TS T M F W V FS T M F F T PS T M F T V FS T M F L F LA A M V L F IA T M I L F I A T N A L F IA I V S L F IS V M F L F I T T V I L F IF T T L L F IS T M F W S IS T M M W S TS T M F M N QS T M F P H YS T M F P H P

PRIMATES

Pupko & Galtier 2002 Proc Roy Soc London B

Page 20: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

A UG CG CG CA UA UA U

Détecter la coévolution entre sites

a b

fort signal de coévolution pas de signal de coévolution

D'où l'idée de détecter la coévolution en localisant les changements sur un arbre ("substitution mapping") et en repérant les cosubstitutions.

Page 21: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

A UG CG CG CA UA UA U

a b

1 2

3

4

9

5

6

7

8

11

10

1234567891011

00000101010

00000101010

Va Vb

- estimer les vecteurs de substitution pour chaque site

- calculer leur coefficient de corrélation

- le comparer à l'attendu sous l'hypothèse d'indépendance

Méthode:

Détecter la coévolution entre sites (2)

Page 22: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

o

UG

AAACA

UCU

U

CGGG U U G

UGA

GGUUAAGC

GA

CU

AA

GCGUACACGGUGGA

UGCCCUGGC AGUC AGAG

GCGAUGAAGGAC

GUGCUA

AUCUGCGAUAAGC

GUCGGUAA G

GUGAUA

UGAA

CCGUUAUA

ACCGGCGAUUUCCGAAUG

GGGAAACCCAGUGUGUUUC

GACACACUAUCAUUAACUGAA

UCCAUAG

GUUAAUGAGGCGAACCGGGG

GA A C

UGA AA

CAUCU

AAGUACCCCGA

GGAAAAGA

AAUCAACC

GAGAUU

CCCC C

AGUAG

CGGCG

AGCG

AACGGGGAGC

AGCC

C

A

GAGCCUGAAUC

AGUGUGUGUGUUAGUGG

AAGCGUCUGG

AAAGGCGCG

CGAUACAGGG

UGACAGCCCC

GUA

CACA

AA AAUGCACAUGCUGUGAGCUCGAU

GAGUAGGGCGGGA

CACGUGGUA

U CCUGU CUGAAUA

U GGGGGGACCAUCCUCC A A G

GCUAAAUACU

CCUGACUG

ACC

GAUAGUGAACC

AGUACCGU

GAGGGAA A

GGCGAAAAGAA

CCCCGGC

GAGGGGAGUGAAAAAG

A A C CUGAAACCGUGUACGUACAAGCAG

UGGGAG

CACGCUUA

GGCGUGUGACUGCGUACCUUUUGUAUAAUGGGUCAGCG

AC

UUAUAUUCUGUAGCAA

GGUUA A C

CGAA

UAG

GGGAGC

CGAA

GGGAAA

CCGAGU

CUUAA

CUGGGCGUUAA GUUGCAGGGUAUAGA

CCCGA

AACCCGGUGAUCUA

GCCAUGGGC

A

GGU U G

AAGGUUGGGUAACA

CUAACUGGA

GGACCGAA

CCGACU

AAUGUUG

AAAA A

UUAGC

GG

A

UGACUUGUGGCUGG

GGGUGAAAGGCC

AAUCA

AACCGGGAGAUAGCU

GGUUCUCCCCGAAAG

CUAUUUA

GGUAGCGCCU

CGUGAAUUCA

UCUCCGGGGGUAGAGCAC

UGUUUCGGCAA

GGGGGUCAUC

CCG

ACUUACCA A CC

CGAUGCAAACUGCG

A A U ACCGGAGA A

UGUUA U C

ACGGGA

GACACACGGCGGGUGC

UAACGU CCGU CGUG

AAGAGGGA

AAC AA

CCCA

GACCGCCAGCUAAGGUCC

CAA AGU

CAUGGUUA

AGUGGGAAACGAUGUGGGAAGGCCC

AGACAG

CCAGG

AUGUUGGCUUA

GAAGCA

GCC A UC A UUU A AAG A

A AGCGUA

AUAGCUC

A

CUGGUCGA

GUCGGCCUGCGCGGA AGA

UGUAACGGGGCUAA

ACCAUGC

ACCGAAGCUGCGGCAGCGACGCUUA

UGCGUUGUUGG

G

U

A

GGGGAGC

GUUCUGUAAGCCUG

CGAA G

GUGUGCUGUGAGGCAUGCUGGA

GGUAUCAGAAGUGC

GAAUGC UG A C

A

U

A

A

G

U

A

ACGAUA

AAGCGGGUGAA

AAGC

CCGCUCGCCGGAA

GACCAAG

GGUUCCUGUCC AACGUUAAU

CGG

GGCAGGGUGAG

UCGA

CCC

C UAAG

GCGAGGCCGAAA

GGCGUAGUCG

AUGGG

AAACAGG

UUAAUAUUCCUGU

ACUUGGUGUUACU

GCGAAGGGG

GGACGGAG

AAGGC

UAUGUUGGCCGGGCGACG

GUUGUC

CCGGUUUAA

GCGUGU

AGGCU

GGUUUUCCAGGC

AAAU

CCGGAAAAUC AAGGCU GA

GGCGUGAUGA C GA

GGC A CUACGGUGCU

GAAGC

AACA AAUG

CC CUGC

UUCC AG

GAAAAGC

CUCUA

AGCAUCAG

GUAACAUCAAAU CG

UACCCCAA A C

CGACA

CAG

GUGGUC

AGGUAGAGA

AUACCAAGGCG C

U UGAGA

GAA CUCGGGUGAAGGAACUAGGCAAAA

UGGUGCCGUAA

CUUC

GGG

AG AAGGCACGCUGAUA

UG UAGG

UGAA GCGACUUG

CUCGUGGAGC

UGAA

AUCAGUCG

A AGA U A CC AGC

UGGCUGCAA

CUGUUUAU

UAAA A A C A

CAGCACUGUGCA

AA CACGAAAGUGGACG UAUA

CGGUGUG

ACGCC

UGCCC

G GU

GCCGGA

A GGUU

AAUUGAUG

GGGU

UAGCGCAAGC GAAG

CUCUU

GAUCGAAG

CC

CCGGU AAA

C

GGC G

GCCGUAACU

AUAA

CGGUCCUA A GGU A

GCGAAAA

UUCCUUGUCGGGUAAGU

UCCGACCUGCA

CGAAUGGCG

UAAU

GAUGGCCAGGCUGUCUCCACCCGAGACUCA

GUGAAAUUGAACUC

GCUGUGAAGA

UGCAGUG U A C

CCGCGGCA AGACG

G

A

A

A

G

A

CCCCGUGA

ACCUUUACUAU

AGCUUGACACUGAACAUUGAGCCUUGAUGU

GUAGGA

UAGGUGGGAGGCUU

AGAA G

UGUGGACGCCAGUCUGCAUGGA

GCCG

ACCUUGAAAUA

CCACCCUUUAAUGUUUGAUGUUCU

A ACGUUG

ACCCGUAA

UCC

GGGUUGCGGACAG

UGUCUGG UGGG

UAGUU U G

ACUGGGGCGGUC U

CCUCCUAAAGA

GUAACG

GAGGAG

C

AC

G

AAGGUUGGCU AAUCCUGGUCGGA

CAUCAGGA GGUU

A

GUGCAAUGGCAUAA

GCCAGCUUGACUGC

GAGCGUGA

CGGCGCGA

GCAGGUGCGAAA

GCA

GGUCAUAGUGAUCCG

GUGGUUCUGA

AUGGA

AGGGCCAUCGCUCA

ACGGAUAA

AAGGU ACU

CCGGGG A U A A C AG

GCUGA U A CCGCCC A A

G AGUU

CAUA

UCGAC

GGCGGUGUUU

GGCACCUCGAUGUCGGC U

CAUCACA UCCUGGGGCUGA AG

UAG

GUCC

CCAAGG

GUAUGCUGUUC

GCCAUUU

AAAGUGGUA

CG

CGAGCUGGGUUUAG

AACGUCGUG

AGACAGUUCG

GUCCCUAUC

UGCCGUGGG

C

G

C

U

GGAG A A C UG A

GGGGGGCUGCUCCU

AGUACG

AGAGGACCG

GAGUGGACGC A U

CACU

GGUGUUCGGGU UG

UC A UGC

CAAUGCACU

GCCCGGUAGCU

AAAUGCG

GAAG

AG A

UAAG

UGCUGAAA

GCAUCUAAGCACG

AAA CUUGCCCC

GAGAU

GAGUUCUCC

CUG A CC CUU

UAAGGGUC

C

U

G

A

A

GGAA CGUUGAAGAC

GACGACGUU

GAU AGGCCGG

G UGUGU A

AGCGC AGC

GAUGCGUUGA

GCUAA

CCGGUACUAAUGAA

CC

G

U

G

A

G

GCUUAACCUUo

A1

B1

B2B3

B4B5

B6

B7

B8

B9

B10

B11

B12

B13

B14

B15

B16B17

B18

B19B20

B21

C1

D1

D2

D3

D4D5

D6

D7

D8

D9

D10

D11

D12D13

D14

D15

D16

D17

D18 D19

D20

D21

D22

E1

E2

E3

E4E5

E6

E7

E8

E9

E10

E11

E12

E13

E14

E15

E16E17

E18

E19

E20E21

E22

E23

E24

E25

E26

E27

E28

F1

G1

G2

G3

G4

G5

G6G7

G8

G9

G10

G11

G12

G13

G14

G15

G16

G17

G18

G19

G20

H1H2

H3

H4

H1_1

I1

I2

I3

Application à l'ARN ribosomique bactérien

- molécule repliée, avec des appariements de type Watson-Crick et formation de tiges.

- les paires structurales ont été documentées par une batterie de méthodes.

- les retrouve-t-on?

Page 23: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

o

UG

AAACA

UCU

U

CGGG U U G

UGA

GGUUAAGC

GA

CU

AA

GCGUACACGGUGGA

UGCCCUGGC A GU C A G A G

GCGAUGAAGGACG

UGCUA

AUCUGCGAUAAGC

GUCGGUAA G

GUGAUA

UGAA

CCGUUAUA

ACC

GGCGAUUUCCGAAUG

GGGAAACCCAGUGUGUUUC

GACACACUAUCAUUAACUGAA UC

CAUAG

GUUAAUGAGGCGAACCGGGG

GA A C

UGA AA

CAUCU

AAGUACCCCG

AGGAAAAGA

AAUCAACC

GAGAUU

CCCC C

AGUAG

CGGCG

AGCG

AACGGGGAGC

AGCC

C

A

GAGCCUGAAUC

AGUGUGUGUGUUAGUGG

AAGCGUCUGG

AAAGGCGCG

CGAUACAGGGUGA

CAGCCC C

GUA

CACA

AA AAUGCACAUGCUGUGAGCUCGAU

GAGUAGGGCGGGA

CACGUGGUA

UC C UGU C UGAAUA

U GGGGGGACCAUCCUCC A A G

GCUAAAUACU

CCUGACUG

ACC

GAUAGUGAACC

AGUACCGU

GAGGGAAA GGCGAAAAGAA

CCCCGGC

GAGGGGAGUGAAAAAG

A A C CUGAAACCGUGUACGUACAAGCAG

UGGGAG

CACGCUUA

GGCGUGUGACUGCGUACCUUUUGUAUAAUGGGUCAGCG

AC

UUAUAUUCUGUAGCAA

GGUUA A C

CGAA

UAG

GGGAGC

CGAA

GGGAAA

CCGAGU

CUUAA

CUG

GGCGUUAA GUUGCAGGGUAUAGA

CCCGA

AACCCG

GUGAUCUA

GCC

AUGG

GC

A

GGUU G

AAGGUUGGG

UAACA

CUA

ACUGGA

GGACCGAA

CCGACUA

AUGUUG

AAAA A

UUAGC

GG

A

UGAC

UUGUGGCUGG

GGGUGAAAGGCC

AAUCA

AACCGGGAGAUAGCU

GGUUCUC

CCCGAAAG

CUAUUUA

GGUAGCGCCU

CGUGAA

UUCAU

CUCCGGGGGUA

GAGCACUGUUUCGGCAA

GGGGGUCAUC

CCG

ACUUACCA A CC

CGAUGCAAACUGCGA

A U ACCGGAGA A

UGUUA U C

ACGGGA

GACACACGGCGGGUGC

UAACGU C CGU CGUG

AAGAGGGA

AAC AA

CCCA

GACCGCCAGCUAAGGUCC

CAA AGU

CAUGGUUA

AGUGGGAAACGAUGUGGGAAGGCCC

AGACA G

CCAGG

AUGUUGGCUUA

GAAGCA

GC C A U C A UUU A AAG A

A AGCGUA

AUAGCUC

A

CUGGUCGA

GUCGGCCUGCGCGGA AGA

UGUAACGGGGCUAA

ACCAUGC

ACCGAA

GCUGCGGC

AGCGACGCUUA

UGCGUUGUUG

G

G

U

A

GGGGAGC

GUUCUGUAAGCCUG

CGAA G

GUGUGCUGUGAGGCAUGCUGGA

GGUAUCAGAAGUGC

GAAUGCUGAC

A

U

A

A

G

U

A

ACGAUA

AAGCGGGUGAA

AAGC

CCGCUCGCCGGAAGACCAAG

GGUUCCUGUCC AACGUUAAU

CGG

GG

CAGGGUGAG

UCGA

CCC

C UAAG

GCGAGGCCGAAA

GG

CGUAGUCG

AU GGG

AAACAGG

UUAAUAUUCCUGUA

CUUGGUGUUACU

GCGAAGGGG

GGACGGAG

AAGGC

UAUGUUGGCCGGGCGACG

GUUGUC

CCGGUUUAA

GCGUG

UAGGCU

GGUUUUCCAGGC

AAAU

CCGGAAAAUC AAGGCU GA

GGCGUGAUGA C GA

GGC A CUACGGUGCU

GAAGC

AACA AAUG

CC CUGC

UUCC AG

GAAAAGC

CUCUA

AGCAUCAG

GUAACAUCAAA

UCGU

ACCCCAA A C

CGAC

ACAG

GUGGUC

AGGUAGAGA

AUACCAAGGCG C

U UGAGA

GAA CUCGGGUGAAGGAACUAGGCAAAA

UGGUGCCGUAA

CUUC

GGG

AG AAGGCACGCUGAUA

UG UAGG

UGAA GCGACUUG

CUCGUGGAGC

UGAA

AUCAGUCGA

AG AU A C C AGC

UGGCUGCAA

CUGUUUAU

UAAA A A C A

CAGCACUGUGCA

AACACGAAAGUGGACG UAUA

CGGUGUG

ACGC C

UGCCC

G GU

GCCGGA

A GGUU

AAUUGAUG

GGGU

UAGCGCAAGC GAAG

CUC UU

GAUCGAAG

CC

CCGGU AAA

C

GGC G

GCCGUAA CU

AUAA

CGGUCC

UA A GGU A

GCGAAAA

UUCCUUGUCGGGUAAGU

UCCGACCUGCA

CGAAUGGCGU

AAUGAUGGCCAGGCUGUCUCCACCCGAGACUCA

GUGAAAUUGAACUC

GCUGUGAAGA

UGCAGUG U AC

CCGCGGCAAGACG

G

A

A

A

G

A

CCCCGUGA

ACCUUUACUAU

AGCUUGACACUGAACAUUGAGCCUUGAUGU

GUAGGA

UAGGUGGGAGGCUU

AGAA G

UGUGGACGCC

AGUCUGCAUGGA

GCCG

ACCUUGA

AAUACCACCCUUUAAUGUUUGAUGUUCU

A ACGUUG

ACCCGUAA

UCC

GGGUUGCGGACAG

UGUCUGGU

GGG

UAGUU U G

ACUGGGGCGGUC U

CCUCCUAAAGA

GUAACG

GAGGAG

C

AC

G

A

AGGUUGGCU AAUCCUGGUCGGA

CAUCAGGA GGUU

A

GUGCAA

UGGCAUAAG

CC

AG

CUUGAC UGC

GAGCGUGA

CGGCGCGA

GCAGGUGCGAAA

GCA

GG

UCAUAGUGAUCCG

GUGGUUCUGA

AUGGA

AG

GGC

CAUCGCUCA

ACGGAUAA

AAGGU ACU

CCGGGG A U A A C A G

GCUG A U ACCGC CC A A

GAGUU

CAUAUCGAC

GGCGGUGUUU

GGCACCUCGAUGUCGGC U

CAUCACA U

CCUGGGGCUGA AG

UAG

GUCC

CCAAGG

GUAUGCUGUUC

GCC

AUUU

AAAG

UGGU

ACG

CGAG

CUGGGUUUAG

AACGUCGUG

AGACAGUUCG

GUCCC

UAU

CUG

CC

GU

GG

G

C

G

C

U

GG AGA A C UG A

GGGGGGCUGCUCCU

AGUACG

AGAGGACCG

GAGUGGACGCAU

CACU

GGUGUUCGGGU UG

UCAUGC

CAAUGCACU

GCCCGGU

AGCUAAAUGCGG

AAGAGA

UAAG

UGCUGAAA

GCAUCUAAGCACG

AAA CUUGCCCC

GAGAU

GAGUUCUCC

C

U

G A C C CUUUAAGGGUC

C

U

G

A

A

GGAA CGUUGAAGAC

GACGACGUU

GAU A GGCCGG

G UGUGU A

AGCGC AGC

GAUGCGUUGA

GCUAA

CCGGUACUAAUGAA

CC

G

U

G

A

G

GCUUAACCUUo

A1

B1

B2B3

B4B5

B6

B7

B8

B9

B10

B11

B12

B13

B14

B15

B16B17

B18

B19B20

B21

C1

D1

D2

D3

D4D5

D6

D7

D8

D9

D10

D11

D12D13

D14

D15

D16

D17

D18 D19

D20

D21

D22

E1

E2

E3

E4E5

E6

E7

E8

E9

E10

E11

E12

E13

E14

E15

E16E17

E18

E19

E20E21

E22

E23

E24

E25

E26

E27

E28

F1

G1

G2

G3

G4

G5

G6G7

G8

G9

G10

G11

G12

G13

G14

G15

G16

G17

G18

G19

G20

H1H2

H3

H4

H1_1

I1

I2

I3

Escherichia coli D U18997

Dutheil et al 2005 Mol Biol Evol

Sur >2.106 paires testées, 182 sont detectées,parmi lesquelles 162 sont des paires structurales,soit 85% des paires structurales détectables.

Les paires structurales non-detectées sont souvent E.coli-spécifiques.

80% des 20 paires non-structurales détectées correspondent à des interactions 3D.

Application à l'ARN ribosomique bactérien

Page 24: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

1 23

4 5

stationnaire,homogène

Un modèle non-homogène et non-stationnaire

1 2 34 5

non-stationaire,non-homogène

1

2

4

7

3

5 86

Page 25: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

actual MP NHML

18%10%22%14%14%

low GCanc(10-25%)

high eqGC(90%)

mediumsequence GC

(~40%)

Estimation du GC% ancestral (simulations)

actual MP NHML

18% 32%10% 27%22% 40%14% 30%14% 28%

actual MP NHML

18% 32% 19%10% 27% 11%22% 40% 21%14% 30% 16%14% 28% 15%

Page 26: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

0

40

80

0

40

80

50 60 70

SSU

LSU

Topt

Topt

rRNA G+C-content

Température optimale de croissance et GC% de l'ARNr chez les procaryotes

Page 27: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Giardia 70.4%Entamoeba 43.7%

Desulfurococcus 64.2%Thermoproteus 63.5%

M.jannashi 62.3%M.vannieli 57.7%

Halococcus 58.9%Halobacterium 58.7%

Thermus 61.3%Thermotoga 60.9%

Euglena 51.7%

FUNGI 48.6%

PLANTA 50.4%

METAZOA 52.4%

EUCARYA

CRENARCHAE

EURYARCHAE

BACTERIA

LOW GC GRAM+ 54.2%

PROTEOBACTERIA 54.1%

HIGH GC GRAM+ 57.0%

CHLOROPLASTS 52.5%

La phylogénie universelle vue par l'ARNr

56.1%estimated

ancestral GC% :

Page 28: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

0

40

80

0

40

80

50 60 70

SSU

LSU

Topt

Topt

rRNA G+C-content

Un ancêtre non-hyperthermophile ?

Page 29: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

Giardia 70.4%Entamoeba 43.7%

Desulfurococcus 64.2%Thermoproteus 63.5%

M.jannashi 62.3%M.vannieli 57.7%

Halococcus 58.9%Halobacterium 58.7%

Thermus 61.3%Thermotoga 60.9%

Euglena 51.7%

FUNGI 48.6%PLANTA 50.4%

METAZOA 52.4%

EUCARYA

CRENARCHAE

EURYARCHAE

BACTERIA

LOW GC GRAM+ 54.2%

PROTEOBACTERIA 54.1%

HIGH GC GRAM+ 57.0%

CHLOROPLASTS 52.5%

56.1%

57.3%

Eukaryote 1 70.9%Eukaryote 2 70.9%Crenarchae 1 65.4%Crenarchae 2 65.1%Euryarchae 1 65.2%Euryarchae 2 65.0%Bacteria 1 63.2%Bacteria 2 62.3%

Contrôle: l'échantillonnage d'espèces

Page 30: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,

0

40

80

0

40

80

50 60 70

SSU

LSU

Topt

Topt

rRNA G+C-content

Un ancêtre non-hyperthermophile ?

Galtier et al 1999 Science 283:220

Page 31: Modélisation markovienne et phylogénie moléculaire: reconstruction de l'histoire d'un gène N. Galtier CNRS UMR 5171 – "Génome, Populations, Interactions,