Utilisation de la phylogénie pour reconstruire l'histoire

Preview:

Citation preview

Utilisation de la phylogenie pour reconstruirel’histoire evolutive des proteines:

resurrection de genes et detection de lacoevolution

Julien Dutheil1

<Julien.Dutheil@univ-montp2.fr>

1Institut des Sciences de l’Evolution (ISE-M),UMR CNRS 5556, Universite Montpellier 2, France

http://kimura.univ-montp2.fr/∼jdutheil/Cours/

22 Mars 2007

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 1 / 39

Introduction

... sequences ancestrales?

Bio-sequence (ADN, ARN, codon, proteine) putative d’unorganisme aujourd’hui eteint.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 2 / 39

Introduction

... sequences ancestrales?

Bio-sequence (ADN, ARN, codon, proteine) putative d’unorganisme aujourd’hui eteint.

... reconstruction?A l’exception de quelques cas particuliers(ADN ancien), lessequences ancestrales ne sont pas observees et doivent etreinferees a partir des sequences contemporaines de leursdescendants.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 2 / 39

Introduction

... sequences ancestrales?

Bio-sequence (ADN, ARN, codon, proteine) putative d’unorganisme aujourd’hui eteint.

... reconstruction?A l’exception de quelques cas particuliers(ADN ancien), lessequences ancestrales ne sont pas observees et doivent etreinferees a partir des sequences contemporaines de leursdescendants.

... quel interet?Assez proche de celui de l’etude des fossiles: permet d’obtenirune image du passe afin de mieux comprendre le present.

En pratique, on ne dispose pas toujours d’ADN fossile, surtoutlorsqu’on s’interesse aux periodes tres anciennes.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 2 / 39

Plan de la presentation

1 Reconstruction des sequences ancestrales

2 Applications: resurrection de genes

3 Cartographie de substitutions

4 Application: detection de la coevolution au niveau moleculaire

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 3 / 39

Reconstruction des sequences ancestrales

Princippe

Parcimonie: calcule du scoreet des etats ancestrauxsimultanement (algorithme deFitch)

A

A

A

G

G

G

G

A

G

G

G

G

G

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 4 / 39

Reconstruction des sequences ancestrales

Princippe

Parcimonie: calcule du scoreet des etats ancestrauxsimultanement (algorithme deFitch)

Mais plusieurs reconstructionsavec le meme score

A

A

A

G

G

G

G

A

G

G

A

A

G

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 4 / 39

Reconstruction des sequences ancestrales

Princippe

Parcimonie: calcule du scoreet des etats ancestrauxsimultanement (algorithme deFitch)

Mais plusieurs reconstructionsavec le meme score

Les approches probabilistespermettent d’evaluer laprobabilite de chaque scenario

A

A

A

G

G

G

G

A

G

G

A

A

G

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 4 / 39

Reconstruction des sequences ancestrales

Modeles, parametres, variables aleatoires etvraisemblance

Parametres: arbre (topologie + longueurs de branches), matricede substitutions (Q),. . .

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 5 / 39

Reconstruction des sequences ancestrales

Modeles, parametres, variables aleatoires etvraisemblance

Parametres: arbre (topologie + longueurs de branches), matricede substitutions (Q),. . .Variables aleatoires: etats ancestraux, distribution des vitessesd’evolution,. . .

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 5 / 39

Reconstruction des sequences ancestrales

Modeles, parametres, variables aleatoires etvraisemblance

Parametres: arbre (topologie + longueurs de branches), matricede substitutions (Q),. . .Variables aleatoires: etats ancestraux, distribution des vitessesd’evolution,. . .Recurrence de FELSENSTEIN:

Li(Tn, xn) =

1 if Tn est une feuille avec l’etat xn au site i,0 if Tn est une feuille avec l’etat 6= xn au site i,(∑

xn1

pxn,xn1 (tn1) × Li(Tn1, xn1)

)

×

(∑

xn2

pxn,xn2 (tn2) × Li(Tn2, xn2)

) autrement.

n1 et n2 sont les descendants du noeud n.Tous les pxn,xn1 et pxn,xn2 sont donnes par eQ×t .

Tn, xn

Tn1, xn1

Tn2, xn2

tn1

tn2

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 5 / 39

Reconstruction des sequences ancestrales

Estimation et reconstruction

Estimation des parametres: maximum de vraisemblance

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 6 / 39

Reconstruction des sequences ancestrales

Estimation et reconstruction

Estimation des parametres: maximum de vraisemblance

Reconstruction des variables aleatoires non-observees: approchebayesienne

Pr(X |D,Θ) = Pr(D, X |Θ)/Pr(D|Θ)

[X=variable, D= donnees, Θ=parametres]

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 6 / 39

Reconstruction des sequences ancestrales

Estimation et reconstruction

Estimation des parametres: maximum de vraisemblance

Reconstruction des variables aleatoires non-observees: approchebayesienne

Pr(X |D,Θ) = Pr(D, X |Θ)/Pr(D|Θ)

[X=variable, D= donnees, Θ=parametres]Dans cette equation Θ est considere connu, ce qui n’est pas lecas. Deux approches sont utilisees:

◮ Utiliser une distribution a priori de Θ (full bayesian = bayesienhierarchique)

◮ Utiliser une distribution ”degeneree”, telle Θ = Θ, l’estimateur MLde Θ (bayesien empirique)

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 6 / 39

Reconstruction des sequences ancestrales

Estimation et reconstruction

Estimation des parametres: maximum de vraisemblance

Reconstruction des variables aleatoires non-observees: approchebayesienne

Pr(X |D,Θ) = Pr(D, X |Θ)/Pr(D|Θ)

[X=variable, D= donnees, Θ=parametres]Dans cette equation Θ est considere connu, ce qui n’est pas lecas. Deux approches sont utilisees:

◮ Utiliser une distribution a priori de Θ (full bayesian = bayesienhierarchique)

◮ Utiliser une distribution ”degeneree”, telle Θ = Θ, l’estimateur MLde Θ (bayesien empirique)

Le terme ”bayesien empirique” a ete initialement introduit parZIHENG YANG pour le probleme de la reconstruction de sequenceancestrales [Yang et al., 1995].

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 6 / 39

Reconstruction des sequences ancestrales

La reconstruction marginale (YANG)

V

A

V

D

D

E

V

x? Etat d’un noeud particulier (x)

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 7 / 39

Reconstruction des sequences ancestrales

La reconstruction marginale (YANG)

V

A

V

D

D

E

V

x? Etat d’un noeud particulier (x)

La probabilite de chaque etat au site iest donnee par:

Pr(Xi = x |D,Θ) =Pr(x , D|Θ)

Pr(D|Θ)

=Li ,x

Li

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 7 / 39

Reconstruction des sequences ancestrales

La reconstruction marginale (YANG)

V

A

V

D

D

E

V

x? Etat d’un noeud particulier (x)

La probabilite de chaque etat au site iest donnee par:

Pr(Xi = x |D,Θ) =Pr(x , D|Θ)

Pr(D|Θ)

=Li ,x

Li

On retient l’etat avec la probabilitemaximale.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 7 / 39

Reconstruction des sequences ancestrales

La reconstruction jointe (YANG)

V

A

V

D

D

E

V

x2?x3?

x6?

x4?

x5?

x1?

Etats de tous les noeuds ({x1 . . . xn})

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 8 / 39

Reconstruction des sequences ancestrales

La reconstruction jointe (YANG)

V

A

V

D

D

E

V

x2?x3?

x6?

x4?

x5?

x1?

Etats de tous les noeuds ({x1 . . . xn})

La probabilite d’un scenario au site iest donnee par:

Pr(X 1i = x1, . . . , X n

i = xn|D,Θ)

=Pr(x1, . . . , xn, D|Θ)

Pr(D|Θ)

=Li ,x1,...,xn

Li

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 8 / 39

Reconstruction des sequences ancestrales

La reconstruction jointe (YANG)

V

A

V

D

D

E

V

x2?x3?

x6?

x4?

x5?

x1?

Etats de tous les noeuds ({x1 . . . xn})

La probabilite d’un scenario au site iest donnee par:

Pr(X 1i = x1, . . . , X n

i = xn|D,Θ)

=Pr(x1, . . . , xn, D|Θ)

Pr(D|Θ)

=Li ,x1,...,xn

Li

On retient le scenario ayant laprobabilite maximale

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 8 / 39

Reconstruction des sequences ancestrales

La reconstruction jointe (YANG)

V

A

V

D

D

E

V

x2?x3?

x6?

x4?

x5?

x1?

Etats de tous les noeuds ({x1 . . . xn})

La probabilite d’un scenario au site iest donnee par:

Pr(X 1i = x1, . . . , X n

i = xn|D,Θ)

=Pr(x1, . . . , xn, D|Θ)

Pr(D|Θ)

=Li ,x1,...,xn

Li

On retient le scenario ayant laprobabilite maximale

Probleme du nombre de scenarios!

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 8 / 39

Reconstruction des sequences ancestrales

En pratique. . .

Le logiciel PAML (Phylogenetic Analysis using MaximumLikelihood) de YANG permet de reconstruire les sequencesancestrales selon les methodes marginales et jointes

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 9 / 39

Reconstruction des sequences ancestrales

En pratique. . .

Le logiciel PAML (Phylogenetic Analysis using MaximumLikelihood) de YANG permet de reconstruire les sequencesancestrales selon les methodes marginales et jointes

TAL PUPKO a propose un algorithme permettant d’effectuer lesreconstructions jointes rapidement, implemente dans leprogramme FastML [Pupko et al., 2000]

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 9 / 39

Reconstruction des sequences ancestrales

En pratique. . .

Le logiciel PAML (Phylogenetic Analysis using MaximumLikelihood) de YANG permet de reconstruire les sequencesancestrales selon les methodes marginales et jointes

TAL PUPKO a propose un algorithme permettant d’effectuer lesreconstructions jointes rapidement, implemente dans leprogramme FastML [Pupko et al., 2000]

FastML implemente egalement un algorithme heuristique poureffectuer des reconstructions jointes avec une distributionnon-uniforme des taux d’evolution (loi Γ)

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 9 / 39

Reconstruction des sequences ancestrales

Quelques remarques

L’union des reconstructions marginales n’est pas egale a lareconstruction jointe. Les deux ont d’autant plus de chances dedifferer que l’arbre contient des longues branches.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 10 / 39

Reconstruction des sequences ancestrales

Quelques remarques

L’union des reconstructions marginales n’est pas egale a lareconstruction jointe. Les deux ont d’autant plus de chances dedifferer que l’arbre contient des longues branches.

La reconstruction depend du modele et des parametres, incluantbien sur la phylogenie. Il est donc souvent utile de comparer lesreconstructions selon differents modeles.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 10 / 39

Reconstruction des sequences ancestrales

Quelques remarques

L’union des reconstructions marginales n’est pas egale a lareconstruction jointe. Les deux ont d’autant plus de chances dedifferer que l’arbre contient des longues branches.

La reconstruction depend du modele et des parametres, incluantbien sur la phylogenie. Il est donc souvent utile de comparer lesreconstructions selon differents modeles.La reconstruction est incertaine! On peut:

◮ verifier l’ecart entre les probabilites maximales et les suivantes,◮ echantillonner plusieurs sequences parmi les probabilites

posterieures (plus satisfaisant, mais souvent plus couteux!)

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 10 / 39

Applications: resurrection de genes

1 Reconstruction des sequences ancestrales

2 Applications: resurrection de genes

3 Cartographie de substitutions

4 Application: detection de la coevolution au niveau moleculaire

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 11 / 39

Applications: resurrection de genes

Principe

Reconstruire une ouplusieurs sequencesancestrales in silico

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 12 / 39

Applications: resurrection de genes

Principe

Reconstruire une ouplusieurs sequencesancestrales in silico

Synthetiser la proteinecorrespondante

ATTAGCATCGATACTGCGTTGCGTGCCAAC

Synthese

Amplification (PCR)

Clonage dans vecteur

Expression dans une cellule

Purification de la proteine

Analyse

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 12 / 39

Applications: resurrection de genes

Principe

Reconstruire une ouplusieurs sequencesancestrales in silico

Synthetiser la proteinecorrespondante

Etudier lescaracteristiques de laproteine ancestrale

ATTAGCATCGATACTGCGTTGCGTGCCAAC

Synthese

Amplification (PCR)

Clonage dans vecteur

Expression dans une cellule

Purification de la proteine

Analyse

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 12 / 39

Applications: resurrection de genes

Principe

Reconstruire une ouplusieurs sequencesancestrales in silico

Synthetiser la proteinecorrespondante

Etudier lescaracteristiques de laproteine ancestrale

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 12 / 39

Applications: resurrection de genes

Les dinosaures voyaient-ils rouge?[Chang et al., 2002]

Pigments visuels: rhodopsine, impliquee dans la vision a faiblelumiere

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 13 / 39

Applications: resurrection de genes

Les dinosaures voyaient-ils rouge?[Chang et al., 2002]

Pigments visuels: rhodopsine, impliquee dans la vision a faiblelumiereRhodopsine desarchosaures: ontdonne les dinosaures,peu de connaissancessur leur physiologie

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 13 / 39

Applications: resurrection de genes

Les dinosaures voyaient-ils rouge?[Chang et al., 2002]

Pigments visuels: rhodopsine, impliquee dans la vision a faiblelumiereRhodopsine desarchosaures: ontdonne les dinosaures,peu de connaissancessur leur physiologie

Fonctionnel, absorbe a508nm, ce qui est plus”rouge” que tous lesvertebres actuels(connus)

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 13 / 39

Applications: resurrection de genes

Les dinosaures voyaient-ils rouge?[Chang et al., 2002]

Pigments visuels: rhodopsine, impliquee dans la vision a faiblelumiereRhodopsine desarchosaures: ontdonne les dinosaures,peu de connaissancessur leur physiologie

Fonctionnel, absorbe a508nm, ce qui est plus”rouge” que tous lesvertebres actuels(connus)

Consistant avecl’hypothese d’unancetre nocturne

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 13 / 39

Applications: resurrection de genes

La couleur des coraux [Ugalde et al., 2004]

Trois types de couleur: bleu, vert et rouge

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 14 / 39

Applications: resurrection de genes

La couleur des coraux [Ugalde et al., 2004]

Trois types de couleur: bleu, vert et rouge

Convergences, mais quel etait l’etatancestral?

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 14 / 39

Applications: resurrection de genes

La couleur des coraux [Ugalde et al., 2004]

Trois types de couleur: bleu, vert et rouge

Convergences, mais quel etait l’etatancestral?

Reconstruction in silico, avec modelesnucleotides, codons et acides amines(bon consensus)

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 14 / 39

Applications: resurrection de genes

La couleur des coraux [Ugalde et al., 2004]

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 14 / 39

Applications: resurrection de genes

Le lysozyme des galliformes [Malcolm et al., 1990]

Premiere reconstructioneffectuee

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 15 / 39

Applications: resurrection de genes

Le lysozyme des galliformes [Malcolm et al., 1990]

Premiere reconstructioneffectuee

Triplet de sites d’interet

Faisant THR ILE SERFaisant vert THR ILE SER

Caille SER VAL THRCaille de Californie SER VAL THR

Pintade SER VAL THRPoulet THR ILE SER

Caille Japonaise THR ILE SERDinde THR ILE SER

Tragopan THR ILE SERTragopan de Temminck THR ILE SER

Faisant de l’Himalaya THR ILE SERPaon THR ILE SER

Faisant de Reeve THR ILE SERFaisant de Lady Amherst THR ILE SER

Faisant cuivre THR ILE SERFaisant a huppe blanche THR ILE SER

Hocco a face nue THR ILE SEROrtalide chacamel THR ILE SER

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 15 / 39

Applications: resurrection de genes

Le lysozyme des galliformes [Malcolm et al., 1990]

Premiere reconstructioneffectuee

Triplet de sites d’interet

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 15 / 39

Applications: resurrection de genes

Le lysozyme des galliformes [Malcolm et al., 1990]

Premiere reconstructioneffectuee

Triplet de sites d’interet

Ont utilise la mutagenesedirigee pour reconstruire lesdifferentes combinaisonsd’etats

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 15 / 39

Applications: resurrection de genes

Le lysozyme des galliformes [Malcolm et al., 1990]

Premiere reconstructioneffectuee

Triplet de sites d’interet

Ont utilise la mutagenesedirigee pour reconstruire lesdifferentes combinaisonsd’etats

Synthese, etude biochimiqueet cristallisation des variantsobtenus

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 15 / 39

Applications: resurrection de genes

Resultats

Toutes les proteinesancestrales potentielles sontstables et actives

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 16 / 39

Applications: resurrection de genes

Resultats

Toutes les proteinesancestrales potentielles sontstables et actives

Relation volume total / stabilite

140 160 180 200

6870

7274

7678

80

Volume des chaînes latérales

The

rmos

tabi

lité

TIS

SIS

TVS

TIT

SVS

SIT

TVT

SVT

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 16 / 39

Applications: resurrection de genes

Resultats

Toutes les proteinesancestrales potentielles sontstables et actives

Relation volume total / stabilite

Neanmoins certainesconfigurations ancestralessont plus stables que lesobservees!

7072

7476

7880

tm

TIS

SIS

SVS

SVT

7072

7476

7880

tm

TIS

TIT

TVT

SVT

7072

7476

7880

tmTIS

TVS

TVT

SVT

7072

7476

7880

tm

TIS

SIS

SIT

SVT

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 16 / 39

Cartographie de substitutions

1 Reconstruction des sequences ancestrales

2 Applications: resurrection de genes

3 Cartographie de substitutions

4 Application: detection de la coevolution au niveau moleculaire

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 17 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Approche simple:

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

Di

vi =

vi,0...

vi,k...

vi,m

k

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Approche simple:

1 Reconstruire les etats ancestraux,

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

Di

vi =

vi,0...

vi,k...

vi,m

k

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

AAGUC

CG

AG

C

C

C

G

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Approche simple:

1 Reconstruire les etats ancestraux,

2 Puis cartographier tous leschangements [Tuffery and Darlu, 2000].

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

Di

vi =

vi,0...

vi,k...

vi,m

k

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

AAGUC

CG

AG

C

C

C

G

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Approche simple:

1 Reconstruire les etats ancestraux,

2 Puis cartographier tous leschangements [Tuffery and Darlu, 2000].

Mais. . .

La reconstruction des etats ancestraux est incertaine,

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

Di

vi =

vi,0...

vi,k...

vi,m

k

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

AAGUC

CG

AG

C

C

C

G

A

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Localiser les evenements de substitution

Approche simple:

1 Reconstruire les etats ancestraux,

2 Puis cartographier tous leschangements [Tuffery and Darlu, 2000].

Mais. . .

La reconstruction des etats ancestraux est incertaine,

Possibilite de substitutions multiples!

Taxon 1Taxon 2Taxon 3Taxon 4Taxon 5Taxon 6Taxon 7

GGGGGGU

GUUCGUC

Di

vi =

vi,0...

vi,k...

vi,m

k

AAGUCCG

UUUGG-

C

CCGGGGG

A--

UUAA

CCCAAAA

UU

UA

---

CCCCCCC

AAGUC

CG

AG

C

C

C

G

A

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 18 / 39

Cartographie de substitutions

Cartographie de substitutions probabiliste[Dutheil et al., 2005]

Nombre de substitutions site-specifique etbranche-specifique

vi,k =∑

xi,p

xi,q

Pr(xi,p, xi,q|Di , Θ) × wxi,p,xi,q (tk )

tkxi ,q

xi ,p

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 19 / 39

Cartographie de substitutions

Cartographie de substitutions probabiliste[Dutheil et al., 2005]

Nombre de substitutions site-specifique etbranche-specifique

vi,k =∑

xi,p

xi,q

Pr(xi,p, xi,q|Di , Θ)︸ ︷︷ ︸

1

× wxi,p ,xi,q (tk )

tkxi ,q

xi ,p

1 Probabilite jointe pour les deux etats:

Pr(xi ,p, xi ,q|Di ,Θ) =Pr(xi ,p, xi ,q, Di |Θ)

Pr(Di |Θ)=

Li(xi ,p, xi ,q)

Li

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 19 / 39

Cartographie de substitutions

Cartographie de substitutions probabiliste[Dutheil et al., 2005]

Nombre de substitutions site-specifique etbranche-specifique

vi,k =∑

xi,p

xi,q

Pr(xi,p, xi,q|Di , Θ)︸ ︷︷ ︸

1

× wxi,p,xi,q (tk )︸ ︷︷ ︸

2 tkxi ,q

xi ,p

1 Probabilite jointe pour les deux etats:2 wxi,p,xi,q (tk ) est le nombre moyen de changements le long d’une

branche de longueur tk sachant l’etat initial x et l’etat final y .

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 19 / 39

Cartographie de substitutions

Cartographie de substitutions probabiliste[Dutheil et al., 2005]

Nombre de substitutions site-specifique etbranche-specifique

vi,k =∑

xi,p

xi,q

Pr(xi,p, xi,q|Di , Θ)︸ ︷︷ ︸

1

× wxi,p,xi,q (tk )︸ ︷︷ ︸

2 tkxi ,q

xi ,p

1 Probabilite jointe pour les deux etats:2 wxi,p,xi,q (tk ) est le nombre moyen de changements le long d’une

branche de longueur tk sachant l’etat initial x et l’etat final y .◮ L’expression de ce nombre requiert l’utilisation des transformes de

LAPLACE

wxi,p ,xi,q (t) =mxi,p ,xi,q (t)

pxi,p ,xi,q (t), M(t) =

∞∑

n=1

tn

n!

n−1∑

p=0

Qp(Q + Λ)Qn−p−1

avec M(t) = {mx,y (t)}, Q = {qx,y}, P(t) = exp(Qt), Λ = diag({qx,x}).

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 19 / 39

Cartographie de substitutions

Cartographie de substitutions probabiliste[Dutheil et al., 2005]

Nombre de substitutions site-specifique etbranche-specifique

vi,k =∑

xi,p

xi,q

Pr(xi,p, xi,q|Di , Θ)︸ ︷︷ ︸

1

× wxi,p,xi,q (tk )︸ ︷︷ ︸

2 tkxi ,q

xi ,p

1 Probabilite jointe pour les deux etats:2 wxi,p,xi,q (tk ) est le nombre moyen de changements le long d’une

branche de longueur tk sachant l’etat initial x et l’etat final y .◮ L’expression de ce nombre requiert l’utilisation des transformes de

LAPLACE◮ Une approximation est egalement possible...

{

1 if xi,p 6= xi,q

0 if xi,p = xi,q

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 19 / 39

Cartographie de substitutions

Cartographie de substitutions probabiliste[Dutheil et al., 2005]

Nombre de substitutions site-specifique etbranche-specifique

vi,k =∑

xi,p

xi,q

Pr(xi,p, xi,q|Di , Θ)︸ ︷︷ ︸

1

× wxi,p,xi,q (tk )︸ ︷︷ ︸

2 tkxi ,q

xi ,p

1 Probabilite jointe pour les deux etats:2 wxi,p,xi,q (tk ) est le nombre moyen de changements le long d’une

branche de longueur tk sachant l’etat initial x et l’etat final y .◮ L’expression de ce nombre requiert l’utilisation des transformes de

LAPLACE◮ Une approximation est egalement possible...◮ De meme qu’une generalisation afin de ponderer les changements

en fonction des proprietes physico-chimiques des residus(proteines).

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 19 / 39

Cartographie de substitutions

La cartographie de substitution stochastique[Nielsen, 2002]

Soit M une carte de substitution et Ψ l’ensemble de toutes lescartes possibles,

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 20 / 39

Cartographie de substitutions

La cartographie de substitution stochastique[Nielsen, 2002]

Soit M une carte de substitution et Ψ l’ensemble de toutes lescartes possibles,Soit φ(D, M) une statistique d’interet,

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 20 / 39

Cartographie de substitutions

La cartographie de substitution stochastique[Nielsen, 2002]

Soit M une carte de substitution et Ψ l’ensemble de toutes lescartes possibles,Soit φ(D, M) une statistique d’interet,On peut evaluer l’esperance conditionnelle de φ:

E(φ(D, M)|D) =∑

M∈Ψ

φ(M, D) × Pr(M|D).

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 20 / 39

Cartographie de substitutions

La cartographie de substitution stochastique[Nielsen, 2002]

Soit M une carte de substitution et Ψ l’ensemble de toutes lescartes possibles,Soit φ(D, M) une statistique d’interet,On peut evaluer l’esperance conditionnelle de φ:

E(φ(D, M)|D) =∑

M∈Ψ

φ(M, D) × Pr(M|D).

Ψ est un ensemble infini, on utilise donc une procedured’echantillonage:

E(φ(D, M)|D) ≈1N

N∑

i=1

φ(M∗

i , D).

RASMUS NIELSEN (2002) a propose une maniere d’echantillonnerM en fonction des probabilites posterieures.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 20 / 39

Cartographie de substitutions

La cartographie de substitution stochastique[Nielsen, 2002]

Soit M une carte de substitution et Ψ l’ensemble de toutes lescartes possibles,Soit φ(D, M) une statistique d’interet,On peut evaluer l’esperance conditionnelle de φ:

E(φ(D, M)|D) =∑

M∈Ψ

φ(M, D) × Pr(M|D).

Ψ est un ensemble infini, on utilise donc une procedured’echantillonage:

E(φ(D, M)|D) ≈1N

N∑

i=1

φ(M∗

i , D).

RASMUS NIELSEN (2002) a propose une maniere d’echantillonnerM en fonction des probabilites posterieures.La cartographie probabiliste est une solution analytique pour descas particuliers de φ.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 20 / 39

Application: detection de la coevolution au niveau moleculaire

1 Reconstruction des sequences ancestrales

2 Applications: resurrection de genes

3 Cartographie de substitutions

4 Application: detection de la coevolution au niveau moleculaire

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 21 / 39

Application: detection de la coevolution au niveau moleculaire

Niveaux d’organisation et evolution

Le vivant est organise en unensemble de systemes hierarchique:

6 BiosphereBiomeEcosystemeReseau trophiqueEspecePopulationIndividuOrganeTissuCelluleOrganiteMacromoleculeGene

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 22 / 39

Application: detection de la coevolution au niveau moleculaire

Niveaux d’organisation et evolution

Le vivant est organise en unensemble de systemes hierarchique:

Tous les systemes d’un niveau donnesont en interaction et n’evoluent doncpas de maniere independante

6 BiosphereBiomeEcosystemeReseau trophiqueEspecePopulationIndividuOrganeTissuCelluleOrganiteMacromoleculeGene

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 22 / 39

Application: detection de la coevolution au niveau moleculaire

Niveaux d’organisation et evolution

Le vivant est organise en unensemble de systemes hierarchique:

Tous les systemes d’un niveau donnesont en interaction et n’evoluent doncpas de maniere independante

On appelle coevolution une telleevolution non-independante.

6 BiosphereBiomeEcosystemeReseau trophiqueEspecePopulationIndividuOrganeTissuCelluleOrganiteMacromoleculeGene

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 22 / 39

Application: detection de la coevolution au niveau moleculaire

Niveaux d’organisation et evolution

Le vivant est organise en unensemble de systemes hierarchique:

Tous les systemes d’un niveau donnesont en interaction et n’evoluent doncpas de maniere independante

On appelle coevolution une telleevolution non-independante.

Niveau specifiqueLes especes s’adaptent en permanence(Theorie de la reine rouge de Van Valen).

6 BiosphereBiomeEcosystemeReseau trophiqueEspecePopulationIndividuOrganeTissuCelluleOrganiteMacromoleculeGene

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 22 / 39

Application: detection de la coevolution au niveau moleculaire

Pourquoi les (macro)molecules n’evoluent pas demaniere independante?

Mutations compensatoires

ARN: Paires WATSON-CRICK ausein des tiges. Une mutationG → A peut etre compensee parune mutation C → U sur le brinoppose

1

2

CGUGCA

CAUGCA

CAUGUA

o

GCGGAUUU

AGCUC

AGDDGGG A

G A G C

G

CCAGA

CUG A A

YA

PCUGGA

GGUC

C U G U GT PC

GAUC

CACAGAAUUCGCACCAo

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 23 / 39

Application: detection de la coevolution au niveau moleculaire

Pourquoi les (macro)molecules n’evoluent pas demaniere independante?

Mutations compensatoires

ARN: Paires WATSON-CRICK ausein des tiges. Une mutationG → A peut etre compensee parune mutation C → U sur le brinoppose

Proteines: residus en interaction.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 23 / 39

Application: detection de la coevolution au niveau moleculaire

Pourquoi les (macro)molecules n’evoluent pas demaniere independante?

Mutations compensatoires

ARN: Paires WATSON-CRICK ausein des tiges. Une mutationG → A peut etre compensee parune mutation C → U sur le brinoppose

Proteines: residus en interaction.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 23 / 39

Application: detection de la coevolution au niveau moleculaire

Pourquoi les (macro)molecules n’evoluent pas demaniere independante?

Mutations compensatoires

ARN: Paires WATSON-CRICK ausein des tiges. Une mutationG → A peut etre compensee parune mutation C → U sur le brinoppose

Proteines: residus en interaction.Une mutation “petit→gros” peutetre compensee par une mutation“gros→petit” dans son voisinage

1

2

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 23 / 39

Application: detection de la coevolution au niveau moleculaire

Definition d’une statistique

Definition (Coevolution)Deux (ou plusieurs) sites coevoluent s’ils tendent a avoir dessubstitutions dans les memes branches. On parle alors decosubstitutions [Tuffery and Darlu, 2000].

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 24 / 39

Application: detection de la coevolution au niveau moleculaire

Definition d’une statistique

Definition (Coevolution)Deux (ou plusieurs) sites coevoluent s’ils tendent a avoir dessubstitutions dans les memes branches. On parle alors decosubstitutions [Tuffery and Darlu, 2000].

Il faut evaluer le degre de coevolution de deux sites. La statistiquela plus simple consiste a prendre le coefficient de correlation desvecteurs de substitutions (mapping) des sites (note ρ).

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 24 / 39

Application: detection de la coevolution au niveau moleculaire

Definition d’une statistique

Definition (Coevolution)Deux (ou plusieurs) sites coevoluent s’ils tendent a avoir dessubstitutions dans les memes branches. On parle alors decosubstitutions [Tuffery and Darlu, 2000].

Il faut evaluer le degre de coevolution de deux sites. La statistiquela plus simple consiste a prendre le coefficient de correlation desvecteurs de substitutions (mapping) des sites (note ρ).

Il faut evaluer la probabilite que cette mesure ne soit pas liee ausimple hasard (p-value).

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 24 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

D

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

D

M, Θ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

D

M, Θ Vi , Vj ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

On simule des donnees sousun modele d’evolution dont lesparametres (y compris laphylogenie) sont estimes apartir des donnees reelles.

D

M, Θ

D′

Vi , Vj ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

On simule des donnees sousun modele d’evolution dont lesparametres (y compris laphylogenie) sont estimes apartir des donnees reelles.

On estime les cartes desubstitutions des donneessimulees

D

M, Θ

D′

V ′

i , V ′

j

Vi , Vj ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

On simule des donnees sousun modele d’evolution dont lesparametres (y compris laphylogenie) sont estimes apartir des donnees reelles.

On estime les cartes desubstitutions des donneessimulees

On calcule le coefficient decorrelation

D

M, Θ

D′

V ′

i , V ′

j

ρ′

Vi , Vj ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

On simule des donnees sousun modele d’evolution dont lesparametres (y compris laphylogenie) sont estimes apartir des donnees reelles.

On estime les cartes desubstitutions des donneessimulees

On calcule le coefficient decorrelation

On recommence un tres grandnombre de fois

D

M, Θ

D′

V ′

i , V ′

j

ρ′

Vi , Vj ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

On simule des donnees sousun modele d’evolution dont lesparametres (y compris laphylogenie) sont estimes apartir des donnees reelles.

On estime les cartes desubstitutions des donneessimulees

On calcule le coefficient decorrelation

On recommence un tres grandnombre de fois

D

M, Θ

D′

V ′

i , V ′

j

ρ′

Vi , Vj ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Distribution de ρ sous l’hypothese nulleBootstrap parametrique

On simule des donnees sousun modele d’evolution dont lesparametres (y compris laphylogenie) sont estimes apartir des donnees reelles.

On estime les cartes desubstitutions des donneessimulees

On calcule le coefficient decorrelation

On recommence un tres grandnombre de fois

D

M, Θ

D′

V ′

i , V ′

j

ρ′

Vi , Vj ρ

ρ

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 25 / 39

Application: detection de la coevolution au niveau moleculaire

Application a l’ARN ribosomique bacterien

Grande sous-unite (LSU) 50S

ARNr 23SARNr 18S34 proteines

Petite sous-unite (SSU) 23S

ARNr 16S21 proteines

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 26 / 39

Application: detection de la coevolution au niveau moleculaire

Application a l’ARN ribosomique bacterien

Grande sous-unite (LSU) 50S

ARNr 23SARNr 18S34 proteines

Petite sous-unite (SSU) 23S

ARNr 16S21 proteines

Structures secondaire et tertiairedisponibles et bien documentees

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 26 / 39

Application: detection de la coevolution au niveau moleculaire

Ou sont les paires detectees?

258 paires detectees pour lagrande sous-unite

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 27 / 39

Application: detection de la coevolution au niveau moleculaire

Ou sont les paires detectees?

258 paires detectees pour lagrande sous-unite

225 sont des pairesstructurales

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 27 / 39

Application: detection de la coevolution au niveau moleculaire

Ou sont les paires detectees?

258 paires detectees pour lagrande sous-unite

225 sont des pairesstructurales

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 27 / 39

Application: detection de la coevolution au niveau moleculaire

Resultats (LSU): structure tertiaire (1)

Interaction triple:

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 28 / 39

Application: detection de la coevolution au niveau moleculaire

Resultats (LSU): structure tertiaire (2)

Interaction Watson-Crick longue distance:

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 29 / 39

Application: detection de la coevolution au niveau moleculaire

Resultats (LSU): structure tertiaire (3)

Possible interaction de volume:

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 30 / 39

Application: detection de la coevolution au niveau moleculaire

Ou sont les paires detectees?

Stem pairsOther documented

interactions False positives

050

100

150

200

250

225

267

258 paires detectees pour lagrande sous-unite

225 sont des pairesstructurales225+26

258 = 97% sontconfirmees commecoevoluant

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 31 / 39

Application: detection de la coevolution au niveau moleculaire

Cartes de substitutions obtenues

0.1

Site

1Si

te 2

Sites non-correles

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 32 / 39

Application: detection de la coevolution au niveau moleculaire

Cartes de substitutions obtenues

0.1

Site

1Si

te 2

Sites non-correles0.1

Site

1Si

te 2

Sites correles

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 32 / 39

Application: detection de la coevolution au niveau moleculaire

ARN:

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 33 / 39

Application: detection de la coevolution au niveau moleculaire

ARN:Proteines:

?

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 33 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteines

Necessite de prendre encompte les proprietesphysico-chimiques des acidesamines

CS−SP

GGA

CH−H TS

D

NVI

L

QEK

RH

Y

WF

M

tiny

small

polar

positive

charged

non-polar

aromatic

aliphatic

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 34 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteines

Necessite de prendre encompte les proprietesphysico-chimiques des acidesamines

Possibilite de coevolution pargroupe

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 34 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARN

ACTINOPTERYGII

AVES

MAMMALIA

SARCOPTERYGII

OSTEICHTHYES

0.11

PROTOTHERIA

METATHERIA

PLATYRRHINI

CERCOPITHECOIDEA

HOMINOIDEA

HYSTRICOGNATHI

LAGOMORPHA

CARNIVORA

PERISSODACTYLA

CETARTIODACTYLA

TESTUDINES

VERTEBRATA

GL

Y12

1A

SP12

2

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARN

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARN

ACTINOPTERYGII

MAMMALIA

SARCOPTERYGII

OSTEICHTHYES

0.11

VERTEBRATA

PROTOTHERIA

METATHERIA

CARNIVORA

CETARTIODACTYLA

PERISSODACTYLA

TESTUDINES

AVES

LAGOMORPHA

HYSTRICOGNATHI

HOMINOIDEA

CERCOPITHECOIDEA

PLATYRRHINI

STREPSIRRHINI

PHE

33L

EU

69

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARNRelation avec la structurepas toujours evidente

◮ residus pres du site actif

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARNRelation avec la structurepas toujours evidente

◮ residus pres du site actif◮ terminaisons d’helice?

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARNRelation avec la structurepas toujours evidente

◮ residus pres du site actif◮ terminaisons d’helice?

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARNRelation avec la structurepas toujours evidente

◮ residus pres du site actif◮ terminaisons d’helice?

Les evenements decosubstitution onttendance a etre localises

◮ au niveau de ladivergencecondrichthyens /actinopterygiens /sarcopterygiens

ACTINOPTERYGII

MAMMALIA

SARCOPTERYGII

OSTEICHTHYES

0.11

TESTUDINES

LE

U13

5A

RG

139

ILE

111

VERTEBRATA

AVES

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Application aux proteinesExemple de la myoglobine de vertebres

Signal plus faible quel’ARNRelation avec la structurepas toujours evidente

◮ residus pres du site actif◮ terminaisons d’helice?

Les evenements decosubstitution onttendance a etre localises

◮ au niveau de ladivergencecondrichthyens /actinopterygiens /sarcopterygiens

◮ chez le crocodile!

ASP

20G

LY

23A

LA

84A

SP60

LY

S63

LY

S96

ACTINOPTERYGII

AVES

PERISSODACTYLA

MAMMALIA

SARCOPTERYGII

OSTEICHTHYES

0.11

VERTEBRATA

TESTUDINES

CETARTIODACTYLA

CARNIVORA

LAGOMORPHA

HYSTRICOGNATHI

HOMINOIDEA

CERCOPITHECOIDEA

PLATYRRHINI

STREPSIRRHINI

METATHERIA

PROTOTHERIA

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 35 / 39

Application: detection de la coevolution au niveau moleculaire

Methionine Aminopeptidase

Les groupes significatifs apparaissent en contact dans la structure3D.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 36 / 39

Application: detection de la coevolution au niveau moleculaire

SufD

Proteine bacterienne de surface, impliquee dans le transport dufer

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 37 / 39

Application: detection de la coevolution au niveau moleculaire

SufD

Proteine bacterienne de surface, impliquee dans le transport dufer

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 37 / 39

Application: detection de la coevolution au niveau moleculaire

SufD

Proteine bacterienne de surface, impliquee dans le transport dufer

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 37 / 39

Application: detection de la coevolution au niveau moleculaire

SufD

Proteine bacterienne de surface, impliquee dans le transport dufer

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 37 / 39

Application: detection de la coevolution au niveau moleculaire

Phosphoribosylglycinamide formyltransferase 2

Biosynthese De novo des purines

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 38 / 39

Application: detection de la coevolution au niveau moleculaire

Phosphoribosylglycinamide formyltransferase 2

0.33

(14 leaves)

(22 leaves)

(11 leaves)

(20 leaves)(29 leaves)

(17 leaves)(14 leaves)

Biosynthese De novo des purines

Evenements de cosubstitution multiples

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 38 / 39

Application: detection de la coevolution au niveau moleculaire

Phosphoribosylglycinamide formyltransferase 2

0.33

(14 leaves)

(22 leaves)

(11 leaves)

(20 leaves)(29 leaves)

(17 leaves)(14 leaves)

Biosynthese De novo des purines

Evenements de cosubstitution multiples

Sites localises pres du site actif:

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 38 / 39

Application: detection de la coevolution au niveau moleculaire

References

B. S. W. Chang, K. Jonsson, M. A. Kazmi, M. J. Donoghue, and T. P. Sakmar. Recreating afunctional ancestral archosaur visual pigment. Molecular Biology and Evolution, 19(9):1483–1489, 2002.

J. Dutheil, T. Pupko, A. Jean-Marie, and N. Galtier. A model-based approach for detectingcoevolving positions in a molecule. Molecular Biology and Evolution, 22(9):1919–28, 2005.

B. A. Malcolm, K. P. Wilson, B. W. Matthews, J. F. Kirsch, and A. C. Wilson. Ancestral lysozymesreconstructed, neutrality tested, and thermostability linked to hydrocarbon packing. Nature,345(6270):86–89, 1990.

R. Nielsen. Mapping mutations on phylogenies. Systematic Biology, 51(5):729–739, 2002.

T. Pupko, I. Pe’er, R. Shamir, and D. Graur. A fast algorithm for joint reconstruction of ancestralamino acid sequences. Molecular Biology and Evolution, 17(6):890–896, 2000.

P. Tuffery and P. Darlu. Exploring a phylogenetic approach for the detection of correlatedsubstitutions in proteins. Molecular Biology and Evolution, 17(11):1753–1759, 2000.

J. A. Ugalde, B. S. W. Chang, and M. V. Matz. Evolution of coral pigments recreated. Science,305(5689):1433–1433, 2004.

Z. Yang, S. Kumar, and M. Nei. A new method of inference of ancestral nucleotide and aminoacid sequences. Genetics, 141(4):1641–1650, 1995.

Julien Dutheil (Universite Montpellier 2) Ancestral Sequence Reconstruction 22 Mars 2007 39 / 39