28
Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 20 Nicolas Galtier UMR 5554 - Institut des Sciences de l'Evolution - Montpellier [email protected]

Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Embed Size (px)

Citation preview

Page 1: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses

Collège de France, Juin 2009

Nicolas Galtier

UMR 5554 - Institut des Sciences de l'Evolution - Montpellier

[email protected]

Page 2: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut
Page 3: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La révolution cladistique:injecter le Darwinisme dans la systématique

- une classification fondée sur la phylogénie

- des relations de cousinage, et non de descendance, entre les espèces actuelles- les états de caractères dérivés partagés comme marqueurs des relations de parenté

Page 4: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Etats de caractères partagés ancestraux vs. dérivés

amphibiens serpents oiseaux mammifères

amnios non oui oui oui

non

fiable

+

sang chaud oui ouinon non trompeur

non

+ +

4 membres oui non oui oui

oui

non-informatif

-

On fait confiance aux caractères les plus nombreux: principe de parcimonie

Page 5: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La révolution moléculaire

Page 6: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut
Page 7: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

AUGUACCAGAUUAGCGAAUGUAUC AUGGACCA

AAUUAGCGUAUCUAUC

GCGUACCAGAUAAGCGAAUGUAUC

AUGAACCAGAUUAGCGAUUGUACC

AUGUACCAGAUUAGCGAAUGUAUC

AUGUACCAGAUUAGCGAAUGUAUC

CAGUACCAGAUUAGCGAGGGUAUC

AGGUACCAGAUUACCGAUUGUCUC

AUGUACCAGAUUAGCGAAUGUAUC

AUGUACCAGGCUAGCGAAUGUAAC

AUGUACCAGAUUAGCGAAUGUAUC

ACGUACUAGAUGAGCGAAUGUAUC

GUGUACCAGAUUGGCGACUGUAUC

AUGUACAAGAUUAGCGAAUGUAUC

AUGUACCUGAUUAGCCAAUGUAUC

AUGUACCAGAUUAGCGAAUGUAUC

AGGUACCAGACCAGCGAAUGUAUC

AUGUACCAGAUUAGCUAAUGUAUC

AUGUACCAGAUUAGCGAAUGUAUC

AUGUACCAGAUUAGCGAAUGUAUC

AGGCACCAGAUUAGCGCAUGUGUC

AUGUACCAGAUUAGCGAAUGUAUC

AAGUACCAGAUUAGCGAAUGUAUC

AUGUACCAGAUGAGUGAAUGUAUC

AUGUACCGGAUUAGCGAAUGUAUC

AUGUACCAGAUUAGCGAAUGUAUC

AUGUACCAGAUUAGCGUAUGUAUC

AUGUACCAGAUUAGCGAAUGUAUU

UUGUACCAGAUUAGCGGAUGUAUC

AUGUACCAGACUAGCGAAUAUAUC

AUGUACCAGCCUAGCGGAUGUAGC

Page 8: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La révolution moléculaire:un nouveau type de caractères

Les caractères moléculaires (séquences d'ADN, ARN ou protéines) sont:

très nombreux

non-interprétables

non-orientables

tous de même nature

à états discrets et connus

soumis à des processus évolutifs communs

peu adéquats pourl'analyse cladistique

propices à l'analysestatistique

Page 9: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La méthode de parcimonie maximale

1 2

3 4

a b c1: X X X 2: X Y Y3: Y X Y4: Y Y X

x

y

X X

Y Y

A

données=séquences:

Page 10: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La méthode de parcimonie maximale

1 2

3 4

a b c1: X X X 2: X Y Y3: Y X Y4: Y Y X

données=séquences:

1 2

3 4

x

x

X Y

Y X

A

Page 11: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La méthode de parcimonie maximale

1 2

3 4

a b c1: X X X 2: X Y Y3: Y X Y4: Y Y X

données=séquences:

1 2

3 4A

1 4

2 3

C

Un excès de sites c soutient l'arbre C

Un excès de sites a soutient l'arbre A

Page 12: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Parcimonie et attraction des longues branches

1 2

3 4

a b c1: X X X 2: X Y Y3: Y X Y4: Y Y X

données=séquences:

1 4

2 3

1 2

3 4A

C

Un excès de sites a soutient l'arbre A

Si les branches 3 et 4 sont trop longues,l'arbre C génère un excès de sites a.

Comment distinguer?

X

X Y

Yx

x

Page 13: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Parcimonie et attraction des longues branches

1 2

3 4

a b c d e1: X X X X Z2: X Y Y X Y3: Y X Y Y X4: Y Y X Z X

données=séquences:

1 4

2 3

1 2

3 4A

C

Comment distinguer?

Page 14: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Parcimonie et attraction des longues branches

Les données de séquences sont sujettes à réversion.

L'évolution n'est pas toujours parcimonieuse.

Les processus de l'évolution moléculaire communs à l'ensemble des sitespeuvent être identifiés et pris en compte.

Nécessité d'une approche statistique

Felsenstein 1978

Page 15: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Modélisation Markovienne en phylogénie moléculaire

Données (D):

n séquences alignées=

p sites homologues

A C A G T T C . . .

A G A G C T A . . .

A G A G T T A . . .

T C A G T T C . . .

T C G G T T T . . .

A

C

G

T

A C G T

Paramètres ():

topologie d’arbre Tlongueurs de branches li

générateur M

Vraisemblance: L() = Pr (D | )

Felsenstein 1981

Page 16: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

A C A G T T C . . .

A G A G C T A . . .

A G A G T T A . . .

T C A G T T C . . .

T C G G T T T . . .

X0

X1

X2

X3

l1

l2

l3

l4

l5

l6

l7

l8

A

C

G

T

A C G T

MT D

d1 d2 dk

Pr(D | T ,li, MPrdk | T ,li, M (indépendance des sites)

Prd1 | T ,li, M= Pr(X0=x0).Pr(X1=x1| X0=x0).Pr(d11=A| X2=x2). Pr(d12=A| X1=x1). Pr(X2=2|X0=x0).

Pr(d13=A| X2=x2). Pr(X3=x3| X2=x2). Pr(d14=T| X3=x3). Pr(d15=T| X3=x3) x0 x1 x2 x3

pij(l)=(eMl)ij

Modélisation Markovienne en phylogénie moléculaire

Page 17: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Modélisation Markovienne en phylogénie moléculaire

- un domaine de recherche en plein développement, en interaction étroite avec statisticiens et informaticiens.

- des modèles et des techniques de plus en plus sophistiqués, répondant au volume sans cesses croissant des jeux de données

- un standard dans le monde de la systématique moléculaire et de la génomique évolutive

- reconstruire le "process" en même temps que le "pattern"

Page 18: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Erinaceus Scalopus

Felis Manis

Lama Sus

Bos Hippopotamus

Physeter Equus

Rhinocerotidae Tonatia

Myotis Tadarida

Cynopterus Pteropus Hipposideros

Megaderma

Laurasiatheria

Tupaia Cynocephalus

Homo Lepus

Aplodontia Sciuridae

Hystricidae Mus Rattus

Euarchontoglires

Xenarthra

Cabassous

Bradypus Choloepus

Cyclopes Myrmecophaga Tamandua

Dasypus kappleri Dasypus novemcinctus

Priodontes

Tolypeutes

Chaetophractus Euphractus Zaedyus

Afrotheria

Elephas Dugong

Procavia Orycteropus

Macroscelidae Amblysomus

Echinops

Delsuc et al 2002

Phylogénie moléculaire des mammifères placentaires

Page 19: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

MORPHOLOGIE MOLECULES

Phylogénie des métazoaires

Page 20: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

La phylogénie universelle selon l'ARN ribosomique

EUCARYA

ARCHAEA

BACTERIA

Page 21: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Giardia 70.4%Entamoeba 43.7%

Desulfurococcus 64.2%Thermoproteus 63.5%

M.jannashi 62.3%M.vannieli 57.7%

Halococcus 58.9%Halobacterium 58.7%

Thermus 61.3%Thermotoga 60.9%

Euglena 51.7%

FUNGI 48.6%

PLANTA 50.4%

METAZOA 52.4%

EUCARYA

CRENARCHAE

EURYARCHAE

BACTERIA

LOW GC GRAM+ 54.2%

PROTEOBACTERIA 54.1%

HIGH GC GRAM+ 57.0%

CHLOROPLASTS 52.5%

56.1%GC% ancestral

estimé :

Evolution du GC% de l'ARN ribosomique

Page 22: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

1 23

4 5

modèle standard

1 2 34 5

modèle non-homogène et non-stationnaire

1

2

4

7

3

5 86

Un modèle pour prendre en compte les variations de composition en bases

Page 23: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

0

40

80

0

40

80

50 60 70

SSU

LSU

Topt

Topt

GC% ARNr

L'ancêtre commun universel n'était pas hyperthermophile

Galtier et al. 1999, Boussau et al 2009

Page 24: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Horloges moléculaires et datations

Douzery et al 2004

Page 25: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Contraintes et adaptations moléculaires

a b c d e f gS T M F S L PS T M F S L PS T M F I F PS T M F T F PS T M F Y F MS T M F H F HS T M F H F TS T M F Y F PS T M F L F PS T M F F F FS T M F H F TS T M F Y F AS T M F P F PS T M F P F PS T M F P H LS T M F P F PS T M F L H TS T M F W V FS T M F F T PS T M F T V FS T M F L F LA A M V L F IA T M I L F I A T N A L F IA I V S L F IS V M F L F I T T V I L F IF T T L L F IS T M F W S IS T M M W S TS T M F M N QS T M F P H YS T M F P H P

PRIMATES

Pupko & Galtier 2002

Page 26: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

M

M.r1 M.r2 M.r3

M.r1

M.r2

M.r3

Modéliser l'hétérotachie

uniforme

"rates across sites"

"covarion"

Galtier & Jean-Marie 2004

Page 27: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Controverses

- molécules vs. morphologie: vers un rapprochement

- parcimonie vs. approche statistique: un débat en perte de vitesse

. circularité? Pas plus que dans toute inférence statistique

. les processus de l'évolution moléculaire sont corrélés entre sites

. renoncer à la parcimonie n'implique pas de renoncer au cladisme

Page 28: Les méthodes probabilistes en phylogénie moléculaire: fondements, usages et controverses Collège de France, Juin 2009 Nicolas Galtier UMR 5554 - Institut

Défis et perspectives

- systématique moléculaire: lever les dernières incertitudes

- datations moléculaires: résoudre les conflitss

- génomique évolutive: lien structure/fonction/évolution des molécules

- phylogénomique des procaryotes: importance des transferts horizontaux