49
Modèles phylogéniques de la diversification des langues Robin J. Ryder 1, 2 sous la direction de Geoff K. Nicholls 3 1 Centre de Recherche des Mathématiques de la Décision, Université Paris Dauphine 2 Centre de Recherche en Économie et Statistique, ENSAE 3 Department of Statistics, University of Oxford Séminaire des thésards du CREST, 15 décembre 2010 R. Ryder Modèles phylogéniques de la diversification des langues

Modèles phylogéniques de la diversification des langues

Embed Size (px)

DESCRIPTION

Séminaire des thésards du CREST, 15/12/2010

Citation preview

Page 1: Modèles phylogéniques de la diversification des langues

Modèles phylogéniques de la diversificationdes langues

Robin J. Ryder1,2 sous la direction de Geoff K. Nicholls3

1Centre de Recherche des Mathématiques de la Décision,Université Paris Dauphine

2Centre de Recherche en Économie et Statistique, ENSAE

3Department of Statistics, University of Oxford

Séminaire des thésards du CREST, 15 décembre 2010

R. Ryder Modèles phylogéniques de la diversification des langues

Page 2: Modèles phylogéniques de la diversification des langues

Plan

Un peu de linguistiqueUn modèle trop bienDes tests synthétiques merveilleuxDes résultats révolutionnaires

R. Ryder Modèles phylogéniques de la diversification des langues

Page 3: Modèles phylogéniques de la diversification des langues

Carles li reis, nostre emper[er]e magnesSet anz tuz pleins ad estet en Espaigne :Tresqu’en la mer cunquist la tere altaigne.N’i ad castel ki devant lui remaigne ;Mur ne citet n’i est remes a fraindre,Fors Sarraguce, ki est en une muntaigne.

Chanson de Roland, 1r (XIe siècle)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 4: Modèles phylogéniques de la diversification des langues

La plus commune façon d’amollir les coeurs de ceux qu’on aoffensez, lors qu’ayant la vengeance en main, ils nous tiennentà leur mercy, c’est de les esmouvoir par submission àcommiseration et à pitié.

Montaigne, Essais, I, 1 (1580)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 5: Modèles phylogéniques de la diversification des langues

Tes yeux sont si profonds qu’en me penchant pour boireJ’ai vu tous les soleils y venir se mirerS’y jeter à mourir tous les désespérésTes yeux sont si profonds que j’y perds la mémoire

Aragon, Les Yeux d’Elsa (1942)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 6: Modèles phylogéniques de la diversification des langues

Et la piaule swingue au son du ghetto, on tape à la porteChill c’est trop fort ! baisse le son merde ! j’connaisA chaque fois c’est pareil tant pis il faut qu’ça pèteEt profite en traître des nouveaux albums qu’Rod m’achète

Akhénaton, Juste une pression (2005)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 7: Modèles phylogéniques de la diversification des langues

Similarités entre les langues

1 2 3 9Albanais një dy tre nëntëAnglais one two three nineBengali ek dvi tri nay

Grec hen duo treis enneaIrlandais aon do tri naoi

Italien uno due tre novePersan yak do se nohRusse odin dva tri devyat

Suédois en tva tre nioTocharien A sas wu tre nu

Chinois yi er san jiuHébreu ’ehad s(e)nayim selosa tis’a

Turc bir iki üc dokuz

R. Ryder Modèles phylogéniques de la diversification des langues

Page 8: Modèles phylogéniques de la diversification des langues

Langues Indo-Européennes modernes

FIGURE: Carte effectuée avec WALS (Dryer et al., 2003)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 9: Modèles phylogéniques de la diversification des langues

Diversification des langues

Les langues évoluent d’une façon semblable aux espècesbiologiquesDes similarités entre langues peuvent donner uneindication qu’elles sont cousinesModèle le plus commun : arbre

R. Ryder Modèles phylogéniques de la diversification des langues

Page 10: Modèles phylogéniques de la diversification des langues

Exemple d’arbre

R. Ryder Modèles phylogéniques de la diversification des langues

Page 11: Modèles phylogéniques de la diversification des langues

Questions à résoudre

Structure de l’arbreÂge des nœuds internesÂge de la racine : 6000-6500 BP ou 8000-9500 BP ?

R. Ryder Modèles phylogéniques de la diversification des langues

Page 12: Modèles phylogéniques de la diversification des langues

Vocabulaire de base

100 ou 200 mots, présents dans quasiment toutes leslangues : oiseau, main, manger, rouge...Possibilité d’emprunt (l’évolution ne suit pas un arbre),mais :“Facile” à détecterRarePeu d’influence sur les résultats

R. Ryder Modèles phylogéniques de la diversification des langues

Page 13: Modèles phylogéniques de la diversification des langues

Donnée binaires : il meurt

Vieil anglais stierfþVieux haut-allemand stirbit, touwit

Avestique miriieteVieux-slave umıretu

Latin moriturOsque ?

Classes de cognats(traits) :

1 stierfþ, stirbit2 touwit3 miriiete, umıretu,

moritur

Vieil anglais 1 0 0Vieux haut-allemand 1 1 0

Avestique 0 0 1Vieux-slave 0 0 1

Latin 0 0 1Osque ? ? ?

R. Ryder Modèles phylogéniques de la diversification des langues

Page 14: Modèles phylogéniques de la diversification des langues

Contraintes

Contraintes sur la structure de l’arbre30 contraintes sur l’âge de certains nœuds ou languesanciennesCes contraintes sont nécessaires pour évaluer les taux etpermettre de dater la racine.

R. Ryder Modèles phylogéniques de la diversification des langues

Page 15: Modèles phylogéniques de la diversification des langues

Contraintes

R. Ryder Modèles phylogéniques de la diversification des langues

Page 16: Modèles phylogéniques de la diversification des langues

Description du modèle (1)

Les traits naissent àun taux λLes traits disparaissentà un taux µλ et µ sont constants

1 1 0 0 0 0 0 0 02 1 0 1 0 0 0 0 03 1 0 0 0 0 0 0 14 0 0 0 0 1 0 0 05 0 0 0 0 1 0 0 06 1 1 0 0 0 1 1 07 1 1 0 0 0 1 0 08 1 0 0 0 0 0 0 0

R. Ryder Modèles phylogéniques de la diversification des langues

Page 17: Modèles phylogéniques de la diversification des langues

Description du modèle (2)

Des catastrophes se produisentà un taux ρLors d’une catastrophe, chaquetrait disparaît avec uneprobabilité κ et Poiss(ν) traitsnaissent.λ/µ = ν/κ : le nombre de traitsest constant en moyenne.

1 1 0 0 0 0 0 0 0 0 0 0 0 0 02 1 0 1 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 1 1 0 0 04 0 0 0 0 1 0 0 0 0 0 0 0 0 05 0 0 0 0 1 0 0 0 0 0 0 0 0 06 1 0 0 0 0 1 1 0 0 0 0 0 1 07 1 0 0 0 0 1 0 0 0 0 0 0 1 08 1 0 0 0 0 0 0 0 0 0 0 0 1 0

R. Ryder Modèles phylogéniques de la diversification des langues

Page 18: Modèles phylogéniques de la diversification des langues

Description du modèle (3)

Processus d’observation :chaque point est manquantavec une probabilité ξi

Certains traits ne sont pasobservés et ne sont donc pasinclus dans les données

1 1 0 0 0 ? 0 0 0 0 0 ? 0 0 02 ? 0 1 0 0 0 ? 0 0 0 0 0 0 ?3 0 ? 0 0 ? 0 0 0 0 1 1 0 0 04 0 0 0 0 ? 0 ? 0 0 0 0 ? 0 05 0 0 ? 0 1 ? 0 0 0 0 0 0 0 06 1 0 0 0 0 ? ? 0 ? 0 0 0 ? 07 ? 0 0 0 0 ? 0 ? 0 0 0 0 1 08 1 0 0 0 0 0 0 0 0 0 0 0 1 0

R. Ryder Modèles phylogéniques de la diversification des langues

Page 19: Modèles phylogéniques de la diversification des langues

Processus d’observation

0 1 0 0 1 0 1 1 00 0 0 1 1 0 0 1 11 1 0 1 1 1 1 1 11 0 0 1 0 1 1 1 00 0 1 1 1 1 0 0 1

R. Ryder Modèles phylogéniques de la diversification des langues

Page 20: Modèles phylogéniques de la diversification des langues

Processus d’observation

? 1 0 0 ? 0 1 1 00 0 ? ? 1 0 0 1 1? 1 ? ? ? 1 ? 1 11 0 0 1 0 1 1 1 00 ? 1 1 1 1 0 0 1

R. Ryder Modèles phylogéniques de la diversification des langues

Page 21: Modèles phylogéniques de la diversification des langues

Processus d’observation

1 0 ? 0 1 1 00 ? 1 0 0 1 11 ? ? 1 ? 1 10 1 0 1 1 1 0? 1 1 1 0 0 1

R. Ryder Modèles phylogéniques de la diversification des langues

Page 22: Modèles phylogéniques de la diversification des langues

Processus d’observation

L(g, θ) = P[D|g, θ,O(D)]

λ(t) = λP[O(t)]

R. Ryder Modèles phylogéniques de la diversification des langues

Page 23: Modèles phylogéniques de la diversification des langues

Distribution a posteriori

p(g, µ, λ, κ, ρ, ξ|D = D)

=1

N!

µ

)N

exp

−λµ

∑〈i,j〉∈E

P[EZ |Z = (ti , i),g, µ, κ, ξ](1− e−µ(tj−ti +ki TC))

×

N∏a=1

∑〈i,j〉∈Ea

∑ω∈Ωa

P[M = ω|Z = (ti , i),g, µ](1− e−µ(tj−ti +ki TC))

× 1µλ

p(ρ)fG(g|T )e−ρ|g|(ρ|g|)kT

kT !

L∏i=1

(1− ξi)Qi ξN−Qi

i

R. Ryder Modèles phylogéniques de la diversification des langues

Page 24: Modèles phylogéniques de la diversification des langues

Calcul de vraisemblance

∑ω∈Ω

(c)a

P[M = ω|Z = (ti , c),g, µ] =

δi,c ×∑ω∈Ω

(c)a

P[M = ω|Z = (tc , c),g, µ] si Y (Ω(c)a ) ≥ 1

(1−δi,c)+δi,c×∑ω∈Ω

(c)a

P[M=ω|Z=(tc , c),g, µ] si Y (Ω(c)a ) = 0 et Q(Ω

(c)a )≥1

(1− δi,c) + δi,cv (0)c si Y (Ω

(c)a ) + Q(Ω

(c)a ) = 0

(i.e. Ω(c)a = ∅)

∑ω∈Ω

(c)a

P[M = ω|Z = (tc , c),g, µ] =

1 si Ω

(c)a = c, ∅ ou c

(i.e. Dc,a ∈ ?,1)0 si Ω

(c)a = ∅ (i.e. Dc,a = 0)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 25: Modèles phylogéniques de la diversification des langues

Inférence bayésienneChaîne de Markov Monte-Carlo

R. Ryder Modèles phylogéniques de la diversification des langues

Page 26: Modèles phylogéniques de la diversification des langues

Test sur des données synthétiques

FIGURE: Vrai arbre, environ 40mots/langue FIGURE: Arbre consensus

R. Ryder Modèles phylogéniques de la diversification des langues

Page 27: Modèles phylogéniques de la diversification des langues

Test sur des données synthétiques (2)

FIGURE: Taux de disparition (µ)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 28: Modèles phylogéniques de la diversification des langues

Influence des emprunts (1)

FIGURE: Vrai arbre, environ 40mots/langue, 10% d’emprunts FIGURE: Arbre consensus

R. Ryder Modèles phylogéniques de la diversification des langues

Page 29: Modèles phylogéniques de la diversification des langues

Influence des emprunts (2)

FIGURE: Vrai arbre, environ 40mots/langue, 50% d’emprunts FIGURE: Arbre consensus

R. Ryder Modèles phylogéniques de la diversification des langues

Page 30: Modèles phylogéniques de la diversification des langues

Influence des emprunts (3)

La structure est bien reconstruiteLes dates sont sous-estimées

FIGURE: Âge de la racine FIGURE: Taux de disparition (µ)

R. Ryder Modèles phylogéniques de la diversification des langues

Page 31: Modèles phylogéniques de la diversification des langues

Présence d’emprunts ?

2 4 6 8 10 12 14 16 18 20 22 240.4

0.5

0.6

0.7

0.8

0.9

1

Ringe 100

b=0

b=0.1

b=0.5

b=1

R. Ryder Modèles phylogéniques de la diversification des langues

Page 32: Modèles phylogéniques de la diversification des langues

Validation croisée

8000

6000

4000

2000

0

−100

−10

−5

−2

0

2

5

10

100

HI TA TB LU LY OI UM OS LA GK AR GO ON OE OG OS PR AV PE VE CE IT GE WG NW BS BA IR II TG

R. Ryder Modèles phylogéniques de la diversification des langues

Page 33: Modèles phylogéniques de la diversification des langues

Données

Langues Indo-EuropéennesVocabulaire de base (Swadesh 100 ou 200)Deux bases de donnéesDyen et al. (1997) : 87 langues, surtout modernesRinge et al. (2002) : 24 langues, surtout anciennes

R. Ryder Modèles phylogéniques de la diversification des langues

Page 34: Modèles phylogéniques de la diversification des langues

MCMC

Logiciel TraitLab, codé en MatLab

R. Ryder Modèles phylogéniques de la diversification des langues

Page 35: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 36: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 37: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 38: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 39: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 40: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 41: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 42: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 43: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 44: Modèles phylogéniques de la diversification des langues

R. Ryder Modèles phylogéniques de la diversification des langues

Page 45: Modèles phylogéniques de la diversification des langues

Arbre consensus : langues modernes (données Dyenet al., 1997)

Persian_List

Waziri

WakhiBaluchi

Tadzik

AfghanOssetic

Khaskura

MarathiBengaliNepali_List

Gujarati

Panjabi_ST

KashmiriGypsy_GkSinghalese

Lahnda

Hindi

LatvianLithuanian_STLithuanian_O

Czech

Byelorussian

Slovenian

Lusatian_L

Czech_E

UkrainianRussian

Slovak

SerbocroatianMacedonian

Lusatian_U

Polish

Bulgarian

Albanian_TopAlbanian_G

Albanian_T

Albanian_KAlbanian_C

Swedish_List

FaroeseIcelandic_ST

Swedish_UpSwedish_VL

RiksmalDanish

English_STTakitaki

Frisian

Penn_Dutch

Afrikaans

German_ST

Flemish

Dutch_List

Armenian_ModArmenian_List

Sardinian_C

Romanian_List

Sardinian_LVlach

Sardinian_N

Brazilian

Walloon

Ladin

French_Creole_D

Portuguese_STProvencal

French

CatalanSpanish

French_Creole_C

Italian

Breton_SE

Welsh_C

Breton_List

Breton_ST

Welsh_N

Irish_BIrish_A

Greek_ModGreek_ML

Greek_D

Greek_MD

Greek_K

TOCHARIAN_BTOCHARIAN_AHITTITE

76

81

94

94

72

67

72

95

84

93

61

77

77

0 10002000300040005000600070008000

R. Ryder Modèles phylogéniques de la diversification des langues

Page 46: Modèles phylogéniques de la diversification des langues

Arbre consensus : langues anciennes (données Ringeet al., 2002)

armenian

albanian

oldirish

welsh

luvian

oldnorse

oldenglish

oldhighgerman

gothic

lycian

oldcslavonic

latvian

lithuanian

oldprussian

tocharian_a

tocharian_b

hittite

greek

vedic

avestan

oldpersian

latin

umbrian

oscan

62

78

66

85

58

0 10002000300040005000600070008000

R. Ryder Modèles phylogéniques de la diversification des langues

Page 47: Modèles phylogéniques de la diversification des langues

Âge de la racine

R. Ryder Modèles phylogéniques de la diversification des langues

Page 48: Modèles phylogéniques de la diversification des langues

Questions

otázky kessesspørgsmåler cwestiwnau

pytania preguntespreguntas vraekláusimai Fragenâîïðîñû quaestionesîntrebari questionsvragen ερωτ ησεις

çàïèòàííi spurningardomande spørsmålerquestões frågorvprašanja

R. Ryder Modèles phylogéniques de la diversification des langues

Page 49: Modèles phylogéniques de la diversification des langues

Références

R. J. Ryder & G. K. Nicholls, Missing data in a stochasticDollo model for cognate data, and its application to thedating of Proto-Indo-European (2011), JRSS CG. K. Nicholls, Horses or farmers ? The tower of Babel andconfidence in trees (2008), Significance (vulgarisation)R. J. Ryder, Phylogenetic Models of LanguageDiversification (2010), DPhil. thesis, University of Oxford

R. Ryder Modèles phylogéniques de la diversification des langues