Upload
robin-ryder
View
995
Download
0
Embed Size (px)
DESCRIPTION
Séminaire des thésards du CREST, 15/12/2010
Citation preview
Modèles phylogéniques de la diversificationdes langues
Robin J. Ryder1,2 sous la direction de Geoff K. Nicholls3
1Centre de Recherche des Mathématiques de la Décision,Université Paris Dauphine
2Centre de Recherche en Économie et Statistique, ENSAE
3Department of Statistics, University of Oxford
Séminaire des thésards du CREST, 15 décembre 2010
R. Ryder Modèles phylogéniques de la diversification des langues
Plan
Un peu de linguistiqueUn modèle trop bienDes tests synthétiques merveilleuxDes résultats révolutionnaires
R. Ryder Modèles phylogéniques de la diversification des langues
Carles li reis, nostre emper[er]e magnesSet anz tuz pleins ad estet en Espaigne :Tresqu’en la mer cunquist la tere altaigne.N’i ad castel ki devant lui remaigne ;Mur ne citet n’i est remes a fraindre,Fors Sarraguce, ki est en une muntaigne.
Chanson de Roland, 1r (XIe siècle)
R. Ryder Modèles phylogéniques de la diversification des langues
La plus commune façon d’amollir les coeurs de ceux qu’on aoffensez, lors qu’ayant la vengeance en main, ils nous tiennentà leur mercy, c’est de les esmouvoir par submission àcommiseration et à pitié.
Montaigne, Essais, I, 1 (1580)
R. Ryder Modèles phylogéniques de la diversification des langues
Tes yeux sont si profonds qu’en me penchant pour boireJ’ai vu tous les soleils y venir se mirerS’y jeter à mourir tous les désespérésTes yeux sont si profonds que j’y perds la mémoire
Aragon, Les Yeux d’Elsa (1942)
R. Ryder Modèles phylogéniques de la diversification des langues
Et la piaule swingue au son du ghetto, on tape à la porteChill c’est trop fort ! baisse le son merde ! j’connaisA chaque fois c’est pareil tant pis il faut qu’ça pèteEt profite en traître des nouveaux albums qu’Rod m’achète
Akhénaton, Juste une pression (2005)
R. Ryder Modèles phylogéniques de la diversification des langues
Similarités entre les langues
1 2 3 9Albanais një dy tre nëntëAnglais one two three nineBengali ek dvi tri nay
Grec hen duo treis enneaIrlandais aon do tri naoi
Italien uno due tre novePersan yak do se nohRusse odin dva tri devyat
Suédois en tva tre nioTocharien A sas wu tre nu
Chinois yi er san jiuHébreu ’ehad s(e)nayim selosa tis’a
Turc bir iki üc dokuz
R. Ryder Modèles phylogéniques de la diversification des langues
Langues Indo-Européennes modernes
FIGURE: Carte effectuée avec WALS (Dryer et al., 2003)
R. Ryder Modèles phylogéniques de la diversification des langues
Diversification des langues
Les langues évoluent d’une façon semblable aux espècesbiologiquesDes similarités entre langues peuvent donner uneindication qu’elles sont cousinesModèle le plus commun : arbre
R. Ryder Modèles phylogéniques de la diversification des langues
Exemple d’arbre
R. Ryder Modèles phylogéniques de la diversification des langues
Questions à résoudre
Structure de l’arbreÂge des nœuds internesÂge de la racine : 6000-6500 BP ou 8000-9500 BP ?
R. Ryder Modèles phylogéniques de la diversification des langues
Vocabulaire de base
100 ou 200 mots, présents dans quasiment toutes leslangues : oiseau, main, manger, rouge...Possibilité d’emprunt (l’évolution ne suit pas un arbre),mais :“Facile” à détecterRarePeu d’influence sur les résultats
R. Ryder Modèles phylogéniques de la diversification des langues
Donnée binaires : il meurt
Vieil anglais stierfþVieux haut-allemand stirbit, touwit
Avestique miriieteVieux-slave umıretu
Latin moriturOsque ?
Classes de cognats(traits) :
1 stierfþ, stirbit2 touwit3 miriiete, umıretu,
moritur
Vieil anglais 1 0 0Vieux haut-allemand 1 1 0
Avestique 0 0 1Vieux-slave 0 0 1
Latin 0 0 1Osque ? ? ?
R. Ryder Modèles phylogéniques de la diversification des langues
Contraintes
Contraintes sur la structure de l’arbre30 contraintes sur l’âge de certains nœuds ou languesanciennesCes contraintes sont nécessaires pour évaluer les taux etpermettre de dater la racine.
R. Ryder Modèles phylogéniques de la diversification des langues
Contraintes
R. Ryder Modèles phylogéniques de la diversification des langues
Description du modèle (1)
Les traits naissent àun taux λLes traits disparaissentà un taux µλ et µ sont constants
1 1 0 0 0 0 0 0 02 1 0 1 0 0 0 0 03 1 0 0 0 0 0 0 14 0 0 0 0 1 0 0 05 0 0 0 0 1 0 0 06 1 1 0 0 0 1 1 07 1 1 0 0 0 1 0 08 1 0 0 0 0 0 0 0
R. Ryder Modèles phylogéniques de la diversification des langues
Description du modèle (2)
Des catastrophes se produisentà un taux ρLors d’une catastrophe, chaquetrait disparaît avec uneprobabilité κ et Poiss(ν) traitsnaissent.λ/µ = ν/κ : le nombre de traitsest constant en moyenne.
1 1 0 0 0 0 0 0 0 0 0 0 0 0 02 1 0 1 0 0 0 0 0 0 0 0 0 0 13 0 0 0 0 0 0 0 0 0 1 1 0 0 04 0 0 0 0 1 0 0 0 0 0 0 0 0 05 0 0 0 0 1 0 0 0 0 0 0 0 0 06 1 0 0 0 0 1 1 0 0 0 0 0 1 07 1 0 0 0 0 1 0 0 0 0 0 0 1 08 1 0 0 0 0 0 0 0 0 0 0 0 1 0
R. Ryder Modèles phylogéniques de la diversification des langues
Description du modèle (3)
Processus d’observation :chaque point est manquantavec une probabilité ξi
Certains traits ne sont pasobservés et ne sont donc pasinclus dans les données
1 1 0 0 0 ? 0 0 0 0 0 ? 0 0 02 ? 0 1 0 0 0 ? 0 0 0 0 0 0 ?3 0 ? 0 0 ? 0 0 0 0 1 1 0 0 04 0 0 0 0 ? 0 ? 0 0 0 0 ? 0 05 0 0 ? 0 1 ? 0 0 0 0 0 0 0 06 1 0 0 0 0 ? ? 0 ? 0 0 0 ? 07 ? 0 0 0 0 ? 0 ? 0 0 0 0 1 08 1 0 0 0 0 0 0 0 0 0 0 0 1 0
R. Ryder Modèles phylogéniques de la diversification des langues
Processus d’observation
0 1 0 0 1 0 1 1 00 0 0 1 1 0 0 1 11 1 0 1 1 1 1 1 11 0 0 1 0 1 1 1 00 0 1 1 1 1 0 0 1
R. Ryder Modèles phylogéniques de la diversification des langues
Processus d’observation
? 1 0 0 ? 0 1 1 00 0 ? ? 1 0 0 1 1? 1 ? ? ? 1 ? 1 11 0 0 1 0 1 1 1 00 ? 1 1 1 1 0 0 1
R. Ryder Modèles phylogéniques de la diversification des langues
Processus d’observation
1 0 ? 0 1 1 00 ? 1 0 0 1 11 ? ? 1 ? 1 10 1 0 1 1 1 0? 1 1 1 0 0 1
R. Ryder Modèles phylogéniques de la diversification des langues
Processus d’observation
L(g, θ) = P[D|g, θ,O(D)]
λ(t) = λP[O(t)]
R. Ryder Modèles phylogéniques de la diversification des langues
Distribution a posteriori
p(g, µ, λ, κ, ρ, ξ|D = D)
=1
N!
(λ
µ
)N
exp
−λµ
∑〈i,j〉∈E
P[EZ |Z = (ti , i),g, µ, κ, ξ](1− e−µ(tj−ti +ki TC))
×
N∏a=1
∑〈i,j〉∈Ea
∑ω∈Ωa
P[M = ω|Z = (ti , i),g, µ](1− e−µ(tj−ti +ki TC))
× 1µλ
p(ρ)fG(g|T )e−ρ|g|(ρ|g|)kT
kT !
L∏i=1
(1− ξi)Qi ξN−Qi
i
R. Ryder Modèles phylogéniques de la diversification des langues
Calcul de vraisemblance
∑ω∈Ω
(c)a
P[M = ω|Z = (ti , c),g, µ] =
δi,c ×∑ω∈Ω
(c)a
P[M = ω|Z = (tc , c),g, µ] si Y (Ω(c)a ) ≥ 1
(1−δi,c)+δi,c×∑ω∈Ω
(c)a
P[M=ω|Z=(tc , c),g, µ] si Y (Ω(c)a ) = 0 et Q(Ω
(c)a )≥1
(1− δi,c) + δi,cv (0)c si Y (Ω
(c)a ) + Q(Ω
(c)a ) = 0
(i.e. Ω(c)a = ∅)
∑ω∈Ω
(c)a
P[M = ω|Z = (tc , c),g, µ] =
1 si Ω
(c)a = c, ∅ ou c
(i.e. Dc,a ∈ ?,1)0 si Ω
(c)a = ∅ (i.e. Dc,a = 0)
R. Ryder Modèles phylogéniques de la diversification des langues
Inférence bayésienneChaîne de Markov Monte-Carlo
R. Ryder Modèles phylogéniques de la diversification des langues
Test sur des données synthétiques
FIGURE: Vrai arbre, environ 40mots/langue FIGURE: Arbre consensus
R. Ryder Modèles phylogéniques de la diversification des langues
Test sur des données synthétiques (2)
FIGURE: Taux de disparition (µ)
R. Ryder Modèles phylogéniques de la diversification des langues
Influence des emprunts (1)
FIGURE: Vrai arbre, environ 40mots/langue, 10% d’emprunts FIGURE: Arbre consensus
R. Ryder Modèles phylogéniques de la diversification des langues
Influence des emprunts (2)
FIGURE: Vrai arbre, environ 40mots/langue, 50% d’emprunts FIGURE: Arbre consensus
R. Ryder Modèles phylogéniques de la diversification des langues
Influence des emprunts (3)
La structure est bien reconstruiteLes dates sont sous-estimées
FIGURE: Âge de la racine FIGURE: Taux de disparition (µ)
R. Ryder Modèles phylogéniques de la diversification des langues
Présence d’emprunts ?
2 4 6 8 10 12 14 16 18 20 22 240.4
0.5
0.6
0.7
0.8
0.9
1
Ringe 100
b=0
b=0.1
b=0.5
b=1
R. Ryder Modèles phylogéniques de la diversification des langues
Validation croisée
8000
6000
4000
2000
0
−100
−10
−5
−2
0
2
5
10
100
HI TA TB LU LY OI UM OS LA GK AR GO ON OE OG OS PR AV PE VE CE IT GE WG NW BS BA IR II TG
R. Ryder Modèles phylogéniques de la diversification des langues
Données
Langues Indo-EuropéennesVocabulaire de base (Swadesh 100 ou 200)Deux bases de donnéesDyen et al. (1997) : 87 langues, surtout modernesRinge et al. (2002) : 24 langues, surtout anciennes
R. Ryder Modèles phylogéniques de la diversification des langues
MCMC
Logiciel TraitLab, codé en MatLab
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
R. Ryder Modèles phylogéniques de la diversification des langues
Arbre consensus : langues modernes (données Dyenet al., 1997)
Persian_List
Waziri
WakhiBaluchi
Tadzik
AfghanOssetic
Khaskura
MarathiBengaliNepali_List
Gujarati
Panjabi_ST
KashmiriGypsy_GkSinghalese
Lahnda
Hindi
LatvianLithuanian_STLithuanian_O
Czech
Byelorussian
Slovenian
Lusatian_L
Czech_E
UkrainianRussian
Slovak
SerbocroatianMacedonian
Lusatian_U
Polish
Bulgarian
Albanian_TopAlbanian_G
Albanian_T
Albanian_KAlbanian_C
Swedish_List
FaroeseIcelandic_ST
Swedish_UpSwedish_VL
RiksmalDanish
English_STTakitaki
Frisian
Penn_Dutch
Afrikaans
German_ST
Flemish
Dutch_List
Armenian_ModArmenian_List
Sardinian_C
Romanian_List
Sardinian_LVlach
Sardinian_N
Brazilian
Walloon
Ladin
French_Creole_D
Portuguese_STProvencal
French
CatalanSpanish
French_Creole_C
Italian
Breton_SE
Welsh_C
Breton_List
Breton_ST
Welsh_N
Irish_BIrish_A
Greek_ModGreek_ML
Greek_D
Greek_MD
Greek_K
TOCHARIAN_BTOCHARIAN_AHITTITE
76
81
94
94
72
67
72
95
84
93
61
77
77
0 10002000300040005000600070008000
R. Ryder Modèles phylogéniques de la diversification des langues
Arbre consensus : langues anciennes (données Ringeet al., 2002)
armenian
albanian
oldirish
welsh
luvian
oldnorse
oldenglish
oldhighgerman
gothic
lycian
oldcslavonic
latvian
lithuanian
oldprussian
tocharian_a
tocharian_b
hittite
greek
vedic
avestan
oldpersian
latin
umbrian
oscan
62
78
66
85
58
0 10002000300040005000600070008000
R. Ryder Modèles phylogéniques de la diversification des langues
Âge de la racine
R. Ryder Modèles phylogéniques de la diversification des langues
Questions
otázky kessesspørgsmåler cwestiwnau
pytania preguntespreguntas vraekláusimai Fragenâîïðîñû quaestionesîntrebari questionsvragen ερωτ ησεις
çàïèòàííi spurningardomande spørsmålerquestões frågorvprašanja
R. Ryder Modèles phylogéniques de la diversification des langues
Références
R. J. Ryder & G. K. Nicholls, Missing data in a stochasticDollo model for cognate data, and its application to thedating of Proto-Indo-European (2011), JRSS CG. K. Nicholls, Horses or farmers ? The tower of Babel andconfidence in trees (2008), Significance (vulgarisation)R. J. Ryder, Phylogenetic Models of LanguageDiversification (2010), DPhil. thesis, University of Oxford
R. Ryder Modèles phylogéniques de la diversification des langues