View
214
Download
0
Category
Preview:
Citation preview
UNIVERSITE RENNES 1
UFR Sciences de la vie et de l’environnement
MASTER SCIENCES TECHNOLOGIE SANTE MENTION ECOLOGIE - ENVIRONNEMENT
RAPPORT BIBLIOGRAPHIQUE DE MASTER II RECHERCHE
Spécialité écologie fonctionnelle, comportementale et évolutive
METHODES D’ANALYSE EN PHYLOGEOGRAPHIE : OU EN EST-ON ?
Emilien Voldoire
Maîtres de stage : Eric Petit et Sylvain Fournet
STAGE EFFECTUE A L’UNITE MIXTE DE RECHERCHE BIO3P
Biologie des organismes et des populations appliquée à la protection des plantes
Institut National de la Recherche Agronomique (INRA)
Domaine de la Motte
35653 Le Rheu cedex
Année universitaire 2009-2010
TABLE DES MATIERES
TABLE DES ABREVIATIONS 4
METHODES DE RECHERCHE BIBLIOGRAPHIQUE 5
I La phylogéographie : une discipline intégrative 7
(1) Acquisition des données moléculaires 8
(2) Les marqueurs multi-locus 9
II La phylogéographie selon Avise : une approche qualitative 10
III Une approche plus statistique: la « Nested Clade Phylogeographic Analysis » 12
(1) Construction d’un arbre d’haplotypes 12
(2) Construction d’une série de clades emboités 13
(3) Hypothèse nulle de non association géographique 15
IV Le coup de grâce de la « Nested Clade Phylogeographic Analysis »? 16
(1) Ambiguïté de la NCPA 16
(2) Faible performance de la NCPA dans des études de simulation 16
V Phylogéographie statistique : l’apport de la théorie de la coalescence 17
(1) La théorie de la coalescence 18
(2) L’approche du maximum de vraisemblance 19
(3) L’approche bayésienne 20
VI Bibliographie 22
3
TABLE DES ABREVIATIONS
ADN : Acide Désoxyribonucléique
ADNmt : Acide Désoxyribonucléique mitochondrial
ARN : Acide Ribonucléique
NCPA : Nested Clade Phylogeographic Analysis
RFLP : Restriction Fragment Length Polymorphism
MRCA : Most Recent Common Ancestor
TMRCA : Time to the Most Recent Common Ancestor
4
METHODES DE RECHERCHE BIBLIOGRAPHIQUE
La recherche bibliographique réalisée dans le cadre de ce travail est tout d’abord basée sur un
certain nombre de publications générales relatives au sujet et fournies par mes maîtres de
stage. La phylogéographie est une discipline intégrative, et ces premières publications traitent
de phylogénie, biologie des populations et biogéographie. Ainsi, j’ai désiré dans un premier
temps revoir les notions de base relatives à ces différents domaines, et ce à l’aide du réseau
d’enseignement en ligne GENET de Tours notamment. Dans un second temps, le travail de
recherche bibliographique s’est axé sur la phylogéographie en tant que tel et ses méthodes
d’analyse. Le moteur de recherche Web of Science® permet d’obtenir les travaux et revues du
sujet étudié. Les principaux mots clés utilisés ont été « Avise », « Templeton » et « Statistical
phylogeography » qui définissent de manière sous jacente les trois principales approches
méthodologiques en phylogéographie. En outre, le moteur de recherche Google a constitué
également une source d’information non négligeable pour ce travail de recherche
bibliographique.
5
I La phylogéographie : une discipline intégrative
La biogéographie tente d’identifier les processus environnementaux, biologiques et
historiques qui structurent la biodiversité à différentes échelles spatiales et temporelles, à
savoir les patrons de diversité des espèces. Une approche plus récente, la phylogéographie,
vient se placer dans cet espace scientifique, en intégrant une dimension phylogénétique. Ainsi,
selon Avise (Avise et al., 1987), le terme phylogéographie signifie simplement l’étude des
relations phylogénétiques entre divers groupes, notamment au niveau intraspécifique, et de
leur distribution géographique. Cette discipline opère une synthèse entre la phylogénie, la
génétique des populations et la biogéographie plus traditionnelle, et essaie de déterminer les
événements historiques (processus générateurs de biodiversité) qui ont eu un impact sur la
distribution et la structure génétique des populations actuelles.
Le terme phylogéographie est apparu pour la première fois dans un compte rendu de
séminaire écrit par Avise et ses collègues (Avise et al., 1987). Ces derniers désirent souligner
la relation étroite qui existe entre génétique des populations et phylogénie, alors très peu
considérée à l’époque de la publication : les processus de microévolution opérant au sein des
espèces peuvent expliquer les différences macroévolutives entre espèces ou taxons supérieurs.
Aujourd’hui, le lien entre ces deux disciplines semble évident avec le développement au cours
de ces dernières années d’approches rétrospectives en génétique des populations, notamment
avec la théorie de la coalescence.
Il est important de préciser dès à présent la place de la phylogéographie en sciences et de
présenter par là même les différents domaines exploités dans cette discipline (Avise, 2009).
Dans les années qui précèdent l’apparition de la phylogéographie (antérieures aux années
1980), peu de communication existe alors entre les biologistes qui étudient les processus
génétiques au niveau intraspécifique (microévolution) et ceux qui analysent les profils
génétiques supraspécifiques (macroévolution). Le premier domaine concerne la génétique des
populations qui a pour objectif, selon une approche prospective, d’étudier la variabilité
génétique (ou diversité génétique) présente dans et entre les populations via la mesure des
fréquences alléliques d’un même gène (conséquence des mutations, dérive génétique, flux de
gène, sélection naturelle et sexuelle). Le second constitue la phylogénétique qui étudie les
relations de parenté entre individus d’espèces distinctes. Elle nourrit ainsi la systématique et
les études sur la spéciation qui impliquaient des études sur des individus vivants ou disparus
(fossiles) et ne faisaient que faiblement appel à la génétique des populations avant les travaux
d’Avise. Ainsi, dans la mesure où la phylogéographie étudie essentiellement des individus
7
étroitement apparentés, cette discipline peut être considérée, outre la biogéographie, comme
une branche de la génétique des populations.
(1) Acquisition des données moléculaires
Pour déterminer les relations phylogénétiques inter- ou intra-spécifiques, l’approche
moléculaire présente l’avantage de générer un grand nombre de caractères variables. En outre,
ces caractères sont supposés être indépendants des conditions environnementales, et
l'évolution peut avoir été suffisamment régulière pour qu'il soit possible de calibrer une
"horloge moléculaire" afin de dater les événements de divergence. L’essentiel du
développement de la phylogéographie est consécutive aux nombreuses études portées sur les
données génétiques mitochondriales. En effet, l’ADN mitochondrial (ADNmt) constitue
depuis ces trois dernières décennies une source d’information essentielle en écologie
moléculaire et en phylogéographie. La mitochondrie offre nombre d’opportunités et avantages
pour les études de biologie évolutive.
La biologie de la mitochondrie permet de comprendre en quoi l’ADN mitochondrial est une
molécule singulière pourvue de caractéristiques propres à l’étude de l’histoire évolutive des
espèces (Ballard et al., 2004). Cet organite possède un petit génome – environ 17000 paires
de base chez les métazoaires – circulaire et double brin. On dénombre au total 37 gènes
codant des ARN de transfert (22 gènes), des ARN ribosomiques (2 gènes) et des protéines
impliquées dans la phosphorylation oxydative (13 gènes dont le cytochrome b).
Le génome mitochondrial diffère du génome nucléaire par de nombreux points qui affectent
substantiellement son évolution. Ainsi, d’un part, plusieurs facteurs contribuent à une
évolution rapide de l’ADNmt (mutagenèse) : mécanismes de réparation de l’ADN peu
efficaces au sein de la mitochondrie, exposition à un environnement oxydant (respiration
cellulaire) ou encore absence de protéines d’habillage (histones) de la molécule d’ADN.
L’évolution rapide du génome mitochondrial se traduit par une variation élevée des séquences
nucléotidiques de l’ADNmt, prérequis favorable pour l’analyse phylogéographique, qui
nécessite d’établir les liens de parenté entre individus de la même espèce.
La seconde propriété importante qui distingue l’ADNmt réside dans le mode de transmission
maternel de ce dernier : le cytoplasme du zygote contenant le génome mitochondrial est issu
de la mère. La transmission maternelle de l’ADNmt est analogue à celle du nom de famille
dans les sociétés humaines (Avise, 1998). La progéniture des deux sexes hérite des
mitochondries de la mère mais seulement les filles les transmettront aux générations futures.
8
Cette transmission uniparentale est haploïde et asexuée. Le génotype mitochondrial peut en
cela être considéré comme un haplotype qui diffère d’un autre haplotype par des mutations
particulières accumulées depuis le dernier ancêtre commun partagé. Ainsi, seules les
mutations (le processus de recombinaison homologue étant absent) sont à l’origine de la
diversité génétique du génome mitochondrial. D’autre part, la variation génétique du
marqueur moléculaire ADNmt peut être considérée comme neutre, la majorité des mutations
étant silencieuses et par là même sans effet sur la fitness des individus. Généralement, sous
l’effet de la dérive génétique, l’extinction stochastique d’une lignée mitochondriale au sein
d’une population se produit rapidement. Cependant, au moins une lignée ADNmt est retenue
dans chaque population au cours de l’évolution (Avise et al., 1987). Les scientifiques peuvent
utiliser ces séquences haplotypiques pour estimer l’histoire maternelle des populations.
Finalement, le rapide taux de mutation associé à une héritabilité maternelle sans
recombinaison font de l’ADNmt un marqueur simple-locus idéal pour les analyses
phylogénétiques.
(2) Les marqueurs multi-locus
Cependant, l’histoire d’un marqueur simple-locus ne correspond pas toujours à l’histoire
évolutive des populations. Chaque gène a une histoire évolutive unique déterminée par les
processus de mutation, recombinaison, flux de gènes, dérive et sélection, qui peuvent induire
des différences de généalogie entre gènes issus d’une même population. Par ailleurs, les
caractères strictement neutre et clonal de la mitochondrie sont régulièrement, et à juste titre,
remis en cause (Ballard & Whitlock, 2004 ; Galtier et al. 2009). Les distorteurs méiotiques
par exemple peuvent avoir un impact sur l’évolution du génome mitochondrial. Ainsi, on
observe que les conflits génétiques peuvent moduler les fréquences haplotypiques d’une
population en exerçant une sélection indirecte. Il existe également des effets de sélection
directe du fait de l’importance fonctionnelle de la mitochondrie.
Des avancées importantes en phylogéographie peuvent être réalisées à partir du génome
nucléaire. L’idée est de déterminer les généalogies de gènes issus de multiples loci
indépendants (marqueurs multi-locus) pour établir des concordances généalogiques entre ces
loci et ainsi préciser l’histoire évolutive de chaque espèce. En effet, un avantage évident de
faire des études de plusieurs loci est justement de pouvoir distinguer les effets
démographiques, qui affectent tous les gènes de la même manière, des effets de la sélection,
qui sont différents pour chaque gène.
9
II La phylogéographie selon Avise : une approche qualitative
La phylogéographie développe de nombreuses hypothèses évolutives pour étudier l’histoire
des liens de parentés entre des lignées généalogiques de populations intégrées dans une
dimension spatiale. La plupart des modèles évolutifs attribuent un rôle majeur à la
fragmentation des aires de distribution (vicariance), conséquence notamment des
changements paléo-environnementaux liés aux mouvements tectoniques (Picard et al., 2008)
et aux oscillations climatiques (Comes & Kadereit, 1998). L’isolement est associé à une
rupture du flux génique engendrant une différenciation des populations concernées.
L’expansion de l’aire de distribution d’une population constitue un autre modèle évolutif très
souvent évoqué en phylogéographie. La dispersion peut quant à elle être associée à un effet de
fondation (lié à l’effet bottleneck ou goulot d’étranglement). Enfin, cette discipline étudie en
premier lieu la distribution de la diversité biologique mais peut constituer également une
source d’information sur les événements de spéciation.
Les premières études en phylogéographie s’intéressent à établir de simples inférences
qualitatives de l’histoire démographique des taxons étudiés, par superposition de l’arbre
haplotypique avec la géographie de l’échantillonnage des haplotypes (carte géographique des
haplotypes). Une telle superposition d’arbres haplotypiques sur une carte de distribution
permet en effet de mettre en évidence des unités géographiques et des échanges entre
localités. Cette première approche en phylogéographie est souvent associée à des statistiques
peu développées. A l’échelle intraspécifique, Avise et al. (1987) définissent cinq catégories
phylogéographiques en fonction de l’adéquation entre diversité génétique et distribution
géographique. Chaque catégorie peut être caractérisée par une ou plusieurs interprétations
évolutives. La catégorie V est difficile à distinguer des catégories III et IV car il s’agit en fait
d’un continuum (tableau I).
Une étude réalisée sur le nématode à kyste Globodera pallida dans les Andes péruviennes par
Picard et al. (2007, 2008) permet d’illustrer l’approche qualitative en phylogéographie. Les
auteurs ont reconstruit l’histoire évolutive de cette espèce en déterminant les variations
génétiques d’un marqueur mitochondrial (cytochrome b) et de marqueurs nucléaires
d’individus échantillonnés le long de la Cordillère des Andes. La superposition de la
phylogénie et de la géographie des marqueurs révèle l’existence de cinq clades
monophylétiques, du plus ancestral (I) au Sud, au plus récent (V) au Nord (figure 1). La
phylogéographie de Globodera pallida suggère une expansion de la population du Sud vers le
Nord, probablement médiée par le soulèvement de la Cordillière des Andes.
10
Tableau I : Les cinq catégories phylogéographiques selon Avise et al. (1987)
Distribution
géographique Catégorie Diversité génétique Circonstances évolutives
- Barrière extrinsèque (géographique) à long terme plusieurs
I disjointes - flux génique limité et extinction des clades divergents
haplotypes intermédiaires
- zone de contact récente ou secondaire plusieurs
II - barrière intrinsèque (reproduction) entre espèces sœurs
sympatriques
recouvrantes clades divergents
un seul clade ou des
clades peu divergents
- flux génique limité sans barrière III disjointes
géographique à long terme
un seul clade ou des
clades peu divergents
- flux génique important et absence de IV recouvrantes
barrière géographique à long terme
- flux génique intermédiaire et absence de un seul clade ou des
clades peu divergents V imbriquée
barrière géographique à long terme
Figure 1 : Phylogéographie de Globodera pallida, au niveau des Andes péruviennes, basée sur le marqueur
mitochondrial (a) et les marqueurs nucléaires (b). La carte indique les limites géographiques des cinq clades (I à
V du sud au nord) le long de la Cordillière des Andes. Les astérisques symbolisent les haplotypes
mitochondriaux localisés en dehors de leur clade d’origine (Picard et al., 2007).
11
III Une approche plus statistique : la « Nested Clade Phylogeographic Analysis »
Templeton observe assez rapidement qu’il est nécessaire que les études phylogéographiques
soient combinées à des inférences statistiques (Templeton et al., 1995). L’approche proposée
par Templeton est basée sur une méthode cladistique destinée à analyser un arbre
d’haplotypes obtenu par une étude phylogéographique. D’autres approches reposent quant à
elles sur la théorie de la coalescence et seront développées plus tard dans ce rapport.
Ainsi, l’histoire évolutive des populations peut être appréhendée par une analyse des
groupements imbriqués ou « Nested Clade Phylogeographic Analysis » (NCPA, Templeton,
1998). Cette méthode cherche à discriminer, selon une approche statistique, les processus
historiques qui ont potentiellement influencé la distribution géographique des haplotypes. En
effet, selon Templeton et ses collaborateurs (Templeton et al., 1995), la superposition de
l’arbre des haplotypes et de leur distribution géographique, qui constitue la phylogéographie
intraspécifique de Avise et al. (1987), doit être mise à profit pour déterminer les causes d’une
telle correspondance entre phylogénie et géographie. L’analyse se décompose en trois étapes :
(1) construction d’un arbre d’haplotypes (ou réseau haplotypique) par la méthode de
parcimonie statistique, (2) conversion de cet arbre d’haplotypes en une série de groupements
(clades) emboîtés en suivant un algorithme d’emboîtement (Templeton et al., 1987) et (3) test
de permutation pour évaluer l’hypothèse nulle de non association entre les clades et les
localisations géographiques, celles-ci étant définies en terme de distances entre localités, puis
détermination via une clé d’inférence du scénario évolutif associé. L’analyse des groupements
imbriqués (NCPA) constitue une approche très populaire en phylogéographie pour
reconstituer l’histoire démographique de populations à partir de données génétiques.
Nous avons choisi une étude phylogéographique réalisée par Branco et al. (2000, 2002) sur le
Lapin d’Europe (Oryctolagus cuniculus) en Espagne pour illustrer les étapes méthodologiques
et les objectifs de cette approche. Dans cette étude, les variations génétiques entre les
séquences haplotypiques mitochondriales (cytochrome b), issues des différents points
d’échantillonnage de la péninsule ibérique, sont déterminées par RFLP (Analyse du
polymorphisme de longueur de fragments de restriction).
(1) Construction d’un arbre d’haplotypes
Les arbres d’haplotypes représentent les liens de parentés entre différentes séquences d’ADN
non recombinantes (haplotypes). La construction d’arbres présentant des multifurcations
résulte du fait que les haplotypes ancestraux sont encore présents et qu’ils coexistent avec de
12
nombreux haplotypes dérivés (Posada & Crandall, 2001). Il est important de comprendre
qu’au niveau supraspécifique, les phylogénies peuvent être construites grâce aux méthodes
classiques (phénétiques ou cladistiques) car les différences entre taxons sont généralement
nombreuses et bien définies, tandis qu’au niveau intraspécifique, les variations génétiques
sont peu nombreuses et les méthodes traditionnelles ont alors un faible pouvoir de résolution.
Il est alors judicieux de construire un « arbre des haplotypes », c’est-à-dire un arbre
généalogique reliant les haplotypes les plus proches entre eux, plutôt qu’un arbre
phylogénétique (Crandall & Templeton, 1996).
Les arbres des haplotypes peuvent être construits selon la méthode de parcimonie statistique
(Templeton et al., 1992). Le programme TCS (Clement et al., 2000) calcule le nombre
maximum de mutations autorisé pour que la connexion entre deux séquences haplotypiques
soit considérée comme parcimonieuse avec une probabilité supérieure à 95%. Ainsi, un ou
plusieurs réseaux parcimonieux d’haplotypes sont générés selon qu’il existe ou non des
haplotypes dont la connexion ne peut se faire sans excéder cette valeur seuil. La valeur seuil
peut aussi être définie par l'utilisateur afin de considérer des connexions non parcimonieuses.
L'haplotype ancestral est désigné au moyen d'un algorithme qui affecte à chaque haplotype
une probabilité que celui-ci soit ancestral, en se basant sur trois hypothèses : (1) les
haplotypes intérieurs à l'arbre ont plus de chance d'être ancestraux que les haplotypes situés
en périphérie, (2) la fréquence des haplotypes est un indicateur de leur probabilité d'être
ancestraux, (3) les haplotypes intérieurs à l'arbre ont une probabilité d'autant plus élevée d'être
ancestraux qu'ils sont plus fréquents ou reliés à des haplotypes fréquents (Crandall &
Templeton, 1996). La figure 2 présente (a) l’arbre d’haplotypes obtenu par la méthode de
parcimonie statistique pour le Lapin d’Europe dans la péninsule ibérique ainsi que (b) sa
superposition avec la géographie de l’échantillonnage des haplotypes mitochondriaux (Branco
et al., 2000). Cette étude met en évidence deux lignées ADNmt majeures A et B chez
Oryctolagus cuniculus, associées à une distribution géographique très structurée.
(2) Construction d’une série de clades emboités
Un algorithme d’emboîtement permet de convertir les arbres d’haplotypes en une série de
clades emboités (Templeton et al., 1987). L’objectif de cet emboîtement est de hiérarchiser
des groupes d’haplotypes apparentés. Ainsi, à partir de l’arbre d’haplotypes précédent, Branco
et al. (2002) construisent la série de clade en considérant dans un premier temps chacun des
38 haplotypes comme une unité.
13
Figure 2 : (a) Représentation sous forme d’arbre d’haplotypes des liens de parenté entre 38 séquences haplotypiques mitochondriales (cytochrome b) chez Oryctolagus cuniculus. La taille des cercles est proportionnelle au nombre d’individus et les points noirs symbolisent les haplotypes intermédiaires potentiels. Les 38 haplotypes appartiennent à deux lignées majeures A et B séparées par 14 pas de mutation. (b) Distribution géographique des lignées A et B dans la péninsule ibérique. Cette phylogéographie montre une forte localisation des lignées A et B respectivement au Sud-Ouest et Nord-Est de l’Espagne (Branco et al., 2000).
Figure 3 : Série de clades emboités des haplotypes mitochondriaux trouvées chez Oryctolagus cuniculus. Les « 0 » désignent les haplotypes intermédiaires non détectés. Chaque trait plein correspond à un pas de mutation. Les boîtes représentent les différents niveaux de clades (1-x et 2-x), où x est le numéro assigné au clade. Le trait vertical sépare les clades supérieurs 3-1 et 3-2 correspondant aux lignées A et B (Branco et al., 2002).
14
Les haplotypes qui différent par un seul pas de mutation (une mutation) sont regroupés dans
un clade de niveau supérieur (1-x), eux même constituant les unités du clade supérieur (2-x)
(figure 3). Enfin, la série de boîtes imbriquées est groupée en deux clades 3-1 et 3-2
correspondant aux deux lignées A et B, séparées par 14 pas de mutation. Le cladogramme
obtenu représente les différents clades d’haplotypes interconnectés et imbriqués en fonction
de leur degré d’apparentement.
(3) Hypothèse nulle de non association géographique
Pour chacun des clades regroupant des haplotypes distincts issus de localités distinctes, le
programme Geodis (Posada et al., 2000) teste l’existence d’une association géographique
significative entre les haplotypes qui le composent. Ce programme calcule les distances
géographiques moyennes entre clades constituant le clade analysé (Dn) et entre clade de rang
inférieur eux-mêmes emboîtés dans les clades constituant le clade analysés (Dc), et il évalue
leur significativité. Les résultats significatifs sont ensuite interprétés à l’aide d’une clé
d’inférence pour mettre en évidence d’éventuels événements de fragmentation ou d’expansion
de l’aire de distribution, estimer le rôle des flux de gène et déterminer si l’échantillonnage est
suffisant. La clé d’inférence fournit des indications tel que :
12 Are the Dn values significantly reversed from the Dc values ?
‐ No – contiguous range expansion
‐ Yes – go to step 13
Les résultats de l’étude sur le Lapin d’Europe en Espagne montrent d’une part une forte
association entre clades et localisation géographique (hypothèse nulle rejetée). D’autre part, la
NCPA suggère que la fragmentation des aires de distribution (respectivement clade A au Sud-
Ouest et clade B au Nord-Est) est consécutive à un flux de gène limité, associé à une isolation
géographique. L’inférence ici déterminée supporte l’hypothèse d’une isolation allopatrique à
long terme lors de la dernière glaciation (théorie des refuges) suivie d’une dispersion post-
glaciaire.
15
IV Le coup de grâce de la « Nested Clade Phylogeographic Analysis » (Petit, 2008) ?
Au cours de ces dernières années, cette méthode, qui utilise des clés d’inférence pour
déterminer des événements historiques associés à une distribution géographiques des
populations, devient la cible de nombreuses critiques (Knowles & Maddison, 2002 ; Planchal
& Beaumont, 2007 ; Petit, 2008 ; Nielsen & Beaumont, 2009).
(1) Ambiguïté de la NCPA
Une des premières difficulté rencontrée avec la NCPA est due aux choix méthodologiques
subjectifs que doit faire l’utilisateur au cours des différentes étapes (Nielson & Beaumont,
2009). Ainsi, la présence d’homoplasies potentielles (convergences) entre haplotypes rend la
construction de l’arbre d’haplotypes délicate. En effet, la plupart des séquences haplotypiques
ne donneront pas forcement un unique arbre parcimonieux avec la méthode de parcimonie
statistique. D’autre part, la construction de la série de clades emboîtés est également sujette à
l’interprétation subjective et incertaine de l’utilisateur (Planchal & Beaumont, 2007). Enfin,
l’ambiguïté majeure selon Nielson & Beaumont (2009) réside dans la consultation puis
l’interprétation de la clé d’inférence. Ainsi, les inférences ne prennent pas en compte la
stochasticité des données génétiques résultant de l’échantillonnage et les événements
historiques inférés correspondent uniquement aux données choisies par l’utilisateur.
(2) Faible performance de la NCPA dans des études de simulation
Deux études indépendantes basées sur des données simulées mettent en évidence le problème
des faux-positifs obtenus avec la méthode NCPA. D’une part, Knowles & Maddison (2002)
montrent des erreurs d’inférence obtenues à partir de données simulées (trois populations
subdivisées par deux événements de vicariances séquentiels et issues d’une population
ancestrale commune). Ainsi, bien que la NCPA détecte une association géographique
significative pour les données génétiques fournies, il détermine rarement la cause sous-jacente
correcte de cette distribution, à savoir le scénario de fragmentation allopatrique. D’autre part,
Planchal & Beaumont (2007) ont voulu déterminer la capacité de la méthode NCPA à rejeter
l’hypothèse nulle de non association géographique sur une ensemble de données dépourvues
de structure génétique spatialement distribuées. Les auteurs ont pour ce faire automatisé
l’ensemble du processus d’inférence NCPA (les trois étapes décrites plus haut), palliant ainsi
au problème de subjectivité de la méthode pour leur étude. Les résultats, en accord avec ceux
16
de Knowles & Maddison (2002), montrent que la NCPA conduit très fréquemment à des faux-
positifs. En effet, 75% des données aléatoires fournit au NCPA automatisé ont une inférence
incorrecte pour un événement historique, essentiellement un flux de gène limité associé à une
isolation géographique, ou une expansion démographique contiguë. Il est intéressant de
remarquer que ces deux inférences sont celles qui sont les plus communément rencontrées
dans les travaux publiés utilisant la NCPA à partir de données réelles.
En revanche, les études empiriques réalisées avec la NCPA fournissent souvent des résultats
en accord avec d’autres approches, notamment celles basées sur la théorie de la coalescence.
Il existe deux explications possibles pour comprendre cette contradiction entre résultats sur
données simulées et données empiriques (Nielsen & Beaumont, 2009). D’une part, il est
possible que des données réelles soient plus adaptées pour la NCPA et en cela moins sujettes
à fournir des faux-positifs. Ainsi, par exemple, les histoires démographiques résultant de
bottlenecks séquentiels peuvent conduire à un fort signal au sein de l’arbre d’haplotypes plus
facilement détectable par la NCPA. D’autre part, le caractère subjectif inhérent à cette
méthode peut conduire le chercheur à retrouver des résultats qui coïncident avec d’autres
approches (« effet Barnum »). Il faut remarquer ici que la NCPA n’est pas la seule méthode
sujette à des interprétations subjectives. Cependant, les nombreux débats sur la méthode
NCPA au cours de ces dernières années sont certainement dus à un développement nécessaire
de la phylogéographie et orienté vers un cadre statistique plus rigoureux, tenant compte de la
stochasticité inhérente aux processus évolutifs.
V Phylogéographie statistique : l’apport de la théorie de la coalescence
En phylogéographie conventionnelle, les processus démographiques historiques sont inférés à
partir de la distribution géographique des individus, représentés sous forme d’un arbre
d’haplotypes. Cependant, l’interprétation d’un tel arbre peut être difficile dans la mesure où
un même événement démographique ou géographique peut conduire de manière stochastique
à de multiples généalogies différentes. Ainsi, un même arbre d’haplotypes peut être le fruit de
différentes histoires évolutives. Ce problème conduit à l’émergence de nombreuses méthodes
statistiques pour réaliser des inférences phylogéographiques, basées sur la théorie de la
coalescence. La coalescence apporte un aspect quantitatif aux études phylogéographiques
(estimation de paramètres) alors quasi-inexistant chez Avise ou avec la NCPA de Templeton.
L’approche populaire qui consiste en une analyse des groupements imbriqués ou « Nested
Clade Phylogeographic Analysis » est ainsi concurrencée par ces nouvelles méthodes,
17
essentiellement en raison de la non prise en compte du caractère stochastique des processus
génétiques pour les inférences démographiques.
(1) La théorie de la coalescence
L’approche classique de la génétique des populations est essentiellement prospective et
consiste à essayer de prédire, à l’échelle d’une population entière, l'évolution du
polymorphisme génétique sous l'influence de différentes forces évolutives. Une approche
rétrospective en génétique des populations peut être également envisagée depuis quelques
années suite à l’émergence de la théorie de la coalescence (Kingman, 1982).
La théorie de la coalescence a pour objet l’étude des propriétés de la généalogie d’une série de
copies de gènes (ou haplotypes) échantillonnés au présent en remontant dans le passé jusqu’à
leur ancêtre commun le plus récent MRCA (Most Recent Common Ancestor). Un événement
de coalescence a lieu quand on retrouve, en remontant dans le passé, un individu qui a
transmis au moins deux copies d’un même gène à des descendants distincts. Après chaque
coalescence, le nombre de lignée diminue d’une unité. Il est donc possible de continuer ce
processus jusqu’au moment où il n’existe plus qu’une seule lignée, le MRCA. Le temps qui
s’écoule du présent jusqu’au MRCA est appelé TMRCA (Time to the Most Recent Common
Ancestor). Lorsque n copies de gènes sont échantillonnés, n-1 événements de coalescence ont
lieu. A la fin du processus, un arbre de coalescence est constitué, dont la racine est le MRCA
et les branches terminales sont les gènes échantillonnés.
La généalogie d’un gène sélectivement neutre dépend uniquement de l’histoire
démographique de la population dans laquelle il se trouve et en cela est complètement
indépendant du processus de mutation. L’étude de nombreuses généalogies de gènes neutres
permet donc de faire des inférences sur l’histoire démographique de la population dans
laquelle ils sont échantillonnés. C’est ainsi que l’histoire démographique n’est pas
directement inférée à partir d’un arbre d’haplotypes mais indirectement via la théorie de la
coalescence qui permet de construire des modèles à partir desquels on peut estimer différents
paramètres démographiques. Ces paramètres sont, par exemple, le TMRCA, la taille efficace,
le taux de migration, ou encore le taux d’expansion. Ces modèles offrent un cadre temporel
aux études phylogéographiques en intégrant dans la topologie des arbres une proportionnalité
entre longueur des branches et temps : la théorie de la coalescence nous enseigne par exemple
que le temps de coalescence moyen de deux copies de gène est égal à 2N, N étant l’effectif de
la population. La calibration des longueurs de branches peut se faire grâce à l’horloge
18
moléculaire (on utilise alors le polymorphisme génétique des marqueurs moléculaires étudiés)
mais peut aussi intégrer des informations géologiques (fossiles, mouvements tectoniques,
paléoclimat) et ainsi donner un cadre temporel aux inférences allouées aux mouvements des
populations dans l’espace (Ree & Sanmartin, 2009).
Des méthodes statistiques sont utilisées en phylogéographie pour faire des inférences basées
sur la théorie de la coalescence. Le but de ces méthodes est de pouvoir estimer certains
paramètres démographiques ou génétiques grâce à la théorie de la coalescence et à partir de
l’observation de polymorphisme dans des populations. En effet, la généalogie d’un gène ne
peut jamais être connue directement, mais elle peut être approchée par la phylogénie des
séquences échantillonnées. Deux grandes approches sont utilisées.
(2) L’approche du maximum de vraisemblance
Une première méthode d’inférence consiste à chercher quelles sont les valeurs des différents
paramètres qui maximisent la vraisemblance des données pour un modèle donné. Dans le
cadre d’une étude phylogéographique, les données (notées X) sont les différents haplotypes et
leurs fréquences respectives déterminés au sein de l’échantillon étudié tandis que les
paramètres d’intérêt présentés plus haut sont notés Θ. La théorie de la coalescence est mise à
profit pour obtenir les paramètres démographiques. Mathématiquement, la vraisemblance est
notée p(X I Θ) ou « I » signifie « conditionnellement à », c’est à dire que la probabilité est
calculée en tenant compte des valeurs des paramètres. Les valeurs des paramètres retenus sont
celles qui maximisent la vraisemblance des données (Nielsen & Beaumont, 2009).
Les travaux de Lemmon & Lemmon (2008) sur une espèce de Rainette faux-grillon
(Pseudacris feriarum) en Amérique du Nord nous permettent d’illustrer l’approche du
maximum de vraisemblance en phylogéographie. Cette espèce contient un premier clade
distribué sur la côte Est américaine (Est des Appalaches) et un second clade continental
présent à l’Ouest des Appalaches, tous deux associés au même type d’habitat. L’étude des
changements climatiques au cours de ces 10000 dernières années suggère un déplacement
vers le Nord de l’habitat côtier (et un habitat continental relativement stable). Lemmon &
Lemmon (2008) supposent ainsi une expansion récente spécifique au clade côtier vers le
Nord, le long de la côte Est américaine. Les auteurs développent un modèle stochastique de
migration dans un paysage continu qui présuppose une migration dans des directions et à des
distances aléatoires à chaque génération. Dans ce modèle phylogéographique spatialisé, les
paramètres sont, entre autres, la distance de dispersion Ψ (normalisée par le temps de
génération) et les coordonnées géographiques (latitude et longitude) de l’ancêtre commun du
19
clade. Dans un premier temps, les auteurs suggèrent une distance de dispersion Ψ plus grande
pour le clade côtier (en raison d’une expansion récente médiée par les changements
climatiques). Les valeurs de Ψ qui maximisent la vraisemblance des données sont
respectivement égales à 174,31 mètre (par génération) pour le clade côtier et 113,50 mètre
(par génération) pour le clade continental. Ces résultats semblent confirmer l’hypothèse
d’une distribution plus stable des membres du clade continental que de ceux du clade côtier au
cours de ces 10000 dernières années. Dans un second temps, les auteurs cherchent à localiser
l’ancêtre commun pour chacun de ces deux clades. Ils supposent pour le clade côtier une
position non centrée de l’ancêtre commun sur l’aire de distribution actuelle en raison de la
récente expansion. En effet, dans l’hypothèse d’un tel scénario démographique, les
coordonnées géographiques de l’ancêtre commun sont normalement situées au centre de
l’ancienne aire de distribution du clade, avant que toute expansion n’ait eu lieu. La figure 4
montre les coordonnées de l’ancêtre commun, déterminées par le modèle, qui maximisent la
vraisemblance des données, respectivement pour (a) le clade côtier et (b) le clade continental
de Pseudacris feriarum. On observe que l’ancêtre commun du clade côtier n’est pas localisé
au centre de l’aire de distribution actuelle (P = 0,0060) contrairement aux coordonnées de
l’ancêtre commun du clade continental, qui ne sont pas significativement différentes de C (P
= 0,7194). Ces résultats supportent l’hypothèse d’une expansion récente des membres du
clade côtier en raison d’un déplacement de leur habitat au cours de ces 10000 dernières
années.
(3) L’approche bayésienne
Une deuxième stratégie consiste à calculer la probabilité d’observer telle ou telle valeur de
paramètre conditionnellement aux données. Il s’agit de l’approche bayésienne, qui nécessite,
et c’est une différence fondamentale entre les deux méthodes, l’introduction de probabilités a
priori sur les valeurs des paramètres. L’inférence bayésienne consiste donc à combiner deux
sources d’information : une information apportée par les données (via l’expression d’une
vraisemblance) mais également une information a priori sur les paramètres, afin d’obtenir la
distribution a posteriori des paramètres à estimer (Nielsen & Beaumont, 2009). Les
informations a priori sont les données paléo-environnementales, fossiles ou encore
palynologiques qui fournissent des indications sur les phénomènes historiques qui ont pu
affecter une population (glaciations, orogenèse, perturbation de l’habitat) ainsi que sur
l’époque de ces différents événements (Hickerson et al., 2010).
20
Figure 4 : Estimation par l’approche du maximum de vraisemblance de la localisation géographique de l’ancêtre
commun du clade (a) côtier et (b) continental de Pseudacris feriarum. Les petits cercles vides indiquent les
différents points d’échantillonnage. L’étoile symbolise le maximum de vraisemblance quant à la localisation de
l’ancêtre commun pour chaque clade, et le trait discontinu représente l’enveloppe à 95% de cette position (toute
position en dehors de cette enveloppe a une vraisemblance significativement plus mauvaise que celle de la
position indiquée par l’étoile). C indique le centre actuel de l’aire de distribution des membres de chaque clade
(délimitée par un trait plein). S et T localisent les refuges de la Caroline du Sud et de la Vallée du Tennessee,
respectivement (non traité dans ce rapport) (Lemmon & Lemmon, 2008).
Deux décennies après Avise et al. (1987), la phylogéographie entre dans un nouvel espace
scientifique très prometteur. Ainsi, cette discipline, dans un premier temps très descriptive,
subit actuellement une profonde mutation avec l’apport de la théorie de la coalescence, à
partir de laquelle sont développés des modèles et une inférence subséquente de l’histoire
démographique des populations grâce à des méthodes statistiques. Ces avancées
méthodologiques en phylogéographie sont néanmoins confrontées à de nombreux défis,
consécutifs notamment au nombre déroutant de scénarii démographiques potentiels sous-
jacents aux données génétiques (Hickerson et al., 2010). Ainsi, cette évolution de la
phylogéographie doit être accompagnée d’un développement de la technologie associée
(vitesse de calcul notamment) afin d’obtenir des modèles démographiques de plus en plus
réalistes (Nielsen & Beaumont, 2009).
21
VI Bibliographie
Avise J.C., Arnold J., Ball R.M., Bermingham E., Lamb T., Neigel J.E. et al. (1987) Intraspecific
phylogeography : the mitochondrial DNA bridge between population genetics and systematics. Annual
Review of Ecology, Evolution, and Systematics. 18 : 489-522
Avise J.C. (1998) The history and purview of phylogeography : a personal reflection. Molecular Ecology. 7 :
371-379
Avise J.C. (2009) Phylogeography : retrospect and prospect. Journal of Biogeography. 36 : 3-15
Ballard J.O.W. & Whitlock M.C. (2004) The incomplete natural history of mitochondria. Molecular Ecology.
13 : 729-744
Branco M., Ferrand N. & Monnerot M. (2000) Phylogeography of the European rabbit (Oryctolagus cuniculus)
in the Iberian Peninsula inferred from RFLP analysis of the cytochrome b gene. Heredity. 85 : 307-317
Branco M., Monnerot M., Ferrand N. & Templeton A.R. (2002) Postglacial dispersal of the european rabbit
(Oryctolagus cuniculus) on the iberian peninsula reconstructed from nested clade and mismatch
analyses of mitochondrial DNA genetic variation. Evolution. 56(4) : 792-803
Clement M., Posada D. & Crandall K.A. (2000) TCS : a computer program to estimate gene genealogies.
Molecular Ecology. 9(10) : 1657-1660.
Comes H.P & Kadereit J.W. (1998) The effect of Quaternary climatic changes on plant distribution and
evolution. Trends Plant Science. 3 : 432-438
Crandall K.A. & Templeton A.R. (1996) Applications of intraspecific phylogenetics. In Harvey P.H., Leigh
Brown A.J., Maynard Smith J. & Nee S., Eds. New Uses for New Phylogenies. Oxford University
Press. 81-99
Galtier N., Nabholz B., Glémin S. & Hurst G.D.D. (2009) Mitochondrial DNA as a marker of molecular
diversity : a reappraisal. Molecular Ecology. 18 : 4541-4550
Hickerson M.J., Carstens B.C., Cavender-Bares J., Crandall K.A., Graham C.H., Johnson J.B. et al. (2010)
Phylogeography’s past, present, and future : 10 years after Avise, 2000. Molecular Phylogenetics and
Evolution. 54 : 291-301
Kingman J.F.C. (1982) The coalescent. Stochastic Processes and Their Applications. 13 : 235-248
Knowles L.L. & Maddison W.P. (2002) Statistical phylogeography. Molecular Ecology. 11 : 2623-2635
Lemmon A.R. & Lemmon E.M. (2008) A likelihood framework for estimating phylogeographic history on a
continuous landscape. Systematic Biology. 57(4) : 544-561
Nielsen R. & Beaumont M.A. (2009) Statistical inferences in phylogeography. Molecular Ecology. 18 : 1034-
1047
Petit R.J. (2008) The coup de grâce for the nested clade phylogeographic analysis ? Molecular Ecology. 17 :
516-518
Picard D., Sempere T. & Plantard O. (2007) A northward colonisation of the Andes by the potato cyst nematode
during geological times suggests multiple host-shifts from wild to cultivated potatoes. Molecular
Phylogenetics and Evolution. 42 : 308–316
Picard D., Sempere T. & Plantard O. (2008) Direction and timing of uplift propagation in the Peruvian Andes
deduced from molecular phylogenetics of highland biotaxa. Earth and Planetary Science Letters. 271 :
326-336
22
Planchal M. & Beaumont M.A. (2007) The automation and evaluation of nested clade phylogeographic analysis.
Evolution. 61 : 1466-1480
Posada D., Crandall K.A. & Templeton A.R. (2000) GeoDis: A program for the cladistic nested analysis of the
geographical distribution of genetic haplotypes. Molecular Ecology. 9 (4) : 487-488.
Posada D. & Crandall K.A. (2001) Intraspecific gene genealogies : trees grafting into networks. Trend in
Ecology and Evolution. 16(1) : 37-45
Ree R.H. & Sanmartin I. (2009) Prospects and challenges for parametric models in historical biogeographical
inference. Journal of Biogeography. 36 : 1211-1220
Templeton A.R., Boerwinkle E. & Sing C.F. (1987) A cladistic analysis of phenotypic associations with
haplotypes inferred from restriction endonuclease mapping. I. Basic theory and an analysis of alcohol
dehydrogenase activity in Drosophila. Genetics. 117 : 343-351
Templeton A.R., Crandall K.A. & Sing C.F. (1992) A cladistic analysis of phenotypic associations with
haplotypes inferred from restriction endonuclease mapping and DNA sequence data. III. Cladogram
estimation. Genetics. 132 : 619-633
Templeton A.R., Routman E. & Phillips C.A. (1995) Separating population structure from population history : a
cladistic analysis of the geographical distribution of mitochondrial DNA haplotypes in the tiger
salamander, Ambystoma tigrinurn. Genetics. 140 : 767-782
Templeton A.R. (1998) Nested clade analyses of phylogeographic data : testing hypotheses about gene flow and
population history. Molecular Ecology. 7 : 381-397
23
RESUME
Il y a deux décennies, Avise et ses collaborateurs ont proposé le terme de phylogéographie
pour décrire l’étude des relations phylogénétiques entre divers taxons, notamment au niveau
intraspécifique, intégrée dans une dimension spatiale. Cette nouvelle discipline se place alors
à la jonction entre biogéographie, phylogénie et génétique des populations. Cette approche
qualitative est rapidement complétée par la méthode « Nested Clade Phylogeographic
Analysis » (NCPA) qui apporte un cadre plus statistique aux études phylogéographiques.
Ainsi, une telle évolution permet d’inférer les processus historiques qui ont potentiellement
engendré les correspondances observées entre phylogénie et géographie. Actuellement, la
NCPA est concurrencée par de nouvelles approches statistiques plus rigoureuses (maximum
de vraisemblance, approche bayésienne) basées sur la théorie de la coalescence, qui prennent
en compte la stochasticité des processus génétiques et permettent de faire des inférences
quantitatives de paramètres démographiques. La phylogéographie constitue une des
disciplines les plus intégratives en biologie évolutive et le développement de telles approches
offrent de nombreuses perspectives pour comprendre l’impact du climat, de la géographie et
des intéractions écologiques sur la composition et l’évolution des populations.
ABSTRACT
Two decades ago, Avise and colleagues proposed the term phylogeography to describe the
phylogenetic analysis of organismal data integrated in a geographic context, a new scientific
field that appeared at the junction between biogeography, phylogeny and population genetics.
This qualitative approach was rapidly completed with the « Nested Clade Phylogeographic
Analysis » (NCPA) which provided a statistical framework to phylogeographic studies. Its
aim was to enable researchers to infer the historical processes that had potentially caused the
observed correspondence between phylogeny and geography. Currently, NCPA is challenged
by more rigorous statistical approaches (maximum likelihood, Bayesian approach) based on
the coalescence theory, which takes into account the stochasticity of genetic processes and
allows to make quantitative inferences of demographic parameters. Phylogeography is one of
the most integrative discipline in evolutionnary biology and the development of such
approaches offers many opportunities to understand the impact of climate, geography and
ecological interactions on the composition and evolution of populations.
Recommended