Click here to load reader

Introduction à la Phylogénie

  • Upload
    akasma

  • View
    56

  • Download
    0

Embed Size (px)

DESCRIPTION

Introduction à la Phylogénie. I. Introduction - Phylogénie. HYPOTHÈSE DE BASE: Tous les êtres vivants descendent d’un ancêtre commun. Sur une période d’au moins 3.8 milliards d’années le premier être vivant sur terre n’a cessé de se séparer en espèces différentes. - PowerPoint PPT Presentation

Citation preview

Introduction la Phylognie

Introduction la PhylognieTable des matiresIntroduction la phylognie: Dogme central, spciation, phylognie, taxonomie.Arbres phylogntiques: dfinitions formelles.Les caractres utiliss, modles dvolution, slection naturelleDnombrement des arbres.Comparaison darbres: Maximum agreement subtree, Distance Robinson-Foulds, Mouvements NNI, STT, quartets.Construction darbres: mthodes de distance, mthodes de parcimonie.

I. Introduction - Phylognie HYPOTHSE DE BASE: Tous les tres vivants descendent dun anctre commun. Sur une priode dau moins 3.8 milliards dannes le premier tre vivant sur terre na cess de se sparer en espces diffrentes.

Les tres vivants voluent partir dun anctre commun par une suite de mutations suivies de spciations. Tout au long de lvolution, les gnes accumulent des mutations. Lorsquelle sont neutres ou bnfiques lorganisme elles sont transmises dune gnration lautre.PhylognieLisolement dune population et ladaptation son environnement peut entrainer la cration dune nouvelle espces

http://www.tutorvista.com/content/biology/biology-iv/biotic-community/speciation.phpPhylognietude des relations dvolution entre des groupes dorganismes (espces, populations). Base sur la notion dhritageTaxonomie: Science qui consiste classifier identifier et nommer les organismes. Base sur des caractristiques communes, diffrentes du reste de la diversit biologique. Domain, Kingdom, Phylum, Class, Order, Family, Genus, and Species

http://commons.wikimedia.org/wiki/File:Darwins_tree_of_life_1859.gifThe Tree of Life image that appeared in Darwin's On the Origin of Species by Natural Selection, 1859. It was the book's only illustrationArbre de PhylognieArbre de PhylogniePremier objectif des tudes phylogntiques: Reconstruire larbre de vie de toutes les espces vivantes partir des donnes gntiques observes.NASA:http://www.nasa.gov

Arbre de PhylognieLes arbres de phylognie sont galement utiliss pour reprsenter lvolution commune dune famille de gnes, ou de virus comme le HIV ou linfluenza.

http://bio.nyk.ch/MyosinObservation de corrlations entre les mutations du gne Myosin avec certains changements anatomiques dans la ligne humaine. MYH16 chez lhumain trs divergeant des autres copies du gne.

II. Dfinitions formellesArbre: Graphe connexe acyclique; Ensemble de nuds (ou sommets) connects par des artes (ou branches) de telle sorte que toute paire de nuds est relie par exactement un chemin.II. Dfinitions formellesLes feuilles (nuds de degr 1) reprsentent les espces (ou squences) actuellesLes nuds internes reprsentent les vnements de spciation13425II. Dfinitions formellesArbre binaire: Chaque nud interne de degr 3

13425binaireII. Dfinitions formellesArbre binaire: Chaque nud interne de degr 3

13425non-binaireII. Dfinitions formellesArbre: Graphe connexe acyclique; Ensemble de nuds (ou sommets) connects par des artes (ou branches) de telle sorte que toute paire de nuds est relie par exactement un chemin. Arbre racin: Un nud est cr sur une branche et dsign comme tant la racine; permet dorienter la lecture de larbre; le temps scoule de la racine vers les feuilles.

HGOMCHGMCODfinitions formellesLa racine reprsente lanctre communArbre racin binaire: Chaque nud interne a deux fils.Nuds internes de degr 3 part la racine qui est de degr 2.

HGOMCbinaireDfinitions formellesLa racine reprsente lanctre communArbre racin binaire: Chaque nud interne a deux fils.Nuds internes de degr 3 part la racine qui est de degr 2.

HGOMCnon-binaireDfinitions formellesUn arbre phylogntique peut-tre binaire ou non-binaire.Un nud non-binaire reprsente gnralement un nud non-rsolu de larbre

NJ tree (with weighting) of 119 Bacteria. Asterisks denote anomalously positioned taxa.http://www.ncbi.nlm.nih.gov/pmc/articles/PMC540256/figure/fig3/Dans la suite du cours, si non-scpcifi, les arbres sont considrs binairesDfinition formelleLes nuds ou artes dun arbre de phylognie peuvent tre tiquets. Les tiquettes reprsentent gnralement le taux de mutations survenu, ou la date de spciation

R.V. Samonte & Evan E. EichlerNature Reviews Genetics 3, 65-72 (January 2002)Monophylie/Paraphylie/Polyphylie

http://du-cote-de-chez-elysia-chlorotica.blogspot.ca/2012_10_01_archive.htmlMammifresMonotrmesMarsupiauxEuthriensMonophylie/Paraphylie/PolyphylieT: arbre racin. Soit M un groupe despces (actuelles et ancestrales)M Groupe Monophyltique si le LCA e de M, ainsi que tous ses descendants sont dans M. Autrement dit, M dtermine un sous-arbre de T. Exemple dans larbre des ttrapodes: MammifresM Groupe Paraphyltique si le LCA e de M est dans M, mais que M nest pas complet, i.e. ninclue pas toutes les espces du sous-arbres de racine e. Les ReptilesM Groupe Polyphyltique si le LCA de M nest pas dans M.Les ttrapodes sans chaud ou hmothermes (Mammifres et oiseaux). Lanctre des amniotes ntait pas hmotherme.

III. Caractres et modles dvolutionCaractres utiliss:Une rgion spcifique de lADN,Une protineUn caractre morphologiqueLordre des gnes dans le gnome

Les caractres choisis doivent tre homologuesHypothse gnralement considre: Chaque caractre volue indpendamment des autres.Les caractres ou marqueurs utilissCaractres les plus utiliss pour les tudes dvolution: Squences de nuclotides ou dAA.Squences orthologues dans les espces tudiesEffectuer un alignement multiple des squencesLes caractres reprsents par les colonnes de lalignement et les tats du caractre sont les nuclotides (ou AA observs)dolphin ATGACCAACATCCGAAAAACACACCCTCTAATAAAAATCCTCgiant sperm whale ATGACCAACATCCGAAAATCACACCCATTAATAAAAATCATTbowhead whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATTATTright whale ATGACCAACATCCGAAAAACACACCCAGTAATAAAAATTATTminke whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATTATCfin whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATCGTCblue whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATCATChumpback whale ATGACCAACATCCGAAAAACACACCCACTAATAAAAATTATCChoix de marqueurs (sq. dADN) Comment choisir une rgion de lADN qui reflte lvolution de tout le gnome? Caractristiques gagnantes:Marqueur non-recombinant. Pour viter ce problme, choisir des marqueurs uni-parentaux, comme les seq. de mitochondries et de chloroplastes: transmission par la mre uniquement.

http://www2.le.ac.uk/departments/emfpu/genetics/explained/images/mtDNA-egg-and-sperm.gif/viewChoix de marqueurs (sq. dADN) Comment choisir une rgion de lADN qui reflte lvolution de tout le gnome? Caractristiques gagnantes:Marqueur non-recombinant. Pour viter ce problme, choisir des marqueurs uni-parentaux, comme les seq. de mitochondries et de chloroplastes: transmission par la mre uniquement. Marqueur en copie unique, pour viter de choisir de mauvais paralogues ou:Marqueurs en copie multiples subissant une volution concerte permettant duniformiser toutes les copies. ARNr: Marqueurs trs utiliss pour les tudes phylogntiques:Rgions rptes de lADN subissant une volution concerteParmi les familles de gnes les plus conserves dans la celluleAlignements multiples faciles fairePermet la comparaison despces trs loignes.Modles dvolution molculaireDistance volutive d entre deux squences: nombre moyen de substitutions/site stant produites depuis la divergence de ces deux squences partir dun anctre commun.Estimation des distances volutives la base de la plupart des mthodes de reconstructions phylogntiques.Construction dune matrice de distance contenant les distance volutives entre paire de squences: Premire tape des mthodes phylogntiques.Divergence observeCalcule directement partir de la distance d de Levenshtein ou de Hamming (substitutions) entre deux squences (ADN ou protines). Taux de divergence = d/n o n est la taille des squences.Pour deux squences alatoires dADN, le taux de divergence est gal 0.25Divergence observe: seule mesure directement accessible.Pas un bon estimateur part pour les squences trs proches: tendance sous-estimer la distance volutive relle.Modle markovien de lvolutionCalcul dune probabilit de transition dun tat un autreCalcul dune matrice 4x4:

mij (i j) : taux de substitution instantan de ltat i ltat j.1-mi : taux de conservation instantan du nuclotide i.Q: matrice des taux du processus de Markov. La somme sur chaque colonne est 0.

Modle de Jukes et Cantor (JC69)Modle markovien de substitution le plus simple.Considre le mme taux de substitution instantan pour chacun des changements possible, et un seul taux de conservation global.

m/4: taux moyen instantan de substitution.

Modle de Kimura (K80)Transitions et transversions ont des taux diffrents.Transitions: A G, C T Transversions: A T, T G, A C, C G

k rapport entre le taux de transitions et le taux de transversions.

Slection naturelleProcessus par lequel certaines modifications apparaissant par hasard chez certains individus dans une population sont favorises et fixes, tandis que dautres sont dfavorises et perdues.Concept initialement formul par Darwin, bas sur une observation des phnotypes. La slection naturelle affecte galement le gnotype. Peut mener la cration de nouvelles espces.

Distance synonyme/non-synonyme pour les squences codantes Les gnes sont soumis plusieurs types de slection naturelle:Slection positive: Processus qui encourage la rtention des mutations qui sont bnfiques pour un individu.Slection ngative ou purificatrice: Processus qui tend faire disparatre des mutations nuisibles.Slection neutre: Absence de slection positive ou ngative. Dans le cas de squences qui ne sont affectes par aucune pression slective. Peuvent tre modifies sans consquences sur lorganisme.Distance synonyme/non-synonyme pour les squences codantes Base sur la comparaison des substitutions synonymes et non-synonymes (effet sur les codons)Substitution non-synonyme (non-silencieuse): substitution provoquant la modification dun acide amin.Substitution synonyme (silencieuse): substitution ne provoquant pas la substitution de lacide amin initial.

http://en.wikipedia.org/wiki/Missense_mutation

Distance synonyme/non-synonyme pour les squences codantesSites synonymes et non-synonymes:100% des mutations touchant la 2me base des codons sont non-synonymesSous lhypothse que les frquences nuclotidiques sont gales et que les mutations se font au hasard, 95% des mutations touchant la 1re base et 28% des mutations touchant la 3me base sont non-synonymes.Distances synonymes et non-synonymes:dS (aussi note KS) distance synonyme entre deux squences codantes: Nbre de substitution synonymes stant produites par site synomyme dN distance non-synonyme: Nbre de subs. non-synonymes par sire non-synonyme.

Distance synonyme/non-synonyme pour les squences codantes Identification du type de slection:Slection ngative: Dficit de substitutions non-synonymes attendu dN/dS < 1Slection neutre: Aucun dficit en subst. non-synonymes attendu dN/dS 1Slection positive: Excs de subst. non-synonymes attendu dN/dS > 1

IV. Larbre cach dans la fortArbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. n=5; 3 noeuds internes;2 branches internes;7 branches 51234IV. Larbre cach dans la fortArbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.512341|23452|134512|345125|343|12454|12355|1234Bipartitions non-trivialesIV. Larbre cach dans la fortArbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.n=2: 12Arbre non racin uniqueArbre racin unique12Larbre cach dans la fortn=3: 12Arbre non racin unique3 arbres racins3123123132Arbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.

Larbre cach dans la fortn=4: 3 Arbre non racins15 arbres racinsArbre non racin (binaire) de n feuilles: n-2 nuds internes, n-3 branches internes, et 2n-3 branches. Chaque branche dfinit une bipartition de lensemble des feuilles. Arbre dfinit par n-3 bipartitions non-triviales.

12341324124312341243123421341234Larbre cach dans la fortDonc le problme dinfrence darbres se pose partir de 3 feuilles pour les arbres racins, et de 4 feuilles pour les arbres non-racins.Cavalli-Sforza et Edwars (1967) ont montr que le nombre Br darbres racins n feuille est:Br = (2n-3)!/ 2n-2 (n-2)!Le nombre Bu darbres non racins n feuilles est gal au nombre darbres racins n-1 feuilles, donc: Bu = (2n-5)!/ 2n-3 (n-3)!Le nombre darbres augmente trs rapidement avec le nbre de feuilles: Pour n=10, il existe plus de 34 millions darbres racins possibles. Un seul reprsente la ralit!! EnracinementLa plupart des mthodes de reconstruction phylogntiques produisent des arbres non racins.Pour un arbre non racin de n feuilles, 2n-3 enracinements possibles. Plusieurs mthodes existent:Enracinement au barycentre: positionner la racine au milieu du chemin sparant les deux feuilles les plus loignes. Hypothse de lhorloge molculaire.Applicable uniquement aux arbres valus.Enracinement en utilisant un outgroup. Mthode la plus utilise. Consiste rajouter lensemble des squences des espces tudies, une squence homologue appartenant une espce non-apparente.

http://cabbagesofdoom.blogspot.ca/2012/06/how-to-root-phylogenetic-tree.htmlLe kangourou est utilis comme outgroup: Marsupiaux versus mammifres placentaires. V. Mesures de similarit/dissimilarit entre les arbresPlusieurs arbres phylogntiques peuvent tre obtenus pour le mme ensemble de taxons.Utilisation de gnes diffrents ou de parties diffrentes du gnome;Diffrents modles dvolution;Diffrents algorithmes de reconstruction;Plusieurs arbres statistiquement quivalentsComment comparer les arbres?Mesures de distances: Robinson-Foulds, NNI, STT, quartets.Mesures de similarit: Structure commune lensemble des arbres. Mesure de similarit populaire: MAST.Consensus darbres

Distance topologiqueComment comparer deux arbres T1, T2 provenants de donnes diffrentes? Distance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .Distance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .CDEFABCDEBAFBipartitions non-trivialesCD|ABEFCD|ABEFEF|ABCD AB|CDEFEB|ACDFAF|BCDEDistance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions (splits) diffrentes entre T1 et T2 .CDEFABCEBAFBipartitions non-trivialesCD|ABEFCD|ABEFEF|ABCD AB|CDEFEB|ACDFAF|BCDEDDisance topologique dT (T1,T2)= 4 Distance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions (splits) diffrentes entre T1 et T2 .CDEFABCEBAFBipartitions non-trivialesCD|ABEFCD|ABEFEF|ABCD AB|CDEFEB|ACDFAF|BCDEDMauvaises branchesDistance topologiqueDistance la plus utilise: Robinson-Foulds. Compte le nombre de bipartitions diffrentes entre T1 et T2 .Un arbre non racin de n feuilles a n-3 branches internes (bi-partitions non-triviales). Donc distance topologique maximale entres deux arbres non racins est dM (T1,T2)=2(n-3)Gnralement, la distance tolologique est normalise:RF(T1,T2) = dT(T1,T2)/dM(T1,T2)

Distance NNINNI Nearest Neighbor Interchange: Mouvement permettant dinterchanger deux des sous-arbres incidents une branche interne. Deux mouvements sont possibles pour chaque branche interne.

ABCDACBDAADCB49Distance NNINNI Nearest Neighbor Interchange: Mouvement permettant dinterchanger deux des sous-arbres incidents une branche interne. Deux mouvements sont possibles pour chaque branche interne. Distance NNI entre deux arbres: Nombre minimum de mouvements NNI ncessaire pour transformer un arbre en lautre.

345121453241532T1T2NNI-dist (T1, T2) = 2Distance NNINNI-dist (T1, T2) nombre de mauvaises branches de T1 par rapport T2.En effet, pour supprimer une mauvaise branche, on a besoin dau mois un NNI.Calculer la distance NNI: Problme NP-difficile. Il existe des algorithmes dapproximation.Autres mouvementsSubtree pruning and regrafting (SPR): Consiste dtacher un sous-arbre et le greffer sur une autre branche de larbre.

Autres mouvementsTree bisection and reconnection (TBR): Dtache un sous-arbre et rebranche une arte de larbre initial une arte de ce sous-arbre. le greffer sur une autre branche de larbre.