104
Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas 23 de julio del 2013 Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 1 / 97

Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

  • Upload
    ledung

  • View
    220

  • Download
    3

Embed Size (px)

Citation preview

Page 1: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Construcción de árboles filogenéticos

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

23 de julio del 2013

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 1 / 97

Page 2: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

1 Procedimiento para construir árboles filogenéticos

2 Métodos basados en distancias

3 Métodos basados en caracteres

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 2 / 97

Page 3: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos

Procedimiento para construir árboles filogenéticos

Recordemos que el procedimiento para construir árbolesfilogenéticos se divide en 5 pasos:

1 Elección de los marcadores moleculares2 Alineamiento múltiple de secuencias3 Elección de un modelo de evolución4 Determinación de un método de construcción de árboles5 Verificación de la fiabilidad del árbol construido

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 3 / 97

Page 4: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Elección de los marcadores moleculares

1 Procedimiento para construir árboles filogenéticosElección de los marcadores molecularesAlineamientoModelos de evolución

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 4 / 97

Page 5: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Elección de los marcadores moleculares

Elección de los marcadores moleculares

Para la construcción de árboles filogenéticos moleculares, sepueden utilizar secuencias de nucleótidos o de proteínas

La elección de los marcadores moleculares es una cuestiónimportante porque puede hacer una gran diferencia en laobtención de un árbol correcto

La decisión de utilizar las secuencias de nucleótidos o proteínasdepende de las propiedades de las secuencias y los propósitosdel estudio

Es recomendable utilizar secuencias de nucleótidos, queevolucionan más rápidamente que las proteínas, cuando seestudian organismos estrechamente relacionados (e.g. regionesno codificantes de ADN mitocondrial)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 5 / 97

Page 6: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Elección de los marcadores moleculares

Elección de los marcadores moleculares

Por otra parte para estudiar la evolución de grupos de organismosmás ampliamente divergentes es aconsejable utilizar secuenciasde nucleótidos con lenta evolución (e.g. ARN ribosomal osecuencias de proteínas)

Si la relaciones filogenéticas que se están analizando están en elnivel más profundo, por ejemplo entre bacterias y eucariotas, loadecuado es usar secuencias de proteínas conservadas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 6 / 97

Page 7: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Alineamiento

1 Procedimiento para construir árboles filogenéticosElección de los marcadores molecularesAlineamientoModelos de evolución

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 7 / 97

Page 8: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Alineamiento

Alineamiento

El segundo paso en el análisis filogenético es construir elalineamiento de secuencias

Es probablemente el paso más crítico del procedimiento debido aque éste establece las correspondencias posicionales en laevolución

Sólo el alineamiento correcto produce inferencias filogenéticascorrectas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 8 / 97

Page 9: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Alineamiento

Alineamiento

Por esta razón es importante utilizar los métodos del estado delarte para alineamiento múltiple de secuencias como T-Coffee

Se recomienda obtener el resultado del alineamiento de variasfuentes y compararlos cuidadosamente para identificar el mejor

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 9 / 97

Page 10: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

1 Procedimiento para construir árboles filogenéticosElección de los marcadores molecularesAlineamientoModelos de evolución

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 10 / 97

Page 11: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Una forma simple de medir la divergencia entre 2 secuencias escontar el número de substituciones en un alineamiento (distanciaentre secuencias)

Sin embargo, el número de substituciones observadas pueden noreflejar los verdaderos eventos evolutivos que ocurrieron

Cuando una mutación es observada, e.g. que A sea reemplazadocon C, el nucleótido pudo haber tenido en realidad varios pasosintermedios: A→ T → G→ C

Del mismo modo, podría haber ocurrido una mutación inversa,donde se dan cambios como G→ C → G

Además, un nucleótido idéntico observado en el alineamientopuede deberse a mutaciones en paralelo en ambas secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 11 / 97

Page 12: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Todo lo anterior dificulta la estimación de las verdaderasdistancias evolutivas entre las secuencias estudiadas

Este efecto es conocido con el nombre de homoplasia, la cual sino es corregida puede llevar a la construcción de árbolesincorrectos

Para corregir la homoplasia se requieren modelos estadísticos(modelos de evolución) para inferir las verdaderas distanciasevolutivas entre secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 12 / 97

Page 13: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Algunos de los modelos de evolución más conocidos son:

El modelo Jukes–Cantor

El modelo Kimura

El modelo Jukes–Cantor es el más simple de los dos y asumeque todos los nucleótidos son substituidos con igual probabilidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 13 / 97

Page 14: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Este modelo emplea una función logarítmica para derivar lasdistancias evolutivas que incluyen cambios ocultos:

dAB = −(3/4) ln[1− (4/3)pAB]

Donde dAB es la distancia evolutiva entre las secuencias A y B, ypAB es la distancia observada medida como la proporción desubstituciones sobre la toda la longitud del alineamiento

Por ejemplo, si un alineamiento de las secuencias A y B tiene 20nucleótidos de largo y 6 pares son diferentes, la secuencia difiereen 30 %, i.e., tienen una distancia observada de 0.3:

dAB = −(3/4) ln[1− (4/3× 0.3)] = 0.38

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 14 / 97

Page 15: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

El modelo Kimura es más sofisticado (realista) ya que consideradiferentes las tasas de mutación para las transiciones(substitución de una purina por otra o una pirimidinas por otra) ypara las transversiones (substitución de una purina por unapirimidina o vice versa)

De acuerdo a este modelo las transiciones ocurren másfrecuentemente que las transversiones, lo cual provee mejoresestimaciones de la distancia evolutiva

dAB = −(1/2) ln(1− 2pti − ptv )− (1/4) ln(1− 2ptv )

Donde pti es la frecuencia observada de transición y ptv lafrecuencia de transversión

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 15 / 97

Page 16: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Por ejemplo, supongamos que las secuencias A y B difiere en30 %, donde 20 % de los cambios corresponden a transiciones y10 % a transversiones

Usando el modelo Kimura tenemos que la distancia evolutiva dABentre las secuencias A y B puede ser calculado así:

dAB = −(1/2) ln(1− 2× 0.2− 0.1)− (1/4) ln(1− 2× 0.1) = 0.40

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 16 / 97

Page 17: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Comparación entre los modelos Jukes–Cantor y Kimura

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 17 / 97

Page 18: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Algunos otros modelos evolutivos más complejos: TN93, HKY, yGTR

Toman en cuenta más parámetros para realizar los cálculos

Sin embargo, normalmente no son usados en la práctica (cálculoscomplicados, alta variabilidad del resultado)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 18 / 97

Page 19: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Procedimiento para construir árboles filogenéticos Modelos de evolución

Modelos de evolución

Para secuencias de proteínas, se emplean las matrices desubstitución de aminoácidos: PAM o JTT

También existen variantes de los modelos Jukes–Cantor y Kimurapara proteínas

Por ejemplo, el modelo Kimura utiliza la siguiente fórmula:

d = − ln(1− p − 0.2p2)

Donde p es la distancia observada entre dos secuencias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 19 / 97

Page 20: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Introducción

2 Métodos basados en distanciasIntroducciónMétodos basados en agrupamientoMétodos basados en optimalidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 20 / 97

Page 21: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Introducción

Introducción

Como hemos visto las verdaderas distancias de evolución entresecuencias pueden ser calculadas a partir de las distanciasobservadas después de una corrección con algún modeloevolucionario

Las distancias evolutivas calculadas pueden ser usadas paraconstruir una matriz de distancias entre todos los pares detaxones

Basado en los puntajes de distancias entre pares de la matriz, esposible construir un árbol filogenético para todos los taxonesinvolucrados

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 21 / 97

Page 22: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Introducción

Introducción

Los algoritmos basados en distancias para construir árbolesfilogenéticos pueden ser subdivididos:

Métodos basados en agrupamientoMétodos basados en optimalidad

Los algoritmos basados en agrupamiento calculan el árbolusando una matriz de distancias e iniciando por los pares desecuencias más similares

El método de Pares No Ponderados Utilizando Media Aritmética(unweighted pair group method using arithmetic average,UPGMA) y de Unión de Vecinos son ejemplos de este tipo dealgoritmos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 22 / 97

Page 23: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Introducción

Introducción

Los algoritmos basados en optimalidad comparan muchastopologías alternativas de árboles y seleccionan el que tenga elmejor ajuste entre las distancias estimadas en el árbol y lasdistancias evolutivas reales

Esta categoría incluye los algoritmos Fitch-Margoliash y deEvolución Mínima

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 23 / 97

Page 24: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

2 Métodos basados en distanciasIntroducciónMétodos basados en agrupamientoMétodos basados en optimalidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 24 / 97

Page 25: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

Métodos basados en agrupamiento

El método más simple basado en agrupamiento es UPGMA(unweighted pair group method using arithmetic average)

Construye un árbol por un método de agrupamiento secuencial

Dada una matriz de distancias, éste inicia mediante la agrupaciónde los dos taxones con la menor distancia

Un nodo interior es colocado en el punto medio entre ellos y secrea una matriz reducida al considerar el nuevo grupo como unúnico taxón

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 25 / 97

Page 26: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

Métodos basados en agrupamiento

Las distancias entre este nuevo taxón compuesto y el resto de lostaxones se calculan para crear dicha matriz

El mismo proceso de agrupamiento se repite y otra nueva matrizreducida se crea

La iteración continúa hasta que todos los taxones se colocan enel árbol

El último taxón añadido se considera como el grupo fuera lo queproduce un árbol con raíz

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 26 / 97

Page 27: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

Métodos basados en agrupamiento

Ejemplo de construcción de un árbol filogenético usando elmétodo UPGMA (tomado del libro de Xiong)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 27 / 97

Page 28: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

Métodos basados en agrupamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 28 / 97

Page 29: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

Métodos basados en agrupamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 29 / 97

Page 30: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en agrupamiento

Métodos basados en agrupamiento

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 30 / 97

Page 31: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en optimalidad

2 Métodos basados en distanciasIntroducciónMétodos basados en agrupamientoMétodos basados en optimalidad

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 31 / 97

Page 32: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en optimalidad

Métodos basados en optimalidad

Estos métodos, a diferencia de los basados en agrupamiento,tienen un algoritmo bien definido para comparar todas lasposibles topologías de árboles a fin de seleccionar la que mejorse ajuste a la matriz de distancias evolutivas real

Basados en los diferentes criterios de optimalidad, hay dos tiposde algoritmos: Fitch-Margoliash y de Evolución Mínima

Una clara desventaja de este tipo de algoritmos son los altostiempos de cómputo que demandan debido a la búsquedaexhaustiva que realizan

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 32 / 97

Page 33: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en optimalidad

Métodos basados en optimalidad

El método Fitch–Margoliash (FM) selecciona el mejor árbol entretodos los posibles basándose en la mínima desviación entre lasdistancias calculadas en la totalidad de las ramas del árbol y lasdistancias del conjunto de datos original

Inicia por agrupar aleatoriamente 2 taxones en un nodo y crear 3ecuaciones para describir las distancias

Después resuelve algebraicamente las 3 ecuaciones paralongitudes de rama desconocidas

Con ayuda de este grupo de 2 taxones se crea una nueva matrizreducida

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 33 / 97

Page 34: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en optimalidad

Métodos basados en optimalidad

Este proceso itera hasta que el árbol se forma completamente

El método busca todas las posibles topologías y seleccionaaquella que tiene la menor desviación cuadrática entre lasdistancias reales y las longitudes calculadas de las ramas

El criterio de optimalidad es expresado con la fórmula:

E =T−1∑i=1

T∑j=j+1

(dij − pij)2

d2ij

(1)

Donde E es el error del árbol estimado, T es el número detaxones, dij es la distancia en el conjunto de datos original entrelos taxones i , j y pij es la longitud de la rama correspondiente

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 34 / 97

Page 35: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en distancias Métodos basados en optimalidad

Métodos basados en optimalidad

Métodos basados en distanciasVentaja: habilidad para hacer uso de diferentes modelos desubstitución para corregir las distancias evolutivas

Desventaja: La información real de las secuencia se pierde cuandotodas las variaciones son reducidas a un único valor, impidiendo lainferencia de secuencias ancestro en los nodos internos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 35 / 97

Page 36: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Introducción

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 36 / 97

Page 37: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Introducción

Introducción

Los métodos basados en caracteres (también llamados métodosdiscretos) están basados directamente en el análisis de loscaracteres que forman las secuencias y no de las distancias entrepares de éstas

Estos métodos cuentan los eventos de mutación acumulados enlas secuencias y pueden por lo tanto eliminar la perdida deinformación que se da cuando los caracteres son transformados adistancias

Esta preservación de información de los caracteres significa quela dinámica evolutiva de cada uno de ellos puede ser estudiada

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 37 / 97

Page 38: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Introducción

Introducción

Adicionalmente, también es posible inferir secuencias deancestros

Los dos métodos basados en caracteres más populares son:Máxima Parsimonia (MP)

Máxima Verosimilitud (MV)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 38 / 97

Page 39: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima parsimonia

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 39 / 97

Page 40: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima parsimonia

Máxima parsimonia

El método de MP selecciona el árbol que tiene el mínimo númerode cambios evolutivos, i.e., el árbol cuyas ramas tengan promediola mínima longitud

Se basa en el principio conocido como Navaja de Occam(Occam’s razor) formulado por William Ockham en el siglo XIV

Este principio hace referencia a un tipo de razonamiento basadoen una premisa muy simple: en igualdad de condiciones lasolución más sencilla es probablemente la correcta

Esto es porque la solución más simple requiere el menor númerode suposiciones y de operaciones lógicas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 40 / 97

Page 41: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima parsimonia

Máxima parsimonia

Para el análisis filogenético, la parsimonia es una buenasuposición

Siguiendo este principio, un árbol con el menor número desubstituciones es probablemente la mejor opción para explicar lasdiferencias entre los taxones estudiados

Esta perspectiva se justifica por el hecho de que los cambiosevolutivos que suceden dentro de lapsos de tiempo cortos sonrelativamente raros

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 41 / 97

Page 42: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima parsimonia

Máxima parsimonia

Esto implica que un árbol con cambios mínimos es muy probableque sea una buena estimación del verdadero árbol

Al minimizar los cambios, el método minimiza el ruido filogenéticodebido a la homoplasia (cambio evolutivo paralelo que hace quedos organismos presenten un mismo carácter adquiridoindependientemente) y a la evolución independiente

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 42 / 97

Page 43: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 43 / 97

Page 44: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

La construcción del árbol filogenético de MP funciona buscandotodas las posibles topologías de árboles y reconstruyendosecuencias de ancestros que requieren el mínimo número decambios evolutivos a las secuencias actuales

Para ahorrar tiempo de cómputo, sólo un pequeño número desitios, que tienen información filogenética importante, son usadosen la determinación del árbol

Estos sitios son llamados sitios informativos, los cuales sondefinidos como sitios que tienen al menos dos tipos diferentes decaracteres, cada uno ocurriendo al menos dos veces

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 44 / 97

Page 45: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

Ejemplo de extracción de sitios informativos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 45 / 97

Page 46: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

Los sitios informativos son los que pueden a menudo serexplicados median una topología de árbol única

Los sitios no-informativos son constantes o tienen cambios queocurren una sola vez

Los sitios constantes obviamente no son útiles para evaluardiferentes topologías

Los sitios con cambios ocurriendo una sola vez tampoco sonútiles porque pueden ser explicados por múltiples topologías

Por esta razón los sitios no-informativos son desechados en elproceso de construcción de un árbol filogenético de MP

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 46 / 97

Page 47: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

Una vez que los sitios informativos son identificados y losno-informativos son descartados, el mínimo número desubstituciones en cada sitio informativo es calculado para unatopología dada

El número total de cambios en todos los sitios informativos sonsumados para cada posible topología

Y el árbol con el más pequeño número de cambios es elegidocomo el mejor

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 47 / 97

Page 48: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

La clave para contar un número mínimo de sustituciones para unsitio particular es determinar los estados del carácter ancestral enlos nodos internos

Debido a que estos estados de caracteres ancestrales no seconocen directamente, pueden existir múltiples solucionesposibles

En este caso, el principio de parsimonia se aplica para elegir losestados de los caracteres que resultan en un mínimo número desustituciones

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 48 / 97

Page 49: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

La inferencia de una secuencia ancestral se realiza en dos pasos:1 Se recorre el árbol de las hojas hacia la raíz para determinar todos

los posibles estados de los caracteres ancestrales

2 Se recorre el árbol de la raíz hacia las hojas para asignarsecuencias ancestrales que exigen el número mínimo desustituciones (puntaje de parsimonia)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 49 / 97

Page 50: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

Proceso de inferencia de una secuencia ancestral en dos pasos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 50 / 97

Page 51: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MP

Es necesario subrayar que en realidad la secuencia de nodosancestrales no siempre puede ser determinada sin ambigüedad

A veces, puede haber varios caracteres que resultan en un mismopuntaje de parsimonia para un determinado número de topologías

También es posible que haya dos o más topologías que tienen elmismo puntaje de parsimonia

En estos casos se tiene que construir un árbol de consenso querepresenta a todos los árboles parsimoniosos

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 51 / 97

Page 52: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MP

Construcción del árbol filogenético con MPImportancia del problema

Ciencias biológicasDesarrollo de nuevas vacunas

Estudio de la dinámica decomunidades microbianas

Estudio de antibacteriales yherbicidas

Desarrollo inteligente de nuevosfármacos

Ciencias de la computaciónEl problema de MP esNP-completo

Equivale al problema del árbol deSteiner en hipercubos[Garey and Johnson, 1977]

El número de árboles con raízpara n secuencias es:

|T | = (2n − 3)!/2n−2(n − 2)!

Para n = 30 hay 4.95× 1038

árboles (100 millones de sol./seg≈ 1.57× 1021 siglos)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 52 / 97

Page 53: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 53 / 97

Page 54: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dado un conjunto S = {S1,S2, . . . ,Sn} de n secuencias delongitud k , previamente alineadas, sobre un alfabeto A ;

Un árbol binario con raíz T = (V ,E), también llamado árbolfilogenético, está compuesto por los conjuntos V y E quecorresponden a sus nodos y aristas

|V | = (2n − 1) se encuentra dividido en dos subconjuntos:I, que contiene n − 1 nodos internos (ancestros hipotéticos) cadauno con 2 descendientes;L, compuesto de n hojas, i.e., nodos sin descendientes.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 54 / 97

Page 55: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

La secuencia de parsimonia Pw para cada nodo interno w ∈ Icuyos descendientes son Su = {x1, · · · , xk} y Sv = {y1, · · · , yk}se calcula con la siguiente relación:

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino para 1 ≤ i ≤ k ,

El costo de parsimonia (mutaciones) de la secuencia Pw estádefinido por:

φ(Pw ) =k∑

i=1

Ci donde Ci =

{1, si xi ∩ yi = ∅0, sino

El costo de parsimonia para el árbol T se obtiene de la siguientemanera:

φ(T ) =∑w∈I

φ(Pw ) (2)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 55 / 97

Page 56: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

El problema de MP consiste entonces en encontrar una topologíade árbol T ∗ para la cual φ(T ) sea mínimo, i .e.,

φ(T ∗) = mín{φ(T ) : T ∈ T

}donde T es el conjunto de todas las posibles topologías de árbol(espacio de búsqueda).

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 56 / 97

Page 57: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A TT A C G T A G C

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 58: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A1

T

T A C G T A G C

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 59: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A2

G

AT

T A C G T A G C

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 60: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A2

GC

AT

T A C G T A G C

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 61: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A

G3

GC

AT

T A C G T A G C

T

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 62: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A

G3

GC

AT

T A C G T A G C

T

AG

CG 4T

AGT

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 63: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A

G3

GC

AT

T A C G T A G C

T

AG

CG 4T

AGT

TGA

C

TG 8A

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 64: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Planteamiento formal del problema de MP

Planteamiento formal del problema de MP

Dadas n = 4 secuencias de longitud k = 4 y la siguiente topologíade árbol, calculamos la secuencia de parsimonia Pw para cadanodo interno y sumamos el número total de mutaciones

A G C T G G A T

A

G2G

C

AT

T A C G T A G C

T AC

G C

G2

AG

T

G

AC

TGC

7

zi =

{xi ∪ yi , si xi ∩ yi = ∅xi ∩ yi , sino

φ(Pw ) =k∑

i=1

Ci

Ci = 1 si xi ∩ yi = ∅

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 57 / 97

Page 65: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Trabajo relacionado

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 58 / 97

Page 66: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Trabajo relacionado

Trabajo relacionado

Algoritmo exactoBranch & bound (B&B) [Hendy and Penny, 1982] (n ≤ 10)

Algoritmos aproximadosAlgoritmos voraces [Andreatta and Ribeiro, 2002] (resultadoslejanos al óptimo)

Recocido simulado multiarranque (LVB)[Barker, 2003, Barker, 2012].

GRASP (greedy randomized adaptive search procedure)[Ribeiro and Vianna, 2005]

GA+PR+LS [Ribeiro and Vianna, 2009]

Hydra, algoritmo memético [Richer et al., 2009]

SAMPARS, recocido simulado [Richer et al., 2012] (mejorconocido)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 59 / 97

Page 67: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Parsimonia ponderada

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 60 / 97

Page 68: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Parsimonia ponderada

Parsimonia ponderada

El método que venimos de describir es no ponderado porque tratatodas las mutaciones como equivalentes

Este método es una sobresimplificación ya que se sabe que lasmutaciones de algunos sitios ocurren menos frecuentemente queen otros

Por ejemploLas transversiones con respecto a las transicionesLos sitios funcionalmente importantes con respecto a los neutrales

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 61 / 97

Page 69: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Parsimonia ponderada

Parsimonia ponderada

Por lo tanto, un esquema ponderado que tome en cuenta losdiferentes tipos de mutaciones ayudaría a seleccionar lastopologías de árboles más precisamente

Este tipo de esquema recibe el nombre de Parsimonia Ponderada

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 62 / 97

Page 70: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Parsimonia ponderada

Parsimonia ponderada

Parsimonia no ponderada y ponderada (transiciones 1,transversiones 5)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 63 / 97

Page 71: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 64 / 97

Page 72: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Como mencionamos el método de parsimonia examina todas lasposibles topologías de árboles para encontrar el árbol conmáxima parsimonia

Este es un método exhaustivo de búsqueda que sigue los pasossiguientes:

1 Construye un árbol sin raíz con tres taxones tomadosaleatoriamente (sólo existe una topología)

2 Agrega un cuarto taxón al árbol, produciendo 3 topologías posibles

3 Agrega los taxones restantes progresivamente para formar todaslas posibles topologías

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 65 / 97

Page 73: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Método exhaustivo de búsqueda

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 66 / 97

Page 74: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Obviamente este algoritmo de fuerza bruta sólo funciona paracasos con pocas secuencias (menos de 10)

La razón es que el número potencial de topologías de árbolespuede enorme aún con un número moderado de taxones

Recordemos que el número de árboles con raíz (NR) para ntaxones está dado por la siguiente fórmula:

NR = (2n − 3)!/2n−2(n − 2)! (3)

Y el número de topologías para árboles sin raíz (NU ) es:

NU = (2n − 5)!/2n−3(n − 3)! (4)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 67 / 97

Page 75: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Para intentar solucionar esta problemática se han desarrolladoalgunas técnicas para reducir la complejidad de la búsqueda

Un ejemplo es la técnica de Branch & Bound (B&B), la cualcomienza construyendo un árbol basado en distancias con todoslos taxones usando Unión de Vecinos o UPGMA

Después calcula el mínimo número de sustituciones para esteárbol para usarlo como cota superior contra la cual soncomparados todos los árboles

La idea es que el árbol con máxima parsimonia debe ser igual omás pequeño que el árbol basado en distancias

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 68 / 97

Page 76: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

B&B construye árboles en una forma similar a la búsquedaexhaustiva

La diferencia es que la cota superior precalculada es usada paralimitar el crecimiento del espacio de búsqueda

Cuando la longitud total de una topología parcial excede la cotasuperior, la búsqueda hacia esa dirección particular se aborta

Esto reduce dramáticamente el número de árboles considerados(menos tiempo de cpu) mientras continua garantizando encontrarel árbol con MP

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 69 / 97

Page 77: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Método de Branch & Bound

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 70 / 97

Page 78: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Cuando el número de taxones excede 20, aún el método B&B sevuelve computacionalmente inviable

La solución es usar métodos heurísticos (aproximados)

En un método heurístico de búsqueda en árboles, sólo unpequeño subconjunto de todas las posibles topologías esexaminado

Comienza por calcular un árbol inicial mediante el método deUnión de Vecinos

Continua modificandolo ligeramente para formar otra topología yanalizar si este cambio lleva a un árbol con mayor parsimonia(más pequeño)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 71 / 97

Page 79: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Los cambios ligeros aplicados al árbol inicial incluyen podar unarama o subárbol y pegarla en otra parte del árbol

La longitud total del nuevo árbol es recalculada, si esta es máspequeña que la del árbol inicial entonces el nuevo árbol es usadocomo punto de partida para otra iteración

Este proceso continua hasta que ningún árbol más pequeño esencontrado

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 72 / 97

Page 80: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Método de heurísticos de intercambio de ramas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 73 / 97

Page 81: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Este método es muy rápido, pero no garantiza encontrar el árbolcon MP

Los algoritmos heurísticos de intercambio de ramas(branch-swapping) más comunes son:

Intercambio del vecino más cercano

Bisección del árbol y reconexión

Poda de un subárbol y pegado

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 74 / 97

Page 82: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

La desventaja de los algoritmos heurísticos de intercambio deramas es que los nuevos árboles generados con cambios ligerostienden a enfocarse en una área local

Esto provoca que este tipo de algoritmos se estanquen cuando lalongitud mínima de una rama local es alcanzada

Para evitar que queden estancados en un mínimo local, unaopción de búsqueda global es implementada en ciertosprogramas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 75 / 97

Page 83: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Métodos de búsqueda en árboles

Métodos de búsqueda en árboles

Esto permite remover todos los posibles subárboles y pegarlos entodas las posibles formas, para incrementar la oportunidad deencontrar el árbol con MP

Este enfoque incrementa considerablemente el tiempo decómputo y por lo tanto compromete el compromiso entre obtenerun árbol óptimo y hacerlo en un tiempo razonable

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 76 / 97

Page 84: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Ventajas y desventajas

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 77 / 97

Page 85: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Ventajas y desventajas

Ventajas y desventajas

Ventajas:El método de MP es intuitivo (fácil de comprender)

Provee información evolutiva acerca de los caracteres en lasecuencia (homoplasia y estados ancestros)

Tiende a producir árboles más confiables que aquellos producidoscon métodos basados en distancias cuando la divergencia entresecuencias es baja (suposición de parsimonia es cierta)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 78 / 97

Page 86: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Ventajas y desventajas

Ventajas y desventajas

Desventajas:Cuando la divergencia entre secuencias es alta, o la cantidad dehomoplasia es grande, la estimación de un árbol por MP puedeser menos efectiva (suposición de parsimonia no es cierta)

La estimación de la longitud de las ramas puede también sererrónea porque MP no usa modelos de substitución para corregirsubstituciones múltiples (aumenta cuando las secuencias sondemasiado divergentes)

MP sólo considera sitios informativos, e ignora otros sitios con locual ciertas señales filogenéticas pueden perderse

MP es lento comparado con los métodos basados en distancias ymuy sensible a la atracción de ramas largas (LBA, long-branchattraction)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 79 / 97

Page 87: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Atracción de ramas largas

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 80 / 97

Page 88: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Atracción de ramas largas

Atracción de ramas largas

La atracción de ramas largas (LBA, long-branch attraction) es unproblema particular asociado con los métodos de MP

Se refiere a un fenómeno filogenético por el cual los taxones queevolución rápidamente con ramas largas son colocados juntos enun árbol, sin importar sus posiciones verdaderas en el árbol

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 81 / 97

Page 89: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Atracción de ramas largas

Atracción de ramas largas

Esto se debe parcialmente a la suposición en parsimonia queindica que todos los linajes evolucionan a la misma tasa y quetodas las mutaciones (transiciones y transversiones) contribuyende igual manera a la longitud de las ramas

También se debe a que las substituciones múltiples en los sitiosindividuales y entre sitios tienen una tasa de heterogeneidad queMP no es capaz de corregir

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 82 / 97

Page 90: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Atracción de ramas largas

Atracción de ramas largas

Existen diversas posibles soluciones al problema de atracción deramas largas:

Para homoplasias utilizar métodos basados en distancias y enMáxima Verosimilitud (próxima clase) que emplean modelos desubstitución y modelos de tasa de heterogeneidad

Usar parsimonia ponderada que permite luchar contra lasdesviaciones de las transiciones cuando se producen lastransiciones más a menudo que las transversiones

Aumentar el tamaño de muestreo de taxones también puedeayudar, porque la introducción de taxones intermedios rompe lasramas largas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 83 / 97

Page 91: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima verosimilitud

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 84 / 97

Page 92: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima verosimilitud

Máxima verosimilitud

El método de Máxima Verosimilitud (MV) emplea modelosprobabilisticos para seleccionar el mejor árbol, i.e., aquel quetenga la más alta probabilidad (verosimilitud) de reflejar elproceso evolutivo real

MV es un método exhaustivo que busca todas las posiblestopologías y considera cada posición en un alineamiento (no sólositios informativos)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 85 / 97

Page 93: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Máxima verosimilitud

Máxima verosimilitud

Empleando un modelo particular de substitución de residuos MLcalcula la verosimilitud total de las secuencias ancestro queevolucionan en nodos internos y eventualmente a las secuenciasexistentes (nodos hoja)

En ocasiones también incorpora parámetros que consideran lastasas de variación entre sitios

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 86 / 97

Page 94: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

3 Métodos basados en caracteresIntroducciónMáxima parsimoniaConstrucción del árbol filogenético con MPPlanteamiento formal del problema de MPTrabajo relacionadoParsimonia ponderadaMétodos de búsqueda en árbolesVentajas y desventajasAtracción de ramas largasMáxima verosimilitudConstrucción del árbol filogenético con MV

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 87 / 97

Page 95: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

MV trabaja calculando la probabilidad de un determinado caminoevolutivo para una secuencia particular existente

Los valores de probabilidad son determinados por un modelo desubstitución

Por ejemplo, para secuencias de ADN usando el modeloJukes-Cantor, la probabilidad P de que un nucleótido permanezcaigual después de un tiempo t es:

P(t) = 1/4 + 3/4e−αt (5)

donde α es la tasa de substitución del nucleótido en el modeloJukes-Cantor (asignada empiricamente o estimadaexperimentalmente)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 88 / 97

Page 96: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

Por el contrario para un nucleótido que cambia a un residuodiferente después de un tiempo t , la probabilidad P es:

P(t) = 1/4 + 1/4e−αt (6)

Para otros modelos de substitución, las fórmulas son mucho máscomplejas

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 89 / 97

Page 97: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

Ejemplo del método de MV (el tiempo t de X a A es 1 y de Z a A 2)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 90 / 97

Page 98: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

El ejemplo sólo muestra algunas de las topologías derivadas deuno de los sitios en el alineamiento

El método en realidad utiliza todos los sitios para calcular laprobabilidad para todos los árboles posibles con todas lascombinaciones posibles de secuencias ancestro en los nodosinternos de acuerdo a un modelo de substitucion predefinido

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 91 / 97

Page 99: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

Veamos un ejemplo más detallado con 4 secuencias hipotéticas

Para cuatro taxones existen 3 posibles árboles sin raíz (semuestra uno)

Se toma una columna para analizarse

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 92 / 97

Page 100: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

Una de las 5 posibles topologías con raíz derivadas del árbolanterior (contiene 3 nodos internos 0,1,2)

Se consideran todas las posibles asignaciones de bases para losnodos internos (4 ∗ 4 ∗ 4 = 64) y se calcula la verosimilitud paracada una (L1 − L6)

La verosimilitud de esta topología es: V (T1) =∏6

i=1 Li (se puedenusar sumas de logaritmos ln)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 93 / 97

Page 101: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

2 de las 64 posibles asignaciones de bases para los nodosinternos

V (6) = V (T1) + V (T2) + · · ·+ V (T64)

Estos cálculos son repetidos para todas las columnas delalineamiento, V (1) . . .V (10)

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 94 / 97

Page 102: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Construcción del árbol filogenético con MV

La verosimilitud de la topología es la suma de las verosimilitudescalculadas para cada columna,

∑10i=1 V (i)

Cada una de las 3 posibles topologías (para 4 taxones) esevaluada de manera similar y se identifica aquella con la máximaverosimilitud

Como puede verse este proceso es muy demandante en tiempode cómputo

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 95 / 97

Page 103: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Referencias bibliográficas I

Andreatta, A. and Ribeiro, C. C. (2002).Heuristics for the phylogeny problem.Journal of Heuristics, 8(4):429–447.

Barker, D. (2003).LVB: parsimony and simulated annealing in the search for phylogenetic trees.Bioinformatics, 20(2):274–275.

Barker, D. (2012).LVB homepage.

Garey, M. R. and Johnson, D. S. (1977).The rectilinear Steiner tree problem is NP-Complete.SIAM Journal on Applied Mathematics, 32(4):826–834.

Hendy, M. D. and Penny, D. (1982).Branch and bound algorithms to determine minimal evolutionary trees.Mathematical Biosciences, 59(2):277–290.

Ribeiro, C. C. and Vianna, D. S. (2005).A GRASP/VND heuristic for the phylogeny problem using a new neighborhood structure.International Transactions in Operational Research, 12(3):325–338.

Ribeiro, C. C. and Vianna, D. S. (2009).A hybrid genetic algorithm for the phylogeny problem using path-relinking as a progressive crossover strategy.International Transactions in Operational Research, 16(5):641–657.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 96 / 97

Page 104: Construcción de árboles filogenéticos - tamps.cinvestav.mxertello/bioinfo/sesion13.pdf · Construcción de árboles filogenéticos Dr. Eduardo A. RODRÍGUEZ TELLO CINVESTAV-Tamaulipas

Métodos basados en caracteres Construcción del árbol filogenético con MV

Referencias bibliográficas II

Richer, J. M., Goëffon, A., and Hao, J. K. (2009).A memetic algorithm for phylogenetic reconstruction with maximum parsimony.Lecture Notes in Computer Science, 5483:164–175.

Richer, J. M., Rodriguez-Tello, E., and Vazquez-Ortiz, K. E. (2012).Maximum parsimony phylogenetic inference using simulated annealing.Advances in Intelligent and Soft Computing, 175:189–203.

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Construcción de árboles filogenéticos 23 de julio del 2013 97 / 97