ANÁLISIS FILOGENÉTICO Es el quagga mas parecido a una zebra o a un caballo?

ANÁLISIS FILOGENÉTICO

Es el quagga mas parecido a una zebra o a un caballo?

Los primeros pasos en la elaboración de

filogenias datan del siglo XIX

Los primeros pasos en la elaboración de

filogenias datan del siglo XIX

El árbol filogenético El árbol filogenético ilustra las relaciones de ilustra las relaciones de

parentesco entre grupos parentesco entre grupos de organismosde organismosque provienen que provienen

evolutivamente de uno o evolutivamente de uno o varios ancestros varios ancestros

comunescomunes

El árbol filogenético El árbol filogenético ilustra las relaciones de ilustra las relaciones de

parentesco entre grupos parentesco entre grupos de organismosde organismosque provienen que provienen

evolutivamente de uno o evolutivamente de uno o varios ancestros varios ancestros

comunescomunes

Una muestra puede caracterizarse por diferencias morfológicasUna muestra puede caracterizarse por diferencias morfológicas

Se agrupan las formas similares y se clasificanSe agrupan las formas similares y se clasifican

Se establecen jerarquías en la clasificaciónSe establecen jerarquías en la clasificación

Y se procede a relacionarlas por parentescoY se procede a relacionarlas por parentesco

Cuestión reciente de filogenia: ¿son osos los pandas de Asia?Cuestión reciente de filogenia: ¿son osos los pandas de Asia?

INTRODUCCION AL ANALISIS INTRODUCCION AL ANALISIS FILOGENETICOFILOGENETICO

El análisis filogenético fue inicialmente El análisis filogenético fue inicialmente desarrollado para estudios genealógicos desarrollado para estudios genealógicos basados en caracteres morfológicos.basados en caracteres morfológicos.

Sin embargo, su lógica formal y su Sin embargo, su lógica formal y su aplicación se ha extendido a distintos aplicación se ha extendido a distintos caracteres (cromosómicos, aloenzimáticos caracteres (cromosómicos, aloenzimáticos y moleculares).y moleculares).

Willie HennigWillie Hennig Entomólogo alemán quien fue Entomólogo alemán quien fue

el primero en proponer un el primero en proponer un sistema explícito de sistema explícito de reconstrucción filogenética.reconstrucción filogenética.

Su libro “Su libro “Grundzüge einer Grundzüge einer Theorie der phylogenetishen Theorie der phylogenetishen SystematikSystematik” (1950), sólo fue ” (1950), sólo fue conocido en 1966, cuando se conocido en 1966, cuando se tradujo al Inglés.tradujo al Inglés.

Su aporte produjo una Su aporte produjo una verdadera revolución en la verdadera revolución en la sistemática tanto a nivel sistemática tanto a nivel metodológicometodológico (método (método cladista) como cladista) como conceptualconceptual (teoría de clasificación). (teoría de clasificación).

Existen tres supuestos básicos en cladística:

1) Todo grupo de organismos esta relacionado por descendencia desde un ancestro común.

2) Hay un patrón bifurcante de cladogénesis.

3) El proceso de cambio de los caracteres ocurre en los linajes en el tiempo.

La proposición de Hennig La proposición de Hennig (1950)(1950)

El método que agrupa organismos usando caracteres El método que agrupa organismos usando caracteres derivados compartidos se denomina derivados compartidos se denomina CladísticaCladística o o Sistemática Sistemática filogenéticafilogenética..

Sólo caracteres derivados compartidos (Sólo caracteres derivados compartidos (sinapomorfíassinapomorfías) ) pueden darnos luces sobre las relaciones evolutivas pueden darnos luces sobre las relaciones evolutivas ((filogeniafilogenia) de los taxa a estudiar.) de los taxa a estudiar.

Los taxa que comparten mas caracteres derivados son Los taxa que comparten mas caracteres derivados son agrupados mas cercanamente que los que no comparten agrupados mas cercanamente que los que no comparten estos caracteres.estos caracteres.

Las relaciones entre estos taxa son mostradas en un arbol Las relaciones entre estos taxa son mostradas en un arbol jerárquico ramificado llamado jerárquico ramificado llamado CladogramaCladograma..

El cladograma es construido de tal modo, que el número de El cladograma es construido de tal modo, que el número de eventos de cambio entre caracteres (eventos de cambio entre caracteres (de un estado al otrode un estado al otro) es ) es minimizado (minimizado (PRINCIPIO DE PARSIMONIAPRINCIPIO DE PARSIMONIA))

GRUPOS MONOFILÉTICOS

Todo cladograma es una hipótesis

Nomenclatura asociada a los cladogramas

Árbol enraizado

Árbol no enraizado

Arboles no enraizadosArboles no enraizados Arboles enraizadosArboles enraizados

# # sequencesequence

ss

# # pairwise pairwise distancedistance

ss # trees# trees

# # branches branches

/tree/tree # trees# trees

# # branchesbranches

/tree/tree

33 33 11 33 33 44

44 66 33 55 1515 66

55 1010 1515 77 105105 88

66 1515 105105 99 945945 1010

1010 4545 2,027,0252,027,025 1717 34,459,42534,459,425 1818

3030 435435 8.69 8.69 10 103636 5757 4.95 4.95 10 103838 5858

NN NN ( (NN - 1) - 1)

22(2(2NN - 5)! - 5)!

22NN - 3 - 3 ((N N - 3)!- 3)!22N - N - 33 (2(2NN - 3)! - 3)!

22NN - 2 - 2 ((N N - 2)!- 2)!22N - N - 22

CONSECUENCIAS DE ENRAIZAR EL ARBOL

HOMOLOGÍA

¿Cómo se determinan los estados primitivos y derivados?

El método del grupo externo (Outgroup)

Concepto hennigniano de relación Concepto hennigniano de relación entre los entre los taxataxa esta basado en la esta basado en la

homologíahomología CarácterCarácter: rasgo, parte observable en un : rasgo, parte observable en un

organismo.organismo. HomologíaHomología: dos caracteres en : dos caracteres en dosdos taxa taxa

son homólogos: a) cuando ellos están en son homólogos: a) cuando ellos están en el mismo estado en el el mismo estado en el ancestroancestro o b) si o b) si estan en estado diferente, pero tiene una estan en estado diferente, pero tiene una relación relación ancestroancestro descendiente descrita descendiente descrita como preexistente (taxón 1) o novedad como preexistente (taxón 1) o novedad (taxón 2).(taxón 2).

1

11

1

12

Homología

1

1

0

0 0

1

1

0

0 = primitivo.

1 = derivado.

1 = primitivo (plesiomorfico).

2 = derivado (apomorfico)

PRINCIPIO BASICO

“descendencia con modificación”

tiempo

HOMOLOGÍA: CARACTERES MORFOLÓGICOS

“Un caracter en dos o más taxa es homólogo, cuando el carácter es encontrado en el ancestro común de ambos taxa o…dos caracteres son homólogos si uno es directamente (o secuencialmente) derivado de otro (E. O. Wiley)

Euphorbiaceae (AFRICA)

HOMOPLASÍA: CARACTERES HOMOPLASÍA: CARACTERES MORFOLÓGICOSMORFOLÓGICOS

Cactaceae (NUEVO MUNDO)

CARACTERES MOLECULARESCARACTERES MOLECULARES

HOMOLOGÍA: SECUENCIAS DE DNAHOMOLOGÍA: SECUENCIAS DE DNA

Fitch, W. TIG, May 2000, Vol. 16, N° 5

HOMOLOGÍAS

NIVEL MOLECULAR

ORTOLOGÍA

PARALOGÍA

XENOLOGÍA

HOMOLOGÍAS

APOMORFÍAS

PLESIOMORFÍAS

GENES ORTOLOGOS: Relación en que la divergencia de los genes ocurre después de un evento de especiación.

FILOGENIA DE SECUENCIAS = FILOGENIA DE LOS TAXA

GENES PARALOGOS: Relación en que la divergencia de los genes ocurre después de un evento de duplicación.

FILOGENIA DE SECUENCIAS FILOGENIA DE LOS TAXA

GENES XENOLOGOS: Relación en que la historia de los genes involucra transferencia interespecífica de material genético.

Synología: xenología originada por hibridización de dos especies

El problema de los genes duplicadosEl problema de los genes duplicados

genes ortólogosgenes ortólogos genes parálogosgenes parálogos

genes xenólogosgenes xenólogos

Hardison PNAS 2001 98: 1327-1329

Distintos tipos de hemoglobina

Origen reticuladoOrigen reticulado

PROCEDIMIENTO PARA PROCEDIMIENTO PARA FILOGENIAS MOLECULARESFILOGENIAS MOLECULARES

SECUENCIAS

ALINEAMIENTO MULTIPLE

ANALISIS FILOGENÉTICO

ÁRBOL FILOGENÉTICO

ClustalW, Malign, Pileup

Phylip,PAUP,MacClade

TreeDrawing

PASO CRÍTICO

DNA COMO CARACTER

260 * 280 * 300 * 320 0841r : CCTTCAATTTTTATT-----------------------AGAGTTTTAGGAGAAATAAGTATGTG : 2720992r : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 2133803r : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 3054062r : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGAACAGAGTTTTAGGAGAAATAAGTATGTG : 3193802r : CCTCCAATTTTTATTAGTTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 282ph2f : CCTCCAATTTTTATTAGCTTGCCTACTCCTTTGGGCACAGAGTTTTAGGAGAAATAAGTATGTG : 306 CCTcCAATTTTTATTag ttgcctactcctttggg acAGAGTTTTAGGAGAAATAAGTATGTG

Caracteres son posiciones en las secuencias.

Estados del caracter son los nucleótidos en las

secuencias

ROB DE SALLE

JOE FELSENSTEIN

LINNEO

ANALISIS FILOGENETICO

METODOS PARA INFERIR RELACIONES FILOGENETICAS

• Parsimonia.• Métodos de Distancia.• Máxima Verosimilitud

(M. Likelihood)

Tipos de métodos computacionales:

Algoritmos de agrupamiento: Usan distancias. Son puramente algorítmicos, en los cuales el algoritmo define el criterio de selección del arbol. Tienden a ser muy rápidos para producir un arbol.. Cuidado: Encontrar un arbol singular no es necesariamente igual a encontrar el árbol “verdadero”.

Optimización: Usa caracteres o distancias. Primero define un criterio de optimización (largo mínimo de las ramas, menor número de eventos , mayor probabilidad), y luego usa un algoritmo específico para encontrar arboles con el mejor valor para una función objetiva. Cuidado: Encontrar un arbol óptimo no necesariamente implica encontrar el arbol “verdadero”.

Métodos de reconstrucción filogenética molecular de árboles:

Son métodos matemáticos y estadísticos para inferir divergencia de los taxa, como también largo de las ramas que los conectan. Los métodos se pueden clasificar como sigue:

METODO DE COMPUTACION

Algoritmo de agrupamientoCriterio de Optimización

TIP

O D

E D

AT

O

Car

acte

res

Dis

tan

cia

PARSIMONIA

MAXIMUM LIKELIHOOD

UPGMA

NEIGHBOR-JOINING

MINIMUM EVOLUTION

LEAST SQUARES

El principio de ParsimoniaEl principio de Parsimonia

En términos generales se puede definir como “ En términos generales se puede definir como “ Un Un criterio científico para elegir entre hipótesis competentes criterio científico para elegir entre hipótesis competentes que explican los datos del modo más simple y eficienteque explican los datos del modo más simple y eficiente” ” (Kitching (Kitching et alet al, 1998)., 1998).

En sistemática filogenética es análogo al principio En sistemática filogenética es análogo al principio auxiliar de Hennig “auxiliar de Hennig “nunca asuma convergencia siempre nunca asuma convergencia siempre

asuma homología en ausencia de evidencia contrariaasuma homología en ausencia de evidencia contraria”.”. Esto nos lleva a siempre elegir aquella hipótesis que Esto nos lleva a siempre elegir aquella hipótesis que

involucre el menor número de pasos (“involucre el menor número de pasos (“la más la más parsimoniosa”parsimoniosa”))

Métodos de Parsimonia :

Criterio de Optimización : El árbol más parsimoniosos requiere el menor número de pasos (o eventos evolutivos: ej. Sustituciones nucleotídicas) para explicar las secuencias.

Ventajas:• Son simples, intuitivos, y logicos (posibles por “lápiz y papel”). • Pueden ser usados con datos morfológicos y moleculares.•Separan tipos de similaridades (homologías y homoplasías).•Pueden ser usados para inferir secuencias de ancestros hipotéticos.

Desventajas:• Son simples, intuitivos, y logicos (PERO no incorporan la estadística).• Pueden llegar a ser equívocos sobre todo en la “Felsenstein Zone”:

[Ver Swofford et al. (1996) para una discusión de métodos de parsimonia]

Primer paso en el análisis de Máxima Parsimonia: Identificar todos los sitios informativos

Invariantes: todas las OTU’s que posean el mismo estado del caracter Para el mismo sitio.Cualquier sitio invariante es no informativo

Dos tipos de sitios variables:

Informativos: Favorece un subset de arboles sobre los otros posibles.No informativos: un caracter que no contiene información relevante desde el punto de vista cladístico (ej. Autapomorfñias).

No Informativos: Cada uno implica 3 pasos

Análisis de Parsimonia segundo paso: Calcular el mínimo número de sustituciones para cada sitio informativo

Informativo: favorece arbol 1 sobre los otros 2 .

1 paso 2 pasos 2 pasos

Análisis de Parsimonia, el paso final: Sume el número de cambios sobre todos los sitios informativos para cada árbol posible y elija

aquel árbol con el menor número de cambios

Sitio 3

Sitio 4

Sitio 5

Sitio 9

3 pasos 3 pasos 4 pasos

Métodos de distanciaMétodos de distancia

Todos estos métodos requieren tres Todos estos métodos requieren tres pasos:pasos: Comparación entre taxa son hechas a Comparación entre taxa son hechas a

partir de todas las secuencias.partir de todas las secuencias. El número de diferencias de nucleótidos El número de diferencias de nucleótidos

observadas entre cada par es resumido observadas entre cada par es resumido en una matriz de distancias.en una matriz de distancias.

Se estima una filogenia a partir de la Se estima una filogenia a partir de la matriz de distancia.matriz de distancia.

La estimación de La estimación de distancias genéticasdistancias genéticas

La comparación de dos secuencias La comparación de dos secuencias de DNA revela el número de de DNA revela el número de diferencias entre ellas.diferencias entre ellas.

Alternativas :Alternativas : Sobreestimación o subestimación de Sobreestimación o subestimación de

cambios en relación al ancestro.cambios en relación al ancestro. Utilizar modelos de sustitución de DNA Utilizar modelos de sustitución de DNA

(Cambio).(Cambio).

Métodos de distancias Métodos de distancias más usadosmás usados

UPGMAUPGMA (Unweighted pair group method with (Unweighted pair group method with arithmetic averages).arithmetic averages). Taxa son agrupados de acuerdo a la menor Taxa son agrupados de acuerdo a la menor

distancia distancia mediamedia entre los taxa involucrados. entre los taxa involucrados. Cada OTU contribuye de igual modo a los Cada OTU contribuye de igual modo a los

cálculos.cálculos. Supuesto: Igual tasa de evolución a lo largo Supuesto: Igual tasa de evolución a lo largo

de todo el dendograma (heterogeneidad de todo el dendograma (heterogeneidad pasa inadvertida).pasa inadvertida).

MAS QUE UNA CUESTION DE GUSTOS!!

Fenetica vs CladisticaFenetica vs Cladistica

A

B

C

V1

V2 V3

V4

Propiedades aditivasdAB = V1+V2+V3dAC = V1+ V2 + V4dBC = V3 + V4

Propiedades ultraméricasV3 = V4V1=V2+V3 = V2+V4

Distancias ultraméricas y Distancias ultraméricas y aditivas aditivas a) Distancias ultraméricasa) Distancias ultraméricas

Mahatoshi Nei

METODO DE NEIGHBOR-JOINING (Satou & Nei, 1987) Y RELACIONADOS

C

B

D

Aa c

b d

x

B

A

C

DE

CRITERIO DE VECINDAD: Conección a través de un internodo (x)REMUEVE LA CONDICION DE DISTANCIAS ULTRAMÉRICAS.

a) b)

A

B

C

D

a

b

c

d

- Si aditividad se cumple: dAC + dBD = dAD + dBC = a + b + c + d + 2x = dAB + dCD + 2x

Condición de cuatro puntos (Buneman, 1971): 1) d AB + d CD < d AC + d BD

2) d AB + d CD < d AD + d BC

x x = largo de rama interna

Análisis para cuatro OTUs

Su principio básico es encontrar Su principio básico es encontrar vecinos que puedan minimizar el vecinos que puedan minimizar el

largo total del árbollargo total del árbol.. N

S12 = 1 (d1k + d2k) + 1/2 d12 + 1 d ij 2 (N - 2) K=3 N - 2 3 i j N

X

12

3

45

6

7

8

X Y

1

2

3 4

5

67

8

Criterio : minimizar el largo de rama de cada nodo (ej. Nodo X)

Siguiente

par de OTUs

MATRIZ DE DISTANCIASMATRIZ DE DISTANCIAS

Espinacas Arroz Mosquito Mono Humano Espinaca 0.0 84.9 105.6 90.8 86.3 Arroz 84.9 0.0 117.8 122.4 122.6 Mosquito 105.6 117.8 0.0 84.7 80.8 Mono 90.8 122.4 84.7 0.0 3.3 Humano 86.3 122.6 80.8 3.3 0.0

distancia 3.3 (Humano - Mono) es el mínimo. Entonces se unen y se vuelve a calcular las nuevas distancias

Mono-Humano

MonoHumanoEspinacaMosquito Arroz

PRIMER PASOPRIMER PASO

Se computan las distancias para cada nodo en este nuevo subarbol. Se hace esto calculando por ej. La distancia promedio:Dist[Espinaca, Mono_Humano]

= (Dist[Espinaca, Mono] + Dist[Espinaca, Humano])/2 = (90.8 + 86.3)/2 = 88.55

Mon-Hum

MonoHumanoEspinaca

CALCULANDO LAS NUEVAS CALCULANDO LAS NUEVAS DISTANCIASDISTANCIAS

Espinaca Arroz Mosquito Mon_Hum Espinaca 0.0 84.9 105.6 88.6 Arroz 84.9 0.0 117.8 122.5 Mosquito 105.6 117.8 0.0 82.8 Mono_Hum 88.6 122.5 82.8 0.0

HumanoMosquito

Mon-Hum

MonoEspinacaArroz

Mosq-(Mon-Hum)

SIGUIENTE CICLOSIGUIENTE CICLO

Espinaca Arroz MosqMonHum Espinaca 0.0 84.9 97.1 Arroz 84.9 0.0 120.2 MosqMonHum 97.1 120.2 0.0

HumanoMosquito

Mon-Hum

MonoEspinacaArroz

Mos-(Mon-Hum)

Esp-Arroz

PENULTIMO CYCLOPENULTIMO CYCLO

Esp-Arroz MosMonHum Espinaca 0.0 108.7 MosMonHum 108.7 0.0

HumanoMosquito

Mon-Hum

MonoEspinacaArroz

Mos-(Mon-Hum)

Esp-Arroz

(Espin-Arroz)-(Mosq-(Mon-Hum))

ULTIMA UNIONULTIMA UNION

Humano

Mono

MosquitoArroz

Espinaca

ARBOL DE NJ NO ENRAIZADOARBOL DE NJ NO ENRAIZADO

Métodos de distancia (UPGMA & N-J)

Criterio de Optimización : NINGUNO. El algoritmo construye el árbol.

Ventajas:• Pueden ser usados en medidas indirectas de distancia (datos immunologicos) •.El Método MAS RAPIDO! (especialmente NJ).•Pueden analizar grandes matrices en forma rápida.

Desventajas:•Similaridad y Interrelación no son necesariamente la misma cosa.

METODO DE MAXIMA METODO DE MAXIMA VEROSIMILITUD (ML)VEROSIMILITUD (ML)

Primero desarrollado por Cavalli-Sforza & Primero desarrollado por Cavalli-Sforza & Edwards (1967).Edwards (1967).

A menudo este método llega a estimados A menudo este método llega a estimados con menor varianza que los otros métodos.con menor varianza que los otros métodos.

Tiende a ser robusto, aún cuando se violen Tiende a ser robusto, aún cuando se violen ciertos supuestos.ciertos supuestos.

¿Cuál es la probabilidad de ¿Cuál es la probabilidad de observar un dato?observar un dato? Si tiramos una moneda y pensamos que la moneda es Si tiramos una moneda y pensamos que la moneda es

normal, entonces podríamos esperar una probabilidad normal, entonces podríamos esperar una probabilidad de observar “cara” de 0.5. de observar “cara” de 0.5.

Si creemos que esta “arreglada” y esperamos obtener Si creemos que esta “arreglada” y esperamos obtener una “cara” el 80 % de la veces ….luego la probabilidad una “cara” el 80 % de la veces ….luego la probabilidad de observar los datos ( una “cara”) es 0.8. de observar los datos ( una “cara”) es 0.8.

POR LO TANTOPOR LO TANTO: La “likelihood” de hacer ciertas : La “likelihood” de hacer ciertas observaciones es enteramente dependiente de un observaciones es enteramente dependiente de un modelo y de los supuestos que subyacen en éste.modelo y de los supuestos que subyacen en éste.

p = ?

Moraleja: Los datos NO HAN CAMBIADO, nuestro modelo SI. Por lo tanto, bajo un nuevo modelo la probabilidad de observar los datos HA

PARA EL CASO DE LAS HIPÓTESISFILOGENÉTICAS

Filogenias serán inferidas en función deaquellos árboles que me den la máxima

probabilidad de acuerdo a undeterminado modelo de sustitución

nucleotídica.

Método de Maximum Likelihood :

La likelihood (L) de un árbol filogenético es la probabilidadde observar los datos (secuencia nucleotídica) bajo un árbol dado y un modelo especificado para los cambios en el caracter.

La meta es encontrar un árbol (entre todos los posibles) con el valor más alto de L.

Probabilidad de dado

a b c d

b a e f

c e a g

d c f a

tgca ,,,

+

Las frecuencias de las bases ().

La proporción de sitios invariantes ().•La tasa relativa de sustitución en la

matriz (TRANS v/s TRANSVER).

a b c d

b a e f

c e a g

d c f a

a ,c,g,t + +

TOPOLOGÍA

Parámetros del Modelo de Parámetros del Modelo de Máxima ProbabilidadMáxima Probabilidad

Modelos de cambios Modelos de cambios nucleotídicosnucleotídicos

AA

TTGG

CC

Tipos de sustitucionesTipos de sustituciones

Sustituciones que Sustituciones que intercambian una intercambian una purina por otra purina purina por otra purina son llamadas son llamadas transiciones.transiciones. Sustituciones que Sustituciones que intercambian una intercambian una purina por una purina por una pirimidina o vice-pirimidina o vice-versa son llamadas versa son llamadas transversionestransversiones

TRANSICIONESTRANSVERSIONES

TRANSICIONES

TRANSVERSIONES

CODIGO GENETICOCODIGO GENETICO

Sust. Sinónimas (Silentes) :CUU ----> CUC = Leucine -----> Leucine

Sust. No Sinónimas :CUU ----> CCU = Leucine -----> Prolina

0

2

4

6

8

10

12S

ub

stit

uti

on

s p

er

site

pe

r 10

00,0

00,0

00 y

ea

rs Synonymous mutationsNonsynonymous mutations

Mutaciones sinónimas son fijadas con mayor frecuencia en la evolución

Diferentes tipos de secuencias evolucionan a distintas tasas

Midiendo el cambio Midiendo el cambio evolutivoevolutivo

Medida simple: Contar el Medida simple: Contar el número de sitios número de sitios diferentes .diferentes .

Estimador muy inexacto:Estimador muy inexacto: Sitios pueden tener Sitios pueden tener

sustituciones repetidas.sustituciones repetidas. Divergencia de Divergencia de

secuencias llega a ser secuencias llega a ser menos exacta en su menos exacta en su estimaciónestimación 0

20

40

60

80

100

120

0 5 10 15 20 25

0

20

40

60

80

100

120

0 5 10 15 20 25

Time since divergence (Myr)Time since divergence (Myr)Time since divergence (Myr)Time since divergence (Myr)

Base p

air

diff

ere

nces

Base p

air

diff

ere

nces

Base p

air

diff

ere

nces

Base p

air

diff

ere

nces

TiempoTiempo

Dif

er.

en

las s

eq

uen

cia

sD

ifer.

en

las s

eq

uen

cia

s

Corrección de diferencias Corrección de diferencias observadas en las observadas en las

secuenciassecuencias

DiferenciaObservada

Diferencia Esperada‘‘Corrección’Corrección’

Matriz de Cambios Nucleotídicos

PAA PAC PAG PAT

PCA PCC PCG PCT

PGA PGC PGG PGT

PTA PTG PTG PTT

M =

Un marco general de Un marco general de Modelos de evolución de Modelos de evolución de

secuenciassecuencias

PPtt = =

ppAAAA

ppCACA

ppGAGA

ppTATA

ppACAC

ppCCCC

ppGCGC

ppTCTC

ppAGAG

ppCGCG

ppGGGG

ppTGTG

ppATAT

ppCTCT

ppGTGT

ppTTTT

PPiiii = 1 - = 1 - ppijijjjii

ff = [ = [ffAA ffCC ffGG ffTT]]

Modelo Jukes-Cantor (JC)Modelo Jukes-Cantor (JC)

Asume que las cuatro bases tienen igual frecuencia y que Asume que las cuatro bases tienen igual frecuencia y que las sustituciones son igualmente probables. las sustituciones son igualmente probables.

PPtt ==

--

--

--

--

ff = [¼ ¼ ¼ ¼] = [¼ ¼ ¼ ¼]

Base pair differences

Time since divergence (Myr)

Transitions

Transversions

Modelo de un parámetro de “Jukes and Cantor”

Número de transiciones y transversiones entre pares de secuencias mitocondriales de mamiferos (684 pares de bases de COII gene) contra el tiempo de divergencia.

0

5 10 15 20 25

20

40

60

80

100

Modelo Kimura de 2 Modelo Kimura de 2 parámetros (K2P)parámetros (K2P)

Toma en cuanta diferencias Toma en cuanta diferencias entre transiciones vs. entre transiciones vs. transversionestransversiones

PPtt ==

--

--

--

--

0

10

20

30

40

50

60

70

80

90

100

0 5 10 15 20 25

0

10

20

30

40

50

60

70

80

90

100

0 5 10 15 20 25

Transiciones ()

Transversiones () ff = [¼ ¼ ¼ ¼] = [¼ ¼ ¼ ¼]

Felsenstein (1981) (F81)Felsenstein (1981) (F81)

Toma en cuenta Toma en cuenta diferencias en la diferencias en la composición de las bases.composición de las bases.

Porcentaje (G + C) puede Porcentaje (G + C) puede variar entre 25% - 75%.variar entre 25% - 75%.

F81 permite que la F81 permite que la frecuencia de cada frecuencia de cada nucleotido sea diferente. nucleotido sea diferente. No permite variación en No permite variación en las frecuencias entre las frecuencias entre genes y especies.genes y especies.

ff = [ = [AA CC GG TT]]

PPtt ==

--

AA

AA

AA

CC

--

CC

CC

GG

GG

--

GG

TT

TT

TT

--

Hasegawa, Kishino y Yano Hasegawa, Kishino y Yano (1985) (HKY85)(1985) (HKY85)

Esencialmente mezcla modelos K2P and F81 , permitiendo Esencialmente mezcla modelos K2P and F81 , permitiendo la ocurrencia de transiciones y transversiones a distintas la ocurrencia de transiciones y transversiones a distintas tasas y a su vez permitiendo que la frecuencia de bases tasas y a su vez permitiendo que la frecuencia de bases varíevaríe. .

ff = [ = [AA CC GG TT]]PPtt ==

--

AA

AA

AA

CC

--

CC

CC

GG

GG

--

GG

TT

TT

TT

--

modelo General reversible modelo General reversible (REV)(REV)

Modelo más general – cada sustitución tiene su Modelo más general – cada sustitución tiene su propia probabilidad. propia probabilidad.

ff = [ = [AA CC GG TT]]PPtt ==

--

AAaa

AAbb

AAcc

CCaa

--

CCdd

CCee

GGbb

GGdd

--

GGff

TTcc

TTee

TTff

--

Comparando los modelosComparando los modelos

JC

A=C=G=T

=

JC

A=C=G=T

=

HKY85

ACGT

HKY85

ACGT

REV

ACGT

a,b,c,d,e,f

REV

ACGT

a,b,c,d,e,f

K2P

A=C=G=T

K2P

A=C=G=T

Permite sesgos Permite sesgos transición/transversióntransición/transversión

F81

ACGT

=

F81

ACGT

=

Permite que la Permite que la frecuenciafrecuencia

de bases variede bases varie

Permite que la Permite que la frecuenciafrecuencia

de bases variede bases varie

Permite sesgos Permite sesgos transición/transición/

transversióntransversión

Comparando los modelosComparando los modelos

AA CC GG TT

AA

CC

GG

TT

ObservadoObservado

AA CC GG TT

AA

CC

GG

TT

JCJC

AA CC GG TT

AA

CC

GG

TT

K2PK2P

AA CC GG TT

AA

CC

GG

TT

HKY85HKY85

TR

Sitios variablesSitios variables Hay sitios en las secuencias libres de Hay sitios en las secuencias libres de

variar.variar. Intensidad de selección es raramente Intensidad de selección es raramente

uniforme…deseable un modelo que varie uniforme…deseable un modelo que varie sitio a sitio.sitio a sitio.

Esto puede realizarse de dos modos:Esto puede realizarse de dos modos: Variación sitio específico (posicion-Variación sitio específico (posicion-

codon)codon) Usando una aproximaciñon discreta de Usando una aproximaciñon discreta de

distribución (gamma distribution).distribución (gamma distribution). Nuevamente, estas variables son Nuevamente, estas variables son

modeladas para todos los cambios modeladas para todos los cambios posibles de largo de rama sobre todas las posibles de largo de rama sobre todas las topologías posibles.topologías posibles.

REGION CONTROL DNAmit

variable menos variable variable

Efecto de la tasa de variación entre sitios en la estimación de la divergencia

(A) Tasa de sustitución de 0.5 % / M.a. and 80 % de sitios libres de variar.

(B) Tasa de sustitución de 2 % / M.a. and 50 % de sitios libres de variar.

(Page and Holmes, 1998)

DISTRIBUCIÓN GAMA

VOLVAMOS AL ANALISIS DE MAXIMA VEROSIMILITUD

Método de Maximum Likelihood :

La likelihood (L) de un árbol filogenético es la probabilidadde observar los datos (secuencia nucleotídica) bajo un árbol dado y un modelo especificado para los cambios en el caracter.

La meta es encontrar un árbol (entre todos los posibles) con el valor más alto de L.

Probabilidad de dado

a b c d

b a e f

c e a g

d c f a

tgca ,,,

1. Calcule la probabilidad para cada sitio.

2. Sume los valores de L para todos los sitios en el árbol.

3. Compare los valores de L para todos los arboles posibles.

4. Elija el arbol con el valor mas alto de L.

Comparando hipótesis filogenéticasComparando hipótesis filogenéticas

Relaciones filogenéticas estimadas a partir de datos de Relaciones filogenéticas estimadas a partir de datos de mtDNAmtDNA

Métodos de Maximum likelihood (ML)

Criterio de Optimización : ML evalúan hipótesis filogenéticas en términos de probabilidad que un modelo de propuesto de un proceso evolutivo y un arbol no enraizado para los datos observados. El árbol encontrado que tenga el valor más altode ML será el seleccionado.

Ventajas:• Están basados en modelos estadísticos y evolutivos.• Generalmente es el método más consistente.• Pueden ser usados para caracteres (pueden inferir sustituciones exactas) y analizar las tasas. • Pueden usarse para inferir secuencias de ancestros (hipotéticos).• Pueden considerar el largo de las ramas en arboles no balanceados.

Desventajas:• No son simples ni intuitivos.•Son computacionalmente activos (limita el numero de taxa y largo de secuencias). Violaciones al modelo asumido puede llevar a arboles incorrectos.

¿Cómo comparar diferentes métodos ¿Cómo comparar diferentes métodos de construcción de arboles?de construcción de arboles?

EficienciaEficiencia: Que tan rápido es el método.: Que tan rápido es el método. PoderPoder: Que cantidad de datos requiere el : Que cantidad de datos requiere el

método para producir un resultado razonable.método para producir un resultado razonable. ConsistenciaConsistencia: Si converge a la respuesta : Si converge a la respuesta

correcta teniendo suficientes datos.correcta teniendo suficientes datos. RobustezRobustez: Si violaciones menores de sus : Si violaciones menores de sus

supuestos conducen a pobres estimados de supuestos conducen a pobres estimados de la filogenia.la filogenia.

(Criterios de David Penny)(Criterios de David Penny)

DESEMPEÑO DE LOS DISTINTOS MÉTODOS DE RECONSTRUCCIÓN

FILOGENÉTICA.

Huelsenbeck et al, 1996

DESEMPEÑO DE LOS DISTINTOS MÉTODOS DE RECONSTRUCCIÓN

FILOGENÉTICA.

Huelsenbeck et al, 1996

Voelker et al; 1998

Documents

ANÁLISIS FILOGENÉTICO Es el quagga mas parecido a una zebra o a un caballo?