Distancia entre dos secuencias: Jukes - Cantor
posición j
posición j
posición j
k
1s
2sSecuencia 1 Secuencia 2
¿Con qué probabilidad puede ocurrir que en la secuencias 1 y 2 observadas aparezcan las bases s 1 y s2 en la posición j, suponiendo que evolucionaron de una secuencia común, y se desconoce la base en la posición j de la secuencia original? De otra forma, cuál es la verosimilitud de las bases s1 y s2 en estas dos secuencias?
)()()( 2
4
11 21
vpvpjL skk
skk
1v2v
Longitud de tiempo generacional
Longitud de tiempo generacional
Probabilidad de que la base original sea k
Probabilidad de mutar desde k hasta s1 en el tiempo v1
Probabilidad de mutar desde k hasta s2 en el tiempo v2
Si la secuencia original tiene m sitios entonces
m
j
jLL1
)(
posición j
posición j
posición j
k
ACSecuencia 1 Secuencia 2
1v2v
Longitud de tiempo generacional
Longitud de tiempo generacional
Para ver como se calcula la verosimilitud veamos un caso particular
)()()()(
)()()()()(
2121
2121
vpvpvpvp
vpvpvpvpjL
TCTATGCGAG
CCCACACAAA
Recordemos que iii ppTp )1()( ijpTp jji ;)(
Tp )1(1 Te 1
)()()()(
)()()()()(
2121
2121
vpvpvpvp
vpvpvpvpjL
TCTATGCGAG
CCCACACAAA
CATCAG
CACCAA
pppp
ppppppjL
2121
221211 )1()1()(
iii ppTp )1()( ijpTp jji ;)(
ivip )1(1 ive 1
CA ppppjL )()( 2121
)1()( )( 21 vvCA ejL
)1()( )( 21 vvCA ejL
posición j
posición j
posición j
k
ACSecuencia 1 Secuencia 2
1v2v
Longitud de tiempo generacional
Longitud de tiempo generacional
Este resultado es asombroso, bajo el modelo que hemos aceptado. Nos dice que la verosimilitud de las dos secuencias depende del tiempo v1 + v2 y no del valor de la base en el nodo inicial. Dicho de una manera más gráfica: el árbol no tiene raíz (en el proceso de estimación de los parámetros).
Trabajaremos entonces con las dos secuencias
Secuencia 1
Secuencia 2
Supongamos que4
1i
4
1p
4
1)1( pp
4
34 p
=
Mutar y asumir una base
No mutar o mutar pero elegir la misma base
m bases
s coincidencias
smspp
L
44
34
Función de verosimilitud
¿Para qué valor de p esta función de verosimilitud es máxima?
smspp
L
44
34
m
smp
p
L
3
)(4ˆ0
Estimador máximo verosímil
vem
sm
13
)(4vep 1ˆ
14
3ln
4
3ln
qms
muv
m
sq
Porcentaje de aciertos
Número esperado de mutaciones en el tiempo v
Descripción de la distancia de Jukes-Cantor de manera ingenua…
14
3ln
4
3ln
qms
mv
Hay 16 posibles mutaciones de las cuales 12 son observables, ¿de acuerdo?
AT
C
G
Luego la distancia “mutacional” esperada será
Kq
v
14
3ln
4
3
4
3