Upload
fionn
View
46
Download
0
Embed Size (px)
DESCRIPTION
Encuentra las 12 diferencias. La Bioinformática es una disciplina basada en el conocimiento. Las secuencia del ADN determina la secuencia de una proteína. La secuencia de una proteína determina su estructura 3D. La estructura 3D de una proteína determina su función biológica. - PowerPoint PPT Presentation
Citation preview
Alineamiento de secuencias
Alineamiento de secuencias
La comparación de secuencias es uno de los pilares de la Bioinformática
Alineamiento de secuencias
Secuencia → Estructura → Función
Las secuencia del ADN determina la secuencia
de una proteína.
La secuencia de una proteína determina su
estructura 3D.
La estructura 3D de una proteína determina su
función biológica.
Por tanto, es muy probable que
secuencias similares den lugar a proteínas
con estructura y función parecidas.
Alineamiento de secuenciasDeterminar la estructura 3D a partir de la secuencia
El “santo grial” de la bioinformática
Alineamiento de secuencias
Alineamiento de secuencias
Similar sequence leads to similar structureSimilar structure leads to similar function
El alineamiento de secuencias permite
descubrir el grado de similitud que hay entre
ellas para así poder determinar si se trata
de secuencias homólogas
El alineamiento de secuencias es una
herramienta básica de la bioinformática que
permite obtener información funcional, estructural y evolutiva
Alineamiento de secuencias
Homología y similitud
Alineamiento de secuencias
La similitud implica homología …
Alineamiento de secuencias
... pero todo tiene un límite
Alineamiento de secuencias
Parecidas
Posibles causas del parecido entre dos secuencias
Comparación de dos
secuencias
Idénticas Herencia genética
Homólogas
Análogas
Ancestro común
Evolución convergente
En un mismo organismoEn distintos organismos
XenólogasOrtólogas Parálogas
Especiación Duplicación de un genTransferencia horizontal de
genesConserva la función Adquiere nueva función
Alineamiento de secuenciasHomólogas: secuencias que proceden de una misma secuencia ancestral y que, por tanto,
presentan cierto grado de similitud.
Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de
especiación. Conservan la misma función.
Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función.
Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia
horizontal de genes (virus, simbiosis, etc.)
Diversos tipos de homología
Alineamiento de secuencias
Suelen conservar la función
Suelen adquirir nuevas funciones
Ortólogos y parálogos
Alineamiento de secuenciasEn función del número de secuencias que se comparan podemos distinguir:
1.- Alineamiento de dos secuencias
2.- Alineamiento múltiple de secuencias (AMS)
Tipos de alineamiento
Alineamiento de secuencias
Alineamiento de dos secuencias
Alineamiento de secuenciasA veces es interesante comparar una secuencia
consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente
Alineamiento de una secuencia consigo misma
Alineamiento de secuencias
Alineamiento múltiple de secuencias (AMS)
Se conservan las regiones que son importantes para mantener la estructura y/o
función
Alineamiento de secuencias
Alineamiento de secuencias
Alineamientos de secuencias de ácidos nucleicos
En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia
Todos los cambios posibles tienen una probabilidad similar
Se basa fundamentalmente en la coincidencia directa entre los textos
Método lento, porque las bases de datos de ácidos nucleicos contienen un
número muy elevado de caracteres
Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas
No queda más remedio que hacerlo si se trata de secuencias no codificantes
Son menos sensibles que los alineamientos de proteínas porque:
Alineamiento de secuencias
Alineamientos de secuencias de proteínas
1.- Aportan más información (más de 4 bits por aa).
3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda
4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes.5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda.
2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos
Alineamiento de secuencias
AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Consideremos estas dos secuencias:
AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA
AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Hagamos un alineamiento sin huecos:
Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud)
Alineamientos de 2 secuencias de ácidos nucleicos
Alineamiento de secuencias
Alineamientos de las proteínas codificadas
ATGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAATGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA
Secuencias de ADN:
Traducción a proteínas:
MELISAISALIVEMELISAISALIVE
A nivel de aminoácidos, las dos secuencias son idénticas
Alineamiento de secuencias
La complejidad no es mala
Alineamiento de secuenciasDos secuencias siempre se pueden alinear y son muchos los posibles alineamientos.
Multitud de alineamientos posibles
Alineamiento de secuenciasPara determinar cuál es el mejor alineamiento
se necesita un sistema de puntuación.
Alineamiento óptimo
¿Cuál es mejor?
HEAGAWGHEE
PAWHEAEEjemplo:
HEAGAWGHE-EP-A--W-HEAE
HEAGAWGHE-E--P-AW-HEAE
El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo
Alineamiento de secuenciasSi hay más de un alineamiento con la misma puntuación,
será criterio del investigador decir cuál es el más probable.
Yo también tengo algo que decir
Alineamiento de secuencias
Alineamiento de secuencias
El sistema de puntuación
La puntuación del alineamiento resulta de sumar la puntuación de cada posición, en función de
que los residuos coincidan (match), sean distintos (mismatch) o haya huecos (indels).
Para saber cuál es el mejor alineamiento entre dos secuencias es necesario
establecer un sistema de puntuación.
El sistema de puntuación consta de dos componentes: (1) una matriz de puntuación que asigna un valor a
cada una de las posibles sustituciones y (2) una penalización por la introducción de indels.
Cada uno de los posibles alineamientos recibe una puntuación. Se considera alineamiento óptimo aquél que consigue la puntuación más elevada.
Alineamiento de secuenciasEl sistema más sencillo consiste en otorgar una puntuación discreta a las
coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps).
Puntuación de un alineamiento
Sistema de puntuación
Alineamiento de secuencias
Sistema de puntuación de BLASTN
Alineamiento de secuencias
Alineamiento de secuencias
Matrices de puntuación
Alineamiento de secuenciasEn muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tienen en cuenta todas las
sustituciones posibles.
Las matrices de puntuación
A cada sustitución se le asigna una puntuación
distinta porque:
1.- No todos los nucleótidos sustituyen a otros con la misma probabilidad (las transiciones son
más probables que las transversiones) .
2.- No todos los aminoácidos sustituyen a otros con la misma probabilidad (muchas de las
sustituciones observadas son conservativas) .
Alineamiento de secuencias
Matrices de sustitución para nucleótidos
Alineamiento de secuencias
Matriz de identidad
Matriz de identidad que otorga una
puntuación de 1 en caso de coincidencia. En caso contrario, la
puntuación es 0.
También se pueden incluir valores distintos de 0 y una penalización
por introducir huecos
Alineamiento de secuencias
Matrices basadas en un modelo evolutivo
Se supone que la tasa de cambio evolutivo permanece
constante durante todo el periodo estudiado.
Alineamiento de secuencias
Modelo de Jukes-Cantor (uniforme)
Mutation probability matrix (PAM-1)
Se contempla un periodo evolutivo en el que ha habido una mutación puntual aceptada por
cada 100 bases (PAM-1).
Se considera un modelo mutacional de Markov en
el que las mutaciones son aleatorias e independientes.
Todas las mutaciones son igual de probables y
todas las bases aparecen con la misma
frecuencia.
2
Alineamiento de secuencias
Las transiciones son tres veces más probables que las
transversiones.
Transiciones y transversiones
Modelo de Kimura (sesgado)
Transición (A↔G) (C↔T)
(purina↔purina) (pirimidina↔pirimidina)
Transversión
(A↔T) (A↔C) (G↔T) (G↔C)
(purina↔pirimidina) (pirimidina↔purina)
Alineamiento de secuenciasMutation probability matrix (PAM-1)
Modelo de Kimura (sesgado)
Se contempla un periodo evolutivo en el que ha habido una mutación
puntual aceptada por cada 100 bases (PAM-1).
Se considera un modelo mutacional de Markov: las
mutaciones son aleatorias e independientes.
Las transiciones son 3 veces más probables que las transversiones. Todas las bases aparecen con la
misma frecuencia.
TransiciónTransversión
2
Alineamiento de secuencias
Matrices PAM para secuencias con una diferencia > 1%
Alineamiento de secuencias
Matrices de sustitución para aminoácidos
Alineamiento de secuencias
Alineamiento de secuencias
Margaret Dayhoff (1925 – 1983)
Matrices PAM para aminoácidos
Alineamiento de secuencias
El modelo evolutivo de las matrices PAM
Alineamiento de secuencias
Primero se calcula la matriz PAM-1, que
muestra las frecuencias relativas de los cambios de cada aminoácido por cualquiera de los otros
observados en secuencias que sólo
difieren en un 1% de sus aminoácidos.
Cálculo de la matriz PAM-1
Alineamiento de secuencias
Construcción de la familia de matrices PAM
La matriz PAM-1 se calcula comparando secuencias cuya divergencia no excede el 1%
Multiplicando la matriz PAM-1 por sí misma n veces se obtienen distintas matrices PAM que permiten
comparar secuencias cuyo nivel de similitud se ha ido reduciendo más y más a lo largo de la evolución.
Alineamiento de secuenciasUna mutación puntual aceptada (PAM) es la sustitución de un aminoácido por otro que ha sido aceptada por la selección natural.
El artículo original de Dayhoff y col.
Alineamiento de secuencias
Como no se conoce la dirección de la mutación, la puntuación indicada en la matriz de log odds
para el cambio ab es la misma que para el cambio ba. Por tanto, la matriz es simétrica.
El valor que aparece en la matriz de log odds es la media de la suma de los cambios observados (ab + ba).
La matriz de frecuencias se convierte en matriz log odds
Alineamiento de secuencias
PAM 250 (log odds matrix)
Alineamiento de secuencias
Matriz de probabilidades relativas (Ri,j) para PAM = 250
― Si Si,j > 0, el aa i sustituye al aa j con más frecuencia de lo que se podría esperar por simple azar
― Si Si,j > 0, el aa i sustituye al aa j con menos frecuencia de lo que se podría esperar por simple azar
― Si Si,j = 0, el aa i sustituye al aa j con la frecuencia que se podría esperar por simple azar
La matriz de log odds es simétrica. A partir de ella se puede deducir que:
Alineamiento de secuencias
¿Cómo se interpretan los valores de la matriz?
Alineamiento de secuencias
Un ejemplo
Alineamiento de secuencias
Ventajas e inconvenientes de PAM
Alineamiento de secuencias
En 1992 se recalculó la matriz PAM
Alineamiento de secuencias
Gonnet PAM250
Alineamiento de secuencias
JTT PAM250
Alineamiento de secuencias
Steven y Jorja Henikoff
PROSITEDatabase of protein families and domains
(BLOcks SUbstitution Matrix)
Alineamiento de secuenciasSe parte de un conjunto de secuencias de proteínas
relacionadas extraídas de la BD PROSITE 9.0
Los programas MOTIF y PROTOMAT
detectaron 2106 bloques en esas
secuencias
1.- Recopilación de datos (bloques)
Las secuencias corresponden a 559 familias de proteínas (muchos más datos de partida
que en el caso de las matrices PAM)
Alineamiento de secuenciasUn bloque es un alineamiento local y sin huecos de una región conservada en una familia de proteínas
WWYIR CASILRKIYIYGPV GVSRLRTAYGGRKNRGWFYVR … CASILRHLYHRSPA … GVGSITKIYGGRKRNGWYYVR AAAVARHIYLRKTV GVGRLRKVHGSTKNRGWYFIR AASICRHLYIRSPA GIGSFEKIYGGRRRRG
bloque 1 bloque 2 bloque 3
Características de los bloques (1)
En cada bloque, cada línea corresponde a una proteína, y cualquiera de ellas puede ser ancestro de la otra
Los bloques constituyen una característica distintiva de la familia, ya que suelen contener los aa responsables de
la función bioquímica común a todos sus miembros
Alineamiento de secuencias
w = 4 w = 3
n = 6
La anchura de los bloques (w) oscila entre 3 y 60 aa
El número de secuencias en cada bloque (n) varía en cada familia de proteínas
El cada bloque, el número total de parejas de aa (T) se calcula mediante la fórmula:
T =
20
1 1,
i
i
jjicT
Características de los bloques (2)
Alineamiento de secuenciasBloque 1 Bloque 2
― En este caso:
En la primera columna del bloque 1 tenemos los aa: ACABAA
nA = 4
nB = 1
nC = 1
El número de posibles parejas de aa en la primera columna es:
(AA) – (BB) – (CC) - con dos aa iguales:
- con dos aa distintos:(AB) – (AC) – (BC)
AA = 6AB = 4AC = 4BB = 0BC = 1CC = 0
Total = 15
2.- Recuento de los cambios observados (cij) en cada columna
Alineamiento de secuencias
Agrupamiento de secuencias
Estas tres secuencias
cuentan como una
BLOSUM 80 agrupa las secuencias cuya similitud es ≥ del 80%
Para evitar que las sustituciones observadas entre las secuencias más parecidas estén sobrerrepresentadas, se agrupan en una sóla aquéllas secuencias que superan un umbral de similitud:
BLOSUM 62 agrupa las secuencias cuya similitud es ≥ del 62%
Alineamiento de secuencias― Los aa que pertenecen a las secuencias agrupadas contribuyen al cómputo global de forma ponderada.
― Así, para la primera columna tenemos que:
Recuento ponderado de los cambios (cij) en una columna
Estas tres secuencias
cuentan como una
Alineamiento de secuencias
3.- Recuento de los cambios observados (cij) en todas las columnas
Ejemplo:
Matriz con los valores ci,j (frecuencias observadas):
(número total de parejas)
20
1 1, 30
i
i
jjicT
Alineamiento de secuencias
Cálculo del log odds para cada sustitución (sij)
probabilidad observada para el cambio aa i → aa j
probabilidad esperada para el cambio aa i → aa j
El valor que se introduce en la matriz BLOSUM es 2 Si,j redondeado al número entero más cercano
ji
ijij pp
pS 2log2
Ejemplo:
Alineamiento de secuencias
BLOSUM 62
basic
small hydrophobic
aromatic
acid hydrophylic
small hydrophylic
Alineamiento de secuencias
¿Cómo se interpretan los valores de la matriz?
ji
ijij pp
pS 2log2
Alineamiento de secuenciasSi Si,j > 0, el aa i sustituye al aa j con más frecuencia
de lo que se podría esperar por simple azar
Si Si,j < 0, el aa i sustituye al aa j con menos frecuencia de lo que se podría esperar por simple azar
Si Si,j = 0, el aa i sustituye al aa j con la frecuencia que se podría esperar por simple azar
BLOSUM62
La puntuación del alineamiento es la suma de los logaritmos de las probabilidades relativas de cada pareja de aa alineada
Alineamiento de secuencias
Ventajas e inconvenientes de BLOSUM
Alineamiento de secuencias
Alineamiento de secuencias
PAM versus BLOSUM (1)
PAM BLOSUMSe construye a partir de alineamientos globales
Se construye a partir de alineamientos locales
Las secuencias de partida son muy similares (> 85%)
Las secuencias de partida son muy divergentes
Pocos datos de partida Gran cantidad de datos de partida
Cómputo de cambios basado en el método de
máxima parsimonia
Cómputo de cambios basado en el agrupamiento de las secuencias que
superan un umbral de similitud
Se basa en un modelo evolutivo mutacional (proceso de Markov)
Se basa en un modelo evolutivo del tipo starburst
Los errores en PAM-1 se amplifican 250 veces en PAM250
Los errores en BLOSUM se deben a alineamientos
incorrectos
Alineamiento de secuenciasPAM BLOSUM
Para detectar homología en secuencias alejadas se utilizan matrices PAM con
un número elevado
Para detectar homología en secuencias alejadas se utilizan matrices BLOSUM
con un número bajo
PAM con números elevados indican más divergencia
BLOSUM con números elevados indican menos divergencia
Diseñadas para desvelar el parentesco evolutivo
de las proteínas
Diseñadas para encontrar dominios conservados en
las proteínas
PAM versus BLOSUM (2)
Alineamiento de secuencias
Otras matrices
Alineamiento de secuencias
Matriz de identidad
Alineamiento de secuencias
Matriz de sustitución de codones
Alineamiento de secuencias
Cadenas laterales de los aminoácidos
Alineamiento de secuencias
Matriz de hidrofobicidad User matrix
Otros tipos de matrices
Alineamiento de secuencias
Gap penalties
Alineamiento de secuenciasLos huecos suelen incluirse en los bucles que
conectan los elementos de estructura secundaria
Dónde y cómo introducir huecos
Se considera más lógico introducir un hueco de longitud n que n huecos de longitud 1.
Alineamiento de secuencias
A veces no me interesa que haya indels en el alineamiento (regiones muy
conservadas y con funciones muy delicadas que no tolerarían ningún
cambio). Puedo usar un programa que no admita indels o, alternativamente, colocar
una penalización infinita a los indels.
¿Indels? No, gracias
¿GAPS?
Alineamiento de secuencias
Suele ser un valor negativo muy elevado (G = -11; G = -). En la práctica, evita la introducción de indels en el alineamiento. La penalización se contabiliza sólo una vez (cuando se abre el indel) y es independiente de su tamaño.
Penalización constante
Alineamiento de secuenciasSe puede aplicar una penalización lineal. Cada posición ocupada por un indel sufre una penalización,
que es siempre la misma.
Penalización lineal
G = - n go
Alineamiento de secuenciasDesde un punto de vista evolutivo, es más realista suponer que la naturaleza ha insertado/eliminado fragmentos en la
secuencia de una sola vez. Por eso se introduce una penalización (go) para la inclusión de un indel (gap open
penalty) y otra penalización (ge), menos costosa, que dependa de la longitud del indel (gap extension penalty).
Penalización afín
La inserción/eliminación es mucho menos probable que cualquier sustitución de aa, por radical que ésta sea. Por tanto, la go debe estar muy penalizada para que se introduzcan indels
donde sea preciso, y no por toda la secuencia
Una vez que se ha introducido un indel en un punto de la secuencia, su extensión (ge) es mucho
más probable y debe estar menos penalizada.
Alineamiento de secuenciasEn la penalización afín hay dos maneras
distintas de penalizar la extensión del indel :
Modelo convexo: Para todo n>1, p(n+1) - p(n) < p(n) - p(n-1)
(Cada tramo adicional del indel penaliza menos que el anterior. Es el modelo que más se ajusta a la realidad, pero desde el punto de
vista computacional es muy difícil incluirlo en el algoritmo )
Modelo lineal: Para todo n >1, p(n+1) - p(n) = p(n) - p(n-1)
(La penalización es proporcional a la longitud del indel)
G = go + nge G = go + (n-1)ge
G = go + k log (n)
Dos modelos de penalización afín (2)
Alineamiento de secuencias
Dos modelos de penalización afín (1)
Modelo linealModelo convexo
Alineamiento de secuencias
Algunas recomendaciones
Es importante seleccionar una penalización apropiada en función de la matriz de puntuación
elegida para que no se excluyan los indels, pero que tampoco se propaguen por todo el alineamiento.
No hay una mecanismo formal para calcular el valor de la penalización. La mayor parte de los programas hacen sus
propias recomendaciones, que están basadas en métodos de ensayo y error y no garantizan que para tu caso concreto sean
las más adecuadas. Deberás hacer varias pruebas.
Algunos valores típicos:
Matriz gap opening gap extension
BLOSUM 62 -12 - 3 BLOSUM 50 -15 - 8PAM 250 -15 - 5