Encuentra las 12 diferencias

Alineamiento de secuencias


La comparación de secuencias es uno de los pilares de la Bioinformática


Secuencia → Estructura → Función

Las secuencia del ADN determina la secuencia

de una proteína.

La secuencia de una proteína determina su

estructura 3D.

La estructura 3D de una proteína determina su

función biológica.

Por tanto, es muy probable que

secuencias similares den lugar a proteínas

con estructura y función parecidas.

Alineamiento de secuenciasDeterminar la estructura 3D a partir de la secuencia

El “santo grial” de la bioinformática



Similar sequence leads to similar structureSimilar structure leads to similar function

El alineamiento de secuencias permite

descubrir el grado de similitud que hay entre

ellas para así poder determinar si se trata

de secuencias homólogas

El alineamiento de secuencias es una

herramienta básica de la bioinformática que

permite obtener información funcional, estructural y evolutiva


Homología y similitud


La similitud implica homología …


... pero todo tiene un límite


Parecidas

Posibles causas del parecido entre dos secuencias

Comparación de dos

secuencias

Idénticas Herencia genética

Homólogas

Análogas

Ancestro común

Evolución convergente

En un mismo organismoEn distintos organismos

XenólogasOrtólogas Parálogas

Especiación Duplicación de un genTransferencia horizontal de

genesConserva la función Adquiere nueva función

Alineamiento de secuenciasHomólogas: secuencias que proceden de una misma secuencia ancestral y que, por tanto,

presentan cierto grado de similitud.

Ortólogas: secuencias similares de dos organismos distintos, que han aparecido durante un proceso de

especiación. Conservan la misma función.

Parálogas: secuencias similares de un mismo organismo, que han aparecido durante un proceso de duplicación génica. Pueden adquirir distinta función.

Xenólogas: secuencias similares que han surgido como consecuencia de un proceso de transferencia

horizontal de genes (virus, simbiosis, etc.)

Diversos tipos de homología


Suelen conservar la función

Suelen adquirir nuevas funciones

Ortólogos y parálogos

Alineamiento de secuenciasEn función del número de secuencias que se comparan podemos distinguir:

1.- Alineamiento de dos secuencias

2.- Alineamiento múltiple de secuencias (AMS)

Tipos de alineamiento


Alineamiento de dos secuencias

Alineamiento de secuenciasA veces es interesante comparar una secuencia

consigo misma. En un dot-plot las características más sobresalientes de la secuencia se identifican fácilmente

Alineamiento de una secuencia consigo misma


Alineamiento múltiple de secuencias (AMS)

Se conservan las regiones que son importantes para mantener la estructura y/o

función



Alineamientos de secuencias de ácidos nucleicos

En las bases de datos, los 4 nucleótidos aparecen con la misma frecuencia

Todos los cambios posibles tienen una probabilidad similar

Se basa fundamentalmente en la coincidencia directa entre los textos

Método lento, porque las bases de datos de ácidos nucleicos contienen un

número muy elevado de caracteres

Es preferible “traducir” una secuencia de DNA a 6 proteínas (los 6 ORF) y alinear las secuencias de proteínas

No queda más remedio que hacerlo si se trata de secuencias no codificantes

Son menos sensibles que los alineamientos de proteínas porque:


Alineamientos de secuencias de proteínas

1.- Aportan más información (más de 4 bits por aa).

3.- El código genético es redundante, casi 1/3 de las bases no están sometidas a presión selectiva y generan ruido, lo que afecta a la sensibilidad de la búsqueda

4.- Las búsquedas en bases de datos de ácidos nucleicos son más lentas porque son mucho más grandes a causa de los proyectos genómicos y, además, contienen muchas secuencias no codificantes.5.- A diferencia de los nucleótidos, las probabilidades de sustituir un aa por otro son muy distintas. Teniendo en cuenta este hecho se mejora enormemente la eficacia de la búsqueda.

2.- Se obtienen resultados estadísticamente significativos con alineamientos más cortos


AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAAUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Consideremos estas dos secuencias:

AUGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGA

AUGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Hagamos un alineamiento sin huecos:

Hay 23 nucleótidos idénticos de un total de 42 (Un 55% de similitud)

Alineamientos de 2 secuencias de ácidos nucleicos


Alineamientos de las proteínas codificadas

ATGGAGCTGATCTCAGCGATCTCAGCGCTGATCGTCGAGTGAATGGAATTAATTAGTGCTATTAGTGCTTTAATTGTTGAATAA

Secuencias de ADN:

Traducción a proteínas:

MELISAISALIVEMELISAISALIVE

A nivel de aminoácidos, las dos secuencias son idénticas


La complejidad no es mala

Alineamiento de secuenciasDos secuencias siempre se pueden alinear y son muchos los posibles alineamientos.

Multitud de alineamientos posibles

Alineamiento de secuenciasPara determinar cuál es el mejor alineamiento

se necesita un sistema de puntuación.

Alineamiento óptimo

¿Cuál es mejor?

HEAGAWGHEE

PAWHEAEEjemplo:

HEAGAWGHE-EP-A--W-HEAE

HEAGAWGHE-E--P-AW-HEAE

El alineamiento que obtenga la puntuación más elevada se denomina alineamiento óptimo

Alineamiento de secuenciasSi hay más de un alineamiento con la misma puntuación,

será criterio del investigador decir cuál es el más probable.

Yo también tengo algo que decir



El sistema de puntuación

La puntuación del alineamiento resulta de sumar la puntuación de cada posición, en función de

que los residuos coincidan (match), sean distintos (mismatch) o haya huecos (indels).

Para saber cuál es el mejor alineamiento entre dos secuencias es necesario

establecer un sistema de puntuación.

El sistema de puntuación consta de dos componentes: (1) una matriz de puntuación que asigna un valor a

cada una de las posibles sustituciones y (2) una penalización por la introducción de indels.

Cada uno de los posibles alineamientos recibe una puntuación. Se considera alineamiento óptimo aquél que consigue la puntuación más elevada.

Alineamiento de secuenciasEl sistema más sencillo consiste en otorgar una puntuación discreta a las

coincidencias (match), otra a las diferencias (mismatch) y otra a los huecos (gaps).

Puntuación de un alineamiento

Sistema de puntuación


Sistema de puntuación de BLASTN



Matrices de puntuación

Alineamiento de secuenciasEn muchos casos se utiliza una matriz de puntuación (scoring matrix) donde se tienen en cuenta todas las

sustituciones posibles.

Las matrices de puntuación

A cada sustitución se le asigna una puntuación

distinta porque:

1.- No todos los nucleótidos sustituyen a otros con la misma probabilidad (las transiciones son

más probables que las transversiones) .

2.- No todos los aminoácidos sustituyen a otros con la misma probabilidad (muchas de las

sustituciones observadas son conservativas) .


Matrices de sustitución para nucleótidos


Matriz de identidad

Matriz de identidad que otorga una

puntuación de 1 en caso de coincidencia. En caso contrario, la

puntuación es 0.

También se pueden incluir valores distintos de 0 y una penalización

por introducir huecos


Matrices basadas en un modelo evolutivo

Se supone que la tasa de cambio evolutivo permanece

constante durante todo el periodo estudiado.


Modelo de Jukes-Cantor (uniforme)

Mutation probability matrix (PAM-1)

Se contempla un periodo evolutivo en el que ha habido una mutación puntual aceptada por

cada 100 bases (PAM-1).

Se considera un modelo mutacional de Markov en

el que las mutaciones son aleatorias e independientes.

Todas las mutaciones son igual de probables y

todas las bases aparecen con la misma

frecuencia.

2


Las transiciones son tres veces más probables que las

transversiones.

Transiciones y transversiones

Modelo de Kimura (sesgado)

Transición (A↔G) (C↔T)

(purina↔purina) (pirimidina↔pirimidina)

Transversión

(A↔T) (A↔C) (G↔T) (G↔C)

(purina↔pirimidina) (pirimidina↔purina)

Alineamiento de secuenciasMutation probability matrix (PAM-1)

Modelo de Kimura (sesgado)

Se contempla un periodo evolutivo en el que ha habido una mutación

puntual aceptada por cada 100 bases (PAM-1).

Se considera un modelo mutacional de Markov: las

mutaciones son aleatorias e independientes.

Las transiciones son 3 veces más probables que las transversiones. Todas las bases aparecen con la

misma frecuencia.

TransiciónTransversión

2


Matrices PAM para secuencias con una diferencia > 1%


Matrices de sustitución para aminoácidos



Margaret Dayhoff (1925 – 1983)

Matrices PAM para aminoácidos


El modelo evolutivo de las matrices PAM


Primero se calcula la matriz PAM-1, que

muestra las frecuencias relativas de los cambios de cada aminoácido por cualquiera de los otros

observados en secuencias que sólo

difieren en un 1% de sus aminoácidos.

Cálculo de la matriz PAM-1


Construcción de la familia de matrices PAM

La matriz PAM-1 se calcula comparando secuencias cuya divergencia no excede el 1%

Multiplicando la matriz PAM-1 por sí misma n veces se obtienen distintas matrices PAM que permiten

comparar secuencias cuyo nivel de similitud se ha ido reduciendo más y más a lo largo de la evolución.

Alineamiento de secuenciasUna mutación puntual aceptada (PAM) es la sustitución de un aminoácido por otro que ha sido aceptada por la selección natural.

El artículo original de Dayhoff y col.


Como no se conoce la dirección de la mutación, la puntuación indicada en la matriz de log odds

para el cambio ab es la misma que para el cambio ba. Por tanto, la matriz es simétrica.

El valor que aparece en la matriz de log odds es la media de la suma de los cambios observados (ab + ba).

La matriz de frecuencias se convierte en matriz log odds


PAM 250 (log odds matrix)


Matriz de probabilidades relativas (Ri,j) para PAM = 250

― Si Si,j > 0, el aa i sustituye al aa j con más frecuencia de lo que se podría esperar por simple azar

― Si Si,j > 0, el aa i sustituye al aa j con menos frecuencia de lo que se podría esperar por simple azar

― Si Si,j = 0, el aa i sustituye al aa j con la frecuencia que se podría esperar por simple azar

La matriz de log odds es simétrica. A partir de ella se puede deducir que:


¿Cómo se interpretan los valores de la matriz?


Un ejemplo


Ventajas e inconvenientes de PAM


En 1992 se recalculó la matriz PAM


Gonnet PAM250


JTT PAM250


Steven y Jorja Henikoff

PROSITEDatabase of protein families and domains

(BLOcks SUbstitution Matrix)

Alineamiento de secuenciasSe parte de un conjunto de secuencias de proteínas

relacionadas extraídas de la BD PROSITE 9.0

Los programas MOTIF y PROTOMAT

detectaron 2106 bloques en esas

secuencias

1.- Recopilación de datos (bloques)

Las secuencias corresponden a 559 familias de proteínas (muchos más datos de partida

que en el caso de las matrices PAM)

Alineamiento de secuenciasUn bloque es un alineamiento local y sin huecos de una región conservada en una familia de proteínas

WWYIR CASILRKIYIYGPV GVSRLRTAYGGRKNRGWFYVR … CASILRHLYHRSPA … GVGSITKIYGGRKRNGWYYVR AAAVARHIYLRKTV GVGRLRKVHGSTKNRGWYFIR AASICRHLYIRSPA GIGSFEKIYGGRRRRG

bloque 1 bloque 2 bloque 3

Características de los bloques (1)

En cada bloque, cada línea corresponde a una proteína, y cualquiera de ellas puede ser ancestro de la otra

Los bloques constituyen una característica distintiva de la familia, ya que suelen contener los aa responsables de

la función bioquímica común a todos sus miembros


w = 4 w = 3

n = 6

La anchura de los bloques (w) oscila entre 3 y 60 aa

El número de secuencias en cada bloque (n) varía en cada familia de proteínas

El cada bloque, el número total de parejas de aa (T) se calcula mediante la fórmula:

T =

20

1 1,

i

i

jjicT

Características de los bloques (2)

Alineamiento de secuenciasBloque 1 Bloque 2

― En este caso:

En la primera columna del bloque 1 tenemos los aa: ACABAA

nA = 4

nB = 1

nC = 1

El número de posibles parejas de aa en la primera columna es:

(AA) – (BB) – (CC) - con dos aa iguales:

- con dos aa distintos:(AB) – (AC) – (BC)

AA = 6AB = 4AC = 4BB = 0BC = 1CC = 0

Total = 15

2.- Recuento de los cambios observados (cij) en cada columna


Agrupamiento de secuencias

Estas tres secuencias

cuentan como una

BLOSUM 80 agrupa las secuencias cuya similitud es ≥ del 80%

Para evitar que las sustituciones observadas entre las secuencias más parecidas estén sobrerrepresentadas, se agrupan en una sóla aquéllas secuencias que superan un umbral de similitud:

BLOSUM 62 agrupa las secuencias cuya similitud es ≥ del 62%

Alineamiento de secuencias― Los aa que pertenecen a las secuencias agrupadas contribuyen al cómputo global de forma ponderada.

― Así, para la primera columna tenemos que:

Recuento ponderado de los cambios (cij) en una columna

Estas tres secuencias

cuentan como una


3.- Recuento de los cambios observados (cij) en todas las columnas

Ejemplo:

Matriz con los valores ci,j (frecuencias observadas):

(número total de parejas)

20

1 1, 30

i

i

jjicT


Cálculo del log odds para cada sustitución (sij)

probabilidad observada para el cambio aa i → aa j

probabilidad esperada para el cambio aa i → aa j

El valor que se introduce en la matriz BLOSUM es 2 Si,j redondeado al número entero más cercano

ji

ijij pp

pS 2log2

Ejemplo:


BLOSUM 62

basic

small hydrophobic

aromatic

acid hydrophylic

small hydrophylic


¿Cómo se interpretan los valores de la matriz?

ji

ijij pp

pS 2log2

Alineamiento de secuenciasSi Si,j > 0, el aa i sustituye al aa j con más frecuencia

de lo que se podría esperar por simple azar

Si Si,j < 0, el aa i sustituye al aa j con menos frecuencia de lo que se podría esperar por simple azar

Si Si,j = 0, el aa i sustituye al aa j con la frecuencia que se podría esperar por simple azar

BLOSUM62

La puntuación del alineamiento es la suma de los logaritmos de las probabilidades relativas de cada pareja de aa alineada


Ventajas e inconvenientes de BLOSUM



PAM versus BLOSUM (1)

PAM BLOSUMSe construye a partir de alineamientos globales

Se construye a partir de alineamientos locales

Las secuencias de partida son muy similares (> 85%)

Las secuencias de partida son muy divergentes

Pocos datos de partida Gran cantidad de datos de partida

Cómputo de cambios basado en el método de

máxima parsimonia

Cómputo de cambios basado en el agrupamiento de las secuencias que

superan un umbral de similitud

Se basa en un modelo evolutivo mutacional (proceso de Markov)

Se basa en un modelo evolutivo del tipo starburst

Los errores en PAM-1 se amplifican 250 veces en PAM250

Los errores en BLOSUM se deben a alineamientos

incorrectos

Alineamiento de secuenciasPAM BLOSUM

Para detectar homología en secuencias alejadas se utilizan matrices PAM con

un número elevado

Para detectar homología en secuencias alejadas se utilizan matrices BLOSUM

con un número bajo

PAM con números elevados indican más divergencia

BLOSUM con números elevados indican menos divergencia

Diseñadas para desvelar el parentesco evolutivo

de las proteínas

Diseñadas para encontrar dominios conservados en

las proteínas

PAM versus BLOSUM (2)


Otras matrices


Matriz de identidad


Matriz de sustitución de codones


Cadenas laterales de los aminoácidos


Matriz de hidrofobicidad User matrix

Otros tipos de matrices


Gap penalties

Alineamiento de secuenciasLos huecos suelen incluirse en los bucles que

conectan los elementos de estructura secundaria

Dónde y cómo introducir huecos

Se considera más lógico introducir un hueco de longitud n que n huecos de longitud 1.


A veces no me interesa que haya indels en el alineamiento (regiones muy

conservadas y con funciones muy delicadas que no tolerarían ningún

cambio). Puedo usar un programa que no admita indels o, alternativamente, colocar

una penalización infinita a los indels.

¿Indels? No, gracias

¿GAPS?


Suele ser un valor negativo muy elevado (G = -11; G = -). En la práctica, evita la introducción de indels en el alineamiento. La penalización se contabiliza sólo una vez (cuando se abre el indel) y es independiente de su tamaño.

Penalización constante

Alineamiento de secuenciasSe puede aplicar una penalización lineal. Cada posición ocupada por un indel sufre una penalización,

que es siempre la misma.

Penalización lineal

G = - n go

Alineamiento de secuenciasDesde un punto de vista evolutivo, es más realista suponer que la naturaleza ha insertado/eliminado fragmentos en la

secuencia de una sola vez. Por eso se introduce una penalización (go) para la inclusión de un indel (gap open

penalty) y otra penalización (ge), menos costosa, que dependa de la longitud del indel (gap extension penalty).

Penalización afín

La inserción/eliminación es mucho menos probable que cualquier sustitución de aa, por radical que ésta sea. Por tanto, la go debe estar muy penalizada para que se introduzcan indels

donde sea preciso, y no por toda la secuencia

Una vez que se ha introducido un indel en un punto de la secuencia, su extensión (ge) es mucho

más probable y debe estar menos penalizada.

Alineamiento de secuenciasEn la penalización afín hay dos maneras

distintas de penalizar la extensión del indel :

Modelo convexo: Para todo n>1, p(n+1) - p(n) < p(n) - p(n-1)

(Cada tramo adicional del indel penaliza menos que el anterior. Es el modelo que más se ajusta a la realidad, pero desde el punto de

vista computacional es muy difícil incluirlo en el algoritmo )

Modelo lineal: Para todo n >1, p(n+1) - p(n) = p(n) - p(n-1)

(La penalización es proporcional a la longitud del indel)

G = go + nge G = go + (n-1)ge

G = go + k log (n)

Dos modelos de penalización afín (2)


Dos modelos de penalización afín (1)

Modelo linealModelo convexo


Algunas recomendaciones

Es importante seleccionar una penalización apropiada en función de la matriz de puntuación

elegida para que no se excluyan los indels, pero que tampoco se propaguen por todo el alineamiento.

No hay una mecanismo formal para calcular el valor de la penalización. La mayor parte de los programas hacen sus

propias recomendaciones, que están basadas en métodos de ensayo y error y no garantizan que para tu caso concreto sean

las más adecuadas. Deberás hacer varias pruebas.

Algunos valores típicos:

Matriz gap opening gap extension

BLOSUM 62 -12 - 3 BLOSUM 50 -15 - 8PAM 250 -15 - 5

Documents

Encuentra las 12 diferencias