Bioinformática estructuralPredicción de estructuras de proteínas y ARN
Dr. Eduardo A. RODRÍGUEZ TELLO
CINVESTAV-Tamaulipas
25 de julio del 2013
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 1 / 134
1 Conceptos básicos de bioinformática estructural
2 Predicción de la estructura secundaria de proteínas
3 Predicción de la estructura terciaria de proteínas
4 Predicción de la estructura secundaria de ARN
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 2 / 134
Conceptos básicos de bioinformática estructural Introducción
Introducción
Las proteínas realizan la mayoría de las funciones biológicas yquímicas esenciales en una célula
Juegan un papel importante en las funciones estructurales,enzimáticas, de transporte y regulación
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 3 / 134
Conceptos básicos de bioinformática estructural Introducción
Introducción
Estructura 3D→ Funcionalidad
La estructura está codificada en lasecuencia de aminoácidos[Anfinsen, 1973]
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 4 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 5 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales
Ángulos diedrales
Los átomos asociados al enlace peptídico se encuentran en elmismo plano
Por esta razón el enlace peptídico no puede girar libremente
El ángulo de rotación de un enlace se conoce como diedral o detorsión
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 6 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales
Ángulos diedrales
Los enlaces N–Cα (φ) y Cα–C (ψ) sí pueden girar con ciertalibertad
Las combinaciones de φ y ψ permiten a las proteínas plegarse demuchas maneras
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 7 / 134
Conceptos básicos de bioinformática estructural Ángulos diedrales
Gráfica de Ramachandran
Las rotaciones de φ y ψ no son completamente libres. Entonces,sólo hay un rango limitado de conformaciones peptídicas
La gráfica de Ramachandran muestra las combinaciones de φ y ψque son permitidas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 8 / 134
Conceptos básicos de bioinformática estructural Jerarquía
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 9 / 134
Conceptos básicos de bioinformática estructural Jerarquía
Estructura de las proteínas
La estructura primaria es la secuencia de aminoácidos unidos porenlaces peptídicos
El polipéptido resultante se puede plegar en unidades deestructura secundaria como las hélices alfa
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 10 / 134
Conceptos básicos de bioinformática estructural Jerarquía
Estructura de las proteínas
La hélice alfa es parte de la estructura terciaria de la proteínaplegada, la cual a su vez puede ser una subunidad de laestructura cuaternaria de una proteína de múltiples unidades,como la hemoglobina
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 11 / 134
Conceptos básicos de bioinformática estructural Jerarquía
Fuerzas de estabilización
La estructura de las proteínas se mantiene por fuerzas deestabilización como las interacciones electrostáticas, las fuerzasde Van der Waals y los enlaces de hidrógeno
Las interacciones electrostáticas ocurren cuando el exceso decarga negativa en una región es neutralizado por cargas positivasen otra región formando puentes salinos entre residuos de cargaopuesta
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 12 / 134
Conceptos básicos de bioinformática estructural Jerarquía
Fuerzas de estabilización
Los enlaces de hidrógeno son un tipo de interaccioneselectrostáticas que involucran a un átomo de hidrógeno de unresiduo y a un átomo de oxígeno de otro residuo
El hidrógeno con carga positiva se une parcialmente al oxígenocon carga negativa
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 13 / 134
Conceptos básicos de bioinformática estructural Jerarquía
Fuerzas de estabilización
Las fuerzas de Van der Waals son las fuerzas de atracción orepulsión entre moléculas o entre partes de una misma molécula
Los electrones de un átomo crean un dipolo eléctrico que atrae aotro dipolo de un átomo cercano
Pero cuando están muy cerca los átomos, se comienzan a repeler
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 14 / 134
Conceptos básicos de bioinformática estructural Jerarquía
Fuerzas de estabilización
El radio de Van der Waals es la distancia a la que un átomopuede estar cerca de otro
Los puentes disulfuro también intervienen en la estabilización dela estructura de una proteína
Estos puentes se forman entre los átomos de azufre de la cisteína
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 15 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 16 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria
Hélices–α
Una hélice–α tiene una conformación de la cadena principalparecida a un sacacorchos
En esta hélice existen 3.6 residuos en cada giro
La estructura se estabiliza mediante enlaces de hidrógeno entreátomos de la cadena principal i e i + 4, que son casi paralelos aleje de la hélice
φ y ψ son de 60o y 45o
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 17 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria
Hélices–α
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 18 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria
Hojas–β
Una hoja–β es una configuración completamente extendida quese construye de varias regiones espacialmente adyacentes de unpolipéptido
Cada región que la forma se conoce como hebra–β
Esta estructura se estabiliza por medio de enlaces de hidrógenoque se forman entre residuos de hebras adyacentes
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 19 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria
Hojas–β
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 20 / 134
Conceptos básicos de bioinformática estructural Estructura secundaria
Espirales y rizos
También hay estructuras locales que no pertenecen a estructurassecundarias regulares
Estas estructuras son las espirales y los rizos
Los rizos se caracterizan por ser giros bruscos
Las espirales se forman por regiones de conexión completamenteirregulares
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 21 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 22 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria
Tipos de proteínas
El arreglo y empaque completo de estructuras secundarias formala estructura terciaria de la proteína
La estructura terciaria generalmente se clasifica en proteínasglobulares o de membrana
Las globulares existen en solventes a través de interaccioneshidrofílicas con moléculas solventes
Las de membrana existen en lípidos de membrana y seestabilizan por medio de interacciones hidrofóbicas con lasmoléculas de lípidos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 23 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria
Proteínas globulares
Son solubles y están rodeadas por moléculas de agua
Tienen estructuras compactas de forma esférica con residuoshidrofílicos en la superficie e hidrofóbicos en el núcleo
Minimiza el contacto con el agua en el centro y maximiza lasinteracciones con agua en el exterior
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 24 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria
Proteínas globulares
Algunos ejemplos: enzimas, mioglobinas y hormonas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 25 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria
Proteínas de membrana integral
Existen en las bicapas de lípidos de la membrana de la célula
Como están rodeadas de lípidos, el exterior debe ser hidrofóbicopara ser estable
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 26 / 134
Conceptos básicos de bioinformática estructural Estructura terciaria
Proteínas de membrana integral
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 27 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 28 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
Cristalografía de rayos–X
Requiere que las proteínas formen cristales con posiciones fijasde una manera repetida y ordenada
Los cristales se iluminan con un haz intenso de rayos–X
Los electrones que rodean a los átomos desvían los rayos–Xproduciendo un patrón regular de difracción
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 29 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
Cristalografía de rayos–X
El patrón está compuesto de miles de puntos grabados en unaplaca de rayos–X
El patrón se convierte a un mapa de densidad de electrones
La estructura se modela con los aminoácidos que mejor seajustan al mapa
Una limitante que existe es la necesidad de obtener cristales apartir de las proteínas, lo que no siempre es posible
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 30 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
Cristalografía de rayos–X
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 31 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
Cristalografía de rayos–X
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 32 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
Espectroscopia NMR
La espectroscopia de resonancia magnética nuclear (NMR)detecta patrones de giro de núcleos atómicos en un campomagnético
Utiliza radiación para inducir transiciones entre estados de giro delos núcleos en un campo magnético
Las interacciones entre pares de isótopos producen señales deradio que están correlacionadas con la distancia entre ellos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 33 / 134
Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas
Espectroscopia NMR
Interpretando estas señales se puede determinar la proximidadentre átomos y con esto se puede construir un modelo para laproteína
No tiene la limitación de generar cristales, pero solamente puededeterminar estructuras con menos de 200 residuos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 34 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 35 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas
Banco de datos de proteínas
Las estructuras de proteínas que se obtienen por cristalografía yespectroscopia, entre otros métodos, se almacenan en el Bancode Datos de Proteínas (PDB)
Las estructuras definen la posición, en un espacio tridimensional,de cada átomo de la proteína
El sitio en Internet de PDB permite subir, buscar y bajar datos deproteínas
Aunque PDB tiene miles de estructuras almacenadas, lainformación es redundante, existen muchas entradas para unamisma proteína, ya que se reportan con diferentes resoluciones,con mutaciones en un residuo, etc
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 36 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas
Formato PDB
Cada descripción de una proteína tiene un código de 4 símbolosalfanuméricos
Las líneas tienen 80 caracteres de longitud
Consta de un encabezado y una sección de coordenadasatómicas
El encabezado puede incluir información de método deldeterminación, resolución, parámetros de cristalografía,referencias bibliográficas, etc
Las coordenadas incluyen el nombre del átomo, del residuo,número del residuo, coordenadas en x , y , z, factor detemperatura, entre otros datos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 37 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas
Formato PDB
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 38 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas
Formato mmCIF y MMDB
Las limitaciones del formato PDB han permitido el desarrollo denuevos formatos como mmCIF y MMDB que son más fáciles deanalizar por una computadora y permiten describir estructurasmás complejas
Cada línea describe un campo de la descripción de la estructura,primero se escribe el nombre del campo y luego el valor
Un archivo MMDB utiliza el formato ASN.1 para describir unaestructura
Incluye información de enlaces para cada molécula, llamadagráfica química, permitiendo que las estructuras se dibujen másrápido
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 39 / 134
Conceptos básicos de bioinformática estructural BD de estructuras de proteínas
Formato mmCIF y MMDB
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 40 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 41 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Visualización de estructuras proteínicas
La característica más básica de un software de visualización es lacapacidad de crear conectividad entre átomos para simular lavista de una molécula
El programa de visualización puede ofrecer diferentespresentaciones de visualización:
1 Tramas de alambres (wire-frame)2 Esferas y líneas (balls and sticks)3 Esferas (space-filling o CPK - Corey, Pauling, and Koltan)4 Listones (ribbons)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 42 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Tramas de alambres (wire-frame)
Es un diagrama de líneas que representa los enlaces entreátomos (representación más simple)
Es útil para localizar residuos específicos en una estructura deproteína
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 43 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Esferas y líneas (balls and sticks)
Representan átomos y sus enlaces respectivamente
Pueden representar la columna vertebral de una estructura
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 44 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Esferas (space-filling o CPK
Cada átomo se describe usando una esfera grande cuyo radiocorresponde a su radio de van der Waals
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 45 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Listones (ribbons)
Usa listones en forma de espiral para representar las hélices-α yflechas planas para representar las hebras-β
Permiten identificar fácilmente las estructuras secundarias
Ofrece una vista general de toda la topología de la estructura
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 46 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Software
RasMol. Lee formatos PDB y mmCIF. Puede desplegar unamolécula completa o partes específicas de ella. Es un programade línea de comandos y se encuentra disponible en plataformasUNIX, Windows y Mac.
RasTop. Es una nueva versión de RasMol disponible enplataforma Windows. Posee una mejor interface de usuario.
Swiss-PDBViewer. Es un visor de estructuras disponible paraMac y Windows. Posee mucha funcionalidad para ser unshareware. Capaz de visualizar múltiples estructuras, analizar ymodelar. Puede medir distancias, potencial electrostático, ploteode Ramachandran, etc.
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 47 / 134
Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas
Visualización de estructuras proteínicas
Molscript. Despliega estructuras tridimensionalmente y ofrecevarios formatos de salida. Disponible en plataformas UNIX.Ofrecer diferentes presentaciones de visualización. Sin embargo,es una aplicación de línea de comandos.
JMol. Es un applet para visualuzar estructuras químicas queemplea representación de esferas.
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 48 / 134
Predicción de la estructura secundaria de proteínas Introducción
2 Predicción de la estructura secundaria de proteínasIntroducciónMétodos ab initioMétodos basados en homologíaPredicción con redes neuronales
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 49 / 134
Predicción de la estructura secundaria de proteínas Introducción
Introducción
Las estructuras secundarias son conformaciones locales establesde una cadena polipeptídica
Son esenciales en la determinación de la estructuratridimensional de proteínas
Incluyen elementos estructurales regulares y altamente repetidoscomo las hélices-α y las hojas-β
Se estima que cerca del 50 % de los residuos de una proteína sepliegan en alguna de esas dos formas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 50 / 134
Predicción de la estructura secundaria de proteínas Introducción
Introducción
La predicción de estructuras secundarias de proteínas se refiere ala identificación del estado de conformación de cada residuo delos aminoácidos en la secuencia de una proteína
Dichos estados de conformación pueden ser de tres tipos: Hélices(H), Hebras (E) o Rizos (C).
La predicción está basada en el hecho de que las estructurassecundarias tienen un arreglo regular de los aminoácidos,estabilizado por los enlaces de hidrógeno
Esta regularidad sirve de base a los algoritmos de predicción
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 51 / 134
Predicción de la estructura secundaria de proteínas Introducción
Introducción
La predicción de estructuras secundarias de proteínas tieneaplicación en la clasificación de proteínas y en la separación dedominios de proteínas y de motivos funcionales
Además es un paso intermedio para determinar la estructuraterciaria de proteínas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 52 / 134
Predicción de la estructura secundaria de proteínas Introducción
Introducción
Los métodos para la predicción de la estructura secundaria deproteínas (globulares) son de dos tipos:
Basados en ab initio. Predicen la estructura secundaria empleandoinformación estadística calculada a partir de una sola secuencia
Basados en homología. No sólo toman en cuenta estadísticas delos residuos de una secuencia, además también consideranpatrones comunes conservados entre múltiples secuenciashomólogas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 53 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
2 Predicción de la estructura secundaria de proteínasIntroducciónMétodos ab initioMétodos basados en homologíaPredicción con redes neuronales
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 54 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Métodos ab initio
Este tipo de métodos mide la tendencia relativa de cadaaminoácido de pertenecer a cierto tipo de elemento de estructurasecundaria
Las puntuaciones de propensión fueron derivadas de estructurasconocidas de cristales
Algunos ejemplos: Chou-Fasman y Ganier, Osguthorpe y Robson(GOR)
Estos pertenecen a la primera generación de métodos depredicción (1970s)
La información estructural de proteínas era limitada y lasestadísticas eran derivadas de conjuntos de datos restringidos(baja exactitud)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 55 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método Chou-Fasman
Determina la tendencia de cada residuo a encontrarse en unahélice, una hebra o un giro usando frecuencias observadas encristales de proteínas
El cálculo de la puntuación de propensión es simple.
Supongamos que hay n residuos en la estructura de la proteínade los cuales m son residuos en hélices
El número total de residuos de Alanina es y de los cuales x estánen hélices
La puntuación de propensión para la Alanina de estar en unahélice está dada por la siguiente relación:
(x/m)
(y/n)(1)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 56 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método Chou-Fasman
Si la puntuación de propensión para un residuo es igual a 1.0para hélices (P(hélice-α)) significa que el residuo tiene igualprobabilidad de ser encontrado en una hélice o en cualquier otraestructura
Si P(hélice-α) < 1,0 entonces el residuo tiene poca oportunidadde ser encontrado en una hélice
Si P(hélice-α) > 1,0 entonces es altamente probable que elresiduo se encuentre en una hélice
Usando este concepto Chou y Fasman crearon la siguiente tabla
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 57 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método Chou-Fasman
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 58 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método Chou-Fasman
El algoritmo Chou-Fasman toma la secuencia y la divide enventanas de tamaño fijo para determinar el número de residuospertenecientes a cada estructura usando la puntuación depropensión
Para hélices-α la ventana es de tamaño 6, si una región tiene 4residuos contiguos cada uno con P(hélice-α) > 1,0, se concluyeque el conjunto forma parte de una hélice
Esta región en hélice se extiende en ambas direcciones hasta queP(hélice-α) < 1,0
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 59 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método Chou-Fasman
Para las hebras-β utiliza una ventana de 5 residuos, si se tienenal menos 3 residuos cada uno con P(hebra-β) > 1,0, se concluyeque el conjunto forma parte de una hebra-β
Si ambos tipos de estructuras se traslapan en cierta región, setoma la siguiente decisión
Si∑
P(hélice-α) >∑
P(hebra-β) entonces se concluye unahélice-α
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 60 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método GOR
También se basa en la puntuación de propensión de cada residuode estar en cada una de las 4 siguientes estructuras: Hélices (H),Hebras (E), Giros (T) o Rizos (C).
Sin embargo, toma en cuenta para este cálculo las interaccionescon los residuos vecinos
Examina una ventana de 17 residuos y suma la propensión paralos residuos para las 4 posibles estructuras (4 sumatorias)
La puntuación más alta define el tipo de estructura al quepertenece el residuo al centro de la ventana (noveno residuo)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 61 / 134
Predicción de la estructura secundaria de proteínas Métodos ab initio
Método GOR
Tanto este método como el de Chou-Fasman tienen la desventajade tener baja precisión de predicción (aprox. 50 %)
Sin embargo, han surgido algunas nuevas versiones como GORII, GOR III y GOR IV (1980s e inicio de 1990s)
Integran estadísticas más refinadas basadas en un número másgrande de proteínas conocidas e incorporan más interaccioneslocales entre residuos
Su precisión de predicción mejoró 10 %
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 62 / 134
Predicción de la estructura secundaria de proteínas Métodos basados en homología
2 Predicción de la estructura secundaria de proteínasIntroducciónMétodos ab initioMétodos basados en homologíaPredicción con redes neuronales
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 63 / 134
Predicción de la estructura secundaria de proteínas Métodos basados en homología
Métodos basados en homología
Son la tercera generación de métodos (finales de 1990s) yemplean información evolutiva
Combinan métodos ab initio para predicción de la estructurasecundaria de secuencias individuales e información dealineamiento múltiple de secuencias homologas (identidad> 35%)
La idea detrás de este enfoque es que proteínas homologasadoptan la misma estructura secundaria y terciaria
Este tipo de métodos han ayudado a mejorar la precisión depredicción en 10 % con respecto a los métodos de segundageneración
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 64 / 134
Predicción de la estructura secundaria de proteínas Métodos basados en homología
Métodos basados en homología
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 65 / 134
Predicción de la estructura secundaria de proteínas Predicción con redes neuronales
2 Predicción de la estructura secundaria de proteínasIntroducciónMétodos ab initioMétodos basados en homologíaPredicción con redes neuronales
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 66 / 134
Predicción de la estructura secundaria de proteínas Predicción con redes neuronales
Predicción con redes neuronales
La tercera generación de algoritmos de predicción también haceuso de redes neuronales para analizar patrones de substituciónen alineamientos de múltiples secuencias
Esto ha permitido aumentar la precisión de predicción a un 75 %
Algunos ejemplos de aplicaciones que utilizan redes neuronales:PHD, PSIPRED, SSpro, PROF, HMMMSTR
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 67 / 134
Predicción de la estructura terciaria de proteínas Introducción
3 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab InitioModelo HP (Hydrophobic-Polar)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 68 / 134
Predicción de la estructura terciaria de proteínas Introducción
Introducción
Existen tres enfoques computacionales para el modelado ypredicción de estructuras tridimensionales de proteínas
Homología
Plegado (Threading)
Ab initio
Los dos primeros se basan en el conocimiento estructural de laproteína obtenido de las BD, mientras que el tercero no requierede ninguna información adicional
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 69 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
3 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab InitioModelo HP (Hydrophobic-Polar)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 70 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
Métodos basados en homología
Como su nombre lo indica, predice las estructuras de lasproteínas mediante la comparación con estructuras de proteínashomólogas conocidas
También es llamado Modelo Comparativo
Se basa en el principio de que si dos proteínas tienen un altogrado de similitud es muy probable que tengan estructurastridimensionales similares
El modelo de homología general consta de 6 pasos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 71 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
1. Selección de plantilla
Consiste en encontrar las estructuras principales y sirve comobase para el proceso de modelado
Este paso consiste en la búsqueda en el Banco de Datos deProteínas (PDB) para seleccionar aquellas proteínas homólogas
Esta búsqueda se pude llevar a cabo mediante cualquier métodode alineamiento de pares tales como BLAST o FASTA.
Por lo general, es posible encontrar varias estructuras con unporcentaje de similitud considerable, sin embargo se recomiendausar sólo aquella con el porcentaje más alto
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 72 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
2. Alineamiento de secuencias
Una vez identificada la secuencia con mayor similitud, se lleva acabo un reajuste, para ello se usa un algoritmo de alineamientopara obtener una adaptación óptima entre las secuencias
Se considera como el paso más critico, ya que un alineamientoincorrecto conducirá a una designación incorrecta de los residuos
Los algoritmos usados en este paso pueden ser T-Coffe o Praline
De ser necesario se puede llevar a cabo un perfeccionamientomanual del resultado arrojado por el algoritmo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 73 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
3. Creación del esqueleto del modelo
Una vez teniendo el alineamiento óptimo, existen tresposibilidades para los residuos en las regiones alienadas:
1 Residuos similares. Las coordenadas de los residuos de la plantillapueden ser copiadas directamente a la proteína objetivo (query)
2 Residuos idénticos. Las coordenadas de los átomos de la cadenalateral se copian junto con los átomos de la cadena principal
3 Residuos diferentes. Sólo los átomos de la columna vertebral sepueden copiar
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 74 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
4. Modelado de bucles
Como sabemos, el resultado de un alineamiento de secuenciascausa la inserción de huecos, los cuales son el resultado por elalineamiento mismo
Estos huecos no pueden ser directamente modelados, por lo quese requiere de un modelo para “cerrar” estos huecos
Existen dos técnicas para abordar este problemaMétodo de búsqueda en BDMétodo ab initio
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 75 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
4. Modelado de bucles
El método de búsqueda en BD propone buscar “piezas derepuesto”, de estructuras conocidas de proteínas que se acoplenen el hueco
La secuencias de átomos que preceden y continúan a esta regiónse suelen llamar tallo.
El procedimiento inicia midiendo la orientación y distancia de lasregiones entre los tallos y buscar en PDB los segmentos de lamisma longitud que coincidan
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 76 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
4. Modelado de bucles
Suelen existir diferentes segmentos alternativos que se adapten aesta región
El mejor fragmento se copia en los puntos de anclaje de los tallos
El método ab initio genera muchos bucles y búsquedas al azar
Si los huecos son relativamente cortos (de 3 a 5 residuos) los dosmétodos producen modelos correctos
Si los huecos son muy largos, es muy difícil lograr un modelofiable
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 77 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
4. Modelado de bucles
FREADwww.cryst.bioc.cam.ac.uk/cgi-bin/coda/fread.cgi,usa el método de BD
PETRAwww.cryst.bioc.cam.ac.uk/cgi-bin/coda/pet.cgiemplea el método ab initio
CODA www.cryst.bioc.cam.ac.uk/~charlotte/Coda/search_coda.html utiliza consenso basado en los resultadosde los dos sitios anteriores
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 78 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
5. Perfeccionamiento de la cadena lateral
Una vez que la cadena principal de átomos está construida, lasposiciones de las cadenas laterales deben ser determinadas
La cadena lateral puede ser construida mediante la búsqueda decada ángulo de torsión, seleccionando aquellos que tengan lamenor interacción de energía con sus vecinos
Sin embargo, esto no se puede llevar a cabo en la mayoría de loscasos (computacionalmente prohibitivo)
Para ello ha surgido el concepto de rotamers, el cual usa losángulos de torsión extraídos de estructuras de proteínasconocidas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 79 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
5. Perfeccionamiento de la cadena lateral
Teniendo una librería de rotamers se reduce el tiempo decómputo debido a que sólo unos cuantos ángulos de torsión sonexaminados
Sin embargo, aún es necesario reducir más el tiempo de cómputo,mediante observaciones se ha visto que la columna vertebral estarelacionada con ciertas conformaciones de la cadena lateral
Haciendo uso de la existencia de esta correlación, es posibleeliminar aún más ángulos innecesarios
Uno de los paquetes que ha demostrado presentar un buendesempeño es SCWRLwww.fccc.edu/research/labs/dunbrack/scwrl/
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 80 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
6. Refinamiento mediante funciones de energía
Hasta este paso no se garantiza que la estructura este libre deirregularidades
Para tratar de solucionar esto, se hace uso de la minimización deenergía, esto tiene como objetivo reducir la energía al mínimopara aliviar tensiones y colisiones sin afectar significativamente laestructura
Este paso debe aplicarse cuidadosamente, ya que en ocasioneses posible que residuos se muevan a otras posiciones incorrectas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 81 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
6. Refinamiento mediante funciones de energía
Otro método hace uso del proceso de simulación de dinámicamolecular
Este hecho se basa en que la minimización de la energía seobtiene moviendo los átomos de un mínimo local sin necesidadde buscar todas las posibles combinaciones
Requiere de cálculos termodinámicos con los átomos
GROMOS www.igc.ethz.ch/gromos/ es un programa el cualusa simulación de dinámica molecular
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 82 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
Evaluación del modelo
El modelo obtenido tiene que ser evaluado para asegurarse deque las características estructurales del modelo son coherentescon las normas físico-químicas
Para ello se detectan los errores haciendo uso de perfilesestadísticos, características espaciales e interacción de energía através de estructuras determinadas experimentalmente
Si se detectan irregularidades estructurales, la región seconsidera con errores y tiene que ser perfeccionada
Procheck www.biochem.ucl.ac.uk/~roman/procheck/procheck.html es un programa el cual es capaz de comprobarlos parámetros físico-químicos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 83 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en homología
Evaluación del modelo
WHAT IF www.cmbi.kun.nl:1100/WIWWWI/ es un servidor deanálisis de proteínas que valida una proteína mediante correcciónquímica.
ANOLEA http://protein.bio.puc.cl/cardex/servers/anolea/index.html es un servidor web que utiliza el métodode evaluación estadística
Verify3D www.doe-mbi.ucla.edu/Services/Verify3D/ esotro servidor que utiliza el enfoque estadístico
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 84 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)
3 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab InitioModelo HP (Hydrophobic-Polar)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 85 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)
Métodos basados en plegado (threading)
En ocasiones muchas proteínas pueden compartir la mismaestructura aunque no exista mucha similitud en las secuencias
Esta propiedad permitió desarrollar métodos computacionalespara poder predecir estructuras de las proteínas sin importar lasimilitud de las secuencias
Para determinar si una secuencia adopta una estructuratridimensional conocida se hacen uso de los métodos dereconocimiento de plegado (threading)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 86 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)
Métodos basados en plegado (threading)
Dicha comparación hace hincapié en la congruencia de lasestructuras secundarias, ya que estas son las más conservadasevolutivamente
Gracias a este enfoque se pueden identificar proteínasestructuralmente similares, incluso sin detectarse similitud algunaen la secuencia
Estos algoritmos se pueden clasificar en dos grupos: basados enpares de energías y basados en perfiles
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 87 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)
Métodos de pares de energía
Estos métodos buscan en una BD estructural la mejorcoincidencia, haciendo uso de un alineamiento con la secuenciade consulta
Este alineamiento se hace a nivel de perfil de las secuenciasusando programación dinámica. En ocasiones también se sueleusar un alineamiento local
El siguiente paso es construir un modelo el cual lleve a cabo unasustitución de residuos
Se calcula la energía, la cual consiste en la interacción de energíaentre los residuos
Finalmente se clasifican en base a la energía para encontrar lamenor de ellas (la estructura más compatible)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 88 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)
Métodos de perfil
Se construye un perfil para un grupo de proteínas relacionadas,usando información estadística de cada residuo
Este perfil contiene la probabilidad de ocurrencia de cada uno delos veinte aminoácidos por cada posición
El puntaje de este perfil contiene información para tipos deestructuras secundarias
Para predecir el pliegue estructural, primero se predice suestructura secundaria y a partir de esta información se comparacon estructuras de perfiles conocidos
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 89 / 134
Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)
Métodos basados en plegado (threading)
3D-PSSM www.bmm.icnet.uk/~3dpssm/ es un programabasado en perfiles para identificar estructuras.
GenThreaderhttp://bioinf.cs.ucl.ac.uk/psipred/index.html esun programa híbrido (perfiles y pares de energía)
Fugewww.cryst.bioc.cam.ac.uk/~fugue/prfsearch.html esun servidor el cual hace uso del método de perfiles
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 90 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio
3 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab InitioModelo HP (Hydrophobic-Polar)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 91 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio
Modelos Ab Initio
En los métodos vistos anteriormente se requiere de ladisponibilidad de plantillas en BD para poder lograr predicciones.Al no existir estructuras suficientes para ello, los métodos fallan
En estos caso se debe considerar otro tipo de información la cualpermita encontrar la estructura
El poco conocimiento de estas estructuras es la base del métodoab initio
Este trata de predecir todas las secuencias de átomos de laproteína sin la ayuda de estructuras de proteínas ya conocidas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 92 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio
Modelos Ab Initio
Una de las ventajas de este método es que la predicción no selimita a los pliegues ya conocidos
Sin embargo, las leyes fisicoquímicas que rigen estecomportamiento aún no son bien conocidas, lo cual sigue siendoun gran reto de la bioinformática
Estos métodos trabajan con algún tipo de heurística, siguiendo elprincipio de minimización de energía, para lo que se lleva a cabouna búsqueda de todos los sitios posibles para encontrar dicharegión
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 93 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio
Modelos Ab Initio
Esta búsqueda global no es factible computacionalmente, ya queaún usando una supercomputadora (1× 1012 operaciones porseg) está se tardaría en muestrear todas las posiblesconformaciones para una proteína de 20 residuos entre 10 y 20años
Es por esta razón que se requiere hacer uso de heurísticas quepermitan reducir el espacio de búsqueda
Algunos de estos métodos fragmentan dicho espacio y combinandiversos tipos de búsqueda para producir un modelo
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 94 / 134
Predicción de la estructura terciaria de proteínas Modelos Ab Initio
Modelos Ab Initio
Rosettawww.bioinfo.rpi.edu/~bystrc/hmmstr/server.php esun servidor el cual permite predecir estructuras tridimensionalesusando el método ab initio.
Para ello rompe la secuencia en segmentos cortos (3 a 9residuos) prediciendo la estructura de estos segmentos haciendouso de modelos ocultos de Markov.
Los resultados para cada uno de estos segmentos se juntan parallevar a cabo la configuración en tres dimensiones (todas lascombinaciones posibles)
La conformación con la menor energía global es la elegida
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 95 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
3 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab InitioModelo HP (Hydrophobic-Polar)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 96 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)
Predicción de la estructura de proteínas (PSP)Es el problema de encontrar una conformación funcional para unaproteína dada únicamente su secuencia de aminoácidos.Formalmente:
Dado un modelo de energía E : C → R, encontrar laconformación c ∈ C que minimice E(c).
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 97 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Modelo HP (Hydrophobic-Polar) [Dill, 1985]
Las proteínas son cadenas lineales formadas por aminoácidos
Los aminoácidos se abstraen y clasifican en: Hidrófobos (H) yPolares (P)
Dada la secuencia HP de una proteína S ∈ {H,P}L, lasconformaciones son modeladas como caminatas no traslapadasen una malla:
1 cada nodo de la malla puede ser asignado a máximo unaminoácido
2 aminoácidos consecutivos en S deben ser adyacentes en la malla
Principalmente se enfoca en mallas 2D cuadradas y 3D cúbicas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 98 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Modelo HP (Hydrophobic-Polar) [Dill, 1985]
La meta es maximizar la interacción entre aminoácidos H en lamalla, i.e., minimizar:
E(c) =∑
si ,sj∈S
e(si , sj) , donde
e(si , sj) =
−1 si si y sj son ambos del tipo H
y forman un contacto topológico
0 de otro modo
Dos aminoácidos si , sj ∈ S forman un contacto topológico sison no consecutivos en S, pero adyacentes en la malla
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 99 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Modelo HP (Hydrophobic-Polar) [Dill, 1985]
La conformación óptima para lasecuenciaHPHPPHHPHPPHPHHPPHPH delongitud L = 20Las esferas negras y blancasdenotan aminoácidos H y P,respectivamenteLa energía de esta estructura esE(c) = −9, dado que hay 9H-H contactos topológicos
- 7 -
- 3 -
- 6 -
- 2 -
- 1
-
- 9 -
- 4
-
- 8
-
- 5
-
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 100 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)
Estructura generada aleatoriamente
Estructura óptima
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 101 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D
1 22
2
2
RLU
D
Codificación movimientos absolutos:las estructuras se codifican comosecuencias en {U,D,L,R}L−1
Por qué L− 1? la posición del primeraminoácido es fija
Por lo tanto, el tamaño del espacio de búsqueda es: 4L−1
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 102 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D
Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo
L Soluciones (4L−1) Tiempo
5 256 0.256 sec.
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D
Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo
L Soluciones (4L−1) Tiempo
5 256 0.256 sec.10 262,144 4.370 min.
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D
Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo
L Soluciones (4L−1) Tiempo
5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D
Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo
L Soluciones (4L−1) Tiempo
5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años30 288,230,376,151,712,000 9,139,725 años
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D
L Soluciones (4L−1) Tiempo
5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años30 288,230,376,151,712,000 9,139,725 años50 316,912,650,057,057,000,000,000,000,000 -
Se trabaja comúnmente con secuencias de proteínas de longitudentre 18 y 136....
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 103 / 134
Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)
Modelo HP (Hydrophobic-Polar)
La alternativa es utilizar metaheurísticasAlgoritmos GenéticosBúsqueda TabuRecocido Simulado ...
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 104 / 134
Predicción de la estructura secundaria de ARN Introducción
4 Predicción de la estructura secundaria de ARNIntroducciónTipos de estructuras de ARNMétodos de predicción
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 105 / 134
Predicción de la estructura secundaria de ARN Introducción
Predicción de la estructura secundaria de ARN
El ARN es un portador de información genética y existe en tresformas: ARN mensajero (ARNm), ARN ribosomal (ARNr) y ARNde transferencia (ARNt)
A diferencia del ADN, el ARN se integra de una sola hebra,aunque una molécula de ARN puede auto-hibridarse en ciertasregiones para formar estructuras de doble hebra
El ARNm es más o menos lineal y no estructurado, mientras queel ARNr y el ARNt sólo pueden funcionar formando estructurassecundarias y terciarias particulares
Es por ello que el conocimiento de las estructuras de dichasmoléculas es particularmente importante
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 106 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN
4 Predicción de la estructura secundaria de ARNIntroducciónTipos de estructuras de ARNMétodos de predicción
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 107 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN
Tipos de estructuras de ARN
Las estructuras de ARN pueden ser descritas en tres niveles:primario, secundario y terciario
La estructura primaria es la secuencia lineal de ARN integrada porcuatro bases: adenina (A), citosina (C), guanina (G) y uracilo (U)
La estructura secundaria se refiere a la representación planar quecontiene regiones de bases apareadas entre regiones de una solahebra
La estructura terciaria es el arreglo tridimensional de bases deuna molécula de ARN
Dado a que la estructura terciaria de una molécula de ARN esdifícil de predecir, se ha prestado particular atención a lapredicción de la estructura secundaria
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 108 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN
Tipos de estructuras de ARN
Figura: Estructuras primaria, secundaria y terciaria de una molécula de ARNt
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 109 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN
Tipos de estructuras de ARN
Se pueden identificar cuatro subtipos de estructura secundaria:hairpin loop, bulge loop, interior loop y multibranch loop
Adicionalmente, el apareamiento de bases entre lazos dediferentes elementos de la estructura secundaria puede resultaren estructuras de más alto nivel como pseudoknot loop, kissinghairpin y hairpin-bulge
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 110 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN
Tipos de estructuras de ARN
Figura: Cuatro tipos básicos de lazos de ARN: hairpin loop, bulge loop,interior loop y multibranch loop
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 111 / 134
Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN
Tipos de estructuras de ARN
Figura: Contactos pseudoknot, kissing hairpin y hairpin-bulge
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 112 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
4 Predicción de la estructura secundaria de ARNIntroducciónTipos de estructuras de ARNMétodos de predicción
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 113 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Predicción de la estructura secundaria de ARN
Esencialmente, existen dos enfoques de predicción de laestructura secundaria del ARN: el enfoque ab initio y el enfoquecomparativo
El enfoque ab initio se basa en el cálculo de la mínima energíaliberada de la estructura estable derivada de una secuencia deARN
El enfoque comparativo infiere estructuras en base a lacomparación evolutiva de múltiples secuencias de ARNrelacionadas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 114 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Este enfoque realiza predicciones estructurales basadas en unasola secuencia de ARN
Generalmente, cuando se efectúa un apareamiento entre bases,la energía de la molécula disminuye debido a las interacciones deatracción entre las dos hebras
La energía necesaria para formar pares de bases individuales esinfluenciada por los pares de bases adyacentes a través defuerzas de apilamiento (cooperatividad en la formación dehélices)
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 115 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Se han determinado parámetros para calcular la cooperatividaden la formación de pares de bases para la predicción de laestructura secundaria
Las interacciones de atracción conducen a un estado de aúnmenor energía
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 116 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Sin embargo, si el par de bases es adyacente a lazos (loops) osalientes (bulges), los lazos y salientes vecinas tienden adesestabilizar la formación del par de bases
La fuerza desestabilizadora en una estructura helicoidal tambiéndepende del tipo de lazos cercanos
Pueden utilizarse los parámetros para calcular las diferentesenergías desestabilizadoras como penalizaciones en el cálculo delas estructuras secundarias
Los esquemas de puntaje de las interacciones de estabilización ydesestabilización representan la base del enfoque de predicciónab initio
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 117 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
El método ab initio funciona de la siguiente manera:Primero busca todos los posibles patrones de apareamiento debases de una secuencia
Calcula la energía total de una estructura secundaria potencialtomando en cuenta las fuerzas estabilizadoras y desestabilizadoras
Si hay múltiples alternativas de estructuras secundarias, el métododetermina la conformación con la menor energía
Existen varias técnicas para encontrar todas las posibles regionesde bases apareadas a partir de una secuencia de ácidosnucleicos: la matriz de puntos y la programación dinámica
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 118 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Una matriz de puntos puede encontrar todos los posiblespatrones de apareamiento de bases comparando la secuenciaconsigo misma
Las diagonales perpendiculares a la diagonal principalrepresentan regiones que pueden auto-hibridarse para formarestructuras de doble hebra
Sin embargo, la detección de patrones es a menudo oscurecidapor altos niveles de ruido
Una manera de reducir el ruido es seleccionando una ventana detamaño apropiado
Si la matriz revela más de una estructura factible, se elige la demenor energía
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 119 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Figura: Ejemplo de una matriz de puntos usada para la predicción de laestructura secundaria de una secuencia de ARN
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 120 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Si una molécula grande contiene múltiples segmentos deestructura secundaria, elegir la combinación más estable puedeser una tarea abrumadora
Por ello puede utilizarse un enfoque cuantitativo como laprogramación dinámica
Al igual que en la matriz de puntos, la secuencia de ARN escomparada consigo misma
Se utiliza un esquema de puntaje para llenar la matriz conpuntajes de correspondencia
Después de tomar en cuenta toda la información de la secuencia,se determina el camino con el puntaje máximo dentro de la matrizde puntajes
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 121 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
El método de programación dinámica produce una estructura conun único mejor puntaje
Sin embargo, lo anterior representa una desventaja potencial yaque en realidad una molécula de RNA puede existir en múltiplesformas alternativas con energías cercanas a la mínima y nonecesariamente con el máximo número de pares de bases
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 122 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
La desventaja de la programación dinámica puede ser superadaadicionando una función de distribución de probabilidad, conocidacomo función de partición
La función de partición calcula la distribución matemática depares de bases probables en equilibrio termodinámico
Gracias a esta función es posible seleccionar un número deestructuras subóptimas dentro de un rango de energíadeterminado
Mfold y RNAfold son dos ejemplos populares de aplicaciones queutilizan el enfoque de predicción ab initio
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 123 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
Mfold(http://www.bioinfo.rpi.edu/applications/mfold/)es una aplicación web para la predicción de estructurassecundarias de ARN
Combina programación dinámica con cálculos termodinámicospara identificar la estructura secundaria más estable con la menorenergía
También produce matrices de puntos junto con términos deenergía
Este método es confiable para secuencias cortas, pero suprecisión decrece conforme crece la longitud de la secuencia
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 124 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque ab initio
RNAfold(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi)es otra aplicación web y forma parte del paquete Vienna
RNAfold extiende el alineamiento de secuencia a la vecindad delas diagonales óptimas para calcular la estabilidad de estructurasalternativas
Incorpora una función de partición para seleccionar el número deestructuras secundarias estadísticamente más probables
En base a cálculos termodinámicos y a la función de partición, seprovee un conjunto de estructuras subóptimas
Debido al gran número de estructuras secundarias computadas,se utiliza una regla de energía simplificada
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 125 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
El enfoque comparativo utiliza múltiples secuenciasevolutivamente relacionadas para inferir una estructura consenso
Para distinguir la estructura secundaria conservada entre lassecuencias múltiples de RNA se utiliza el concepto de covariación
Para conservar la estructura secundaria cuando secuenciashomólogas evolucionan, una mutación en una posiciónresponsable de un apareamiento se compensa con la mutaciónen la posición de apareamiento correspondiente
Basados en esta regla, pueden escribirse algoritmos que busquenpatrones de covariación en un conjunto de secuencias homólogasapropiadamente alineadas
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 126 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
Figura: Ejemplo de covariacion de residuos entre tres secuencias homólogasde ARN
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 127 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
Otro aspecto del método comparativo es la selección de unaestructura común a través de un consenso
Al comparar todas las estructuras predichas de un grupo desecuencias de ARN alineadas es posible adoptar la estructuraconsenso
Los algoritmos que siguen el enfoque comparativo puedendividirse en dos categorías, dependiendo del tipo de entrada:aquellos que requieren un alineamiento predefinido y aquellosque no lo necesitan
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 128 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
Los algoritmos que usan prealineamiento requieren que el usuarioprovea un alineamiento múltiple de secuencias como entrada
Estos programas computan los patrones de mutación como lacovariacion, y derivan una estructura consenso, común a todaslas secuencias
Este tipo de algoritmos son relativamente exitosos parasecuencias razonablemente conservadas
El requerimiento para usarlos es un conjunto apropiado desecuencias homólogas suficientemente similares y divergentes
También dependen de la calidad de la entrada
La selección de una única estructura consenso representa unadesventaja
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 129 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
RNAalifold(http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi)es un programa que forma parte del paquete Vienna
Utiliza un alineamiento múltiple de secuencias como entrada yanaliza los patrones de covariación en las secuencias
Luego crea una matriz de puntajes que es utilizada para aplicarprogramación dinámica con el objetivo de seleccionar laestructura con la mínima energía
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 130 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
Los algoritmos que no utilizan prealineamiento alineansimultáneamente un conjunto de secuencias e infieren unaestructura consenso
El alineamiento es realizado utilizando programación dinámicacon un esquema de puntaje que incorpora la similaridad de lassecuencias así como términos de energía
Debido al costo computacional de la programación dinámica, losprogramas que se encuentran actualmente disponibles limitan laentrada a dos secuencias
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 131 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
Foldalign(http://foldalign.kvl.dk/server/index.html) es unaaplicación web para el alineamiento y la predicción de estructurassecundarias
El usuario provee un par de secuencias no alineadas y utiliza unacombinación de Clustal y programación dinámica con esquemasde puntaje que incluyen información de covariación para construirel alineamiento
La estructura secundaria conservada en ambas secuencias esposteriormente calculada
Para reducir el costo computacional, el programa ignora losmultibranch loops
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 132 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Enfoque comparativo
Dynalign (http://rna.urmc.rochester.edu/) es unprograma UNIX libre
El programa calcula las posibles estructuras secundariasutilizando un método similar a Mfold
Comparando estructuras alternativas para cada secuencia, laestructura común a ambas secuencias con menor energía eselegida
No requiere que las secuencias sean similares por lo que puedemanejar secuencias altamente divergentes
Sin embargo, solo sirve para predecir secuencias pequeñas deARN con una precisión razonable, como secuencias de ARNt
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 133 / 134
Predicción de la estructura secundaria de ARN Métodos de predicción
Anfinsen, C. (1973).Principles that Govern the Folding of Protein Chains.Science, 181(4096):223–230.
Dill, K. (1985).Theory for the Folding and Stability of Globular Proteins.Biochemistry, 24(6):1501–9.
Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 134 / 134