Download pdf - Bioinformática estructural - Predicción de estructuras de ...ertello/bioinfo/sesion14.pdf · Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013

Bioinformática estructuralPredicción de estructuras de proteínas y ARN

Dr. Eduardo A. RODRÍGUEZ TELLO

CINVESTAV-Tamaulipas

25 de julio del 2013

Dr. Eduardo RODRÍGUEZ T. (CINVESTAV) Bioinformática estructural 25 de julio del 2013 1 / 134

1 Conceptos básicos de bioinformática estructural

2 Predicción de la estructura secundaria de proteínas

3 Predicción de la estructura terciaria de proteínas

4 Predicción de la estructura secundaria de ARN


Conceptos básicos de bioinformática estructural Introducción

Introducción

Las proteínas realizan la mayoría de las funciones biológicas yquímicas esenciales en una célula

Juegan un papel importante en las funciones estructurales,enzimáticas, de transporte y regulación


Conceptos básicos de bioinformática estructural Introducción

Introducción

Estructura 3D→ Funcionalidad

La estructura está codificada en lasecuencia de aminoácidos[Anfinsen, 1973]


Conceptos básicos de bioinformática estructural Ángulos diedrales

1 Conceptos básicos de bioinformática estructuralIntroducciónÁngulos diedralesJerarquíaEstructura secundariaEstructura terciariaDeterminación de la estructura 3D de las ProteínasBD de estructuras de proteínasVisualización de estructuras proteínicas



Ángulos diedrales

Los átomos asociados al enlace peptídico se encuentran en elmismo plano

Por esta razón el enlace peptídico no puede girar libremente

El ángulo de rotación de un enlace se conoce como diedral o detorsión



Ángulos diedrales

Los enlaces N–Cα (φ) y Cα–C (ψ) sí pueden girar con ciertalibertad

Las combinaciones de φ y ψ permiten a las proteínas plegarse demuchas maneras



Gráfica de Ramachandran

Las rotaciones de φ y ψ no son completamente libres. Entonces,sólo hay un rango limitado de conformaciones peptídicas

La gráfica de Ramachandran muestra las combinaciones de φ y ψque son permitidas


Conceptos básicos de bioinformática estructural Jerarquía




Estructura de las proteínas

La estructura primaria es la secuencia de aminoácidos unidos porenlaces peptídicos

El polipéptido resultante se puede plegar en unidades deestructura secundaria como las hélices alfa



Estructura de las proteínas

La hélice alfa es parte de la estructura terciaria de la proteínaplegada, la cual a su vez puede ser una subunidad de laestructura cuaternaria de una proteína de múltiples unidades,como la hemoglobina



Fuerzas de estabilización

La estructura de las proteínas se mantiene por fuerzas deestabilización como las interacciones electrostáticas, las fuerzasde Van der Waals y los enlaces de hidrógeno

Las interacciones electrostáticas ocurren cuando el exceso decarga negativa en una región es neutralizado por cargas positivasen otra región formando puentes salinos entre residuos de cargaopuesta




Los enlaces de hidrógeno son un tipo de interaccioneselectrostáticas que involucran a un átomo de hidrógeno de unresiduo y a un átomo de oxígeno de otro residuo

El hidrógeno con carga positiva se une parcialmente al oxígenocon carga negativa




Las fuerzas de Van der Waals son las fuerzas de atracción orepulsión entre moléculas o entre partes de una misma molécula

Los electrones de un átomo crean un dipolo eléctrico que atrae aotro dipolo de un átomo cercano

Pero cuando están muy cerca los átomos, se comienzan a repeler




El radio de Van der Waals es la distancia a la que un átomopuede estar cerca de otro

Los puentes disulfuro también intervienen en la estabilización dela estructura de una proteína

Estos puentes se forman entre los átomos de azufre de la cisteína


Conceptos básicos de bioinformática estructural Estructura secundaria




Hélices–α

Una hélice–α tiene una conformación de la cadena principalparecida a un sacacorchos

En esta hélice existen 3.6 residuos en cada giro

La estructura se estabiliza mediante enlaces de hidrógeno entreátomos de la cadena principal i e i + 4, que son casi paralelos aleje de la hélice

φ y ψ son de 60o y 45o



Hélices–α



Hojas–β

Una hoja–β es una configuración completamente extendida quese construye de varias regiones espacialmente adyacentes de unpolipéptido

Cada región que la forma se conoce como hebra–β

Esta estructura se estabiliza por medio de enlaces de hidrógenoque se forman entre residuos de hebras adyacentes



Hojas–β



Espirales y rizos

También hay estructuras locales que no pertenecen a estructurassecundarias regulares

Estas estructuras son las espirales y los rizos

Los rizos se caracterizan por ser giros bruscos

Las espirales se forman por regiones de conexión completamenteirregulares


Conceptos básicos de bioinformática estructural Estructura terciaria




Tipos de proteínas

El arreglo y empaque completo de estructuras secundarias formala estructura terciaria de la proteína

La estructura terciaria generalmente se clasifica en proteínasglobulares o de membrana

Las globulares existen en solventes a través de interaccioneshidrofílicas con moléculas solventes

Las de membrana existen en lípidos de membrana y seestabilizan por medio de interacciones hidrofóbicas con lasmoléculas de lípidos



Proteínas globulares

Son solubles y están rodeadas por moléculas de agua

Tienen estructuras compactas de forma esférica con residuoshidrofílicos en la superficie e hidrofóbicos en el núcleo

Minimiza el contacto con el agua en el centro y maximiza lasinteracciones con agua en el exterior



Proteínas globulares

Algunos ejemplos: enzimas, mioglobinas y hormonas



Proteínas de membrana integral

Existen en las bicapas de lípidos de la membrana de la célula

Como están rodeadas de lípidos, el exterior debe ser hidrofóbicopara ser estable



Proteínas de membrana integral


Conceptos básicos de bioinformática estructural Determinación de la estructura 3D de las Proteínas




Cristalografía de rayos–X

Requiere que las proteínas formen cristales con posiciones fijasde una manera repetida y ordenada

Los cristales se iluminan con un haz intenso de rayos–X

Los electrones que rodean a los átomos desvían los rayos–Xproduciendo un patrón regular de difracción




El patrón está compuesto de miles de puntos grabados en unaplaca de rayos–X

El patrón se convierte a un mapa de densidad de electrones

La estructura se modela con los aminoácidos que mejor seajustan al mapa

Una limitante que existe es la necesidad de obtener cristales apartir de las proteínas, lo que no siempre es posible









Espectroscopia NMR

La espectroscopia de resonancia magnética nuclear (NMR)detecta patrones de giro de núcleos atómicos en un campomagnético

Utiliza radiación para inducir transiciones entre estados de giro delos núcleos en un campo magnético

Las interacciones entre pares de isótopos producen señales deradio que están correlacionadas con la distancia entre ellos



Espectroscopia NMR

Interpretando estas señales se puede determinar la proximidadentre átomos y con esto se puede construir un modelo para laproteína

No tiene la limitación de generar cristales, pero solamente puededeterminar estructuras con menos de 200 residuos


Conceptos básicos de bioinformática estructural BD de estructuras de proteínas




Banco de datos de proteínas

Las estructuras de proteínas que se obtienen por cristalografía yespectroscopia, entre otros métodos, se almacenan en el Bancode Datos de Proteínas (PDB)

Las estructuras definen la posición, en un espacio tridimensional,de cada átomo de la proteína

El sitio en Internet de PDB permite subir, buscar y bajar datos deproteínas

Aunque PDB tiene miles de estructuras almacenadas, lainformación es redundante, existen muchas entradas para unamisma proteína, ya que se reportan con diferentes resoluciones,con mutaciones en un residuo, etc



Formato PDB

Cada descripción de una proteína tiene un código de 4 símbolosalfanuméricos

Las líneas tienen 80 caracteres de longitud

Consta de un encabezado y una sección de coordenadasatómicas

El encabezado puede incluir información de método deldeterminación, resolución, parámetros de cristalografía,referencias bibliográficas, etc

Las coordenadas incluyen el nombre del átomo, del residuo,número del residuo, coordenadas en x , y , z, factor detemperatura, entre otros datos



Formato PDB



Formato mmCIF y MMDB

Las limitaciones del formato PDB han permitido el desarrollo denuevos formatos como mmCIF y MMDB que son más fáciles deanalizar por una computadora y permiten describir estructurasmás complejas

Cada línea describe un campo de la descripción de la estructura,primero se escribe el nombre del campo y luego el valor

Un archivo MMDB utiliza el formato ASN.1 para describir unaestructura

Incluye información de enlaces para cada molécula, llamadagráfica química, permitiendo que las estructuras se dibujen másrápido



Formato mmCIF y MMDB


Conceptos básicos de bioinformática estructural Visualización de estructuras proteínicas




Visualización de estructuras proteínicas

La característica más básica de un software de visualización es lacapacidad de crear conectividad entre átomos para simular lavista de una molécula

El programa de visualización puede ofrecer diferentespresentaciones de visualización:

1 Tramas de alambres (wire-frame)2 Esferas y líneas (balls and sticks)3 Esferas (space-filling o CPK - Corey, Pauling, and Koltan)4 Listones (ribbons)



Tramas de alambres (wire-frame)

Es un diagrama de líneas que representa los enlaces entreátomos (representación más simple)

Es útil para localizar residuos específicos en una estructura deproteína



Esferas y líneas (balls and sticks)

Representan átomos y sus enlaces respectivamente

Pueden representar la columna vertebral de una estructura



Esferas (space-filling o CPK

Cada átomo se describe usando una esfera grande cuyo radiocorresponde a su radio de van der Waals



Listones (ribbons)

Usa listones en forma de espiral para representar las hélices-α yflechas planas para representar las hebras-β

Permiten identificar fácilmente las estructuras secundarias

Ofrece una vista general de toda la topología de la estructura



Software

RasMol. Lee formatos PDB y mmCIF. Puede desplegar unamolécula completa o partes específicas de ella. Es un programade línea de comandos y se encuentra disponible en plataformasUNIX, Windows y Mac.

RasTop. Es una nueva versión de RasMol disponible enplataforma Windows. Posee una mejor interface de usuario.

Swiss-PDBViewer. Es un visor de estructuras disponible paraMac y Windows. Posee mucha funcionalidad para ser unshareware. Capaz de visualizar múltiples estructuras, analizar ymodelar. Puede medir distancias, potencial electrostático, ploteode Ramachandran, etc.



Visualización de estructuras proteínicas

Molscript. Despliega estructuras tridimensionalmente y ofrecevarios formatos de salida. Disponible en plataformas UNIX.Ofrecer diferentes presentaciones de visualización. Sin embargo,es una aplicación de línea de comandos.

JMol. Es un applet para visualuzar estructuras químicas queemplea representación de esferas.


Predicción de la estructura secundaria de proteínas Introducción

2 Predicción de la estructura secundaria de proteínasIntroducciónMétodos ab initioMétodos basados en homologíaPredicción con redes neuronales



Introducción

Las estructuras secundarias son conformaciones locales establesde una cadena polipeptídica

Son esenciales en la determinación de la estructuratridimensional de proteínas

Incluyen elementos estructurales regulares y altamente repetidoscomo las hélices-α y las hojas-β

Se estima que cerca del 50 % de los residuos de una proteína sepliegan en alguna de esas dos formas



Introducción

La predicción de estructuras secundarias de proteínas se refiere ala identificación del estado de conformación de cada residuo delos aminoácidos en la secuencia de una proteína

Dichos estados de conformación pueden ser de tres tipos: Hélices(H), Hebras (E) o Rizos (C).

La predicción está basada en el hecho de que las estructurassecundarias tienen un arreglo regular de los aminoácidos,estabilizado por los enlaces de hidrógeno

Esta regularidad sirve de base a los algoritmos de predicción



Introducción

La predicción de estructuras secundarias de proteínas tieneaplicación en la clasificación de proteínas y en la separación dedominios de proteínas y de motivos funcionales

Además es un paso intermedio para determinar la estructuraterciaria de proteínas



Introducción

Los métodos para la predicción de la estructura secundaria deproteínas (globulares) son de dos tipos:

Basados en ab initio. Predicen la estructura secundaria empleandoinformación estadística calculada a partir de una sola secuencia

Basados en homología. No sólo toman en cuenta estadísticas delos residuos de una secuencia, además también consideranpatrones comunes conservados entre múltiples secuenciashomólogas


Predicción de la estructura secundaria de proteínas Métodos ab initio




Métodos ab initio

Este tipo de métodos mide la tendencia relativa de cadaaminoácido de pertenecer a cierto tipo de elemento de estructurasecundaria

Las puntuaciones de propensión fueron derivadas de estructurasconocidas de cristales

Algunos ejemplos: Chou-Fasman y Ganier, Osguthorpe y Robson(GOR)

Estos pertenecen a la primera generación de métodos depredicción (1970s)

La información estructural de proteínas era limitada y lasestadísticas eran derivadas de conjuntos de datos restringidos(baja exactitud)



Método Chou-Fasman

Determina la tendencia de cada residuo a encontrarse en unahélice, una hebra o un giro usando frecuencias observadas encristales de proteínas

El cálculo de la puntuación de propensión es simple.

Supongamos que hay n residuos en la estructura de la proteínade los cuales m son residuos en hélices

El número total de residuos de Alanina es y de los cuales x estánen hélices

La puntuación de propensión para la Alanina de estar en unahélice está dada por la siguiente relación:

(x/m)

(y/n)(1)



Método Chou-Fasman

Si la puntuación de propensión para un residuo es igual a 1.0para hélices (P(hélice-α)) significa que el residuo tiene igualprobabilidad de ser encontrado en una hélice o en cualquier otraestructura

Si P(hélice-α) < 1,0 entonces el residuo tiene poca oportunidadde ser encontrado en una hélice

Si P(hélice-α) > 1,0 entonces es altamente probable que elresiduo se encuentre en una hélice

Usando este concepto Chou y Fasman crearon la siguiente tabla



Método Chou-Fasman



Método Chou-Fasman

El algoritmo Chou-Fasman toma la secuencia y la divide enventanas de tamaño fijo para determinar el número de residuospertenecientes a cada estructura usando la puntuación depropensión

Para hélices-α la ventana es de tamaño 6, si una región tiene 4residuos contiguos cada uno con P(hélice-α) > 1,0, se concluyeque el conjunto forma parte de una hélice

Esta región en hélice se extiende en ambas direcciones hasta queP(hélice-α) < 1,0



Método Chou-Fasman

Para las hebras-β utiliza una ventana de 5 residuos, si se tienenal menos 3 residuos cada uno con P(hebra-β) > 1,0, se concluyeque el conjunto forma parte de una hebra-β

Si ambos tipos de estructuras se traslapan en cierta región, setoma la siguiente decisión

Si∑

P(hélice-α) >∑

P(hebra-β) entonces se concluye unahélice-α



Método GOR

También se basa en la puntuación de propensión de cada residuode estar en cada una de las 4 siguientes estructuras: Hélices (H),Hebras (E), Giros (T) o Rizos (C).

Sin embargo, toma en cuenta para este cálculo las interaccionescon los residuos vecinos

Examina una ventana de 17 residuos y suma la propensión paralos residuos para las 4 posibles estructuras (4 sumatorias)

La puntuación más alta define el tipo de estructura al quepertenece el residuo al centro de la ventana (noveno residuo)



Método GOR

Tanto este método como el de Chou-Fasman tienen la desventajade tener baja precisión de predicción (aprox. 50 %)

Sin embargo, han surgido algunas nuevas versiones como GORII, GOR III y GOR IV (1980s e inicio de 1990s)

Integran estadísticas más refinadas basadas en un número másgrande de proteínas conocidas e incorporan más interaccioneslocales entre residuos

Su precisión de predicción mejoró 10 %


Predicción de la estructura secundaria de proteínas Métodos basados en homología




Métodos basados en homología

Son la tercera generación de métodos (finales de 1990s) yemplean información evolutiva

Combinan métodos ab initio para predicción de la estructurasecundaria de secuencias individuales e información dealineamiento múltiple de secuencias homologas (identidad> 35%)

La idea detrás de este enfoque es que proteínas homologasadoptan la misma estructura secundaria y terciaria

Este tipo de métodos han ayudado a mejorar la precisión depredicción en 10 % con respecto a los métodos de segundageneración





Predicción de la estructura secundaria de proteínas Predicción con redes neuronales



Predicción de la estructura secundaria de proteínas Predicción con redes neuronales

Predicción con redes neuronales

La tercera generación de algoritmos de predicción también haceuso de redes neuronales para analizar patrones de substituciónen alineamientos de múltiples secuencias

Esto ha permitido aumentar la precisión de predicción a un 75 %

Algunos ejemplos de aplicaciones que utilizan redes neuronales:PHD, PSIPRED, SSpro, PROF, HMMMSTR


Predicción de la estructura terciaria de proteínas Introducción

3 Predicción de la estructura terciaria de proteínasIntroducciónMétodos basados en homologíaMétodos basados en plegado (threading)Modelos Ab InitioModelo HP (Hydrophobic-Polar)


Predicción de la estructura terciaria de proteínas Introducción

Introducción

Existen tres enfoques computacionales para el modelado ypredicción de estructuras tridimensionales de proteínas

Homología

Plegado (Threading)

Ab initio

Los dos primeros se basan en el conocimiento estructural de laproteína obtenido de las BD, mientras que el tercero no requierede ninguna información adicional


Predicción de la estructura terciaria de proteínas Métodos basados en homología





Como su nombre lo indica, predice las estructuras de lasproteínas mediante la comparación con estructuras de proteínashomólogas conocidas

También es llamado Modelo Comparativo

Se basa en el principio de que si dos proteínas tienen un altogrado de similitud es muy probable que tengan estructurastridimensionales similares

El modelo de homología general consta de 6 pasos



1. Selección de plantilla

Consiste en encontrar las estructuras principales y sirve comobase para el proceso de modelado

Este paso consiste en la búsqueda en el Banco de Datos deProteínas (PDB) para seleccionar aquellas proteínas homólogas

Esta búsqueda se pude llevar a cabo mediante cualquier métodode alineamiento de pares tales como BLAST o FASTA.

Por lo general, es posible encontrar varias estructuras con unporcentaje de similitud considerable, sin embargo se recomiendausar sólo aquella con el porcentaje más alto



2. Alineamiento de secuencias

Una vez identificada la secuencia con mayor similitud, se lleva acabo un reajuste, para ello se usa un algoritmo de alineamientopara obtener una adaptación óptima entre las secuencias

Se considera como el paso más critico, ya que un alineamientoincorrecto conducirá a una designación incorrecta de los residuos

Los algoritmos usados en este paso pueden ser T-Coffe o Praline

De ser necesario se puede llevar a cabo un perfeccionamientomanual del resultado arrojado por el algoritmo



3. Creación del esqueleto del modelo

Una vez teniendo el alineamiento óptimo, existen tresposibilidades para los residuos en las regiones alienadas:

1 Residuos similares. Las coordenadas de los residuos de la plantillapueden ser copiadas directamente a la proteína objetivo (query)

2 Residuos idénticos. Las coordenadas de los átomos de la cadenalateral se copian junto con los átomos de la cadena principal

3 Residuos diferentes. Sólo los átomos de la columna vertebral sepueden copiar



4. Modelado de bucles

Como sabemos, el resultado de un alineamiento de secuenciascausa la inserción de huecos, los cuales son el resultado por elalineamiento mismo

Estos huecos no pueden ser directamente modelados, por lo quese requiere de un modelo para “cerrar” estos huecos

Existen dos técnicas para abordar este problemaMétodo de búsqueda en BDMétodo ab initio




El método de búsqueda en BD propone buscar “piezas derepuesto”, de estructuras conocidas de proteínas que se acoplenen el hueco

La secuencias de átomos que preceden y continúan a esta regiónse suelen llamar tallo.

El procedimiento inicia midiendo la orientación y distancia de lasregiones entre los tallos y buscar en PDB los segmentos de lamisma longitud que coincidan




Suelen existir diferentes segmentos alternativos que se adapten aesta región

El mejor fragmento se copia en los puntos de anclaje de los tallos

El método ab initio genera muchos bucles y búsquedas al azar

Si los huecos son relativamente cortos (de 3 a 5 residuos) los dosmétodos producen modelos correctos

Si los huecos son muy largos, es muy difícil lograr un modelofiable




FREADwww.cryst.bioc.cam.ac.uk/cgi-bin/coda/fread.cgi,usa el método de BD

PETRAwww.cryst.bioc.cam.ac.uk/cgi-bin/coda/pet.cgiemplea el método ab initio

CODA www.cryst.bioc.cam.ac.uk/~charlotte/Coda/search_coda.html utiliza consenso basado en los resultadosde los dos sitios anteriores


www.cryst.bioc.cam.ac.uk/cgi-bin/coda/fread.cgi

www.cryst.bioc.cam.ac.uk/cgi-bin/coda/pet.cgi

www.cryst.bioc.cam.ac.uk/~charlotte/Coda/search_coda.html

www.cryst.bioc.cam.ac.uk/~charlotte/Coda/search_coda.html


5. Perfeccionamiento de la cadena lateral

Una vez que la cadena principal de átomos está construida, lasposiciones de las cadenas laterales deben ser determinadas

La cadena lateral puede ser construida mediante la búsqueda decada ángulo de torsión, seleccionando aquellos que tengan lamenor interacción de energía con sus vecinos

Sin embargo, esto no se puede llevar a cabo en la mayoría de loscasos (computacionalmente prohibitivo)

Para ello ha surgido el concepto de rotamers, el cual usa losángulos de torsión extraídos de estructuras de proteínasconocidas



5. Perfeccionamiento de la cadena lateral

Teniendo una librería de rotamers se reduce el tiempo decómputo debido a que sólo unos cuantos ángulos de torsión sonexaminados

Sin embargo, aún es necesario reducir más el tiempo de cómputo,mediante observaciones se ha visto que la columna vertebral estarelacionada con ciertas conformaciones de la cadena lateral

Haciendo uso de la existencia de esta correlación, es posibleeliminar aún más ángulos innecesarios

Uno de los paquetes que ha demostrado presentar un buendesempeño es SCWRLwww.fccc.edu/research/labs/dunbrack/scwrl/


www.fccc.edu/research/labs/dunbrack/scwrl/


6. Refinamiento mediante funciones de energía

Hasta este paso no se garantiza que la estructura este libre deirregularidades

Para tratar de solucionar esto, se hace uso de la minimización deenergía, esto tiene como objetivo reducir la energía al mínimopara aliviar tensiones y colisiones sin afectar significativamente laestructura

Este paso debe aplicarse cuidadosamente, ya que en ocasioneses posible que residuos se muevan a otras posiciones incorrectas



6. Refinamiento mediante funciones de energía

Otro método hace uso del proceso de simulación de dinámicamolecular

Este hecho se basa en que la minimización de la energía seobtiene moviendo los átomos de un mínimo local sin necesidadde buscar todas las posibles combinaciones

Requiere de cálculos termodinámicos con los átomos

GROMOS www.igc.ethz.ch/gromos/ es un programa el cualusa simulación de dinámica molecular


www.igc.ethz.ch/gromos/


Evaluación del modelo

El modelo obtenido tiene que ser evaluado para asegurarse deque las características estructurales del modelo son coherentescon las normas físico-químicas

Para ello se detectan los errores haciendo uso de perfilesestadísticos, características espaciales e interacción de energía através de estructuras determinadas experimentalmente

Si se detectan irregularidades estructurales, la región seconsidera con errores y tiene que ser perfeccionada

Procheck www.biochem.ucl.ac.uk/~roman/procheck/procheck.html es un programa el cual es capaz de comprobarlos parámetros físico-químicos


www.biochem.ucl.ac.uk/~roman/procheck/procheck.html

www.biochem.ucl.ac.uk/~roman/procheck/procheck.html


Evaluación del modelo

WHAT IF www.cmbi.kun.nl:1100/WIWWWI/ es un servidor deanálisis de proteínas que valida una proteína mediante correcciónquímica.

ANOLEA http://protein.bio.puc.cl/cardex/servers/anolea/index.html es un servidor web que utiliza el métodode evaluación estadística

Verify3D www.doe-mbi.ucla.edu/Services/Verify3D/ esotro servidor que utiliza el enfoque estadístico


www.cmbi.kun.nl:1100/WIWWWI/

http://protein.bio.puc.cl/cardex/servers/anolea/index.html

http://protein.bio.puc.cl/cardex/servers/anolea/index.html

www.doe-mbi.ucla.edu/Services/Verify 3D/

Predicción de la estructura terciaria de proteínas Métodos basados en plegado (threading)




Métodos basados en plegado (threading)

En ocasiones muchas proteínas pueden compartir la mismaestructura aunque no exista mucha similitud en las secuencias

Esta propiedad permitió desarrollar métodos computacionalespara poder predecir estructuras de las proteínas sin importar lasimilitud de las secuencias

Para determinar si una secuencia adopta una estructuratridimensional conocida se hacen uso de los métodos dereconocimiento de plegado (threading)




Dicha comparación hace hincapié en la congruencia de lasestructuras secundarias, ya que estas son las más conservadasevolutivamente

Gracias a este enfoque se pueden identificar proteínasestructuralmente similares, incluso sin detectarse similitud algunaen la secuencia

Estos algoritmos se pueden clasificar en dos grupos: basados enpares de energías y basados en perfiles



Métodos de pares de energía

Estos métodos buscan en una BD estructural la mejorcoincidencia, haciendo uso de un alineamiento con la secuenciade consulta

Este alineamiento se hace a nivel de perfil de las secuenciasusando programación dinámica. En ocasiones también se sueleusar un alineamiento local

El siguiente paso es construir un modelo el cual lleve a cabo unasustitución de residuos

Se calcula la energía, la cual consiste en la interacción de energíaentre los residuos

Finalmente se clasifican en base a la energía para encontrar lamenor de ellas (la estructura más compatible)



Métodos de perfil

Se construye un perfil para un grupo de proteínas relacionadas,usando información estadística de cada residuo

Este perfil contiene la probabilidad de ocurrencia de cada uno delos veinte aminoácidos por cada posición

El puntaje de este perfil contiene información para tipos deestructuras secundarias

Para predecir el pliegue estructural, primero se predice suestructura secundaria y a partir de esta información se comparacon estructuras de perfiles conocidos




3D-PSSM www.bmm.icnet.uk/~3dpssm/ es un programabasado en perfiles para identificar estructuras.

GenThreaderhttp://bioinf.cs.ucl.ac.uk/psipred/index.html esun programa híbrido (perfiles y pares de energía)

Fugewww.cryst.bioc.cam.ac.uk/~fugue/prfsearch.html esun servidor el cual hace uso del método de perfiles


www.bmm.icnet.uk/~3dpssm/

http://bioinf.cs.ucl.ac.uk/psipred/index.html

www.cryst.bioc.cam.ac.uk/~fugue/prfsearch.html

Predicción de la estructura terciaria de proteínas Modelos Ab Initio




Modelos Ab Initio

En los métodos vistos anteriormente se requiere de ladisponibilidad de plantillas en BD para poder lograr predicciones.Al no existir estructuras suficientes para ello, los métodos fallan

En estos caso se debe considerar otro tipo de información la cualpermita encontrar la estructura

El poco conocimiento de estas estructuras es la base del métodoab initio

Este trata de predecir todas las secuencias de átomos de laproteína sin la ayuda de estructuras de proteínas ya conocidas



Modelos Ab Initio

Una de las ventajas de este método es que la predicción no selimita a los pliegues ya conocidos

Sin embargo, las leyes fisicoquímicas que rigen estecomportamiento aún no son bien conocidas, lo cual sigue siendoun gran reto de la bioinformática

Estos métodos trabajan con algún tipo de heurística, siguiendo elprincipio de minimización de energía, para lo que se lleva a cabouna búsqueda de todos los sitios posibles para encontrar dicharegión



Modelos Ab Initio

Esta búsqueda global no es factible computacionalmente, ya queaún usando una supercomputadora (1× 1012 operaciones porseg) está se tardaría en muestrear todas las posiblesconformaciones para una proteína de 20 residuos entre 10 y 20años

Es por esta razón que se requiere hacer uso de heurísticas quepermitan reducir el espacio de búsqueda

Algunos de estos métodos fragmentan dicho espacio y combinandiversos tipos de búsqueda para producir un modelo



Modelos Ab Initio

Rosettawww.bioinfo.rpi.edu/~bystrc/hmmstr/server.php esun servidor el cual permite predecir estructuras tridimensionalesusando el método ab initio.

Para ello rompe la secuencia en segmentos cortos (3 a 9residuos) prediciendo la estructura de estos segmentos haciendouso de modelos ocultos de Markov.

Los resultados para cada uno de estos segmentos se juntan parallevar a cabo la configuración en tres dimensiones (todas lascombinaciones posibles)

La conformación con la menor energía global es la elegida


www.bioinfo.rpi.edu/~bystrc/hmmstr/server.php

Predicción de la estructura terciaria de proteínas Modelo HP (Hydrophobic-Polar)




Modelo HP (Hydrophobic-Polar)

Predicción de la estructura de proteínas (PSP)Es el problema de encontrar una conformación funcional para unaproteína dada únicamente su secuencia de aminoácidos.Formalmente:

Dado un modelo de energía E : C → R, encontrar laconformación c ∈ C que minimice E(c).



Modelo HP (Hydrophobic-Polar)Modelo HP (Hydrophobic-Polar) [Dill, 1985]

Las proteínas son cadenas lineales formadas por aminoácidos

Los aminoácidos se abstraen y clasifican en: Hidrófobos (H) yPolares (P)

Dada la secuencia HP de una proteína S ∈ {H,P}L, lasconformaciones son modeladas como caminatas no traslapadasen una malla:

1 cada nodo de la malla puede ser asignado a máximo unaminoácido

2 aminoácidos consecutivos en S deben ser adyacentes en la malla

Principalmente se enfoca en mallas 2D cuadradas y 3D cúbicas




La meta es maximizar la interacción entre aminoácidos H en lamalla, i.e., minimizar:

E(c) =∑

si ,sj∈S

e(si , sj) , donde

e(si , sj) =

−1 si si y sj son ambos del tipo H

y forman un contacto topológico

0 de otro modo

Dos aminoácidos si , sj ∈ S forman un contacto topológico sison no consecutivos en S, pero adyacentes en la malla




La conformación óptima para lasecuenciaHPHPPHHPHPPHPHHPPHPH delongitud L = 20Las esferas negras y blancasdenotan aminoácidos H y P,respectivamenteLa energía de esta estructura esE(c) = −9, dado que hay 9H-H contactos topológicos

- 7 -

- 3 -

- 6 -

- 2 -

- 1

-

- 9 -

- 4

-

- 8

-

- 5

-




Estructura generada aleatoriamente

Estructura óptima



Modelo HP (Hydrophobic-Polar)Espacio de búsqueda 2D

1 22

2

2

RLU

D

Codificación movimientos absolutos:las estructuras se codifican comosecuencias en {U,D,L,R}L−1

Por qué L− 1? la posición del primeraminoácido es fija

Por lo tanto, el tamaño del espacio de búsqueda es: 4L−1




Asumamos que tenemos una computadora capaz de explorar1,000 soluciones por segundo

L Soluciones (4L−1) Tiempo

5 256 0.256 sec.






5 256 0.256 sec.10 262,144 4.370 min.






5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años






5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años30 288,230,376,151,712,000 9,139,725 años





5 256 0.256 sec.10 262,144 4.370 min.20 274,877,906,944 8.720 años30 288,230,376,151,712,000 9,139,725 años50 316,912,650,057,057,000,000,000,000,000 -

Se trabaja comúnmente con secuencias de proteínas de longitudentre 18 y 136....




La alternativa es utilizar metaheurísticasAlgoritmos GenéticosBúsqueda TabuRecocido Simulado ...


Predicción de la estructura secundaria de ARN Introducción

4 Predicción de la estructura secundaria de ARNIntroducciónTipos de estructuras de ARNMétodos de predicción


Predicción de la estructura secundaria de ARN Introducción

Predicción de la estructura secundaria de ARN

El ARN es un portador de información genética y existe en tresformas: ARN mensajero (ARNm), ARN ribosomal (ARNr) y ARNde transferencia (ARNt)

A diferencia del ADN, el ARN se integra de una sola hebra,aunque una molécula de ARN puede auto-hibridarse en ciertasregiones para formar estructuras de doble hebra

El ARNm es más o menos lineal y no estructurado, mientras queel ARNr y el ARNt sólo pueden funcionar formando estructurassecundarias y terciarias particulares

Es por ello que el conocimiento de las estructuras de dichasmoléculas es particularmente importante


Predicción de la estructura secundaria de ARN Tipos de estructuras de ARN




Tipos de estructuras de ARN

Las estructuras de ARN pueden ser descritas en tres niveles:primario, secundario y terciario

La estructura primaria es la secuencia lineal de ARN integrada porcuatro bases: adenina (A), citosina (C), guanina (G) y uracilo (U)

La estructura secundaria se refiere a la representación planar quecontiene regiones de bases apareadas entre regiones de una solahebra

La estructura terciaria es el arreglo tridimensional de bases deuna molécula de ARN

Dado a que la estructura terciaria de una molécula de ARN esdifícil de predecir, se ha prestado particular atención a lapredicción de la estructura secundaria




Figura: Estructuras primaria, secundaria y terciaria de una molécula de ARNt




Se pueden identificar cuatro subtipos de estructura secundaria:hairpin loop, bulge loop, interior loop y multibranch loop

Adicionalmente, el apareamiento de bases entre lazos dediferentes elementos de la estructura secundaria puede resultaren estructuras de más alto nivel como pseudoknot loop, kissinghairpin y hairpin-bulge




Figura: Cuatro tipos básicos de lazos de ARN: hairpin loop, bulge loop,interior loop y multibranch loop




Figura: Contactos pseudoknot, kissing hairpin y hairpin-bulge


Predicción de la estructura secundaria de ARN Métodos de predicción




Predicción de la estructura secundaria de ARN

Esencialmente, existen dos enfoques de predicción de laestructura secundaria del ARN: el enfoque ab initio y el enfoquecomparativo

El enfoque ab initio se basa en el cálculo de la mínima energíaliberada de la estructura estable derivada de una secuencia deARN

El enfoque comparativo infiere estructuras en base a lacomparación evolutiva de múltiples secuencias de ARNrelacionadas



Enfoque ab initio

Este enfoque realiza predicciones estructurales basadas en unasola secuencia de ARN

Generalmente, cuando se efectúa un apareamiento entre bases,la energía de la molécula disminuye debido a las interacciones deatracción entre las dos hebras

La energía necesaria para formar pares de bases individuales esinfluenciada por los pares de bases adyacentes a través defuerzas de apilamiento (cooperatividad en la formación dehélices)



Enfoque ab initio

Se han determinado parámetros para calcular la cooperatividaden la formación de pares de bases para la predicción de laestructura secundaria

Las interacciones de atracción conducen a un estado de aúnmenor energía



Enfoque ab initio

Sin embargo, si el par de bases es adyacente a lazos (loops) osalientes (bulges), los lazos y salientes vecinas tienden adesestabilizar la formación del par de bases

La fuerza desestabilizadora en una estructura helicoidal tambiéndepende del tipo de lazos cercanos

Pueden utilizarse los parámetros para calcular las diferentesenergías desestabilizadoras como penalizaciones en el cálculo delas estructuras secundarias

Los esquemas de puntaje de las interacciones de estabilización ydesestabilización representan la base del enfoque de predicciónab initio



Enfoque ab initio

El método ab initio funciona de la siguiente manera:Primero busca todos los posibles patrones de apareamiento debases de una secuencia

Calcula la energía total de una estructura secundaria potencialtomando en cuenta las fuerzas estabilizadoras y desestabilizadoras

Si hay múltiples alternativas de estructuras secundarias, el métododetermina la conformación con la menor energía

Existen varias técnicas para encontrar todas las posibles regionesde bases apareadas a partir de una secuencia de ácidosnucleicos: la matriz de puntos y la programación dinámica



Enfoque ab initio

Una matriz de puntos puede encontrar todos los posiblespatrones de apareamiento de bases comparando la secuenciaconsigo misma

Las diagonales perpendiculares a la diagonal principalrepresentan regiones que pueden auto-hibridarse para formarestructuras de doble hebra

Sin embargo, la detección de patrones es a menudo oscurecidapor altos niveles de ruido

Una manera de reducir el ruido es seleccionando una ventana detamaño apropiado

Si la matriz revela más de una estructura factible, se elige la demenor energía



Enfoque ab initio

Figura: Ejemplo de una matriz de puntos usada para la predicción de laestructura secundaria de una secuencia de ARN



Enfoque ab initio

Si una molécula grande contiene múltiples segmentos deestructura secundaria, elegir la combinación más estable puedeser una tarea abrumadora

Por ello puede utilizarse un enfoque cuantitativo como laprogramación dinámica

Al igual que en la matriz de puntos, la secuencia de ARN escomparada consigo misma

Se utiliza un esquema de puntaje para llenar la matriz conpuntajes de correspondencia

Después de tomar en cuenta toda la información de la secuencia,se determina el camino con el puntaje máximo dentro de la matrizde puntajes



Enfoque ab initio

El método de programación dinámica produce una estructura conun único mejor puntaje

Sin embargo, lo anterior representa una desventaja potencial yaque en realidad una molécula de RNA puede existir en múltiplesformas alternativas con energías cercanas a la mínima y nonecesariamente con el máximo número de pares de bases



Enfoque ab initio

La desventaja de la programación dinámica puede ser superadaadicionando una función de distribución de probabilidad, conocidacomo función de partición

La función de partición calcula la distribución matemática depares de bases probables en equilibrio termodinámico

Gracias a esta función es posible seleccionar un número deestructuras subóptimas dentro de un rango de energíadeterminado

Mfold y RNAfold son dos ejemplos populares de aplicaciones queutilizan el enfoque de predicción ab initio



Enfoque ab initio

Mfold(http://www.bioinfo.rpi.edu/applications/mfold/)es una aplicación web para la predicción de estructurassecundarias de ARN

Combina programación dinámica con cálculos termodinámicospara identificar la estructura secundaria más estable con la menorenergía

También produce matrices de puntos junto con términos deenergía

Este método es confiable para secuencias cortas, pero suprecisión decrece conforme crece la longitud de la secuencia


http://www.bioinfo.rpi.edu/applications/mfold/


Enfoque ab initio

RNAfold(http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi)es otra aplicación web y forma parte del paquete Vienna

RNAfold extiende el alineamiento de secuencia a la vecindad delas diagonales óptimas para calcular la estabilidad de estructurasalternativas

Incorpora una función de partición para seleccionar el número deestructuras secundarias estadísticamente más probables

En base a cálculos termodinámicos y a la función de partición, seprovee un conjunto de estructuras subóptimas

Debido al gran número de estructuras secundarias computadas,se utiliza una regla de energía simplificada


http://rna.tbi.univie.ac.at/cgi-bin/RNAfold.cgi


Enfoque comparativo

El enfoque comparativo utiliza múltiples secuenciasevolutivamente relacionadas para inferir una estructura consenso

Para distinguir la estructura secundaria conservada entre lassecuencias múltiples de RNA se utiliza el concepto de covariación

Para conservar la estructura secundaria cuando secuenciashomólogas evolucionan, una mutación en una posiciónresponsable de un apareamiento se compensa con la mutaciónen la posición de apareamiento correspondiente

Basados en esta regla, pueden escribirse algoritmos que busquenpatrones de covariación en un conjunto de secuencias homólogasapropiadamente alineadas



Enfoque comparativo

Figura: Ejemplo de covariacion de residuos entre tres secuencias homólogasde ARN



Enfoque comparativo

Otro aspecto del método comparativo es la selección de unaestructura común a través de un consenso

Al comparar todas las estructuras predichas de un grupo desecuencias de ARN alineadas es posible adoptar la estructuraconsenso

Los algoritmos que siguen el enfoque comparativo puedendividirse en dos categorías, dependiendo del tipo de entrada:aquellos que requieren un alineamiento predefinido y aquellosque no lo necesitan



Enfoque comparativo

Los algoritmos que usan prealineamiento requieren que el usuarioprovea un alineamiento múltiple de secuencias como entrada

Estos programas computan los patrones de mutación como lacovariacion, y derivan una estructura consenso, común a todaslas secuencias

Este tipo de algoritmos son relativamente exitosos parasecuencias razonablemente conservadas

El requerimiento para usarlos es un conjunto apropiado desecuencias homólogas suficientemente similares y divergentes

También dependen de la calidad de la entrada

La selección de una única estructura consenso representa unadesventaja



Enfoque comparativo

RNAalifold(http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi)es un programa que forma parte del paquete Vienna

Utiliza un alineamiento múltiple de secuencias como entrada yanaliza los patrones de covariación en las secuencias

Luego crea una matriz de puntajes que es utilizada para aplicarprogramación dinámica con el objetivo de seleccionar laestructura con la mínima energía


http://rna.tbi.univie.ac.at/cgi-bin/alifold.cgi


Enfoque comparativo

Los algoritmos que no utilizan prealineamiento alineansimultáneamente un conjunto de secuencias e infieren unaestructura consenso

El alineamiento es realizado utilizando programación dinámicacon un esquema de puntaje que incorpora la similaridad de lassecuencias así como términos de energía

Debido al costo computacional de la programación dinámica, losprogramas que se encuentran actualmente disponibles limitan laentrada a dos secuencias



Enfoque comparativo

Foldalign(http://foldalign.kvl.dk/server/index.html) es unaaplicación web para el alineamiento y la predicción de estructurassecundarias

El usuario provee un par de secuencias no alineadas y utiliza unacombinación de Clustal y programación dinámica con esquemasde puntaje que incluyen información de covariación para construirel alineamiento

La estructura secundaria conservada en ambas secuencias esposteriormente calculada

Para reducir el costo computacional, el programa ignora losmultibranch loops


http://foldalign.kvl.dk/server/index.html


Enfoque comparativo

Dynalign (http://rna.urmc.rochester.edu/) es unprograma UNIX libre

El programa calcula las posibles estructuras secundariasutilizando un método similar a Mfold

Comparando estructuras alternativas para cada secuencia, laestructura común a ambas secuencias con menor energía eselegida

No requiere que las secuencias sean similares por lo que puedemanejar secuencias altamente divergentes

Sin embargo, solo sirve para predecir secuencias pequeñas deARN con una precisión razonable, como secuencias de ARNt


http://rna.urmc.rochester.edu/


Anfinsen, C. (1973).Principles that Govern the Folding of Protein Chains.Science, 181(4096):223–230.

Dill, K. (1985).Theory for the Folding and Stability of Globular Proteins.Biochemistry, 24(6):1501–9.