52
Predicción de Genes Jesús Alejandro Hernández Mejía Cinvestav-Zacatenco 2 de Julio de 2013 Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 1 / 52

Predicción de Genes - CINVESTAVertello/bioinfo/sesion10.pdfPredicción de genes Introducción 1 Prediccióndegenes Introducción Categoríasdelosprogramasdeprediccióndegenes Prediccióndegenesenprocariotas

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Predicción de Genes

Jesús Alejandro Hernández Mejía

Cinvestav-Zacatenco

2 de Julio de 2013

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 1 / 52

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 2 / 52

Predicción de genes Introducción

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 3 / 52

Predicción de genes Introducción

Introducción

En los años recientes ha habido una rápida acumulación deinformación genómica que necesita ser procesada para predecir laestructura de los genes. Dicho proceso incluye la detección de marcosabiertos de lectura (ORF’s) así como la descripción de exones eintrones en organismos eucariotas. El objetivo principal es describirtodos los genes en una cadena de ADN con 100% de precisión .

Sin embargo, la predicción de genes representa uno de los problemasmás difíciles en el área, debido a que las regiones codificantes(regiones compuestas de exones que codifican proteínas) no suelentener motivos conservados.

La predicción de genes en general no sólo incluye la identificación degenes codificantes de proteínas, sino también genes codificantes deARN o de regiones reguladoras.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 4 / 52

Predicción de genes Introducción

Introducción

Ha habido mucho progreso en la predicción de genes procariotas, convarios algoritmos que presentan diversos grados de éxito. Sin embargo,para organismos eucariotas, aún no hay resultados satisfactorios.

Esto se debe a que los organismos eucariotas son más complejos quelos procariotas, recordemos que estos últimos generalmente no tienenintrones y están compuestos de una sola hebra de ADN que esrelativamente pequeña (de 0.5 a 10 Mbp)

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 5 / 52

Predicción de genes Categorías de los programas de predicción de genes

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 6 / 52

Predicción de genes Categorías de los programas de predicción de genes

Categorías de los programas de predicción de genes

Los métodos de predicción de genes actuales se pueden clasificar endos categorías principales: ab initio y basados en homología.

El enfoque ab initio se basa en dos características de los genes:

La existencia de señales en genes, éstas señales pueden ser codones deinicio y parada, sitios de enlaces ribosomales, etc.El contenido del gen por sí mismo, ya que las regiones codificantesvarían significativamente de las regiones no codificantes. Los modelosprobabilísticos como los modelos ocultos de Markov ayudan a estatarea.

Los métodos basados en homología hacen sus prediccionescomparando una secuencia con secuencias conocidas de genes.

Algunos algoritmos pueden hacer uso de ambas estrategias, este tipode algoritmos se les conoce como basados en consenso.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 7 / 52

Predicción de genes Predicción de genes en procariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 8 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

El entendimiento detallado de la estructura genética de estosorganismos se vuelve muy útil para la predicción de genes. Veamosalgunos puntos clave:

La densidad de genes es de más del 90%.Un gen se compone de una sola tira de un marco abierto de lectura sininterrupciones.Hay muy pocas secuencias repetitivas.La mayoría de los genes tienen un codón de inicio ATG (AUG en ARN).Aunque también puede haber GTG y TTG como codones de inicio.Además de los codones de inicio, otra características están asociadascon la traducción. Un ejemplo es la secuencia de Shine-Dalgarno, estasecuencia está compuesta por 6 o 7 nucleótidos antes del codón deinicio y regula la iniciación de la traducción.Existen tres posibles codones de parada.Hay genes típicos y atípicos. Los genes típicos varían en longitud desde100 hasta 500 aminoácidos, mientras que los atípicos son mucho máscortos.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 9 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Figura : Estructura típica de un gen procariota.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 10 / 52

Predicción de genes Predicción de genes en procariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 11 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Esto nos lleva a concluir que la identificación de genes puede estarbasada en la determinación de ORFs y de las señales principales.

Como primer paso, el ADN se puede traducir a sus seis manerasdiferentes (recordemos que se toman codones de 3 nucleótidos), tresen un sentido y tres en sentido inverso.

Debido a que un codón de parada puede ocurrir por azar cada veintecodones, un marco con más de 50 o 60 codones sin codones de paradaes sugerente para ser una región codificante.

El gen supuesto se confirma buscando señales de inicio y la secuenciaShine-Dalgarno. Posteriormente se traduce a una proteína y secompara en una base de datos de proteínas.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 12 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Figura : Los seis posibles marcos de lectura

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 13 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Los primeros algoritmos para la predicción de genes se basaron en unaregla empírica. En una región codificante la tercera posición de uncodón suele tener preferencia por la base G o C o suele repetirsemucho. Esta regla tiende a identificar sólo genes típicos y omite losatípicos.

La nueva genración de algoritmos de predicción usan modelosestadísticos más sofisticados.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 14 / 52

Predicción de genes Predicción de genes en procariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 15 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Un modelo de Markov describe la probabilidad de la distribución de losnucleótidos en una secuencia de ADN, en la que la probabilidadcondicional de una posición particular de la secuencia depende de las kposiciones previas. En este caso, k es el orden de un modelo deMarkov. Un modelo de Markov de segundo orden se fija en las dosbases precedentes para determinar a la base que sigue, algo que escaracterístico en los codones. Entre mayor sea el grado del modelo deMarkov, más precisamente se puede predecir un gen.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 16 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Figura : Un modelo oculto de Markov de segundo orden para predicción de genesprocariotas.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 17 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Los análisis estadísticos han mostrado que la frecuencia de seisnucleótidos únicos en una región codificante es mucho más alta quepor mero azar. Sería lógico entonces usar un modelo de Markov dequinto orden. Sin embargo, los modelos de Markov de orden grande noson eficaces para secuencias de genes cortas.

Para enfrentar esta limitación se usa un modelo de Markov de ordenvariable, llamado Modelo de Markov Interpolado (IMM por sus siglasen inglés). Este método toma una muestra del mayor número depatrones de secuencias con k desde 1 a 8 y usa un esquema ponderado,con más peso en k-meros raros y menos en los más frecuentes.

Los genes atípicos tienden a escapar al modelo de Markov. Por tanto,para tener un algoritmo robusto de predicción, se necesita más de unmodelo de Markov.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 18 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Existen aplicaciones en la red que implementan distintos tipos demodelos de markov para la predicción de genes de procariotas.

GeneMark - Implementa HMM’s de quinto orden. El programa principalestá entrenado con genomas microbianos. El HMM puede usar el ADNde un organismo que tenga relación al genoma de entrada o se puedeproporcionar un ADN, siempre y cuando tenga al menos 100 kbp.También tiene variante para organismos eucariotas.Glimmer - Implementa un IMM, al igual que GeneMark primero entrenael modelo y después hace la predicción. También tiene variante paraorganismos eucariotas.FGENESB - Usa HMM’s de quinto orden. Está entrenado consecuencias de bacterias y usa el algoritmo Vertibi para encontrar elresultado óptimo.RBSfinder - Utiliza la salida de Glimmer para buscar las secuenciasShine-Dalgarno en el vecindario del codón de inicio.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 19 / 52

Predicción de genes Predicción de genes en procariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 20 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

La precisión de la predicción puede ser medida por la sensibilidad y laespecificidad. Recapitulemos los cuatro parámetros y la fórmula deestas métricas:

Sensibilidad = VP/(VP + FN) Especificidad = VP/(VP + FP)

Donde VP = Verdadero Positivo, VN = Verdadero Negativo, FP =Falso Positivo y FN = Falso Negativo.

La sensibilidad es la proporción de señales verdaderas predichas detodas las señales verdaderas las posibles. La especificidad es laproporción de señales verdaderas predichas de todas las señalespredichas.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 21 / 52

Predicción de genes Predicción de genes en procariotas

Predicción de genes en procariotas

Para predecir completamente la precisión, se necesita un solo valor queresuma la especificidad y la sensibilidad. Un valor llamado coeficientede correlación (CC) se usa con este fin y está dado por la siguientefórmula:

CC = VP×VN−FP×FN√(VP+FP)(VN+FN)(FP+VN

El valor de CC varía de -1 a 1 siendo 1 una predicción siempre correctay -1 una predicción incorrecta.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 22 / 52

Predicción de genes Predicción de genes en eucariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 23 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Análogamente a como lo hicimos con los procariotas, veamos algunascaracterísticas de los organismos eucariotas.

Los genomas son usualmente más grandes que en los procariotas,variando desde 10Mbp a 670 Gbp, con una densidad de genes muchomás baja.El espacio entre genes es usualmente muy grande y rico en secuenciasrepetitivas y elementos transponibles.Lo más importante quizá es que los genomas tienen una organizaciónen la que la parte codifican de un gen tiene partes intermedias nocodificantes.La transcripción (de ADN a ARNm) pasa por tres etapas antes de latraducción de proteínas.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 24 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

La primer fase es el capping (la adición de un nucleótido especial en elextremo 5’ del ARN)

La segunda fase es el splicing, en que se eliminan los intrones y sejuntan los exones. Esta fase se puede complicar pues los exones sepueden juntar de diferentes maneras y generan una transcripcióndiferente (Splicing alternativo).

La última fase es la adición de un tira de A’s (aprox. 250) en elextremo 3’.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 25 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

El problema principal en la predicción de genes eucariotas es laidentificación de exones, intrones y posiciones de splicing. El splicinghace particularmente difícil este problema.

Afortunadamente hay secuencias conservadas que permiten lapredicción. Por ejemplo, la intersección de intrones y exones siguen laregla GT-AG en que un intrón en la intersección de splicing 5’ tiene unmotivo de consenso GTAAGT y en la intersección de splicing 3’ unmotivo de consenso (Py)12NCAG.

Otra caractersística son las islas CpG, que son regiones cerca del iniciodel gen con alta densidad de dinucleótidos CG.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 26 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Figura : Transcripción de un gen eucariota y splicing.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 27 / 52

Predicción de genes Predicción de genes en eucariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 28 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Este tipo de programas predicen exones, basados en las señales y elcontenido del gen.

Las señales incluyen la de inicio, de parada, presuntas posiciones desplice o consensos reconocibles.

El contenido se refiere a las estadísticas de las regiones codificantes, locual incluye distribución de nucleótidos no aleatoria, frecuencias dehexámeros, etc. La frecuencia de hexámeros parece ser muy buenapara discriminar las regiones codificantes.

Tres técnicas son prominentes para la predicción: redes neuronales,modelos ocultos de markov y análisis de discriminantes.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 29 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

En los métodos basados en redes neuronales, una red neuronal esentrenada con cadenas de genes conocidos, donde la información delgen está apropiadamente separada en varias características.

La red recibe como entrada una secuencia con intrones y exones, ydevuelve como salida la probabilidad de la estructura del exón.

GRAIL es un programa en la red que usa redes neruonales y estáespecializado en los organismos humano, de ratón, Arabidopsis,Drosophila y E. coli.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 30 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Figura : Estructura básica de una red neuronal para predicción de genes

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 31 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Las técnicas que usan análisis de discriminantes funcionan graficandoen dos dimensiones las señales codificantes contra todas las posicionespotenciales de slice 3’.

El análisis lineal divide las señales codificantes de las no codificantesmediante una linea.

El análisis cuadrático divide las señales codificantes de las nocodificantes mediante una curva.

Programas que implementan este análisis son FGENES y MZEF.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 32 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Figura : LDA vs QDA, los triángulos son características codificantes, los tachesson regiones no codificantes.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 33 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Varios programas están disponibles en la red que usan HMM.GENSCAN es uno de ellos y usa un modelo de markov de quinto orden.

HMMgene es otro de ellos que utiliza una característica única llamadaprobabilidad condicional máxima para discriminar. Esta propiedad diceque si una secuencia tiene una región que ya ha sido identificada comocodificante, se queda fija y la predicción subsecuente se hace con unsesgo hacia la región fija.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 34 / 52

Predicción de genes Predicción de genes en eucariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 35 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Los programas basados en homología toman ventaja del hecho de quelas estructuras de los exones y las secuencias de exones entre especiesestán altamente conservadas. Los marcos codificantes puedentraducirse y alinearse contra las proteínas homólogas más cercanaspara encontrar regiones emparejadas casi perfectamente.

El inconveniente de esta técnica es la confianza que se tiene en lassecuencias de la base de datos y más aún, la presencia de estas. Encaso de no existir, no se puede emplear esta técnica.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 36 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Algunos programas en la red basados en homología:

GenomeScan - Combina los resultados de GENSCAN con las búsquedasde similitud de BLASTX.EST2Genome - Basado enteramente en el enfoque de alineamiento desecuencias (con programación dinámica) para establecer los límites deintrones y exones. Es especialmente bueno para encontrar exonespequeños y exones en splicings alternativos.SGP-1 - Alinea dos secuencias de ADN de organismos relacionados.Traduce los exones potenciales a proteínas y hace un alineamiento porpares.TwinScan Muy parecido a GenomeScan.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 37 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

En lugar de usar las propiedades estadísticas de los exones, elproblema se puede ver de la siguiente manera: Dada una proteínaobjetivo y una secuencia genómica, se necesita encontrar lassubcadenas (substring) en la secuencia genómica cuya concatenaciónse ajusta mejor al objetivo.

El enfoque por fuerza bruta busca todas las similitudes locales entrelas secuencias y entrega un exón candidato. El mejor subconjunto desubcadenas que no se traslapan corresponde al mejor candidato a serun exón.

En el enfoque de programación dinámica, cada exón se modela con unintervalo ponderado en la secuencia genómica, descrito por tresparámetros (l,r,w). w refleja la probabilidad de el intevalo sea un exón,l y r son las posiciones de inicio y de fin del exón.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 38 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Definamos una cadena como un conjunto de intervalos ponderadosque no se traslapan. El peso total de una cadena es la suma de pesosde los intervalos.

Un posible algoritmo puede recibir un conjunto de n intervalosponderados, creando un grafo G de 2n vertices, donde n de ellosrepresentan las posiciones de inicio y las n restantes las posiciones defin.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 39 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Existirán 3n-1 aristas, n de ellas conectan a li y ri con peso wi . Las2n-1 restantes tienen peso 0 y conectan vértices adyacentes, en elsiguiente algoritmo si representa el camino más largo hasta el vérticevi .

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 40 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

EXONCHAINING(G , n)

1 for i ← 1 to2n

2 si ← 03 for i ← 1 to 2n

4 if vértice vi en G corresponde al extremo derecho del intervalo I .5 j ← índice del vértice del extremo izquierdo del intervalo I

6 w ← peso del intervalo I

7 si ← max(sj + w , si−1)

8 else9 si ← si−1

10 return s2n

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 41 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Un defecto de éste enfoque es que los puntos finales de los exonescandidatos no están muy bien definidos. Más importante, la primercadena de intervalos óptima puede ser similar a un sufijo de unaproteína mientras que el segundo intervalo puede ser similar a unprefijo. En este caso los exones supuestos no se pueden combinar enun alineamiento válido. (Splicing tradicional).

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 42 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

En 1966, Mikhail Gelfand et al propusieron el algoritmo splicedalignment (programación dinámica). El primer paso del algoritmo esseleccionar los posibles exones de ciertos sitios (dinucleótidos AG yGT) o de hallar todas las subcadenas similares a una proteína objetivo.Dado un conjunto de exones candidatos y una proteína objetivo, seexploran todas las posibles cadenas del exón candidato que se parezcamás a la proteína.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 43 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Sea G = g1...gn la secuencia genómica, T = t1...tm la secuenciaobjetivo (proteína) y B el conjunto de exones candidatos.

El objetivo es encontrar una cadena de exones candidatos en lasecuencia genómica que mejor se ajusta a la secuencia objetivo. Elproblema del spliced alignment se puede ver como encontrar uncamino en un grafo acćlico dirigido. Los vértices del grafocorresponden a exones y las aristas sólo conectan vértices que no setraslapan. Los vértices están etiquetados con la cadena del posibleexón, por tanto, un camino en el grafo deletrea la cadena final. Elpeso de un camino en el grafo está definido por el alineamiento entrela secuencia objetivo y la cadena del camino.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 44 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Figura : Un ejemplo de grafo de spliced alignment. El grafo es acíclico, las aristassolo conectan vértices que no se traslapan.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 45 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

La recurrencia que usa el algoritmo define el puntaje de similitud entreel prefijo i del grafo y el prefijo j de la secuencia objetivo. La dificultadyace en que típicamente hay muchos prefijos que contienen la posicióni (muchos prefijos i).

Sea B = gleft ...gi ...gright un exón candidato que contenga la posición ien la secuencia genómica G. Definase el prefijo-i de B comoB(i) = gleft ...gi y end(B) = right (right se usa como índice)

Si la cadena Γ = (B1,B2, ...,B) termina en el bloque B , se defineΓ ∗ (i) como la concatenación de todos los exones candidatos en lacadena hasta B , más todos los caracteres en B hasta i .Γ ∗ (i) = B1 ◦ B2... ◦ B(i)

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 46 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Finalmente, sea S(i , j ,B) = maxs(Γ ∗ (i),T (j)) de todas las cadenasΓ que terminan en B

Esto es, dados i , j y un exón candidato B que cubre la posicionei ,S(i , j ,B) es el puntaje del spliced alignment óptimo entre el prefijo ide G y el prefijo j de T . En la siguiente recurrencia se usa σ y δ comopenalización por huecos y matriz de puntaje respectivamente.

S(i , j ,B) = max

S(i − 1, j ,B)− σS(i , j − 1,B)− σS(i − 1, j − 1,B) + δ(gi , tj)

Si i no es la posición inicial.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 47 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Si i es la posición inicial.

S(i , j ,B) = max

S(i , j − 1,B)− σmax(S(end(B ′), j − 1,B ′) + δ(gi , tj)max(S(end(B ′), j ,B ′) + σ

Siendo B’ todos los bloques que preceden a B

Esta matriz tridimensional tendrá el puntaje óptimo del splicedalignment en maxBS(end(B),m,B)

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 48 / 52

Predicción de genes Predicción de genes en eucariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 49 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

Estos programas trabajan reteniendo las predicciones en común de losalgoritmos de homología y ab initio. Eliminan las prediccionesinconsistentes, con lo cual mejora la especificidad al costo de más bajasensibilidad.

GeneComber - Es un programa web que combina HMMGene yGenScan.

DIGIT - Use las predicciones de tres programas ab initio FGENESH,GENSCAN y HMMgene.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 50 / 52

Predicción de genes Predicción de genes en eucariotas

1 Predicción de genesIntroducciónCategorías de los programas de predicción de genesPredicción de genes en procariotas

Determinación convencional de marcos abiertos de lecturaPredicción de genes usando Modelos de Markov y Modelos Ocultos de MarkovEvaluación del desempeño

Predicción de genes en eucariotasProgramas de predicción de genes ab initioProgramas basados en homologíaProgramas basados en consensoEvaluación del desempeño

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 51 / 52

Predicción de genes Predicción de genes en eucariotas

Predicción de genes en eucariotas

La complejidad adicional de los organismos eucariotas tiene comoconsecuencia que sea necesario redefinir la sensibilidad y laespecificidad al nivel de exones y genes.

La sensibilidad al nivel de los exones y de los genes es la proporción deexones o genes correctamente predichos de entre los exones o genesque sí están presentes. Al mismo nivel, la especificidad es la proporciónde exones o genes predichos de todas las predicciones. En lugar deusar el CC se calcula un promedio de sensibilidad y especificidad.

Jesús Alejandro Hernández Mejía (Cinvestav) Predicción de Genes 2 de Julio de 2013 52 / 52