Metilación diferencial en el genoma humano -...

TRABAJO FIN DE MÁSTER

Máster en Biotecnología

Metilación diferencial en el

genoma humano

Ricardo Lebrón Aguilar

DPTO. DE GENÉTICA

FACULTAD DE CIENCIAS

UNIVERSIDAD DE GRANADA

Granada, septiembre de 2014

Los Drs. José L. Oliver Jiménez y Michael Hackenberg, como codirectores del Trabajo

Fin de Máster que presenta el Licenciado Ricardo Lebrón Aguilar,

CERTIFICAN

que el trabajo desarrollado e incluido en la presente memoria: “Metilación diferencial en

el genoma humano”, es apto para ser presentado y aspirar al Título de Máster en

Biotecnología por la Universidad de Granada.

Fdo.: Dr. José L. Oliver Jiménez Fdo.: Dr. Michael Hackenberg

AGRADECIMIENTOS

Desde que tengo uso de razón mi curiosidad me ha impulsado en mi incansable

búsqueda del conocimiento. Mi verdadera vocación por la Ciencia no salió a relucir

hasta mi adolescencia. Aún recuerdo esa sensación de ingravidez. Mi mente divagaba

sin rumbo fijo entre un sinfín de conjeturas, mientras mi cuerpo quedaba sosegado sobre

aquel pupitre. No obstante, no había saboreado la verdadera Ciencia hasta que di con

mis directores. Gracias Pepe. Gracias Michael. Gracias por mostrarme el camino, por

vuestra paciencia y dedicación. Ahora sé que hay más gente ahí fuera que sueña con

conocer. Gracias Guillermo. Gracias por tenderme siempre la mano y por preocuparte

por mí. Gracias a Cristina y a Ernesto por acompañarme en mi aprendizaje. Fran,

ありがとう、友よ。

Gracias Carmen. Gracias por cuidar siempre de mí, por preocuparte siempre y por

anteponerme siempre a todo. Sin ti hoy no sería yo.

Gracias a mi hermano, que siempre aparece cuando más lo necesito. Gracias a mis

padres por su apoyo incondicional, por su admiración y por creer siempre en mí.

Gracias por darme la vida.

Gracias a la dueña de mi corazón por caminar a mi lado, por preocuparte por mí y por

demostrarme siempre tu amor. Gracias mi niña.

RESUMEN

La metilación del DNA es la marca epigénetica por excelencia y es conocida por jugar

un papel importante en la inhibición de la expresión génica y en la estabilidad del

genoma. La metilación no es estática, sino que varía entre tejidos o condiciones

fisiológicas y patológicas.

El objetivo general de este trabajo consiste en realizar un análisis exploratorio de la

metilación diferencial en el genoma humano, para lo que se planteó: i) poner a punto

varios métodos computacionales para la detección de metilación diferencial, ii)

comparar los resultados y definir un consenso de citosinas diferencialmente metiladas

(DMCs), iii) estudiar el contenido en DMCs de distintos tipos de islas CpGs (CGIs)

según su patrón de metilación (UIs, MIs y DMIs) y iv) analizar cuánto y cómo afecta la

metilación diferencial a distintos tipos de elementos genómicos.

Después de analizar los resultados de cuatro métodos, se ha podido observar que a pesar

de las diferencias hay un núcleo de DMCs de consenso. Mediante el porcentaje de

DMCs de consenso se han podido inferir las relaciones entre las diferentes muestras que

reflejan perfectamente la Ontología establecida de los tejidos y tipos celulares usados en

el estudio. Se observó que cerca de un 10% de las DMIs tienen menos de un 10% en

DMCs, lo que plantea que pueden utilizarse las DMCs para mejorar la definición de

DMI. Por último, el enriquecimiento en DMCs en exones, sitios de inicio y final de la

transcripción, potenciadores, aisladores y sitios de unión de la RNA polimerasa II

constató el papel ya conocido de la metilación diferencial en la regulación de la

expresión génica.

Palabras clave: epigenética, metilación del DNA, metilación diferencial, secuenciación masiva,

bioinformática.

ÍNDICE

1. INTRODUCCIÓN..........................................................................................................................1

1.1. METILACIÓN DEL DNA..........................................................................................................2

1.2. METILACIÓN DIFERENCIAL................................................................................................4

1.3. OBJETIVOS..................................................................................................................................6

2. MATERIAL Y MÉTODOS........................................................................................................7

2.1. MAPAS DE METILACIÓN.......................................................................................................7

2.2. PREPROCESADO DE LOS MAPAS DE METILACIÓN...................................................9

2.2.1. Filtrado y control de calidad..................................................................................................9

2.2.2. Conversión de formato..........................................................................................................9

2.3. ANÁLISIS DE LOS MAPAS DE METILACIÓN...............................................................10

2.3.1. Análisis preliminar..............................................................................................................10

2.3.2. Obtención de mapas de DMCs............................................................................................11

2.4. POSPROCESADO DE LOS MAPAS DE DMCs.................................................................12

2.5. DISEÑO DE LA BASE DE DATOS DE DMCs...................................................................12

2.6. DEFINICIÓN DE LAS DMCs DE CONSENSO..................................................................14

2.7. MINERÍA DE LA BASE DE DATOS DE DMCs................................................................15

2.7.1. Estadística............................................................................................................................15

2.7.2. Track hubs...........................................................................................................................15

2.8. DMCs Y ELEMENTOS GENÓMICOS.................................................................................16

2.8.1. Gráficos CIRCOS................................................................................................................17

2.8.2. Análisis de enriquecimiento en DMCs................................................................................18

2.8.3. Estadística por elemento genómico.....................................................................................20

3. RESULTADOS Y DISCUSIÓN.............................................................................................21

3.1. LA METILACIÓN Y EL LINAJE CELULAR.....................................................................21

3.2. MAPAS DE DMCs.....................................................................................................................25

3.3. DIFERENCIAS ENTRE MÉTODOS.....................................................................................25

3.4. DIFERENCIAS ENTRE PARES DE MUESTRAS............................................................27

3.5. CONTENIDO EN DMCs DE LAS CGIs...............................................................................29

3.6. METILACIÓN DIFERENCIAL EN ELEMENTOS GENÓMICOS.................................32

3.6.1. Regiones génicas.................................................................................................................32

3.6.2. Elementos reguladores de la transcripción..........................................................................35

3.6.3. SNVs y elementos evolutivamente conservados..................................................................39

4. CONCLUSIONES........................................................................................................................42

5. PERSPECTIVAS DE FUTURO.............................................................................................43

LISTA DE ABREVIATURAS.............................................................................................................44

LISTA DE FIGURAS............................................................................................................................45

LISTA DE TABLAS..............................................................................................................................46

LISTA DE ENLACES...........................................................................................................................47

BIBLIOGRAFÍA..................................................................................... ................................................48

ANEXOS.....................................................................................................................................................53

ANEXO I. FORMATO DE SALIDA DE METHYLEXTRACT....................................................53

ANEXO II. FORMATO DE ENTRADA DE BISULFIGHTER...................................................54

ANEXO III. FORMATO DE ENTRADA DE METHYLKIT........................................................55

ANEXO IV. FORMATO DE ENTRADA DE MOABS................................................................56

ANEXO V. FORMATO DE SALIDA DE BISULFIGHTER.......................................................57

ANEXO VI. FORMATO DE SALIDA DE METHYLKIT............................................................58

ANEXO VII. FORMATO DE SALIDA DE MOABS...................................................................58

INTRODUCCIÓN

La publicación de las Leyes de Mendel (1866) marcó el inicio de la Genética, que desde

entonces no ha parado de crecer de forma exponencial. A principios del siglo XXI, la

secuenciación del Genoma Humano (Venter et al. 2001, Lander et al. 2001) estimuló el

rápido desarrollo de disciplinas incipientes, entre las que destacan la Genómica

Computacional y la Bioinformática. Hoy en día, la visión que inicialmente se tenía del

genoma ha cambiado radicalmente gracias al advenimiento de las técnicas de

secuenciación masiva, favoreciendo el crecimiento exponencial de la Epigenética

(figura 1.1). El florecimiento de la misma ha impulsado el desarrollo de grandes

proyectos internacionales, destinados a comprender los mecanismos que operan sobre el

genoma y confeccionar mapas de marcas epigenéticas, entre los que destacan ENCODE

(Consortium 2004) y ROADMAP Epigenomics (Bernstein et al. 2010).

Figura 1.1. Número de publicaciones sobre epigenética entre los años 1994 y 2013. La gráfica representa el número de

publicaciones que contienen los términos “Epigenetic” o “Epigenomic” incluidas en la base de datos PubMed durante los

últimos 20 años (1994-2013). Además, se incluyen algunos de los hitos, tanto técnicos como científicos, más importantes en la

investigación epigenética: la aparición del primer método de secuenciación masiva (454 sequencing en el año 2000), la

fundación del consorcio ENCODE (Consortium 2004), la publicación de los resultados del proyecto piloto de ENCODE

(Birney et al. 2007), la incorporación de Illumina al mercado de la secuenciación masiva (2007), la fundación del consorcio

ROADMAP Epigenomics (Bernstein et al. 2010) y la publicación en septiembre de 2012 de 29 artículos (enlace 1.1) con los

resultados obtenidos a partir del proyecto ENCODE. Figura extraída de Barturen 2014b.

El término "epigenética" se ha vuelto muy familiar en los últimos años. Originalmente

se acuño como un descriptor amplio de los factores que, en cooperación con los genes,

producen un fenotipo (Waddington 1942). Actualmente se manejan numerosas

definiciones para este término, como, por ejemplo:

"The study of mitotically and/or meiotically heritable changes in gene function

that cannot be explained by changes in DNA sequence" (Riggs et al. 1996).

"[…] the structural adaptation of chromosomal regions so as to register, signal

or perpetuate altered activity states" (Bird 2007).

La tendencia más habitual es utilizar el término epigenética para referirse al estudio de

las modificaciones de los componentes de la cromatina: la metilación del DNA, la

expresión de los microRNAs y las modificaciones de histonas, principalmente.

1.1. METILACIÓN DEL DNA

En este estudio nos centraremos en la metilación del DNA, por ser la marca epigenética

mejor estudiada y la única que posee todas las propiedades consideradas por Bonasio et

al. (2010) como intrínsecas a las marcas epigenéticas:

No altera la secuencia del DNA.Aunque hay que tener en cuenta que a escala

evolutiva puede alterar la secuencia del DNA, dado que la 5-metilcitosina se

desamina espontáneamente a una baja tasa para dar timina.

Modifica la actividad génica. La metilación, cuando se produce en el promotor,

inhibe la transcripción (Bell et al. 2011).

Es reversible. Se ha observado que en algunos procesos, como la diferenciación

celular, se desmetilan ciertas regiones (Lister et al. 2009, Laurent et al. 2010).

Es autoperpetuable. Se mantiene gracias a la replicación semiconservativa del

DNA y a la acción de metiltransferasas específicas (Klose and Bird 2006),

excepto en el contexto asimétrico CHH (donde H = A, C o T).

Es heredable. La metilación no solo se hereda a lo largo del linaje celular, sino

que algunas regiones metiladas presentan evidencias de una elevada

heredabilidad entre generaciones, si bien es algo excepcional (Bell and Spector

2012).

La metilación del DNA consiste en la unión covalente de un grupo metilo al carbono 5

de las citosinas del DNA. En función de las bases adyacentes a la citosina metilada o

susceptible de ser metilada se habla de que la metilación tiene lugar en un contexto u

El contexto de metilación más conocido es el CG. En mamíferos, la metilación del DNA

ocurre casi exclusivamente en este contexto y se ha estimado que afecta al 70-80% de

los CpGs del genoma (Enrlich et al. 1982). Sin embargo, y aunque muy minoritaria, se

ha observado metilación en los contextos CHG y CHH en células madre embrionarias

(Bird 2002, Ramsahoye et al. 2000, Lister et al. 2009). En cuanto a los CpGs que

permanecen no metilados, la mayoría se encuentran cerca de promotores de genes, en

clústeres densos conocidos como islas CpG o CGIs (Gardiner and Frommer 1987,

Cedar and Bergman 2009, Suzuki and Bird 2008). En plantas, la metilación del DNA

ocurre normalmente tanto en los contextos simétricos CG y CHG, como en el contexto

asimétrico CHH (Henderson and Jacobsen 2007). Concretamente, se ha observado que

el nivel de metilación en estos contextos es, respectivamente, 24%, 6.7% y 1.7% a lo

largo del genoma de Arabidopsis thaliana (Cokus et al. 2008, Lister et al. 2008). A

diferencia de lo que ocurre en mamíferos, en plantas la metilación afecta

predominantemente a transposones y a otros elementos de DNA repetidos (Zhang et al.

2006).

En mamíferos, los patrones de metilación de novo los establecen la familia de la DNA

metiltransferasa 3 (DNMT3), mientras que el mantenimiento de los mismos corre a

cargo de la DNMT1 y la pérdida de metilación podría ocurrir de forma pasiva o por la

acción de desaminasas (Kim et al. 2009, Goll and Bestor 2005, Cheng and Blumenthal

2008). En plantas, el establecimiento de los patrones de metilación lo lleva a cabo la

metiltransferasa DRM2, homóloga a DNMT3, mientras que el mantenimiento sigue una

vía distinta dependiendo del contexto. La metilación en el contexto CG se mantiene por

la metiltransferasa MET1, homóloga a DNMT1. En el contexto CHG se mantiene por la

cromometilasa 3 (CMT3), una metiltransferasa específica de plantas. Por último, en el

contexto CHH, se mantiene por la metilación de novo por parte de DRM2, en una ruta

de metilación del DNA dependiente de RNA. En cuanto a la pérdida de metilación, en

plantas se sabe que ocurre de forma activa por la acción de glicosilasas (Chan et al.

2005).

La metilación del DNA es conocida por su función inhibitoria de la transcripción génica.

Así, los genes cuya región promotora está metilada ven afectada su expresión (Bell et

al. 2011). También regula la transcripción actuando a nivel de los potenciadores (Hon et

al. 2013). Sin embargo, no es esta la única función que posee la metilación. Cuando lo

que se metila no es el promotor sino el cuerpo génico, la metilación en lugar de inhibir

la transcripción la estabiliza (Hellman and Chess 2007). Por tanto, la metilación del

DNA inhibe la iniciación de la transcripción, pero promueve la elongación. También

provoca el silenciamiento de los elementos transponibles, promoviendo la estabilidad

genómica (Yoder et al. 1997). De esta manera, cuando un transposón se encuentra en un

intrón, la metilación impide la expresión del transposón, pero estabiliza la expresión del

gen hospedador. En los centrómeros juega también un papel importante, favoreciendo la

correcta segregación de los cromosomas durante la división celular (Moarefi and

Chedin 2011). Por último, parece que la metilación también puede afectar

indirectamente al ayuste o splicing alternativo (Shukla et al. 2001).

En cuanto a su detección, hoy en día se puede detectar la metilación del DNA en

genoma completo, tratando el DNA con bisulfito y utilizando métodos de secuenciación

masiva. Este tratamiento provoca que las citosinas no metiladas se desaminen y queden

como uracilo, que durante la amplificación del DNA será reemplazado por timina. En

cambio, las 5-metilcitosinas permanecen inalteradas, por lo que conociendo la secuencia

del genoma de referencia se pueden inferir los niveles de metilación de cada citosina

(Lister and Ecker 2009).

1.2. METILACIÓN DIFERENCIAL

El estudio de la metilación del DNA en muestras de diferentes tejidos ha llevado a la

conclusión de que si bien el 70-80% del genoma está metilado de forma estable (salvo

en la línea germinal y en embriones), una pequeña fracción de los CpGs totales puede

cambiar su estado de metilación entre tejidos o condiciones fisiológicas y patológicas

(Katherine et al. 2013, Ziller et al. 2013).

Ziller et al. (2013) detectaron un 21.8% de metilación diferencial en el contexto CG.

Además, la mayoría de estas DMCs no las encontraron en sitios de inicio de la

transcripción, sino en potenciadores y sitios de unión a factores de transcripción ajenos

al promotor. No obstante, son necesarios más estudios para esclarecer la magnitud de la

metilación diferencial en humanos y los elementos genómicos a los que afecta.

Recientemente, se han desarrollado un gran número de métodos para detectar metilación

diferencial, que difieren considerablemente en su algoritmo y en el tipo de experimentos

para los que se han diseñado (Saito et al. 2014, Akalin et al. 2012, Sun et al. 2014,

Hansen et al. 2012, Hebestreit et al. 2013, Feng et al. 2014, Zhang et al. 2011, Li et al.

2013, Stockwell et al. 2014, entre otros).

A pesar de las diferencias entre ellos, se pueden distinguir métodos que utilizan datos de

metilación de genoma completo y otros que utilizan solo datos de regiones. También

hay métodos que se basan en el análisis de citosinas individuales, mientras que otros se

centran en regiones. Las citosinas que muestran diferencias significativas de metilación

entre dos o más muestras reciben el nombre de citosinas diferencialmente metiladas o

DMCs. En cuanto a las regiones con metilación diferencial, reciben el nombre de

regiones diferencialmente metiladas o DMRs.

En este estudio, nos centraremos en tres métodos que analizan datos de metilación en

citosinas individuales en genoma completo: Bisulfighter (Saito et al. 2014), methylKit

(Akalin et al. 2012) y MOABS (Sun et al. 2014). El primero de ellos se basa en el uso de

un modelo oculto de Markov, el segundo en el test exacto de Fisher o en regresiones

logísticas y el tercero utiliza el test de similaridad y el test exacto de Fisher.

Estudiaremos coincidencias y discrepancias en los resultados que arroja cada uno de

ellos y trataremos de determinar qué métodos son más coherentes entre sí.

1.3. OBJETIVOS

El objetivo general de este trabajo es realizar un análisis exploratorio de la metilación

diferencial en el genoma humano, para lo que se plantearon los siguientes objetivos

específicos:

Poner a punto varios métodos computacionales para la detección de metilación

diferencial.

Diseñar un formato adecuado para comparar los resultados de estos métodos y

almacenar los datos de metilación diferencial con dicho formato.

Comparar los resultados de los diferentes métodos y definir un conjunto

consenso de DMCs.

Estudiar el contenido en DMCs de distintos tipos de CGIs según su patrón de

metilación.

Analizar cuánto y cómo afecta la metilación diferencial a distintos tipos de

elementos genómicos.

2. MATERIAL Y MÉTODOS

2.1. MAPAS DE METILACIÓN

El término mapa de metilación se utiliza para referirse a un fichero informático que

contiene información sobre los niveles de metilación de una muestra a lo largo de su

genoma.

En este estudio se utilizaron mapas de metilación de alta calidad para diferentes

muestras (tabla 2.1), extraídos de la base de datos NGSmethDB (Hackenberg et al.

2010, Geisen et al. 2014, enlace 2.1). Estos datos se obtuvieron tras tratar el DNA con

bisulfito y secuenciarlo mediante técnicas de secuenciación masiva. Posteriormente, las

lecturas cortas se alinean frente al genoma de referencia (ensamblado hg19), utilizando

NGSmethPipe (Hackenberg et al. 2012, enlace 2.2), y finalmente se miden los niveles

de metilación mediante MethylExtract (Barturen et al. 2014a, enlace 2.3).

Tabla 2.1. Mapas de metilación de la base de datos NGSmethDB utilizados en este estudio.

Linaje celular ID Tipo celular Descripción Referencia

Hematopoyético

cd133hsc Célula madre

hematopoyética

Células madre hematopoyéticas / células progenitoras

(CD133+CD34+CD38-Lin-) de seis mujeres sanas (25-

35 años).

Hodges et al.

hspc Célula madre

hematopoyética

Células madre hematopoyéticas / células progenitoras

(CD34+CD38-Lin-) de seis mujeres sanas (25-35 años).

Hodges et al.

bcell Linfocitos B Linfocitos B (CD19+) de sangre periférica de seis

mujeres sanas (25-35 años).

Hodges et al.

pbmc Monocitos Células mononucleares de sangre periférica de múltiples

individuos (metiloma YH). Li et al. 2010

Tejido conectivo

foreskinfibroblast Fibroblastos de

prepucio Fibroblastos primarios de prepucio de recien nacido.

Laurent et al.

imr90 Fibroblastos de

pulmón Fibroblastos de pulmón fetal (línea celular IMR90).

UCSC/SALK et

al. 2009

hmec Células de epitelio

mamario

Células epiteliales primarias de mujeres adultas (línea

celular HMEC). Li et al. 2012

Células madre

embrionarias

h1 Células madre

embrionarias Células madre embrionarias (línea celular H1/WA01).

UCSC/SALK et

al. 2009

h9 Células madre

embrionarias Células madre embrionarias (línea celular H9/WA09).

Laurent et al.

Sistema

nervioso prefrontal-cortex

Mezcla celular de

córtex prefrontal Córtex prefrontal de mujer caucásica (81 años). Ziller et al. 2013

Línea germinal sperm Espermatozoides Esperma de donante anónimo 1. Molaro et al.

2.2. PREPROCESADO DE LOS MAPAS DE METILACIÓN

2.2.1. FILTRADO Y CONTROL DE CALIDAD

Debido a la variabilidad biológica entre muestras, así como a errores en la

secuenciación y el alineamiento de las lecturas, fue necesario filtrar los mapas de

metilación para que las comparaciones entre pares no estén sesgadas y los resultados

sean consistentes, ya que:

Para algunas citosinas no hay datos en algunas de las muestras.

Las metilcitosinas en contextos distintos al CG son poco abundantes en muestras

humanas adultas y los mecanismos de metilación que operan en estos contextos

son diferentes.

Algunas citosinas están situadas en cromosomas sexuales. Esto puede ser

problemático debido a que no todas las muestras pertenecen a individuos del

mismo sexo.

Los datos de algunas citosinas tienen baja cobertura para alguna de las muestras

(menos de cinco lecturas).

Algunas citosinas están afectadas por variaciones de un solo nucleótido o SNVs

en alguna de las muestras. Esto provoca ambigüedades en el contexto de

metilación que dificultan la comparación de los mapas de metilación. Solo se

tuvieron en cuenta las SNVs que constan, para algunas de las muestras, en la

base de datos NGSmethDB (Hackenberg et al. 2010, Geisen et al. 2014).

Se excluyeron de todas las muestras los conjuntos de citosinas afectados por alguno de

los puntos antes citados.

2.2.2. CONVERSIÓN DE FORMATO

Los mapas de metilación de la NGSmethDB están codificados en el formato de salida de

MethylExtract (ver anexo I).

Para poder utilizar los programas de detección de DMCs es necesario adaptar los mapas

de metilación al formato requerido por cada uno de ellos. En los anexos II, III y IV se

indican los requerimientos y las características del formato de entrada de Bisulfighter,

methylKit y MOABS, respectivamente.

Siguiendo estas especificaciones, se adaptaron los once mapas de metilación a cada uno

de estos formatos de entrada.

2.3. ANÁLISIS DE LOS MAPAS DE METILACIÓN

2.3.1. ANÁLISIS PRELIMINAR

Para disponer de una visión preliminar que orientase el resto del estudio, se llevaron a

cabo los siguientes análisis, utilizando el paquete methylKit para R:

Análisis de correlación: se analizó la correlación de Pearson de los mapas de

metilación de las once muestras entre sí. Esta correlación es una medida de la

relación lineal entre dos variables estocásticas cuantitativas (en este caso, el

nivel de metilación o methylation ratio en función de la posición para el par de

muestras), siendo independiente de la escala de medida de las variables. Por

tanto, se trata de una medida adecuada para comparar, de forma global, el grado

de semejanza entre dos mapas de metilación. Este análisis es sensible a los

valores atípicos, por lo que estos valores deben filtrarse. En el caso de los mapas

de metilación, son posiciones con coberturas anormalmente altas. Se optó por

excluir aquellas posiciones cuya cobertura fuera mayor que la del percentil 99 de

la distribución de cobertura de alguna de las muestra.

Análisis de agrupamiento (clustering) de muestras: se agruparon las muestras

de forma jerárquica en base al grado de semejanza de sus mapas de metilación y

se representó dicho agrupamiento en forma de dendrograma. Se utilizaron los

coeficientes de correlación de Pearson antes calculados como medida para

estimar la distancia entre muestras. Como método de agrupamiento se utilizó el

método de Ward, el cual trata de minimizar la varianza dentro de las clústeres.

Se trata de un algoritmo iterativo que en cada iteración une entre sí el par de

clústeres que presentan una menor distancia.

Análisis de componentes principales (PCA): se trata de una técnica estadística

multivariable utilizada para reducir el número de dimensiones de un conjunto de

datos y ayudar a encontrar las principales causas de la variabilidad, así como

ordenarlas en función de su importancia. Se utilizaron los once mapas de

metilación para calcular los componentes principales de la variabilidad entre los

mismos.

2.3.2. OBTENCIÓN DE MAPAS DE DMCs

Se obtuvieron mapas de DMCs para todos los posibles pares de muestras. Para cada par,

calculamos la metilación diferencial mediante Bisulfighter, methylKit y MOABS,

independientemente.

Para detectar citosinas con diferencias de metilación significativas, Bisulfighter utiliza

un método basado en un modelo oculto de Márkov que considera tres estados para las

citosinas:

UP: el porcentaje de metilación para esta citosina es significativamente mayor

en la primera muestra del par a comparar.

DOWN: el porcentaje de metilación para esta citosina es significativamente

menor en la primera muestra del par a comparar.

NoCh: el porcentaje de metilación para esta citosina no presenta diferencias

significativas entre las muestras del par a comparar.

Por su parte, methylKit utiliza un test estadísticos distinto en función de los datos que se

le proporciones: el test exacto de Fisher cuando no hay réplicas de las muestras y el test

de regresión logística cuando sí las hay. En este caso, utilizó el test exacto de Fisher.

Por último, MOABS utiliza dos test estadísticos independientemente: el test de

similaridad y el test exacto de Fisher. Trataremos los resultados de cada test de forma

independiente, llamando MOABS_sim al primer método y MOABS_fet al segundo.

Cabe destacar que en función del método, una citosina puede ser considerada o no como

DMC debido a las diferencias entre métodos a la hora de procesar los datos y calcular el

valor p.

2.4. POSPROCESADO DE LOS MAPAS DE DMCs

Las DMCs detectadas por los diferentes métodos van siempre acompañadas de algún

parámetro estadístico. Con la finalidad de seleccionar solo aquellos resultados que

fueran de mayor confianza, filtramos los resultados en función de estos parámetros

estadísticos:

Para los resultados de Bisulfighter se utilizó la probabilidad del estado NoCh

como aproximación al valor p y se excluyeron aquellos resultados cuya

probabilidad para este estado fuera mayor de 0.01.

Los resultados de methylKit se filtraron en función de dos parámetros

estadísticos: el valor p y el valor q. Se excluyeron todos aquellos resultados que

tuvieran un valor para alguno de estos estadísticos mayor de 0.01.

Los resultados de MOABS también disponen de dos parámetros estadísticos: el

valor p para el test de similaridad y el valor p para el test exacto de Fisher. Los

resultados cuyo valor p para el test de similaridad fuera menor o igual que 0.01

se volcaron en una tabla y los resultados cuyo valor p para el test exacto de

Fisher fuera menor o igual que 0.01 se volcaron en otra tabla.

2.5. DISEÑO DE LA BASE DE DATOS DE DMCs

Las salidas de los diferentes programas con los mapas de DMCs difieren en formato y

contenido. En los anexos V, VI y VII se describen los formatos de salida de Bisulfighter,

methylKit y MOABS, respectivamente.

Para poder comparar los resultados, los mapas de DMCs se volcaron en una tabla

MySQL con formato común, que consta de las siguientes columnas:

chrom: indica el cromosoma al que pertenece la DMC.

chromStart: indica la coordenada de inicio de la DMC dentro del cromosoma.

chromEnd: indica la coordenada de final de la DMC dentro del cromosoma.

context: indica el contexto al que pertenece la DMC. En este caso, adopta

siempre el valor "CG".

tissue1: indica el identificador de la primera muestra del par en el cual se detectó

la DMC.

tissue2: indica el identificador de la segunda muestra del par en el cual se

detectó la DMC.

methRatio1: indica el porcentaje de metilación de la DMC para la primera

muestra del par al cual hace alusión la fila en la que se encuentra.

methRatio2: indica el porcentaje de metilación de la DMC para la segunda

muestra del par al cual hace alusión la fila en la que se encuentra.

diffMeth: indica la diferencia, en valor absoluto, del porcentaje de metilación de

la DMC entre las dos muestras a las que hace alusión la fila en la que se

encuentra.

method: indica el método mediante el cual se detectó la DMC a la que hace

alusión la fila en la que se encuentra. Puede adoptar los valores "Bisulfighter",

"methylKit", "MOABS_sim" o "MOABS_fet".

pValue: indica el valor p de la DMC a la que hace alusión la fila en la que se

encuentra, calculado por el método indicado en la columna method.

Una misma DMC puede haberse detectado en más de un par de muestras o por más de

un método, en cuyo caso aparecerá en más de una fila de la tabla. Sin embargo, estas

filas no son iguales, sino que difieren en la columna del valor p y en, al menos, una de

las siguientes columnas: tissue1, tissue2 y method. Por tanto, la tabla carece de filas

redundantes.

Se trata de una base de datos de DMCs para muestras humanas con resultados

cuidadosamente procesados, filtrados y organizados. Por ello, en adelante utilizaremos

el nombre DMCdb_hg19 para hacer alusión a esta tabla.

A partir de esta tabla se derivaron las tablas siguientes:

Una tabla con las DMCs detectadas por cada método, independientemente del

par de muestras para el que se hayan detectado y sin filas redundantes. Es

similar a la tabla original, pero carece de las columnas tissue1 y tissue2. Si una

DMC había sido detectada para más de un par por un mismo método, las filas

correspondientes de la tabla original han sido reducidas a una única fila en esta

tabla. Llamaremos a esta tabla DMCdb_hg19_methods.

Una tabla con las DMCs detectadas para cada par de muestras,

independientemente del método por el que se hayan detectado y sin filas

redundantes. Es similar a la tabla original, pero carece de la columna method. Si

una DMC había sido detectada por más de un método para el mismo par, las

filas correspondientes de la tabla original han sido reducidas a una única fila en

esta tabla. Llamaremos a esta tabla DMCdb_hg19_pairs.

Estas tablas resultaron convenientes para realizar estudios estadísticos del contenido de

la tabla DMCdb_hg19.

2.6. DEFINICIÓN DEL CONJUNTO DE DMCS DE CONSENSO

Se derivaron dos tablas de DMCs de consenso, tomando como consenso la intersección

de los conjuntos de DMCs de los cuatro métodos:

Una tabla con las DMCs detectadas para cada par de muestras por la totalidad de

los métodos. Es decir, las DMCs incluidas en esta tabla son aquellas detectadas

por cuatro de los cuatro métodos para el mismo par de muestras. Esta tabla es

similar a la original, pero carece de las columnas method y pValue. Llamaremos

a esta tabla DMCdb_hg19_pairs_consensus.

Una tabla con las DMCs detectadas por la totalidad de los métodos,

independientemente del par o de la muestra. Esta tabla se deriva de la anterior,

generando una tabla no redundantes de DMCs detectadas para al menos una

muestra. De esta manera se evitan los resultados que, no siendo significativos

para la misma muestra por los cuatro métodos, se incluirían por ser

significativos por los cuatro métodos para muestras distintas e idénticas

coordenadas genómicas. Esta tabla es similar a la original, pero carece de las

columnas tissue1, tissue2, method y pValue. Esta tabla recibe el nombre de

DMCdb_hg19_consensus, pero por el extenso uso que se hará de ella nos

referiremos a ella simplemente como tabla consenso.

Estas tablas resultaron convenientes para realizar estudios estadísticos del contenido de

la tabla DMCdb_hg19. La tabla consenso se utilizó en los estudios de agrupamiento o

clustering de las DMCs, así como para la anotación de diferentes elementos genómicos

y el consiguiente estudio de enriquecimiento en DMCs.

2.7. MINERÍA DE LA BASE DE DATOS DE DMCs

2.7.1. ESTADÍSTICA

Una vez se dispuso de las tablas con los datos de las DMCs, se realizaron las siguientes

estadísticas en las que se estudió el número de DMCs y el porcentaje de CpGs que son

Por método, para combinaciones de métodos y para el consenso. Los

conjuntos de DMCs contabilizados en esta estadística son los detectados por

cada método independientemente del par de muestras para las que se haya

detectado, la intersección de los conjuntos anteriores para todos los posibles

pares y tríos de métodos y el conjunto de DMCs de la tabla consenso. Las tablas

empleadas para esta estadística fueron DMCdb_hg19_method y

DMCdb_hg19_consensus.

Por par y método, incluido el consenso. Los conjuntos de DMCs

contabilizados en esta estadística son los detectados por cada método,

incluyendo el consenso, para cada par de muestras. Las tablas empleadas para

esta estadística fueron DMCdb_hg19_pairs y DMCdb_hg19_pairs_consensus.

2.6.2. TRACK HUBS

Los track hubs son directorios de datos genómicos accesibles desde la web que pueden

visualizarse utilizando el navegador genómico de la Universidad de California (UCSC

Genome Browser). Son útiles para visualizar, simultáneamente, la localización de un

gran número de datos genómicos a lo largo de los cromosomas. De esta manera pueden,

por ejemplo, visualizarse regiones cromosómicas ricas en genes y comparar la

localización de las DMCs con respecto a la localización de sitios de unión de factores de

transcripción (TFBS), exones, intrones y elementos genéticos móviles.

Siguiendo las instrucciones de la web del navegador genómico de la Universidad de

California (enlace 2.4 del lista de enlaces), se crearon tablas en formato bigWig (enlace

2.5 del lista de enlaces) de las DMCs por pares de muestras y método, así como la

estructura de directorios requerida y los ficheros de propiedades del track hub en un

servidor HTTP, quedando el track hub activo y accesible desde la web.

2.8. DMCs Y ELEMENTOS GENÓMICOS

Se amplió la anotación de los siguientes tipos de elementos genómicos para incluir en la

anotación de cada elemento particular el número de DMCs que contiene (numDMC), el

número de CpGs que contiene (numCG) y el tanto por uno de las CpGs que contiene

que son DMCs (DMCratio):

Islas CpGs (CGIs): CGIs no metiladas (UI), CGIs metiladas (MI) y CGIs

diferencialmente metiladas (DMI). Se utilizó la anotación de CGIs para el

umbral de significación estadística valor p ≤ 0.05. Se consideran DMIs a

aquellas CGIs que son UI en la mayoría de las muestras y mi en alguna de las

muestras (DMI-Us) o que son mi en la mayoría de las muestras y UI en alguna

de las muestras (DMI-Ms). Estas islas se han predicho utilizando los programas

CpGcluster (Hackenberg et al. 2006) y WordCluster (Hackenberg et al. 2011).

Regiones génicas: genes y su entorno próximo (gene500), exones (cdsExon),

intrones (cdsIntron), región de inicio de la transcripción (R13) y región de final

de la transcripción (R8). Los genes y componentes de genes considerados en

esta anotación son solo aquellos correspondientes a genes codificantes de

proteínas. El entorno génico considerado para los elementos gene500 es de 500

pares de bases (pb) aguas arriba del inicio del gen y 500 pb aguas abajo del final

del gen. Esta anotación se obtuvo de la tabla de genes de refSeq (Prueit et al.

2007).

Elementos reguladores de la transcripción: sitios de unión de factores de

transcripción (TFBS), sitios de hipersensibilidad a la DNAsa I (DNase o DHS),

sitios de unión de la polimerasa II (Pol2) y de la polimerasa III (Pol3),

potenciadores experimentales (VISTA_enhancers) y predichos

(ENCODE_enhancers) y aisladores predichos (ENCODE_insulators). Esta

anotación se obtuvo de las tablas con los datos del Proyecto ENCODE

(Consortium et al. 2012) y de la tabla de potenciadores vista (Visel et al. 2007).

Variaciones de secuencia y elementos evolutivamente conservados: regiones

conservadas en 46 vertebrados (PhastCons; Siepel et al. 2005), regiones

conservadas en 35 mamíferos (GERP; Cooper et al. 2010), regiones predichas

con sesgo mutacional hacia GC (PhastBiasGC; Duret and Galtier 2009, Hubisz

et al. 2011), polimorfismos de un solo nucleótido comunes (SNP138_common)

y polimorfismos potencialmente asociados al desarrollo de patologías

(SNP138_flagged) de dbSNP.

La tabla de DMCs utilizada para realizar estas anotaciones fue la tabla de DMCs de

consenso (DMC_hg19_consensus).

2.8.1. GRÁFICOS CIRCOS

CIRCOS es un paquete de programas en Perl especialmente diseñado para la

visualización de datos genómicos. Los gráficos producidos por CIRCOS son de gran

calidad, ideales para explorar las relaciones entre diferentes tipos de datos a lo largo del

cromosoma.

Se utilizaron gráficos CIRCOS para representar el contenido en DMCs de los elementos

genómicos utilizados en la anotación. Para ello, se diseñaron cinco tipos de gráficos

CIRCOS:

CIRCOS para CGIs. Contiene un ideograma del cromosoma y tres pistas de tipo

histograma con el contenido en DMCs de cada elemento. Las pistas son, desde fuera

hacia dentro, para los siguientes elementos: DMI, MI y UI.

CIRCOS para regiones génicas. Contiene un ideograma del cromosoma y cinco

pistas de tipo histograma con el contenido en DMCs de cada elemento. Las pistas

son, desde fuera hacia dentro, para los siguientes elementos: gene500, R13,

cdsExon, cdsIntron y R8.

CIRCOS para elementos reguladores de la transcripción. Contiene un ideograma

del cromosoma y siete pistas de tipo histograma con el contenido en DMCs de cada

elemento. Las pistas son, desde fuera hacia dentro, para los siguientes elementos:

TFBS, Pol2, Pol3, VISTA_enhancers, ENCODE_enhancers, ENCODE_insulators y

DNase.

CIRCOS para variaciones de secuencia y elementos evolutivamente

conservados. Contiene un ideograma del cromosoma y cinco pistas de tipo

histograma con el contenido en DMCs de cada elemento. Las pistas son, desde fuera

hacia dentro, para los siguientes elementos: PhastCons, GERP, PhastBiasGC,

SNP138_common y SNP138_flagged.

Se crearon estos cuatro gráficos CIRCOS para cada autosoma y cuatro gráficos

adicionales (uno de cada tipo) que cogen la representación de los 22 autosomas en un

solo gráfico, siguiendo las instrucciones especificadas en la web de CIRCOS (enlace 2.6

del lista de enlaces).

Las imágenes se almacenaron tanto en formato de imagen vectorial SVG como en

formato de mapa de bits PNG.

2.8.2. ANÁLISIS DE ENRIQUECIMIENTO EN DMCs

Para determinar en cuales de los elementos genómicos anotados están sobre- o

infrarrepresentadas las DMCs se cuantificó el enriquecimiento en DMCs a partir del

cociente (rDMC) de la densidad en DMCs dentro y fuera del elemento genómico, siendo

la densidad el número de DMCs por cada unidad de longitud.

La interpretación del cociente rDMC es sencilla:

Un valor igual 1 indica que las DMCs se distribuyen al azar dentro y fuera del

elemento genómico.

Un valor mayor que 1 indica que el elemento genómico está enriquecido en

DMCs. En otras palabras, la probabilidad de encontrar una DMC dentro de este

elemento genómico es mayor que la probabilidad de encontrarla en regiones del

genoma de idéntica longitud elegidas al azar.

Un valor menor que 1 indica que el elemento genómico está empobrecido en

DMCs. En otras palabras, la probabilidad de encontrar una DMC dentro de este

elemento genómico es menor que la probabilidad de encontrarla en regiones del

genoma de idéntica longitud elegidas al azar.

Basándonos en este planteamiento, se calculó el enriquecimiento en DMCs para todos

los tipos de elementos genómicos anotados.

Para calcular este enriquecimiento para cada tipo de elemento genómico:

Se contabilizó el total de DMCs dentro de todos los elementos genómicos

pertenecientes al tipo de elemento genómico analizado, contando una única vez

cada DMC dentro de las regiones en las que se solapan elementos. Esta variable

recibe el nombre de numDMCin

Se calculó la longitud total que suman los elementos genómicos pertenecientes

al tipo de elemento genómico analizado, contando una única vez la longitud de

las regiones en las que se solapan elementos. Esta variable recibe el nombre de

A partir de los dos valores anteriores, se calculó la densidad de DMCs dentro del

elemento genómico, denDMCin

, como:

denDMCin=

numDMCin

Al número total de DMCs se le restó el valor de numDMCin

, siendo el valor

resultante el número de DMCs que están fuera de elementos genómicos de este

tipo (numDMCout

Al longitud total de todos los autosomas se le restó el valor de lenin

, siendo el

valor resultante la longitud total fuera de elementos genómicos de este tipo

(lenout

A partir de los dos valores anteriores, se calculó la densidad de DMCs fuera del

elemento genómico, denDMCout

, como:

denDMCout

=numDMC

lenout

Por último, se calculó el cociente rDMC como:

r DMC=denDMC

denDMCout

2.8.3. ESTADÍSTICA POR ELEMENTO GENÓMICO

Por último, se realizó una estadística por cada tipo elemento genómico en la que se

recogieron los siguientes datos:

Número total de elementos genómicos de este tipo.

Datos acerca de la longitud de elementos genómicos de este tipo: longitud

media y desviación estándar poblacional de la longitud media.

Datos acerca del número de DMCs en elementos genómicos de este tipo:

número medio de DMCs, desviación estándar poblacional del número medio de

DMCs, cociente de enriquecimiento en DMCs y porcentaje de las DMCs totales

que están dentro de elementos genómicos de este tipo.

Datos acerca del número de CpGs en elementos genómicos de este tipo:

número medio de CpGs, desviación estándar poblacional del número medio de

CpGs, cociente de enriquecimiento en CpGs y porcentaje de las CpGs totales

que están dentro de elementos genómicos de este tipo.

Datos acerca de la DMCratio de elementos genómicos de este tipo: DMCratio

media y desviación estándar poblacional de la DMCratio media.

3. RESULTADOS Y DISCUSIÓN

3.1. LA METILACIÓN Y EL LINAJE CELULAR

Como primer abordaje al estudio de la metilación del genoma humano en diferentes

linajes celulares, se estudió la correlación de Pearson de los mapas de metilación de

cuatro muestras del linaje hematopoyético, tres muestras de tejido conectivo, dos líneas

de células madre embrionarias, una muestra de sistema nervioso central y una muestra

de esperma. El resultado de este análisis se muestra en la figura 3.1.

Figura 3.2. Matriz de correlación para los once mapas de metilación. Se muestran los histogramas con la distribución del

nivel de metilación en el contexto CG para las once muestras (en la diagonal) y los coeficientes de correlación de Pearson (en

la matriz triangular superior) y los diagramas de dispersión de los mapas de metilación (en la matriz triangular inferior)

para los cincuenta y cinco pares de muestras.

Como puede verse, todos los coeficientes de correlación son positivos y los diez más

altos corresponden a los diez pares de muestras más relacionados:

Las muestras de tipos celulares de tejido conectivo presentan correlaciones entre

0.60 y 0.78.

Las muestras de tipos celulares del linaje hematopoyético presentan

correlaciones entre 0.57 y 0.70.

Las dos muestras de células madre embrionarias presentan una correlación de

En cuanto a las correlaciones más bajas, la mayoría corresponden a los pares en los que

se compara el esperma con otra muestra (véase la última columna de la matriz de

correlación). La correlación más baja es 0.25 y corresponde a los pares

foreskinfibroblast-sperm y imr90-sperm. Tiene sentido que la metilación de los

espermatozoides sea la que más difiere del resto, puesto que son el único tipo celular de

la línea germinal que se ha considerado en el estudio, siendo el resto de tipos celulares

de la línea somática.

La correlación de Pearson puede utilizarse como medida de distancia para agrupar

jerárquicamente las muestras en función del grado de semejanza de sus mapas de

metilación, como se muestra en la figura 3.2. Este dendrograma pone de manifiesto de

manera clara que la semejanza en el mapa de metilación está relacionada con el linaje

celular:

Las muestras de tipos celulares del linaje hematopoyético forman un clúster, que

a su vez de divide en dos clústeres:

► Un clúster formado por leucocitos maduros: linfocitos B y monocitos.

► Otro clúster formado por células madre hematopoyéticas.

Las muestras de tipos celulares de tejido conectivo forman un clúster, que a su

vez contiene otro clúster en el que se agrupan los fibroblastos, más alejados de

las células de epitelio mamario que entre sí.

Las muestras de células madre embrionarias forman un clúster, que a su vez está

más relacionado con la muestra de córtex prefrontal que con el resto. El córtex

prefrontal contiene tanto neuronas como células gliales, ambas en proporciones

equiparables. Al tratarse de una mezcla compleja de tipos celulares, entre las

cuales se incluyen células madre gliales, es probable que el perfil de metilación

resultante sea más semejante al perfil de células no diferenciadas.

En cuanto al esperma, el dendrograma lo muestra más cercano a la muestra de

córtex prefrontal y las muestras de células madre embrionarias, aunque esto

puede ser consecuencia del método de aglutinación utilizado.

Figura 3.3. Agrupamiento jerárquico de las muestras en función de su correlación de Pearson.

Mediante un análisis de componentes principales de los once mapas de metilación se

comprobó que el primer componente principal absorbe un 36% de la varianza (figura

3.3). Esto pone de manifiesto que uno de los mapas de metilación difiere bastante más

de los demás, probablemente el de esperma.

Figura 3.4. Fracción de la varianza absorbida por cada componente principal (PC).

Los dos primeros componentes principales absorben la mitad de la varianza. Cuando se

dispersan las muestras frente a ellos, se observa que forman grupos que coinciden con

los clústeres del dendrograma (figura 3.4). Nótese que el esperma es la muestra más

apartada del resto y que la muestra de córtex prefrontal se sigue agrupando con las

muestras de células madre embrionarias.

Figura 3.5. Dispersión de las muestras en función del primer componente principal (PC1) frente al segundo (PC2).

3.2. MAPAS DE DMCs

Puesto que los patrones de metilación del genoma humano son dinámicos y que guardan

cierta relación con el linaje celular, decidimos caracterizar las diferencias de metilación

entre muestras a nivel de citosinas individuales.

Tras poner a punto los métodos computacionales para la detección de DMCs, los datos

obtenidos se procesaron y se almacenaron en una base de datos relacional MySQL para

su análisis. A continuación, se realizó un estudio estadístico comparativo de los

resultados de los métodos y de las diferencias por muestra y par de muestras, así como

un análisis del contenido en DMCs de las CGIs y de distintos tipos de elementos

genómicos.

Los mapas de DMCs obtenidos pueden visualizarse utilizando el navegador genómico

de UCSC. Para ver estos mapas, consulte el enlace 3.1 de la lista de enlaces.

3.3. DIFERENCIAS ENTRE MÉTODOS

Representando en un diagrama de Venn los conjuntos de DMCs detectados por cada

método, así como las intersecciones y diferencias de cada método (figura 3.5), se pone

de manifiesto que más de cuatro millones de DMCs detectadas por MOABS_sim no son

respaldadas por otros métodos (en gris oscuro) y que más de dos millones y medio solo

son respaldadas por solo uno de los métodos (en rojo oscuro, azul oscuro y verde

oscuro).

Figura 3.6. Diagrama de Venn de los conjuntos de DMCs por método. Los datos utilizados corresponden a la tabla

DMCdb_hg19_method. El valor abajo a la derecha representa el número total de DMCs detectadas por al menos un método.

Representando la proporción de DMCs totales detectadas por cada método (figura 3.6)

se observa que MOABS_sim es el método que detecta una mayor proporción (65.43%),

mientras que methylKit es el que detecta una proporción menor (33.56%). La figura 3.5

muestra, además, que la práctica totalidad de las DMCs detectadas por methylKit están

respaldadas por alguno de los otros métodos. Solo dos DMCs detectadas por methylKit

no son respaldadas por ningún otro método (en azul).

Con objeto de recoger aquellos datos que estén mejor respaldados para posteriores

análisis, definimos el conjunto de DMCs de consenso como la intersección de los

conjuntos de los cuatro métodos. En la figura 3.5, se observa que el conjunto consenso

posee casi nueve millones de DMCs (en gris claro), frente a los dieciocho millones de

DMCs detectados por solo alguno de los métodos (48.15%).

Figura 3.7. Proporción de las DMCs totales detectadas por cada método y por el consenso de los cuatro métodos (en

naranja).

Ziller et al. (2013) describieron un 22% de metilación diferencial en contexto CG.Sin

embargo, en este estudio exploratorio hemos encontrado un 31.80% de metilación

diferencial en contexto CG para el consenso de los cuatro métodos.

3.4. DIFERENCIAS ENTRE PARES DE MUESTRAS

Cuando se estudia la proporción de DMCs de consenso para cada par de muestras y se

representa en forma de matriz (tabla 3.1), se observa que las muestras que pertenecen a

los mismos clústeres en el dendrograma de correlación presentan una proporción de

DMCs menor del 5%, excepto el par hmec-imr90 (7.06%).

El par que presenta una proporción mayor de DMCs es h1-imr90 (17.40%). Que este

par sea el más diferente es coherente con los tipos celulares a los que corresponden, ya

que h1 son células madre embrionarias y imr90 son células diferenciadas (fibroblastos

de pulmón). Sin embargo, este resultado difiere del obtenido mediante el análisis de

correlación, según el cual los pares de esperma con el resto de muestras son los que

presentan mayores diferencias de metilación. Aunque no sea la correlación más baja,

bien es cierto que el par h1-imr90 presenta correlación relativamente baja (0.42). El par

de muestras con una proporción más baja es cd133hsc-pbmc (0.01%). Que este par

presente la menor proporción de DMCs está de acuerdo con su correlación

relativamente alta (0.59).

Tabla 3.2. Matriz de DMCs entre pares de muestras. La matriz superior muestra el número total de DMCs para cada par,

mientras que la matriz inferior muestra el porcentaje de DMCs frente al total CpGs para cada par. Las casillas coloreadas

indican que las dos muestras del par corresponden al mismo clúster según el dendrograma de correlación de Pearson: en

naranja las muestras del linaje hematopoyético, en azul las muestras de tejido conectivo y en morado el clúster de células

madre embrionarias y córtex prefrontal. Se han resaltado en negrita aquellos pares con más de un 5% de DMCs y en rojo

aquellos con más de un 10%. Los datos utilizados corresponden a la tabla DMCdb_hg19_pairs_consensus. ff:

foreskinfibroblast; pc: prefrontalcortex.

cd133hsc hspc bcell pbmc ff imr90 hmec h1 h9 pc sperm

cd133hsc

55755 72658 1479 496837 1310156 1002603 128392 133801 91610 410096

hspc 0,33%

242882 54412 1001544 2724557 1804363 517706 420995 411754 694449

bcell 0,47% 1,39%

17706 527640 1354842 1018141 413053 318701 351672 518255

pbmc 0,01% 0,40% 0,14%

82101 557100 325055 141299 42944 48859 87011

ff 3,38% 6,39% 3,63% 0,78%

116913 625467 1113788 896976 904541 997160

imr90 7,68% 14,06% 7,57% 3,98% 0,73%

1488619 3448513 1415986 2160094 1612282

hmec 5,48% 8,80% 5,40% 2,29% 3,57% 7,06%

2007680 1275279 1513053 1499566

h1 0,80% 2,82% 2,43% 1,04% 7,49% 17,40% 10,13%

14336 136219 483884

h9 0,85% 2,49% 2,04% 0,38% 5,37% 8,23% 6,74% 0,09%

228249 584821

pc 0,54% 2,22% 2,05% 0,38% 5,51% 11,37% 7,34% 0,76% 1,29%

686261

sperm 2,77% 4,35% 3,51% 0,79% 6,74% 9,86% 8,45% 3,15% 3,72% 4,16%

Cuando se representa la matriz de DMCs en forma de dendrograma (figura 3.7), se

observa un agrupamiento de las muestras coherente con los agrupamientos en función

del linaje celular y con el agrupamiento obtenido mediante el análisis de correlación.

Sin embargo, a pesar de que los dendrogramas de correlación y de DMCs son

coherentes entre sí, presentan algunas diferencias. Si bien los tres clústeres de las

muestras que corresponden a tejido conectivo, al linaje hematopoyético y a las células

madre embrionarias (junto con prefrontalcortex) están presentes en ambos

dendrogramas, la relación entre ellos es diferente.

Mientras que en el dendrograma de correlación las células madre embrionarias forman

un grupo hermano con los tipos celulares del tejido conectivo, en el dendrograma de

proporción de DMCs las células madre embrionarias forman un grupo hermano con los

tipos celulares del linaje hematopoyético.

Figura 3.8. Agrupamiento jerárquico de las muestras en función de su proporción de DMCs frente al total de CpGs. El

método de aglutinamiento utilizado es el método de Ward, el mismo que se utilizó en el dendrograma de correlación.

3.5. CONTENIDO EN DMCs DE LAS CGIs

Dada su localización en las regiones promotoras, no es de extrañar que existan

evidencias de que la metilación diferencial de las CGIs esté involucrada en la regulación

de genes específicos de tejido (Song et al. 2005). De ahí la relevancia de estudiar su

contenido en DMCs.

Como se muestra en la tabla 3.2, las CGIs detectadas por CpGcluster/WordCluster

(Hackenberg et al. 2006, Hackenberg et al. 2011) son cortas, muy ricas en CpGs y

bastante ricas en DMCs.Sin embargo, cuando se dividen en categorías en función de su

patrón de metilación, vemos que las DMIs está muy enriquecidas en DMCs (más

incluso que en CpGs) y las MIs están discretamente enriquecidas en DMCs, mientras

que las UI son pobres en DMCs.Nótese que el número de DMCs por UI no difiere

demasiado del número de DMCs por MI, pero que el tamaño medio de las UIs es del

doble.

Tabla 3.3. Estadística de las DMIs en relación a las DMCs de consenso y a las CpGs.

Tipo de isla CGI UI MI DMI

Número de islas 147862 39782 62379 45701

DMCs en estas islas (%) 7.08 0.32 1.32 5.44

CpGs en estas islas (%) 12.21 5.78 2.95 3.48

Enriquecimiento en DMCs (rDMC) 6.79 0.73 3.94 17.17

Enriquecimiento en CpGs (rCpG) 12.39 13.95 8.96 10.75

Longitud media (pb) ± SD 216 ± 196 317 ± 273 156 ± 92 211 ± 186

Número medio de DMCs ± SD 4 ± 8 1 ± 2 2 ± 3 10 ± 12

Número medio de CpGs ± SD 20 ± 24 36 ± 35 12 ± 5 19 ± 20

Proporción media de DMCs ± SD 0.26±0.34 0.03±0.07 0.16±0.24 0.60±0.33

A la vista de la distribución de la proporción media de DMCs (figura 3.8), se observa

que cerca de 20% de las DMIs tienen todas sus CpGs diferencialmente metilados. Sin

embargo, es sorprendente que cerca de un 10% de las DMIs tienen menos de un 10% de

DMCs.Esto sugiere que debe redefinirse el concepto de DMI. En cuanto a las UIs y a las

MIs, ambas presentan una distribución con una sola moda en 0.

Se sabe que la metilación en regiones con baja densidad de CpGs es incapaz de

bloquear la unión de factores de transcripción al DNA (Stadler et al. 2011). Por ello, las

DMIs podrían ser más adecuadas que las DMRs como unidad de estudio de la

metilación diferencial, ya que las DMRs se calculan sin tener en cuenta la densidad de

CpGs (Saito et al. 2014, Akalin et al. 2012, Sun et al. 2014).

Figura 3.9. Distribución de la proporción de DMCs frente al total de CpGs para las CGIs.

3.6. METILACIÓN DIFERENCIAL EN ELEMENTOS GENÓMICOS

3.6.1. REGIONES GÉNICAS

La tabla 3.3 muestra la estadística de la anotación de los elementos DMCs y CpG en las

regiones génicas.

Tabla 3.4. Estadística de las distintas regiones génicas en relación a las DMCs de consenso y a las CpGs.

Tipo de región Gene500 R13 cdsExon cdsIntron R8

Número de regiones 28641 27041 191595 173869 24183

DMCs en estas regiones (%) 41.43 3.51 3.17 28.95 2.17

CpGs en estas regiones (%) 51.95 6.99 4.12 35.50 2.56

Enriquecimiento en DMCs (rDMC) 0.54 1.90 2.82 0.74 1.30

Enriquecimiento en CpGs (rCpG) 0.82 3.92 3.70 1.00 1.54

Longitud media (pb) ± SD 57188 ± 114012 2000 ± 0 173 ± 290 5890 ± 20270 2000 ± 0

Número medio de DMCs ± SD 127 ± 351 11 ± 12 1 ± 6 15 ± 69 8 ± 11

Número medio de CpGs ± SD 444 ± 828 63 ± 52 5 ± 12 50 ± 157 26 ± 24

Proporción media de DMCs ± SD 0.23 ± 0.22 0.28 ± 0.28 0.22 ± 0.35 0.23 ± 0.27 0.31 ± 0.27

Como puede verse, las regiones más abundantes son los exones y los intrones, mientras

que los genes, las regiones de inicio de la transcripción y las regiones de final de la

transcripción son aproximadamente igual de abundantes. Esto se debe a que,

normalmente, cada gen posee sus propias regiones de inicio y de final de la

transcripción y a que exones e intrones son componentes de los genes. Los exones son

los elementos más pequeños, con un tamaño medio inferior a 200 pb, mientras que los

intrones miden de media casi treinta veces más y los genes casi trescientas veces más.

En cuanto a la longitud de las regiones de inicio y de final de la transcripción, se

desconocen por lo que suele estudiarse una región de unos dos mil pares de bases para

tener la certeza de que incluyen el promotor y el sitio de terminación, respectivamente.

Los genes, como es lógico, recogen una fracción de las DMCs totales mayor (41.43%)

que el resto de elementos componentes de los genes. La siguiente mayor fracción

corresponde a los intrones, con un 28.95%, mientras que el resto las regiones no llegan

al 4%. Pese al bajo número medio de DMCs por región que presentan los exones, son

los más enriquecidos en DMCs (nótese su pequeño tamaño). Las regiones de inicio y de

final de la transcripción también están enriquecidas en DMCs, mientras que los genes y

los intrones son pobres en DMCs.

El enriquecimiento en DMCs de los exones podría estar asociado a la regulación del

splicing alternativo o la estabilización de la elongación (Shukla et al. 2011, Hellman

DNA Chess 2007), mientras que en caso de las regiones de inicio y de final de la

transcripción podría estar asociado a la regulación de la expresión génica (Bell et al.

2011). En cuanto a los intrones, su empobrecimiento en DMCs puede deberse a la

presencia de elementos genéticos móviles (como LINE-1), lo que obliga a mantener

estable la metilación de estas regiones para evitar la transposición (Yoder et al. 1997).

En cuanto a la proporción media de DMCs por región, está en torno a 0.23 para genes,

exones e intrones y es ligeramente más alta en las regiones de inicio y de final de la

transcripción. Sin embargo, la desviación estándar de esta proporción es mayor para los

exones que para el resto de regiones.

En la figura 3.9 se muestra la distribución de esta proporción para cada región. Se

observa que la mayoría de las regiones presentan una distribución cuya moda es 0. En

cambio, los exones presentan una distribución bimodal, con una moda en 0 y otra moda,

seis veces más pequeña, en 1. Además, se aprecia cierto incremento de frecuencia en

0.5, lo cual podría deberse a fenómenos de impronta genómica. Ese mismo incremento

se observa también para los intrones y las regiones de inicio y de fin de la transcripción,

aunque no para los genes (probablemente no se aprecia por estar enmascarado por la

cola de la distribución). Por su parte, los genes también presentan una distribución

bimodal, con una moda en 0 y otra, con la mitad de frecuencia, en 0.1. Esta segunda

moda puede deberse a que uno de los componentes génicos presenta una distribución

bimodal.

Figura 3.10. Distribución de la proporción de DMCs frente al total de CpGs para las distintas regiones génicas.

Mediante el uso de mapas circulares se pone de manifiesto que la metilación diferencial

no afecta siempre de la misma manera a los elementos genómicos, sino que

dependiendo de la región genómica, y de las muestras comparadas, la metilación

diferencial afecta a unos elementos o a otros. En la figura 3.10 se muestra un mapa del

cromosoma 4 en el que se representan, desde fuera hacia dentro, la anotación de DMCs

para genes, regiones de inicio de la transcripción, exones, intrones y regiones de final de

la transcripción. Como puede verse, en la región comprendida entre las posiciones 90 y

95 millones se aprecia una acumulación alta de DMCs en genes e intrones, moderada en

las regiones de inicio y final de la transcripción y leve en los exones. En la región en

torno a la posición 20 millones también se aprecia una acumulación alta de DMCs en

genes e intrones y leve en las regiones de inicio y final de la transcripción. En cambio,

en la región en torno a la posición 135 millones solo se aprecia un acumulo notable de

DMCs en los exones y en las regiones de inicio y final de la transcripción.

Figura 3.11. Gráfico CIRCOS del cromosoma 4 del genoma humano con la pistas de tipo histograma con la anotación de las

DMCs en distintas regiones génicas. Las pistas, desde fuera hacia dentro, son: gene500, cdsIntrons, R13, R8 y cdsExons.

Los mapas circulares de la anotación del contenido en DMCs de elementos genómicos

están disponibles en el enlace 3.2 (véase la lista de enlaces).

3.6.2. ELEMENTOS REGULADORES DE LA TRANSCRIPCIÓN

En el genoma existen regiones que regulan la actividad transcripcional de los genes.

Dentro de esta categoría se encuentran los potenciadores, a lo que se unen proteínas

(factores de transcripción) para activar la transcripción de uno o varios genes, y los

aisladores, que bloquean la interacción entre potenciadores y promotores y previenen la

expansión de la heterocromatina de un gen silenciado a un gen transcripcionalmente

activo. Además de unirse a los potenciadores, los factores de transcripción puede unirse

a otras regiones para promover o bloquear el reclutamiento de la RNA polimerasa en

genes específicos. Estos lugares reciben el nombre de sitios de unión de factores de

transcripción o TFBSs. Existen, además, pequeñas regiones hipersensibles a la escisión

por DNAsa I y otras nucleasas que reciben el nombre de sitios hipersensibles a DNAsa I

o DHSs. En estas regiones la estructura nucleosomal es menos compacta, lo que facilita

la unión de proteínas (entre ellas, factores de transcripción) al DNA.

Tabla 3.5. Estadística de los elementos reguladores de la transcripción en relación a las DMCs y a las CpGs.

Tipo de elemento TFBS VISTA Enhancers Insulators DNase

Número de elementos 4283975 1309 310903 157556 1252829

DMCs en estos elementos (%) 25.81 0.14 3.86 4.75 30.41

CpGs en estos elementos (%) 23.70 0.09 3.68 5.29 25.89

Número medio de DMCs ± SD 0.5 ± 2 9 ± 9 1 ± 2 3 ± 4 2 ± 4

Número medio de CpGs ± SD 1 ± 8 16 ± 14 3 ± 6 8 ± 11 5 ± 11

Como se muestra en la tabla 3.4, los elementos reguladores de la transcripción son

abundantes y de pequeño tamaño. En promedio, TFBS, DHSs, potenciadores y

aisladores tienen una longitud de unos 300 pb, con la excepción del conjunto de

potenciadores VISTA, que presentan una longitud media cinco veces mayor. Los más

representados son los TFBSs, con más de cuatro millones de elementos. Le siguen los

DHSs, con más de un millón. Por su parte los potenciadores y los aisladores son,

respectivamente, diez y cinco veces más abundantes que los genes. La excepción de

nuevo son los potenciadores VISTA, que están poco representados por tratarse de

secuencias homólogas a potenciadores detectados in vivo en ratones transgénicos, a

diferencia de la anotación de ENCODE de potenciadores y aisladores, que se han

predicho a partir de la localización de TFBSs y de marcas de histonas en el caso de los

potenciadores y de clústeres de sitios de unión a CTCF en el caso de los aisladores. Los

TFBSs y los DHSs recogen una fracción importante del total de DMCs (25.81% y

30.41%, respectivamente). Sin embargo, los TFBSs muestran un fuerte

empobrecimiento en DMCs, mientras que los DHSs están moderadamente enriquecidos

en DMCs.Por su parte, el resto de elementos están moderadamente enriquecidos en

DMCs.Esto parece indicar que la metilación diferencial está más implicada en la

regulación de la actividad de potenciadores y de aisladores que en la regulación a nivel

de la unión de factores de transcripción (nótese que estos se unen a regiones de diversa

índole).

En la tabla 3.5 se muestra una estadística para un subconjunto de TFBSs implicados en

la unión de las RNA polimerasas II y III, si bien estos últimos están muy poco

representados. Estos elementos son de mayor tamaño que los otros (excepto los

potenciadores VISTA), con una longitud media en torno a 700 pb. Los sitios de unión de

la RNA polimerasa II recogen una fracción del total de DMCs relativamente alta (7.67%

del 23.70% que recoge el total de los TFBSs) y los sitios de unión de ambas RNA

polimerasas están más enriquecidos en DMCs que el resto de elementos.

Tabla 3.6. Estadística de los sitios de unión de las RNA polimerasas II y III en relación a las DMCs y a las CpGs.

Tipo de elemento Pol2 Pol3

Número de elementos 132278 228

DMCs en estos elementos (%) 7.67 0.01

CpGs en estos elementos (%) 10.14 0.03

Enriquecimiento en DMCs (rDMC) 2.65 1.61

Enriquecimiento en CpGs (rCpG) 3.60 4.76

Longitud media (pb) ± SD 662 ± 608 709 ± 338

Número medio de DMCs ± SD 5 ± 8 3 ± 6

Número medio de CpGs ± SD 19 ± 35 29 ± 19

Proporción media de DMCs ± SD 0.51 ± 0.40 0.16 ± 0.26

En cuanto a la proporción media de DMCs, los sitios de unión de la RNA polimerasa II,

los potenciadores VISTA, los aisladores y los DHSs presentan un valor alto (cercano o

superior a 0.5), mientras que el resto de elementos presenta un valor bastante bajo. Cabe

destacar, no obstante, que la proporción media de DMCs de los sitios de unión de la

RNA polimerasa III es baja debido a su enriquecimiento moderadamente alto en CpGs

(4.76).

La figura 3.11 muestra que todos los elementos presentan una distribución del

proporción de DMCs bimodal para 0 y 1, excepto los potenciadores VISTA, que

presentan una distribución trimodal para 0, 0.5 y 1, y los sitios de unión a la RNA

polimerasa III, que presentan una distribución con una sola moda en 0. En el caso de los

TFBSs y los potenciadores de ENCODE, la moda en 0 es más frecuente que la moda en

1 (siete y cuatro veces, respectivamente), mientras que en el caso de los potenciadores

vista la moda en 1 es el doble de frecuente que la moda en 0 e incluso la moda en 0.5 es

un poco mayor que la moda en 0. Por su parte, los DHSs, sitios de unión a la RNA

polimerasa II y los aisladores apenas presentan diferencias en la frecuencia de ambas

modas. Cabe destacar que los TFBSs, los sitios de unión a la RNA polimerasa II y los

aisladores de ENCODE presentan una frecuencia relativamente alta para el valor 0.5, al

igual que ocurría con los exones.

Figura 3.12. Distribución de la proporción de DMCs frente al total de CpGs para los elementos reguladores de la

transcripción.

3.6.3. SNVs Y ELEMENTOS EVOLUTIVAMENTE CONSERVADOS

Algunas regiones del genoma están evolutivamente conservadas, incluso entre especies

distantes. Entre estas destacan las regiones conservadas detectas por PhastCons para 46

especies de vertebrados o las detectadas por GERP para 35 especies de mamífero.

Como muestra la tabla 3.6, las primeras son muy cortas, con una media de 28 pb,

mientras que las segundas son unas diez veces mayores. En cuanto a su abundancia, las

primeras son casi cinco millones y las segundas casi un millón. Las regiones detectadas

por PhastCons casi no están enriquecidas en DMCs y las detectadas por GERP tiene un

enriquecimiento débil, a pesar de recoger en torno al 10% de las DMCs totales. Por otra

parte, existen regiones que evolucionan rápidamente, con sesgo mutacional en favor de

los alelos G/C (regiones PhastBiasGC). Estas regiones son más grandes, con casi 900

pb de media y presentan un enriquecimiento en DMCs moderado (2.38). Otras regiones

no conservadas son las variaciones recogidas por la base de datos dbSNP en los

conjuntos SNP138_common (polimorfismos) y SNP138_flagged (variaciones

potencialmente asociadas al desarrollo de patologías). Tanto en uno como en otro se

recogen mutaciones puntuales y pequeñas inserciones o deleciones. Son de pequeño

tamaño, con una media de unos 2 pb (muchos de ellos afectan solo a 1 pb) y el conjunto

SNP138_common comprende más de trece millones de elementos, mientras que el

conjunto SNP138_flagged no llega a los sesenta mil. En cuanto a su enriquecimiento en

DMCs, el conjunto SNP138_common está bastante enriquecido (4.91) y el conjunto

SNP138_flagged está moderadamente enriquecido (2.67).

Tabla 3.7. Estadística de las SNVs y los elementos evolutivamente conservados en relación a las DMCs y a las CpGs.

Tipo de elemento PhastCons GERP PhastBiasGC SNP138_common SNP138_flagged

Número de elementos 4953131 998057 8321 13240450 57600

DMCs en estos elementos (%) 5.29 10.32 0.61 4.48 0.02

CpGs en estos elementos (%) 6.08 10.03 0.56 3.29 0.02

Número medio de DMCs ± SD 0.09 ± 0.58 0.91 ± 3.15 6.41 ± 12.23 0.02 ± 0.17 0.03 ± 0.24

Número medio de CpGs ± SD 0.30 ± 1.45 2.46 ± 8.41 16.59 ± 28.19 0.06 ± 0.24 0.10 ± 1.71

La distribución de la proporción media de DMCs, mostrada en la figura 3.12, es

bimodal para todos los elementos, si bien las regiones PhastCons y los dos conjuntos de

dbSNP presentan una moda con frecuencia muy alta en 0 y una moda con muy baja

frecuencia en 1. Sin embargo, las regiones GERP y PhastBiasGC presentan una

frecuencia moderadamente alta para la moda en 1, siendo la moda en 0 solo dos y tres

veces más frecuente, respectivamente. Además, ambas distribuciones muestran una

frecuencia destacable para 0.5, al igual que ocurría con los exones y algunos elementos

reguladores de la transcripción.

Figura 3.13. Distribución de la proporción de DMCs frente al total de CpGs para las variaciones de secuencia y los elementos

evolutivamente conservados.

Basándonos en estos datos, parece que las regiones más conservadas tienen perfiles de

metilación más estables que las regiones de evolución rápida y que las regiones

polimórficas.

5. CONCLUSIONES

A la vista de los resultados obtenidos, se pueden extraer las siguientes conclusiones:

El análisis preliminar de los mapas de metilación mediante correlación de

Pearson, métodos de agrupamiento y análisis de componentes principales

proporciona una visión global que está muy de acuerdo con las semejanzas

biológicas entre las muestras.

Pese a ciertas discrepancias en los conjuntos de DMCs detectados por cada

método, la definición del conjunto consenso de DMCs como la intersección de

los resultados de los cuatro métodos permite disponer de mapas de DMCs de

mayor calidad, a la par que se recoge una fracción importante de las DMCs

detectadas.

La proporción de DMCs frente al total de CpGs por par de muestras es coherente

con el linaje celular al que pertenecen las muestras, al igual que el análisis de

correlación, pero ambos difieren en la relación que guardan los linajes entre sí.

El estudio del contenido en DMCs sugiere que debe redefinirse el concepto de

DMI, dado que la décima parte de estas presenta una proporción de DMCs

menor al 10%.

El enriquecimiento en DMCs en exones, sitios de inicio y final de la

transcripción, potenciadores, aisladores y sitios de unión de la RNA polimerasa

II constata el papel importante de la metilación diferencial en la regulación de la

expresión génica.

6. PERSPECTIVAS DE FUTURO

En futuros estudios, sería interesante profundizar en el estudio del contenido en DMCs

de las DMIs, ya que algunas DMIs parecen presentar un bajo número de DMCs.Esto

podría deberse a que en el estudio de las DMIs no se han excluido las citosinas sin

dados para alguna de las muestras. Las DMCs podrían utilizarse para excluir DMIs de

baja calidad.

Por otra parte, la sexta parte de los exones presentan un elevado número de DMCs.Sería

interesante estudiar cuántos de estos exones corresponden al primer exón o a genes sin

intrones.

También sería conveniente estudiar la metilación diferencial en muestras de ratón de

los mismos linajes celulares estudiados para humanos, así como realizar un análisis

comparativo entre especies. Para ello la base de datos NGSmethDB (Hackenberg et al.

2010, Geisen et al. 2014) dispone de una amplia colección de mapas de metilación de

humano y de ratón.

Por otra parte, en plantas la metilación en los contextos CHG y CHH no es despreciable

(Henderson et al. 2007) y está regulada de forma distinta a la metilación en contextos

CG (Chan et al. 2005). Por ello, sería relevante analizar la metilación en diferentes

contextos en muestras de plantas. Concretamente, este estudio preliminar ayudará a

abrir camino al análisis de la metilación diferencial de varios cultivares de tomate en

relación con la resistencia a la araña roja en un Proyecto de Investigación Coordinado

(AGL2013-49090-C2-2-R) con la Universidad de Almería.

LISTA DE ABREVIATURAS

CGI: CpG island.

DHS: DNase I hypersensitive site.

DMC: differentially methylated cytosine.

DMI: differentially methylated (CpG)island.

DMR: differentially methylated region.

ENCODE: the encyclopedia of DNA elements.

MI: methylated (CpG)island.

SNP: single nucleotide polymorphism.

SNV: single nucleotide variant.

TFBS: transcription factor binding sites.

UI: unmethylated (CpG)island.

LISTA DE FIGURAS

Figura 1.14. Número de publicaciones sobre epigenética entre los años 1994 y 2013. La gráfica representa el número de

publicaciones que contienen los términos “Epigenetic” o “Epigenomic” incluidas en la base de datos PubMed durante los

últimos 20 años (1994-2013). Además, se incluyen algunos de los hitos, tanto técnicos como científicos, más importantes en la

investigación epigenética: la aparición del primer método de secuenciación masiva (454 sequencing en el año 2000), la

fundación del consorcio ENCODE (Consortium 2004), la publicación de los resultados del proyecto piloto de ENCODE

(Birney et al. 2007), la incorporación de Illumina al mercado de la secuenciación masiva (2007), la fundación del consorcio

ROADMAP Epigenomics (Bernstein et al. 2010) y la publicación en septiembre de 2012 de 29 artículos (enlace 1.1) con los

resultados obtenidos a partir del proyecto ENCODE. Figura extraída de Barturen 2014b.

Figura 3.15. Matriz de correlación para los once mapas de metilación. Se muestran los histogramas con la distribución del

nivel de metilación en el contexto CG para las once muestras (en la diagonal) y los coeficientes de correlación de Pearson (en

la matriz triangular superior) y los diagramas de dispersión de los mapas de metilación (en la matriz triangular inferior)

para los cincuenta y cinco pares de muestras.

Figura 3.16. Agrupamiento jerárquico de las muestras en función de su correlación de Pearson.

Figura 3.17. Fracción de la varianza absorbida por cada componente principal (PC).

Figura 3.18. Dispersión de las muestras en función del segundo componente principal (PC2) frente al primero (PC1).

Figura 3.19. Diagrama de Venn de los conjuntos de DMCs por método. Los datos utilizados corresponden a la tabla

DMCdb_hg19_method. El valor abajo a la derecha representa el número total de DMCs detectadas por al menos un método.

Figura 3.20. Proporción de las DMCs totales recogidas por cada método y por el consenso (en naranja).

Figura 3.21. Agrupamiento jerárquico de las muestras en función de su proporción de DMCs frente al total de CpGs. El

método de aglutinamiento utilizado es el método de Ward, el mismo que se utilizó en el dendrograma de correlación.

Figura 3.22. Distribución de la proporción de DMCs frente al total de CpGs para las CGIs.

Figura 3.23. Distribución de la proporción de DMCs frente al total de CpGs para los elementos de la región génica.

Figura 3.24. Gráfico CIRCOS del cromosoma 4 del genoma humano con la pistas de tipo histograma con la anotación de las

DMCs en elementos de la región génica. Las pistas, desde fuera hacia dentro son: gene500, cdsIntrons, R13, R8 y cdsExons.

Figura 3.25. Distribución de la proporción de DMCs frente al total de CpGs para los elementos reguladores de la

transcripción.

Figura 3.26. Distribución de la proporción de DMCs frente al total de CpGs para las variaciones de secuencia y los elementos

evolutivamente conservados.

LISTA DE TABLAS

Tabla 2.8. Mapas de metilación de la base de datos NGSmethDB utilizados en este estudio.

Tabla 3.9. Matriz de DMCs entre pares de muestras. La matriz superior muestra el número total de DMCs para cada par,

mientras que la matriz inferior muestra el porcentaje de DMCs frente al total CpGs para cada par. Las casillas coloreadas

indican que las dos muestras del par corresponden al mismo clúster según el dendrograma de correlación de Pearson: en

naranja las muestras del linaje hematopoyético, en azul las muestras de tejido conectivo y en morado el clúster de células

madre embrionarias y córtex prefrontal. Se han resaltado en negrita aquellos pares con más de un 5% de DMCs y en rojo

aquellos con más de un 10%. Los datos utilizados corresponden a la tabla DMCdb_hg19_pairs_consensus. ff:

foreskinfibroblast; pc: prefrontalcortex.

Tabla 3.10. Estadística de las DMIs en relación a las DMCs y a las CpGs.

Tabla 3.11. Estadística de los elementos de la región génica en relación a las DMCs y a las CpGs.

Tabla 3.12. Estadística de los elementos reguladores de la transcripción en relación a las DMCs y a las CpGs.

Tabla 3.13. Estadística de los sitios de unión de las RNA polimerasas II y III en relación a las DMCs y a las CpGs.

Tabla 3.14. Estadística de las SNVs y los elementos evolutivamente conservados en relación a las DMCs y a las CpGs.

LISTA DE ENLACES

Enlace 1.1. Resultados del Proyecto ENCODE: http://www.nature.com/ENCODE

Enlace 2.1. Web de la base de datos NGSmethDB: http://bioinfo2.ugr.es/NGSmethDB

Enlace 2.2. Web del programa NGSmethPipe: http://bioinfo2.ugr.es/NGSmethPipe

Enlace 2.3. Web del programa MethylExtract: http://bioinfo2.ugr.es/MethylExtract

Enlace 2.4. Tutorial para la creación de un track hub de UCSC:

http://genome.ucsc.edu/goldenPath/help/hgTrackHubHelp.html

Enlace 2.5. Descripción del formato bigWig:

http://genome.ucsc.edu/goldenPath/help/bigWig.html

Enlace 2.6. Tutorial para la creación de un gráfico CIRCOS:

http://CIRCOS.ca/documentation/tutorials

Enlace 3.1. Track hub de UCSC con los mapas de DMCs: http://genome.ucsc.edu/cgi-

bin/hgTracks?db=hg19&hubUrl=http://bioinfo2.ugr.es/DMCdb_hub/hub.txt

Enlace 3.2. Gráficos CIRCOS de la anotación en DMCs de diferentes elementos genómicos:

http://bioinfo2.ugr.es/DMCdb/CIRCOS

BIBLIOGRAFÍA

Akalin, A. et al. 2012. methylKit: a comprehensive R package for the analysis of genome-wide

DNA methylation profiles. Genome Biol. 13: R87.

Barturen, G. 2014. Regiones genómicas implicadas en la metilación diferencial del DNA.Tesis

Doctoral, Universidad de Granada.

Barturen, G. et al. 2014. MethylExtract: High-Quality methylation maps and SNV calling from

whole genome bisulfite sequencing data. F1000Research. 2: 217.

Baylin, S. B. et al. 2001. Aberrant patterns of DNA methylation, chromatin formation and gene

expression in cancer. Hum. mol. gen. 10: 687.

Bell, J. T. and Spector, T. D. 2012. DNA methylation studies using twins: what are they telling

us?. Genome Biol. 13: 172.

Bell, J. T. et al. 2011. DNA methylation patterns associate with genetic and gene expression

variation in HapMap cell lines. Genome Biol. 12: R10.

Berger, S. L. et al. 2009. An operational definition of epigenetics. Genes Dev. 23: 781.

Bernstein, B. E. et al. 2010. The NIH Roadmap Epigenomics Mapping Consortium. Nat.

Biotechnol. 28: 1045.

Bird, A. 2002. DNA methylation patterns and epigenetic memory. Genes Dev. 16: 6.

Bird, A. 2007. Perceptions of epigenetics. Nature. 447: 396.

Birney, E. et al. 2007. Identification and analysis of functional elements in 1% of the human

genome by the ENCODE pilot project. Nature. 447: 799.

Bonasio, R. et al. 2010. Molecular signals of epigenetic states. Science. 330: 612.

Cedar, H. and Bergman, Y. 2009. Linking DNA methylation and histone modification: patterns

and paradigms. Nature Rev. Genet. 10: 295.

Chan, S. W. et al. 2005. Gardening the genome: DNA methylation in Arabidopsis thaliana.

Nature Rev. Genet. 6: 351.

Cheng, X. and Blumenthal, R. M. 2008. Mammalian DNA methyltransferases: a structural

perspective. Structure. 16: 341.

Cokus, S. J. et al. 2008. Shotgun bisulphite sequencing of the Arabidopsis genome reveals DNA

methylation patterning. Nature. 452: 215.

Consortium, E. p. 2004. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 306:

Consortium, E. p. et al. 2012. An integrated encyclopedia of DNA elements in the human

genome. Nature. 489: 57.

Davydov, E. V. et al. 2010. Identifying a high fraction of the human genome to be under

selective constraint using GERP++. PLoS Comput. Biol. 6: e1001025.

De Smet, C. et al. 1999. DNA methylation is the primary silencing mechanism for a set of germ

line- and tumorspecific genes with a CpG-rich promoter. Mol. cell. biol. 19: 7327.

Ehrlich, M. et al. 1982. Amount and distribution of 5-methylcytosine in human DNA from

different types of tissues of cells. Nucl. Acids Res. 10: 2709.

Esteller, M. et al. 2001. A gene hypermethylation profile of human cancer. Cancer Res. 61:

Feng, H. et al. 2014. A Bayesian hierarchical model to detect differentially methylated loci from

single nucleotide resolution sequencing data. Nucl. Acids Res. 42: e69.

Gardiner-Garden, M. and Frommer, M. 1987. CpG islands in vertebrate genomes. J. Mol. Biol.

196:261.

Geisen, S. et al. 2014. NGSmethDB: an updated genome resource for high quality, single-

cytosine resolution methylomes. Nucl. Acids Res. 42: D53.

Goll, M. G. and Bestor, T. H. 2005. Eukaryotic cytosine methyltransferases. Annu. Rev.

Biochem. 74: 481.

Hackenberg, M. et al. 2006. CpGcluster: A distance-based algorithm for CpG-island detection.

BMC Bioinformatics. 7: 446.

Hackenberg, M. et al. 2010. NGSmethDB: A database for next-generation sequencing single-

cytosine-resolution DNA methylation data. Nucl. Acids Res. 1: 1.

Hackenberg, M. et al. 2011. WordCluster: detecting clusters of DNA words and genomic

elements. Algorithm. Mol. Biol. 6:2.

Hackenberg, M. et al. 2012. DNA Methylation Profiling from High-Throughput Sequencing

Data. In: DNA Methylation – From Genomics to Technology. Dr. Tatiana Tatarinova (Ed.),

ISBN: 978-953-51-0320-2, InTech.

Hansen, K. D. et al. 2012. BSmooth: from whole genome bisulfite sequencing reads to

differentially methylated regions. Genome Biol. 13: R83.

Hebestreit, K. et al. 2013. Detection of significantly differentially methylated regions in targeted

bisulfite sequencing data. Bioinformatics. 20: 1647.

Hellman, A. and Chess, A. 2007. Gene body-specific methylation on the active X chromosome.

Science. 315: 1141.

Henderson, I. R. & Jacobsen, S. E. 2007. Epigenetic inheritance in plants. Nature. 447: 418.

Hodges, E. et al. 2011. Directional DNA methylation changes and complez intermediate states

accompany lineage specificity in the adult hematopoietic compartment. Mol. Cell. 44: 17.

Holliday, R. 1994. Epigenetics: an overview. Dev. Genet. 15: 453.

Hon, G. C. et al. 2012. Global DNA hypomethylation coupled to repressive chromatin domain

formation and gene silencing in breast cancer. Genome Res. 22: 246.

Hon, G. C. et al. 2013. Epigenetic memory at embryonic enhancers identified in DNA

methylation maps from adult mouse tissues. Nat. Genet. 45: 1198.

Hubisz, M. J. et al. 2011. PHAST and RPHAST: phylogenetic analysis with space/time models.

Brief Bioinform. 12: 41.

Issa, J. p. 2004. CpG island methylator phenotype in cancer. Nat. Rev. 4: 988.

Kim, J. K. et al. 2009. Epigenetic mechanisms in mammals. Cell. Mol. Life Sci. 66: 596.

Klose, R. J. and Bird, A. p. 2006. Genomic DNA methylation: the mark and its mediators. Trends

Biochem. Sci. 31: 89.

Lander, E. S. et al. 2001. Initial sequencing and analysis of the human genome. Nature. 409:

Laurent, L. et al. 2010. Dynamic changes in the human methylome during differentiation.

Genome Res. 20: 320.

Li, S. et al. 2013. An optimized algorithm for detecting and annotating regional differential

methylation. BMC Bioinformatics. 14: S10.

Li, Y. et al. 2010. The DNA methylome of human peripheral blood mononuclear cells. PLoS

Biol. 8: e1000533.

Lister, R. and Ecker, J. R. 2009. Finding the fifth base: genome-wide sequencing of cytosine

methylation. Genome Res. 19: 959.

Lister, R. et al. 2008. Highly integrated single-base resolution maps of the epigenome in

Arabidopsis. Cell. 133: 523.

Lister, R. et al. 2009. Human DNA methylomes at base resolution show widespread epigenomic

differences. Nature. 462: 315.

Mann, J. R. 2014. Epigenetics and memigenetics. Cell. Mol. Life Sci. 71: 1117.

Mendel, G. 1866. Versuche über Pflanzen-Hybriden. Verh. Naturforsch. Ver. Brünn 4: 3 (in

English, J. R. 1901. Hortic. Soc. 26: 1).

Moarefi, A. H. and Chedin, F. 2011. ICF syndrome mutations cause a broad spectrum of

biochemical defects in DNMT3B-mediated de novo DNA methylation. J. Mol. Biol. 409: 758.

Molaro, A. et al. 2011. Sperm methylation profiles reveal features of epigenetic inheritance. Cell.

146: 1029.

Pruitt, K. D. et al. 2007. NCBI reference sequences (RefSeq): a curated non-redundant sequence

database of genomes, transcripts and proteins. Nucl. Acids Res. 35: D61.

Ramsahoye, B. H. et al. 2000. Non-CpG methylation is prevalent in embryonic stem cells and

may be mediated by DNA methyltransferase 3a. Proc. Natl Acad. Sci. USA. 97: 5237.

Riazalhosseini, Y. and Hoheisel, J. D. 2008. Do we use the appropriate controls for the

identification of informative methylation markers for early cancer detection?. Genome biol. 9:

Riggs, A. D. et al. 1996. Introduction. In: Riggs, A. D. et al. (eds) Epigenetic mechanisms of

gene regulation. Cold Spring Harbor Laboratory Press, New York.

Saito, Y. et al. 2014. Bisulfighter: accurate detection of methylated cytosines and differentially

methylated regions. Nucl. Acids Res. 42: e45.

Sherry, S. T. et al. 2001. dbSNP: the NCBI database of genetic variation. Nucl. Acids Res. 29:

Shukla, S. et al. 2011. CTCF-promoted RNA polymerase II pausing links DNA methylation to

splicing. Nature. 479: 74.

Siepel, A. 2005. Evolutionarily conserved elements in vertebrate, insect, worm, and yeast

genomes. Genome Res. 15: 1034.

Song, F. et al. 2005. Association of tissue-specific differentially methylated regions (TDMs)

with differential gene expression. Proceedings of the National Academy of Sciences of the

United States of America. 102: 3336.

Stockwell, p. A. et al. 2014. DMAP: differential methylation analysis package for RRBS and

WGBS data. Bioinformatics. 30: 1814.

Sun, D. et al. 2014. MOABS: model based analysis of bisulfite sequecing data. Genome Biol. 15:

Suzuki, M. M. and Bird, A. 2008. DNA methylation landscapes: provocative insights from

epigenomics. Nat. Rev. Genet. 9: 465.

Varley, K. E. et al. 2013. Dynamic DNA methylation across diverse human cell lines and tissues.

Genome Res. 23: 555.

Venter, J. C. et al. 2001. The sequence of the human genome. Science. 291: 1304.

Visel, A. et al. 2007. vista Enhancer Browser--a database of tissue-specific human enhancers.

Nucl. Acids Res. 35: D88.

Waddington, C. H. 1942. The epigenotype. Endeavour. 1: 18.

Yoder, J. A. et al. 1997. Cytosine methylation and the ecology of intragenomic parasites. Trends

Genet. 13: 335.

Zhang, Y. et al. 2011. QDMR: a quantitative method for identification of differentially

methylated regions by entropy. Nucl. Acids Res. 39: e58.

Zhang, X. et al. 2006. Genome-wide high-resolution mapping and functional analysis of DNA

methylation in Arabidopsis. Cell. 126: 1189.

Zhu, J. et al. 2008. On the nature of human housekeeping genes. Trends Genet. 24: 481.

Ziller, M. J. et al. 2013. Charting a dynamic DNA methylation landscape of the human genome.

Nature. 500: 477.

ANEXOS

ANEXO I. FORMATO DE SALIDA DE METHYLEXTRACT

El formato de salida utilizado por MethylExtract consiste en un fichero de texto plano

para cada muestra, compuesto por columnas separadas por tabuladores y en el que cada

fila contiene los datos de un CpG. Las columnas son las siguientes:

chrom: primera columna de las coordenadas genómicas, en la que se indica el

cromosoma al que pertenece el CpG. El cromosoma se nombra utilizando el

prefijo "chr" seguido del índice (número y/o letra) del cromosoma.

pos: segunda columna de las coordenadas genómicas, en la que se indica la

posición dentro del cromosoma en la que se localiza la primera base de la hebra

Watson del CpG. Es la llamada coordenada de inicio o "chromStart".

context: esta columna se refiere al contexto de metilación del CpG. Puede

tratarse de un contexto con o sin ambigüedad para la citosina.

Watson METH: esta columna indica el número de lecturas que alinean con la

hebra Watson de la referencia en las coordenadas genómicas correspondientes al

CpG y que evidencian que la primera citosina está metilada.

Watson COVERAGE: esta columna indica el número total de lecturas que

alinean con la hebra Watson de la referencia en las coordenadas genómicas

correspondientes al CpG, evidencien o no que la primera citosina está metilada.

Watson QUAL: esta columna indica el valor de calidad PHRED medio para la

totalidad de lecturas que alinean con la hebra Watson de la referencia en las

coordenadas genómicas correspondientes al CpG.

Crick METH: esta columna indica el número de lecturas que alinean con la

hebra Crick de la referencia en las coordenadas genómicas correspondientes al

CpG y que evidencian que la segunda citosina está metilada.

Crick COVERAGE: esta columna indica el número total de lecturas que alinean

con la hebra Crick de la referencia en las coordenadas genómicas

correspondientes al CpG, evidencien o no que la segunda citosina está metilada.

Crick QUAL: esta columna indica el valor de calidad PHRED medio para la

totalidad de lecturas que alinean con la hebra Crick de la referencia en las

coordenadas genómicas correspondientes al CpG.

ANEXO II. FORMATO DE ENTRADA DE BISULFIGHTER

Se trata también de un fichero de texto con columnas separadas por tabuladores, pero en

este caso en lugar de contener los datos de metilación de una sola muestra contiene los

datos del par de muestras que se van a comparar. En este formato, cada fila contiene los

datos de un CpG de las dos muestras a comparar.

Debe cumplir los siguientes requisitos:

No debe tener encabezado. En otras palabras, la primera línea del fichero debe

contener los datos del primer CpG en lugar de los nombres de las columnas.

Los datos deben estar ordenados en función de las coordenadas genómicas, en

orden creciente. Esto es, las filas deben estar primero ordenadas alfabéticamente

según el nombre del cromosoma y luego ordenadas numéricamente por la

posición de inicio dentro del cromosoma.

En cuanto a las columnas que contiene este fichero, son las siguientes:

La primera columna indica el cromosoma al que pertenece el CpG.

La segunda columna indica la posición del CpG dentro del cromosoma.

La tercera columna indica el número total de lecturas que evidencian que el CpG

está metilado en la primera muestra de las dos muestras a comparar.

La cuarta columna indica el número total de lecturas que evidencian que el CpG

no está metilado en la primera muestra de las dos muestras a comparar.

La quinta columna indica el número total de lecturas que evidencian que el CpG

está metilado en la segunda muestra de las dos muestras a comparar.

La sexta columna indica el número total de lecturas que evidencian que el CpG

no está metilado en la segunda muestra de las dos muestras a comparar.

ANEXO III. FORMATO DE ENTRADA DE METHYLKIT

Se trata de ficheros de texto con columnas separadas por tabuladores que contienen,

cada uno de ellos, los datos de metilación de una sola muestra. Cada fila contiene los

datos de una citosina y no de un CpG.

Deben cumplir los siguientes requisitos:

Los ficheros de entrada deben tener encabezado. En otras palabras, la primera

línea del fichero debe contener los nombres de las columnas, tal y como se

indican más abajo en la descripción del contenido de estos ficheros, respetando

mayúsculas y minúsculas.

No es necesario ordenar los datos en función de las coordenadas genómicas.

En cuanto a las columnas que contiene cada fichero de entrada, son las siguientes:

chrBase: identificador único de cada citosina, compuesto por la concatenación

de las dos columnas siguientes (chr y base) utilizando un punto (".") como

separador.

chr: indica el cromosoma al que pertenece la citosina.

base: indica la posición en la que se localiza la citosina.

strand: indica la hebra en la que se localiza la citosina. Si se trata de la hebra

Watson el valor es F (de forward), mientras que si se trata de la hebra Crick el

valor es R (de reverse).

coverage: indica el número de lecturas que alinean con la referencia en las

coordenadas genómicas correspondientes a la citosina, independientemente de si

evidencian que dicha citosina está metilada o no.

freqC: indica el porcentaje (sin el símbolo %) de las lecturas totales que

evidencian que la citosina está metilada.

freqT: indica el porcentaje (sin el símbolo %) de las lecturas totales que

evidencian que la citosina no está metilada.

ANEXO IV. FORMATO DE ENTRADA DE MOABS

Se trata de ficheros de texto con columnas separadas por tabuladores que contienen,

cada uno de ellos, los datos de metilación de una sola muestra. Cada fila contiene los

datos de un CpG de las dos muestras a comparar.

Deben cumplir los siguientes requisitos:

Deben tener encabezado. En otras palabras, la primera línea del fichero debe

contener los nombres de las columnas, tal y como se indican más abajo en la

descripción del contenido de estos ficheros, respetando mayúsculas y

minúsculas.

Los datos deben estar ordenador en función de las coordenadas genómicas, en

orden creciente. Esto es, las filas deben estar primero ordenadas alfabéticamente

según el nombre del cromosoma y luego ordenadas numéricamente por la

coordenada de inicio dentro del cromosoma.

En cuanto a las columnas que contiene cada fichero de entrada, son las siguientes:

#chrom: indica el cromosoma al que pertenece el CpG.

start: indica la posición dentro del cromosoma en la que se localiza la primera

base del CpG.

end: indica la coordenada de final (+1) del CpG.

ratio: indica el tanto por uno de las lecturas totales que evidencian la metilación

del CpG.

strand: indica para que hebras se dispone de datos de metilación. Puede adoptar

tres valores:

► B (de both), cuando se dispone de datos para ambas hebras.

► + , cuando solo se dispone de datos para la hebra Watson.

► - , cuando solo se dispone de datos para la hebra Crick.

next: esta columna contiene una sola letra y se utiliza para diferenciar al

contexto CG de los otros contextos. Cuando el valor de esta columna es G, el

programa interpreta que esta fila contiene los datos de metilación de un CpG.

Plus: indica que las dos siguientes columnas contienen los datos de metilación

referentes a la hebra Watson. El valor de esta columna es siempre + .

totalC: indica el número total de lecturas que alinean con la hebra Watson de la

referencia en las coordenadas genómicas correspondientes al CpG,

independientemente de si evidencian o no metilación del CpG.

methC: indica el número de lecturas que evidencian que el CpG está metilado en

la hebra Watson.

Minus: indica que las dos siguientes columnas contienen los datos de metilación

referentes a la hebra Crick. El valor de esta columna es siempre - .

totalC: indica el número total de lecturas que alinean con la hebra Crick de la

referencia en las coordenadas genómicas correspondientes al CpG,

independientemente de si evidencian o no metilación del CpG.

methC: indica el número de lecturas que evidencian que el CpG está metilado en

la hebra Crick.

localSeq: indica el nombre de la muestra de la que se obtuvieron los datos.

ANEXO V. FORMATO DE SALIDA DE BISULFIGHTER

El fichero de salida con los datos de las DMCs de Bisulfighter es un fichero de texto con

columnas separadas por tabuladores y sin encabezado. Cada fila contiene los datos de

una DMC y consta de las siguientes columnas:

La primera columna indica el cromosoma al que pertenece la DMC.

La segunda columna indica la posición de inicio de la DMC dentro del

cromosoma.

La tercera columna indica el tanto por uno de las lecturas totales que evidencian

la metilación de la DMC en la primera muestra.

La cuarta columna indica el tanto por uno de las lecturas totales que evidencian

la metilación de la DMC en la segunda muestra.

La quinta columna indica la probabilidad, en tanto por uno, de hipermetilación

de la DMC en la primera muestra frente a la segunda. Es la probabilidad de estar

en el estado UP.

La sexta columna indica la probabilidad, en tanto por uno, de hipometilación de

la DMC en la primera muestra frente a la segunda. Es la probabilidad de estar en

el estado DOWN.

La séptima columna indica la probabilidad, en tanto por uno, de que no haya

cambios en la metilación de la DMC entre las dos muestras. Es la probabilidad

de estar en el estado NoCh.

ANEXO VI. FORMATO DE SALIDA DE METHYLKIT

El fichero de salida con los datos de las DMCs de methylKit es un fichero de texto con

columnas separadas por tabuladores y con encabezado. Cada fila contiene los datos de

una DMC y consta de las siguientes columnas:

chr: indica el cromosoma al que pertenece la DMC.

start: indica la posición de inicio de la DMC dentro del cromosoma.

end: pese a su nombre, el valor de esta columna es igual al valor de la columna

start.

strand: pese a su nombre, el valor de esta columna es siempre + .

pvalue: indica el valor de p de la DMC para el par de muestras comparado.

qvalue: indica el valor de q de la DMC para el par de muestras comparado.

meth.diff: indica el resultado, con signo, de sustraer al porcentaje de metilación

de la DMC para la primera muestra el porcentaje de metilación de la DMC para

la segunda muestra.

ANEXO VII. FORMATO DE SALIDA DE MOABS

El fichero de salida con los datos de las DMCs de MOABS (con la extensión .cvd.txt) es

un fichero de texto con columnas separadas por tabuladores y sin encabezado. Cada fila

contiene los datos de una DMC y consta de las siguientes columnas, a las que daremos

los nombres que indica la documentación del programa:

#chrom: indica el cromosoma al que pertenece la DMC.

start: indica la posición de inicio de la DMC dentro del cromosoma.

end: indica la posición de final de la DMC dentro del cromosoma.

totalC_0: indica la suma de la cobertura de ambas hembras de la DMC en la

primera muestra.

nominalRatio_0: indica el tanto por uno de las lecturas totales que evidencian la

metilación de la DMC para la primera muestra.

ratioCI_0: indica el intervalo de confianza para el valor de la columna

nominalRatio_0. El valor de esta columna está compuesto por el valor del límite

inferior del intervalo de confianza y por el valor del límite superior, con una

coma (",") como separador.

totalC_1: indica la suma de la cobertura de ambas hembras de la DMC en la

segunda muestra.

nominalRatio_1: indica el tanto por uno de las lecturas totales que evidencian la

metilación de la DMC para la segunda muestra.

ratioCI_1: indica el intervalo de confianza para el valor de la columna

nominalRatio_1. El valor de esta columna está compuesto por el valor del límite

nominalDif_1-0: indica la diferencia en el porcentaje de metilación de la DMC

entre ambas muestras.

credibleDif_1-0: indica la diferencia creíble en el porcentaje de metilación de la

DMC entre ambas muestras.

difCI_1-0: indica el intervalo de confianza para el valor de la columna

nominalDif_1-0. El valor de esta columna está compuesto por el valor del límite

p_sim_1_v_0: indica el valor p del valor de la columna nominalDif_1-0 para el

test de similaridad.

p_fet_1_v_0: indica el valor p del valor de la columna nominalDif_1-0 para el

test exacto de Fisher.

type: indica el tipo de DMC según la signo del valor de la columna

nominalDif_1-0 y la significación estadística para los valores de las columnas

p_sim_1_v_0 y p_fet_1_v_0. Adopta uno de los siguientes valores:

► hyper: indica que la DMC está hipermetilada en la segunda muestra con

respecto a la primera y que el valor de la columna p_sim_1_v_0 o el

valor de la columna p_fet_1_v_0 es menor que 0.05 (solo uno de los dos

valores, no ambos).

► strongHyper: indica que la DMC está hipermetilada en la segunda

muestra con respecto a la primera y que tanto el valor de la columna

p_sim_1_v_0 como el valor de la columna p_fet_1_v_0 son menores que

► hypo: indica que la DMC está hipometilada en la segunda muestra con

respecto a la primera y que el valor de la columna p_sim_1_v_0 o el

valor de la columna p_fet_1_v_0 es menor que 0.05 (solo uno de los dos

valores, no ambos).

► strongHypo: indica que la DMC está hipometilada en la segunda muestra

con respecto a la primera y que tanto el valor de la columna

p_sim_1_v_0 como el valor de la columna p_fet_1_v_0 son menores que

Metilación diferencial en el genoma humano -...

Documents

geometria diferencial

Cálculo Diferencial

ARTÍCULO Y OBJETIVO - Servicio Urgencias Hospital de la ... · DIAGNÓSTICO DIFERENCIAL Normocítica . DIAGNÓSTICO DIFERENCIAL Normocítica . DIAGNÓSTICO DIFERENCIAL Macrocítica

destilacion diferencial

análisis de los cambios epigenéticos en la metilación del dna

CINEMÁTICA DIFERENCIAL. Cinemática Diferencial Cinemática De Velocidade =

Defectos de metilación - E-HOD - European Network and ... Dietary proteins Los defectos de metilación son trastornos del metabolismo de la metionina. La metionina es un aminoácido

Máster Online en Dermatología Pediátrica...Dermatosis erosivas y ampollosas. 1.4.1. Dermatosis erosivas y diagnóstico diferencial. 1.4.2. Dermatosis Ampollosas y diagnóstico diferencial

Metilación en Promotor de Nf-kb P-65

ANOMALÍAS EN EL PERFIL DE METILACIÓN COMO … · tesis doctoral anomalÍas en el perfil de metilaciÓn como bio-marcador en el cÁncer de mama joaquina martÍnez galÁn oncología

El panel de metilación Metilación: Una clave importante para el … · 2020. 8. 10. · para el panel de metilación de Genova? Genova ofrece a los pacientes opciones de pago flexibles

APLICAÇÕES COMERCIAIS - CBSnotes · > Curva constante; > Pressão diferencial constante; > Pressão diferencial proporcional calculada; > Pressão diferencial proporcional mensurável;

Metilación ADN

CICLO DE LA METILACIÓN, TRANSULFURACIÓN, CONJUGACIÓN

la metilación del ADN !! y la región promotora del gen ... · Efecto de la alimentación con metionina sobre la metilación del ADN y la región promotora del gen PPARA en hígado

Portfólio Diferencial

OCLUSIÓN Y PRÓTESIS SOBRE IMPLANTES · PDF fileDirector del Máster de Oclusión y Prótesis sobre Implantes de la ESI ... o Protocolo clínico de diagnóstico diferencial entre

Manual Diferencial

Diagnóstico diferencial

EVOLUCIÓN DE PATRONES EPIGENÉTICOS - …bioinfo2.ugr.es/presentaciones/EvolMol/Metilaci%f3nADN.pdf · EVOLUCIÓN DE PATRONES EPIGENÉTICOS METILACIÓN DEL ADN CONTEXTOS DE METILACIÓN