View
216
Download
0
Category
Preview:
Citation preview
TRABAJO FIN DE MÁSTER
Máster en Biotecnología
Metilación diferencial en el
genoma humano
Ricardo Lebrón Aguilar
DPTO. DE GENÉTICA
FACULTAD DE CIENCIAS
UNIVERSIDAD DE GRANADA
Granada, septiembre de 2014
Los Drs. José L. Oliver Jiménez y Michael Hackenberg, como codirectores del Trabajo
Fin de Máster que presenta el Licenciado Ricardo Lebrón Aguilar,
CERTIFICAN
que el trabajo desarrollado e incluido en la presente memoria: “Metilación diferencial en
el genoma humano”, es apto para ser presentado y aspirar al Título de Máster en
Biotecnología por la Universidad de Granada.
Fdo.: Dr. José L. Oliver Jiménez Fdo.: Dr. Michael Hackenberg
AGRADECIMIENTOS
Desde que tengo uso de razón mi curiosidad me ha impulsado en mi incansable
búsqueda del conocimiento. Mi verdadera vocación por la Ciencia no salió a relucir
hasta mi adolescencia. Aún recuerdo esa sensación de ingravidez. Mi mente divagaba
sin rumbo fijo entre un sinfín de conjeturas, mientras mi cuerpo quedaba sosegado sobre
aquel pupitre. No obstante, no había saboreado la verdadera Ciencia hasta que di con
mis directores. Gracias Pepe. Gracias Michael. Gracias por mostrarme el camino, por
vuestra paciencia y dedicación. Ahora sé que hay más gente ahí fuera que sueña con
conocer. Gracias Guillermo. Gracias por tenderme siempre la mano y por preocuparte
por mí. Gracias a Cristina y a Ernesto por acompañarme en mi aprendizaje. Fran,
ありがとう、友よ。
Gracias Carmen. Gracias por cuidar siempre de mí, por preocuparte siempre y por
anteponerme siempre a todo. Sin ti hoy no sería yo.
Gracias a mi hermano, que siempre aparece cuando más lo necesito. Gracias a mis
padres por su apoyo incondicional, por su admiración y por creer siempre en mí.
Gracias por darme la vida.
Gracias a la dueña de mi corazón por caminar a mi lado, por preocuparte por mí y por
demostrarme siempre tu amor. Gracias mi niña.
RESUMEN
La metilación del DNA es la marca epigénetica por excelencia y es conocida por jugar
un papel importante en la inhibición de la expresión génica y en la estabilidad del
genoma. La metilación no es estática, sino que varía entre tejidos o condiciones
fisiológicas y patológicas.
El objetivo general de este trabajo consiste en realizar un análisis exploratorio de la
metilación diferencial en el genoma humano, para lo que se planteó: i) poner a punto
varios métodos computacionales para la detección de metilación diferencial, ii)
comparar los resultados y definir un consenso de citosinas diferencialmente metiladas
(DMCs), iii) estudiar el contenido en DMCs de distintos tipos de islas CpGs (CGIs)
según su patrón de metilación (UIs, MIs y DMIs) y iv) analizar cuánto y cómo afecta la
metilación diferencial a distintos tipos de elementos genómicos.
Después de analizar los resultados de cuatro métodos, se ha podido observar que a pesar
de las diferencias hay un núcleo de DMCs de consenso. Mediante el porcentaje de
DMCs de consenso se han podido inferir las relaciones entre las diferentes muestras que
reflejan perfectamente la Ontología establecida de los tejidos y tipos celulares usados en
el estudio. Se observó que cerca de un 10% de las DMIs tienen menos de un 10% en
DMCs, lo que plantea que pueden utilizarse las DMCs para mejorar la definición de
DMI. Por último, el enriquecimiento en DMCs en exones, sitios de inicio y final de la
transcripción, potenciadores, aisladores y sitios de unión de la RNA polimerasa II
constató el papel ya conocido de la metilación diferencial en la regulación de la
expresión génica.
Palabras clave: epigenética, metilación del DNA, metilación diferencial, secuenciación masiva,
bioinformática.
ÍNDICE
1. INTRODUCCIÓN..........................................................................................................................1
1.1. METILACIÓN DEL DNA..........................................................................................................2
1.2. METILACIÓN DIFERENCIAL................................................................................................4
1.3. OBJETIVOS..................................................................................................................................6
2. MATERIAL Y MÉTODOS........................................................................................................7
2.1. MAPAS DE METILACIÓN.......................................................................................................7
2.2. PREPROCESADO DE LOS MAPAS DE METILACIÓN...................................................9
2.2.1. Filtrado y control de calidad..................................................................................................9
2.2.2. Conversión de formato..........................................................................................................9
2.3. ANÁLISIS DE LOS MAPAS DE METILACIÓN...............................................................10
2.3.1. Análisis preliminar..............................................................................................................10
2.3.2. Obtención de mapas de DMCs............................................................................................11
2.4. POSPROCESADO DE LOS MAPAS DE DMCs.................................................................12
2.5. DISEÑO DE LA BASE DE DATOS DE DMCs...................................................................12
2.6. DEFINICIÓN DE LAS DMCs DE CONSENSO..................................................................14
2.7. MINERÍA DE LA BASE DE DATOS DE DMCs................................................................15
2.7.1. Estadística............................................................................................................................15
2.7.2. Track hubs...........................................................................................................................15
2.8. DMCs Y ELEMENTOS GENÓMICOS.................................................................................16
2.8.1. Gráficos CIRCOS................................................................................................................17
2.8.2. Análisis de enriquecimiento en DMCs................................................................................18
2.8.3. Estadística por elemento genómico.....................................................................................20
3. RESULTADOS Y DISCUSIÓN.............................................................................................21
3.1. LA METILACIÓN Y EL LINAJE CELULAR.....................................................................21
3.2. MAPAS DE DMCs.....................................................................................................................25
3.3. DIFERENCIAS ENTRE MÉTODOS.....................................................................................25
3.4. DIFERENCIAS ENTRE PARES DE MUESTRAS............................................................27
3.5. CONTENIDO EN DMCs DE LAS CGIs...............................................................................29
3.6. METILACIÓN DIFERENCIAL EN ELEMENTOS GENÓMICOS.................................32
3.6.1. Regiones génicas.................................................................................................................32
3.6.2. Elementos reguladores de la transcripción..........................................................................35
3.6.3. SNVs y elementos evolutivamente conservados..................................................................39
4. CONCLUSIONES........................................................................................................................42
5. PERSPECTIVAS DE FUTURO.............................................................................................43
LISTA DE ABREVIATURAS.............................................................................................................44
LISTA DE FIGURAS............................................................................................................................45
LISTA DE TABLAS..............................................................................................................................46
LISTA DE ENLACES...........................................................................................................................47
BIBLIOGRAFÍA..................................................................................... ................................................48
ANEXOS.....................................................................................................................................................53
ANEXO I. FORMATO DE SALIDA DE METHYLEXTRACT....................................................53
ANEXO II. FORMATO DE ENTRADA DE BISULFIGHTER...................................................54
ANEXO III. FORMATO DE ENTRADA DE METHYLKIT........................................................55
ANEXO IV. FORMATO DE ENTRADA DE MOABS................................................................56
ANEXO V. FORMATO DE SALIDA DE BISULFIGHTER.......................................................57
ANEXO VI. FORMATO DE SALIDA DE METHYLKIT............................................................58
ANEXO VII. FORMATO DE SALIDA DE MOABS...................................................................58
Cap
ítu
lo: i
ntr
od
ucc
ión
1
INTRODUCCIÓN
La publicación de las Leyes de Mendel (1866) marcó el inicio de la Genética, que desde
entonces no ha parado de crecer de forma exponencial. A principios del siglo XXI, la
secuenciación del Genoma Humano (Venter et al. 2001, Lander et al. 2001) estimuló el
rápido desarrollo de disciplinas incipientes, entre las que destacan la Genómica
Computacional y la Bioinformática. Hoy en día, la visión que inicialmente se tenía del
genoma ha cambiado radicalmente gracias al advenimiento de las técnicas de
secuenciación masiva, favoreciendo el crecimiento exponencial de la Epigenética
(figura 1.1). El florecimiento de la misma ha impulsado el desarrollo de grandes
proyectos internacionales, destinados a comprender los mecanismos que operan sobre el
genoma y confeccionar mapas de marcas epigenéticas, entre los que destacan ENCODE
(Consortium 2004) y ROADMAP Epigenomics (Bernstein et al. 2010).
Figura 1.1. Número de publicaciones sobre epigenética entre los años 1994 y 2013. La gráfica representa el número de
publicaciones que contienen los términos “Epigenetic” o “Epigenomic” incluidas en la base de datos PubMed durante los
últimos 20 años (1994-2013). Además, se incluyen algunos de los hitos, tanto técnicos como científicos, más importantes en la
investigación epigenética: la aparición del primer método de secuenciación masiva (454 sequencing en el año 2000), la
fundación del consorcio ENCODE (Consortium 2004), la publicación de los resultados del proyecto piloto de ENCODE
(Birney et al. 2007), la incorporación de Illumina al mercado de la secuenciación masiva (2007), la fundación del consorcio
Cap
ítu
lo: i
ntr
od
ucc
ión
2
ROADMAP Epigenomics (Bernstein et al. 2010) y la publicación en septiembre de 2012 de 29 artículos (enlace 1.1) con los
resultados obtenidos a partir del proyecto ENCODE. Figura extraída de Barturen 2014b.
El término "epigenética" se ha vuelto muy familiar en los últimos años. Originalmente
se acuño como un descriptor amplio de los factores que, en cooperación con los genes,
producen un fenotipo (Waddington 1942). Actualmente se manejan numerosas
definiciones para este término, como, por ejemplo:
"The study of mitotically and/or meiotically heritable changes in gene function
that cannot be explained by changes in DNA sequence" (Riggs et al. 1996).
"[…] the structural adaptation of chromosomal regions so as to register, signal
or perpetuate altered activity states" (Bird 2007).
La tendencia más habitual es utilizar el término epigenética para referirse al estudio de
las modificaciones de los componentes de la cromatina: la metilación del DNA, la
expresión de los microRNAs y las modificaciones de histonas, principalmente.
1.1. METILACIÓN DEL DNA
En este estudio nos centraremos en la metilación del DNA, por ser la marca epigenética
mejor estudiada y la única que posee todas las propiedades consideradas por Bonasio et
al. (2010) como intrínsecas a las marcas epigenéticas:
No altera la secuencia del DNA.Aunque hay que tener en cuenta que a escala
evolutiva puede alterar la secuencia del DNA, dado que la 5-metilcitosina se
desamina espontáneamente a una baja tasa para dar timina.
Modifica la actividad génica. La metilación, cuando se produce en el promotor,
inhibe la transcripción (Bell et al. 2011).
Es reversible. Se ha observado que en algunos procesos, como la diferenciación
celular, se desmetilan ciertas regiones (Lister et al. 2009, Laurent et al. 2010).
Es autoperpetuable. Se mantiene gracias a la replicación semiconservativa del
DNA y a la acción de metiltransferasas específicas (Klose and Bird 2006),
excepto en el contexto asimétrico CHH (donde H = A, C o T).
Cap
ítu
lo: i
ntr
od
ucc
ión
3
Es heredable. La metilación no solo se hereda a lo largo del linaje celular, sino
que algunas regiones metiladas presentan evidencias de una elevada
heredabilidad entre generaciones, si bien es algo excepcional (Bell and Spector
2012).
La metilación del DNA consiste en la unión covalente de un grupo metilo al carbono 5
de las citosinas del DNA. En función de las bases adyacentes a la citosina metilada o
susceptible de ser metilada se habla de que la metilación tiene lugar en un contexto u
otro.
El contexto de metilación más conocido es el CG. En mamíferos, la metilación del DNA
ocurre casi exclusivamente en este contexto y se ha estimado que afecta al 70-80% de
los CpGs del genoma (Enrlich et al. 1982). Sin embargo, y aunque muy minoritaria, se
ha observado metilación en los contextos CHG y CHH en células madre embrionarias
(Bird 2002, Ramsahoye et al. 2000, Lister et al. 2009). En cuanto a los CpGs que
permanecen no metilados, la mayoría se encuentran cerca de promotores de genes, en
clústeres densos conocidos como islas CpG o CGIs (Gardiner and Frommer 1987,
Cedar and Bergman 2009, Suzuki and Bird 2008). En plantas, la metilación del DNA
ocurre normalmente tanto en los contextos simétricos CG y CHG, como en el contexto
asimétrico CHH (Henderson and Jacobsen 2007). Concretamente, se ha observado que
el nivel de metilación en estos contextos es, respectivamente, 24%, 6.7% y 1.7% a lo
largo del genoma de Arabidopsis thaliana (Cokus et al. 2008, Lister et al. 2008). A
diferencia de lo que ocurre en mamíferos, en plantas la metilación afecta
predominantemente a transposones y a otros elementos de DNA repetidos (Zhang et al.
2006).
En mamíferos, los patrones de metilación de novo los establecen la familia de la DNA
metiltransferasa 3 (DNMT3), mientras que el mantenimiento de los mismos corre a
cargo de la DNMT1 y la pérdida de metilación podría ocurrir de forma pasiva o por la
acción de desaminasas (Kim et al. 2009, Goll and Bestor 2005, Cheng and Blumenthal
2008). En plantas, el establecimiento de los patrones de metilación lo lleva a cabo la
metiltransferasa DRM2, homóloga a DNMT3, mientras que el mantenimiento sigue una
vía distinta dependiendo del contexto. La metilación en el contexto CG se mantiene por
la metiltransferasa MET1, homóloga a DNMT1. En el contexto CHG se mantiene por la
cromometilasa 3 (CMT3), una metiltransferasa específica de plantas. Por último, en el
Cap
ítu
lo: i
ntr
od
ucc
ión
4
contexto CHH, se mantiene por la metilación de novo por parte de DRM2, en una ruta
de metilación del DNA dependiente de RNA. En cuanto a la pérdida de metilación, en
plantas se sabe que ocurre de forma activa por la acción de glicosilasas (Chan et al.
2005).
La metilación del DNA es conocida por su función inhibitoria de la transcripción génica.
Así, los genes cuya región promotora está metilada ven afectada su expresión (Bell et
al. 2011). También regula la transcripción actuando a nivel de los potenciadores (Hon et
al. 2013). Sin embargo, no es esta la única función que posee la metilación. Cuando lo
que se metila no es el promotor sino el cuerpo génico, la metilación en lugar de inhibir
la transcripción la estabiliza (Hellman and Chess 2007). Por tanto, la metilación del
DNA inhibe la iniciación de la transcripción, pero promueve la elongación. También
provoca el silenciamiento de los elementos transponibles, promoviendo la estabilidad
genómica (Yoder et al. 1997). De esta manera, cuando un transposón se encuentra en un
intrón, la metilación impide la expresión del transposón, pero estabiliza la expresión del
gen hospedador. En los centrómeros juega también un papel importante, favoreciendo la
correcta segregación de los cromosomas durante la división celular (Moarefi and
Chedin 2011). Por último, parece que la metilación también puede afectar
indirectamente al ayuste o splicing alternativo (Shukla et al. 2001).
En cuanto a su detección, hoy en día se puede detectar la metilación del DNA en
genoma completo, tratando el DNA con bisulfito y utilizando métodos de secuenciación
masiva. Este tratamiento provoca que las citosinas no metiladas se desaminen y queden
como uracilo, que durante la amplificación del DNA será reemplazado por timina. En
cambio, las 5-metilcitosinas permanecen inalteradas, por lo que conociendo la secuencia
del genoma de referencia se pueden inferir los niveles de metilación de cada citosina
(Lister and Ecker 2009).
1.2. METILACIÓN DIFERENCIAL
El estudio de la metilación del DNA en muestras de diferentes tejidos ha llevado a la
conclusión de que si bien el 70-80% del genoma está metilado de forma estable (salvo
en la línea germinal y en embriones), una pequeña fracción de los CpGs totales puede
Cap
ítu
lo: i
ntr
od
ucc
ión
5
cambiar su estado de metilación entre tejidos o condiciones fisiológicas y patológicas
(Katherine et al. 2013, Ziller et al. 2013).
Ziller et al. (2013) detectaron un 21.8% de metilación diferencial en el contexto CG.
Además, la mayoría de estas DMCs no las encontraron en sitios de inicio de la
transcripción, sino en potenciadores y sitios de unión a factores de transcripción ajenos
al promotor. No obstante, son necesarios más estudios para esclarecer la magnitud de la
metilación diferencial en humanos y los elementos genómicos a los que afecta.
Recientemente, se han desarrollado un gran número de métodos para detectar metilación
diferencial, que difieren considerablemente en su algoritmo y en el tipo de experimentos
para los que se han diseñado (Saito et al. 2014, Akalin et al. 2012, Sun et al. 2014,
Hansen et al. 2012, Hebestreit et al. 2013, Feng et al. 2014, Zhang et al. 2011, Li et al.
2013, Stockwell et al. 2014, entre otros).
A pesar de las diferencias entre ellos, se pueden distinguir métodos que utilizan datos de
metilación de genoma completo y otros que utilizan solo datos de regiones. También
hay métodos que se basan en el análisis de citosinas individuales, mientras que otros se
centran en regiones. Las citosinas que muestran diferencias significativas de metilación
entre dos o más muestras reciben el nombre de citosinas diferencialmente metiladas o
DMCs. En cuanto a las regiones con metilación diferencial, reciben el nombre de
regiones diferencialmente metiladas o DMRs.
En este estudio, nos centraremos en tres métodos que analizan datos de metilación en
citosinas individuales en genoma completo: Bisulfighter (Saito et al. 2014), methylKit
(Akalin et al. 2012) y MOABS (Sun et al. 2014). El primero de ellos se basa en el uso de
un modelo oculto de Markov, el segundo en el test exacto de Fisher o en regresiones
logísticas y el tercero utiliza el test de similaridad y el test exacto de Fisher.
Estudiaremos coincidencias y discrepancias en los resultados que arroja cada uno de
ellos y trataremos de determinar qué métodos son más coherentes entre sí.
Cap
ítu
lo: i
ntr
od
ucc
ión
6
1.3. OBJETIVOS
El objetivo general de este trabajo es realizar un análisis exploratorio de la metilación
diferencial en el genoma humano, para lo que se plantearon los siguientes objetivos
específicos:
Poner a punto varios métodos computacionales para la detección de metilación
diferencial.
Diseñar un formato adecuado para comparar los resultados de estos métodos y
almacenar los datos de metilación diferencial con dicho formato.
Comparar los resultados de los diferentes métodos y definir un conjunto
consenso de DMCs.
Estudiar el contenido en DMCs de distintos tipos de CGIs según su patrón de
metilación.
Analizar cuánto y cómo afecta la metilación diferencial a distintos tipos de
elementos genómicos.
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
7
2. MATERIAL Y MÉTODOS
2.1. MAPAS DE METILACIÓN
El término mapa de metilación se utiliza para referirse a un fichero informático que
contiene información sobre los niveles de metilación de una muestra a lo largo de su
genoma.
En este estudio se utilizaron mapas de metilación de alta calidad para diferentes
muestras (tabla 2.1), extraídos de la base de datos NGSmethDB (Hackenberg et al.
2010, Geisen et al. 2014, enlace 2.1). Estos datos se obtuvieron tras tratar el DNA con
bisulfito y secuenciarlo mediante técnicas de secuenciación masiva. Posteriormente, las
lecturas cortas se alinean frente al genoma de referencia (ensamblado hg19), utilizando
NGSmethPipe (Hackenberg et al. 2012, enlace 2.2), y finalmente se miden los niveles
de metilación mediante MethylExtract (Barturen et al. 2014a, enlace 2.3).
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
8
Tabla 2.1. Mapas de metilación de la base de datos NGSmethDB utilizados en este estudio.
Linaje celular ID Tipo celular Descripción Referencia
Hematopoyético
cd133hsc Célula madre
hematopoyética
Células madre hematopoyéticas / células progenitoras
(CD133+CD34+CD38-Lin-) de seis mujeres sanas (25-
35 años).
Hodges et al.
2011
hspc Célula madre
hematopoyética
Células madre hematopoyéticas / células progenitoras
(CD34+CD38-Lin-) de seis mujeres sanas (25-35 años).
Hodges et al.
2011
bcell Linfocitos B Linfocitos B (CD19+) de sangre periférica de seis
mujeres sanas (25-35 años).
Hodges et al.
2011
pbmc Monocitos Células mononucleares de sangre periférica de múltiples
individuos (metiloma YH). Li et al. 2010
Tejido conectivo
foreskinfibroblast Fibroblastos de
prepucio Fibroblastos primarios de prepucio de recien nacido.
Laurent et al.
2010
imr90 Fibroblastos de
pulmón Fibroblastos de pulmón fetal (línea celular IMR90).
UCSC/SALK et
al. 2009
hmec Células de epitelio
mamario
Células epiteliales primarias de mujeres adultas (línea
celular HMEC). Li et al. 2012
Células madre
embrionarias
h1 Células madre
embrionarias Células madre embrionarias (línea celular H1/WA01).
UCSC/SALK et
al. 2009
h9 Células madre
embrionarias Células madre embrionarias (línea celular H9/WA09).
Laurent et al.
2010
Sistema
nervioso prefrontal-cortex
Mezcla celular de
córtex prefrontal Córtex prefrontal de mujer caucásica (81 años). Ziller et al. 2013
Línea germinal sperm Espermatozoides Esperma de donante anónimo 1. Molaro et al.
2011
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
9
2.2. PREPROCESADO DE LOS MAPAS DE METILACIÓN
2.2.1. FILTRADO Y CONTROL DE CALIDAD
Debido a la variabilidad biológica entre muestras, así como a errores en la
secuenciación y el alineamiento de las lecturas, fue necesario filtrar los mapas de
metilación para que las comparaciones entre pares no estén sesgadas y los resultados
sean consistentes, ya que:
Para algunas citosinas no hay datos en algunas de las muestras.
Las metilcitosinas en contextos distintos al CG son poco abundantes en muestras
humanas adultas y los mecanismos de metilación que operan en estos contextos
son diferentes.
Algunas citosinas están situadas en cromosomas sexuales. Esto puede ser
problemático debido a que no todas las muestras pertenecen a individuos del
mismo sexo.
Los datos de algunas citosinas tienen baja cobertura para alguna de las muestras
(menos de cinco lecturas).
Algunas citosinas están afectadas por variaciones de un solo nucleótido o SNVs
en alguna de las muestras. Esto provoca ambigüedades en el contexto de
metilación que dificultan la comparación de los mapas de metilación. Solo se
tuvieron en cuenta las SNVs que constan, para algunas de las muestras, en la
base de datos NGSmethDB (Hackenberg et al. 2010, Geisen et al. 2014).
Se excluyeron de todas las muestras los conjuntos de citosinas afectados por alguno de
los puntos antes citados.
2.2.2. CONVERSIÓN DE FORMATO
Los mapas de metilación de la NGSmethDB están codificados en el formato de salida de
MethylExtract (ver anexo I).
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
10
Para poder utilizar los programas de detección de DMCs es necesario adaptar los mapas
de metilación al formato requerido por cada uno de ellos. En los anexos II, III y IV se
indican los requerimientos y las características del formato de entrada de Bisulfighter,
methylKit y MOABS, respectivamente.
Siguiendo estas especificaciones, se adaptaron los once mapas de metilación a cada uno
de estos formatos de entrada.
2.3. ANÁLISIS DE LOS MAPAS DE METILACIÓN
2.3.1. ANÁLISIS PRELIMINAR
Para disponer de una visión preliminar que orientase el resto del estudio, se llevaron a
cabo los siguientes análisis, utilizando el paquete methylKit para R:
Análisis de correlación: se analizó la correlación de Pearson de los mapas de
metilación de las once muestras entre sí. Esta correlación es una medida de la
relación lineal entre dos variables estocásticas cuantitativas (en este caso, el
nivel de metilación o methylation ratio en función de la posición para el par de
muestras), siendo independiente de la escala de medida de las variables. Por
tanto, se trata de una medida adecuada para comparar, de forma global, el grado
de semejanza entre dos mapas de metilación. Este análisis es sensible a los
valores atípicos, por lo que estos valores deben filtrarse. En el caso de los mapas
de metilación, son posiciones con coberturas anormalmente altas. Se optó por
excluir aquellas posiciones cuya cobertura fuera mayor que la del percentil 99 de
la distribución de cobertura de alguna de las muestra.
Análisis de agrupamiento (clustering) de muestras: se agruparon las muestras
de forma jerárquica en base al grado de semejanza de sus mapas de metilación y
se representó dicho agrupamiento en forma de dendrograma. Se utilizaron los
coeficientes de correlación de Pearson antes calculados como medida para
estimar la distancia entre muestras. Como método de agrupamiento se utilizó el
método de Ward, el cual trata de minimizar la varianza dentro de las clústeres.
Se trata de un algoritmo iterativo que en cada iteración une entre sí el par de
clústeres que presentan una menor distancia.
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
11
Análisis de componentes principales (PCA): se trata de una técnica estadística
multivariable utilizada para reducir el número de dimensiones de un conjunto de
datos y ayudar a encontrar las principales causas de la variabilidad, así como
ordenarlas en función de su importancia. Se utilizaron los once mapas de
metilación para calcular los componentes principales de la variabilidad entre los
mismos.
2.3.2. OBTENCIÓN DE MAPAS DE DMCs
Se obtuvieron mapas de DMCs para todos los posibles pares de muestras. Para cada par,
calculamos la metilación diferencial mediante Bisulfighter, methylKit y MOABS,
independientemente.
Para detectar citosinas con diferencias de metilación significativas, Bisulfighter utiliza
un método basado en un modelo oculto de Márkov que considera tres estados para las
citosinas:
UP: el porcentaje de metilación para esta citosina es significativamente mayor
en la primera muestra del par a comparar.
DOWN: el porcentaje de metilación para esta citosina es significativamente
menor en la primera muestra del par a comparar.
NoCh: el porcentaje de metilación para esta citosina no presenta diferencias
significativas entre las muestras del par a comparar.
Por su parte, methylKit utiliza un test estadísticos distinto en función de los datos que se
le proporciones: el test exacto de Fisher cuando no hay réplicas de las muestras y el test
de regresión logística cuando sí las hay. En este caso, utilizó el test exacto de Fisher.
Por último, MOABS utiliza dos test estadísticos independientemente: el test de
similaridad y el test exacto de Fisher. Trataremos los resultados de cada test de forma
independiente, llamando MOABS_sim al primer método y MOABS_fet al segundo.
Cabe destacar que en función del método, una citosina puede ser considerada o no como
DMC debido a las diferencias entre métodos a la hora de procesar los datos y calcular el
valor p.
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
12
2.4. POSPROCESADO DE LOS MAPAS DE DMCs
Las DMCs detectadas por los diferentes métodos van siempre acompañadas de algún
parámetro estadístico. Con la finalidad de seleccionar solo aquellos resultados que
fueran de mayor confianza, filtramos los resultados en función de estos parámetros
estadísticos:
Para los resultados de Bisulfighter se utilizó la probabilidad del estado NoCh
como aproximación al valor p y se excluyeron aquellos resultados cuya
probabilidad para este estado fuera mayor de 0.01.
Los resultados de methylKit se filtraron en función de dos parámetros
estadísticos: el valor p y el valor q. Se excluyeron todos aquellos resultados que
tuvieran un valor para alguno de estos estadísticos mayor de 0.01.
Los resultados de MOABS también disponen de dos parámetros estadísticos: el
valor p para el test de similaridad y el valor p para el test exacto de Fisher. Los
resultados cuyo valor p para el test de similaridad fuera menor o igual que 0.01
se volcaron en una tabla y los resultados cuyo valor p para el test exacto de
Fisher fuera menor o igual que 0.01 se volcaron en otra tabla.
2.5. DISEÑO DE LA BASE DE DATOS DE DMCs
Las salidas de los diferentes programas con los mapas de DMCs difieren en formato y
contenido. En los anexos V, VI y VII se describen los formatos de salida de Bisulfighter,
methylKit y MOABS, respectivamente.
Para poder comparar los resultados, los mapas de DMCs se volcaron en una tabla
MySQL con formato común, que consta de las siguientes columnas:
chrom: indica el cromosoma al que pertenece la DMC.
chromStart: indica la coordenada de inicio de la DMC dentro del cromosoma.
chromEnd: indica la coordenada de final de la DMC dentro del cromosoma.
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
13
context: indica el contexto al que pertenece la DMC. En este caso, adopta
siempre el valor "CG".
tissue1: indica el identificador de la primera muestra del par en el cual se detectó
la DMC.
tissue2: indica el identificador de la segunda muestra del par en el cual se
detectó la DMC.
methRatio1: indica el porcentaje de metilación de la DMC para la primera
muestra del par al cual hace alusión la fila en la que se encuentra.
methRatio2: indica el porcentaje de metilación de la DMC para la segunda
muestra del par al cual hace alusión la fila en la que se encuentra.
diffMeth: indica la diferencia, en valor absoluto, del porcentaje de metilación de
la DMC entre las dos muestras a las que hace alusión la fila en la que se
encuentra.
method: indica el método mediante el cual se detectó la DMC a la que hace
alusión la fila en la que se encuentra. Puede adoptar los valores "Bisulfighter",
"methylKit", "MOABS_sim" o "MOABS_fet".
pValue: indica el valor p de la DMC a la que hace alusión la fila en la que se
encuentra, calculado por el método indicado en la columna method.
Una misma DMC puede haberse detectado en más de un par de muestras o por más de
un método, en cuyo caso aparecerá en más de una fila de la tabla. Sin embargo, estas
filas no son iguales, sino que difieren en la columna del valor p y en, al menos, una de
las siguientes columnas: tissue1, tissue2 y method. Por tanto, la tabla carece de filas
redundantes.
Se trata de una base de datos de DMCs para muestras humanas con resultados
cuidadosamente procesados, filtrados y organizados. Por ello, en adelante utilizaremos
el nombre DMCdb_hg19 para hacer alusión a esta tabla.
A partir de esta tabla se derivaron las tablas siguientes:
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
14
Una tabla con las DMCs detectadas por cada método, independientemente del
par de muestras para el que se hayan detectado y sin filas redundantes. Es
similar a la tabla original, pero carece de las columnas tissue1 y tissue2. Si una
DMC había sido detectada para más de un par por un mismo método, las filas
correspondientes de la tabla original han sido reducidas a una única fila en esta
tabla. Llamaremos a esta tabla DMCdb_hg19_methods.
Una tabla con las DMCs detectadas para cada par de muestras,
independientemente del método por el que se hayan detectado y sin filas
redundantes. Es similar a la tabla original, pero carece de la columna method. Si
una DMC había sido detectada por más de un método para el mismo par, las
filas correspondientes de la tabla original han sido reducidas a una única fila en
esta tabla. Llamaremos a esta tabla DMCdb_hg19_pairs.
Estas tablas resultaron convenientes para realizar estudios estadísticos del contenido de
la tabla DMCdb_hg19.
2.6. DEFINICIÓN DEL CONJUNTO DE DMCS DE CONSENSO
Se derivaron dos tablas de DMCs de consenso, tomando como consenso la intersección
de los conjuntos de DMCs de los cuatro métodos:
Una tabla con las DMCs detectadas para cada par de muestras por la totalidad de
los métodos. Es decir, las DMCs incluidas en esta tabla son aquellas detectadas
por cuatro de los cuatro métodos para el mismo par de muestras. Esta tabla es
similar a la original, pero carece de las columnas method y pValue. Llamaremos
a esta tabla DMCdb_hg19_pairs_consensus.
Una tabla con las DMCs detectadas por la totalidad de los métodos,
independientemente del par o de la muestra. Esta tabla se deriva de la anterior,
generando una tabla no redundantes de DMCs detectadas para al menos una
muestra. De esta manera se evitan los resultados que, no siendo significativos
para la misma muestra por los cuatro métodos, se incluirían por ser
significativos por los cuatro métodos para muestras distintas e idénticas
coordenadas genómicas. Esta tabla es similar a la original, pero carece de las
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
15
columnas tissue1, tissue2, method y pValue. Esta tabla recibe el nombre de
DMCdb_hg19_consensus, pero por el extenso uso que se hará de ella nos
referiremos a ella simplemente como tabla consenso.
Estas tablas resultaron convenientes para realizar estudios estadísticos del contenido de
la tabla DMCdb_hg19. La tabla consenso se utilizó en los estudios de agrupamiento o
clustering de las DMCs, así como para la anotación de diferentes elementos genómicos
y el consiguiente estudio de enriquecimiento en DMCs.
2.7. MINERÍA DE LA BASE DE DATOS DE DMCs
2.7.1. ESTADÍSTICA
Una vez se dispuso de las tablas con los datos de las DMCs, se realizaron las siguientes
estadísticas en las que se estudió el número de DMCs y el porcentaje de CpGs que son
DMCs:
Por método, para combinaciones de métodos y para el consenso. Los
conjuntos de DMCs contabilizados en esta estadística son los detectados por
cada método independientemente del par de muestras para las que se haya
detectado, la intersección de los conjuntos anteriores para todos los posibles
pares y tríos de métodos y el conjunto de DMCs de la tabla consenso. Las tablas
empleadas para esta estadística fueron DMCdb_hg19_method y
DMCdb_hg19_consensus.
Por par y método, incluido el consenso. Los conjuntos de DMCs
contabilizados en esta estadística son los detectados por cada método,
incluyendo el consenso, para cada par de muestras. Las tablas empleadas para
esta estadística fueron DMCdb_hg19_pairs y DMCdb_hg19_pairs_consensus.
2.6.2. TRACK HUBS
Los track hubs son directorios de datos genómicos accesibles desde la web que pueden
visualizarse utilizando el navegador genómico de la Universidad de California (UCSC
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
16
Genome Browser). Son útiles para visualizar, simultáneamente, la localización de un
gran número de datos genómicos a lo largo de los cromosomas. De esta manera pueden,
por ejemplo, visualizarse regiones cromosómicas ricas en genes y comparar la
localización de las DMCs con respecto a la localización de sitios de unión de factores de
transcripción (TFBS), exones, intrones y elementos genéticos móviles.
Siguiendo las instrucciones de la web del navegador genómico de la Universidad de
California (enlace 2.4 del lista de enlaces), se crearon tablas en formato bigWig (enlace
2.5 del lista de enlaces) de las DMCs por pares de muestras y método, así como la
estructura de directorios requerida y los ficheros de propiedades del track hub en un
servidor HTTP, quedando el track hub activo y accesible desde la web.
2.8. DMCs Y ELEMENTOS GENÓMICOS
Se amplió la anotación de los siguientes tipos de elementos genómicos para incluir en la
anotación de cada elemento particular el número de DMCs que contiene (numDMC), el
número de CpGs que contiene (numCG) y el tanto por uno de las CpGs que contiene
que son DMCs (DMCratio):
Islas CpGs (CGIs): CGIs no metiladas (UI), CGIs metiladas (MI) y CGIs
diferencialmente metiladas (DMI). Se utilizó la anotación de CGIs para el
umbral de significación estadística valor p ≤ 0.05. Se consideran DMIs a
aquellas CGIs que son UI en la mayoría de las muestras y mi en alguna de las
muestras (DMI-Us) o que son mi en la mayoría de las muestras y UI en alguna
de las muestras (DMI-Ms). Estas islas se han predicho utilizando los programas
CpGcluster (Hackenberg et al. 2006) y WordCluster (Hackenberg et al. 2011).
Regiones génicas: genes y su entorno próximo (gene500), exones (cdsExon),
intrones (cdsIntron), región de inicio de la transcripción (R13) y región de final
de la transcripción (R8). Los genes y componentes de genes considerados en
esta anotación son solo aquellos correspondientes a genes codificantes de
proteínas. El entorno génico considerado para los elementos gene500 es de 500
pares de bases (pb) aguas arriba del inicio del gen y 500 pb aguas abajo del final
del gen. Esta anotación se obtuvo de la tabla de genes de refSeq (Prueit et al.
2007).
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
17
Elementos reguladores de la transcripción: sitios de unión de factores de
transcripción (TFBS), sitios de hipersensibilidad a la DNAsa I (DNase o DHS),
sitios de unión de la polimerasa II (Pol2) y de la polimerasa III (Pol3),
potenciadores experimentales (VISTA_enhancers) y predichos
(ENCODE_enhancers) y aisladores predichos (ENCODE_insulators). Esta
anotación se obtuvo de las tablas con los datos del Proyecto ENCODE
(Consortium et al. 2012) y de la tabla de potenciadores vista (Visel et al. 2007).
Variaciones de secuencia y elementos evolutivamente conservados: regiones
conservadas en 46 vertebrados (PhastCons; Siepel et al. 2005), regiones
conservadas en 35 mamíferos (GERP; Cooper et al. 2010), regiones predichas
con sesgo mutacional hacia GC (PhastBiasGC; Duret and Galtier 2009, Hubisz
et al. 2011), polimorfismos de un solo nucleótido comunes (SNP138_common)
y polimorfismos potencialmente asociados al desarrollo de patologías
(SNP138_flagged) de dbSNP.
La tabla de DMCs utilizada para realizar estas anotaciones fue la tabla de DMCs de
consenso (DMC_hg19_consensus).
2.8.1. GRÁFICOS CIRCOS
CIRCOS es un paquete de programas en Perl especialmente diseñado para la
visualización de datos genómicos. Los gráficos producidos por CIRCOS son de gran
calidad, ideales para explorar las relaciones entre diferentes tipos de datos a lo largo del
cromosoma.
Se utilizaron gráficos CIRCOS para representar el contenido en DMCs de los elementos
genómicos utilizados en la anotación. Para ello, se diseñaron cinco tipos de gráficos
CIRCOS:
CIRCOS para CGIs. Contiene un ideograma del cromosoma y tres pistas de tipo
histograma con el contenido en DMCs de cada elemento. Las pistas son, desde fuera
hacia dentro, para los siguientes elementos: DMI, MI y UI.
CIRCOS para regiones génicas. Contiene un ideograma del cromosoma y cinco
pistas de tipo histograma con el contenido en DMCs de cada elemento. Las pistas
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
18
son, desde fuera hacia dentro, para los siguientes elementos: gene500, R13,
cdsExon, cdsIntron y R8.
CIRCOS para elementos reguladores de la transcripción. Contiene un ideograma
del cromosoma y siete pistas de tipo histograma con el contenido en DMCs de cada
elemento. Las pistas son, desde fuera hacia dentro, para los siguientes elementos:
TFBS, Pol2, Pol3, VISTA_enhancers, ENCODE_enhancers, ENCODE_insulators y
DNase.
CIRCOS para variaciones de secuencia y elementos evolutivamente
conservados. Contiene un ideograma del cromosoma y cinco pistas de tipo
histograma con el contenido en DMCs de cada elemento. Las pistas son, desde fuera
hacia dentro, para los siguientes elementos: PhastCons, GERP, PhastBiasGC,
SNP138_common y SNP138_flagged.
Se crearon estos cuatro gráficos CIRCOS para cada autosoma y cuatro gráficos
adicionales (uno de cada tipo) que cogen la representación de los 22 autosomas en un
solo gráfico, siguiendo las instrucciones especificadas en la web de CIRCOS (enlace 2.6
del lista de enlaces).
Las imágenes se almacenaron tanto en formato de imagen vectorial SVG como en
formato de mapa de bits PNG.
2.8.2. ANÁLISIS DE ENRIQUECIMIENTO EN DMCs
Para determinar en cuales de los elementos genómicos anotados están sobre- o
infrarrepresentadas las DMCs se cuantificó el enriquecimiento en DMCs a partir del
cociente (rDMC) de la densidad en DMCs dentro y fuera del elemento genómico, siendo
la densidad el número de DMCs por cada unidad de longitud.
La interpretación del cociente rDMC es sencilla:
Un valor igual 1 indica que las DMCs se distribuyen al azar dentro y fuera del
elemento genómico.
Un valor mayor que 1 indica que el elemento genómico está enriquecido en
DMCs. En otras palabras, la probabilidad de encontrar una DMC dentro de este
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
19
elemento genómico es mayor que la probabilidad de encontrarla en regiones del
genoma de idéntica longitud elegidas al azar.
Un valor menor que 1 indica que el elemento genómico está empobrecido en
DMCs. En otras palabras, la probabilidad de encontrar una DMC dentro de este
elemento genómico es menor que la probabilidad de encontrarla en regiones del
genoma de idéntica longitud elegidas al azar.
Basándonos en este planteamiento, se calculó el enriquecimiento en DMCs para todos
los tipos de elementos genómicos anotados.
Para calcular este enriquecimiento para cada tipo de elemento genómico:
Se contabilizó el total de DMCs dentro de todos los elementos genómicos
pertenecientes al tipo de elemento genómico analizado, contando una única vez
cada DMC dentro de las regiones en las que se solapan elementos. Esta variable
recibe el nombre de numDMCin
.
Se calculó la longitud total que suman los elementos genómicos pertenecientes
al tipo de elemento genómico analizado, contando una única vez la longitud de
las regiones en las que se solapan elementos. Esta variable recibe el nombre de
lenin
.
A partir de los dos valores anteriores, se calculó la densidad de DMCs dentro del
elemento genómico, denDMCin
, como:
denDMCin=
numDMCin
lenin
Al número total de DMCs se le restó el valor de numDMCin
, siendo el valor
resultante el número de DMCs que están fuera de elementos genómicos de este
tipo (numDMCout
).
Al longitud total de todos los autosomas se le restó el valor de lenin
, siendo el
valor resultante la longitud total fuera de elementos genómicos de este tipo
(lenout
).
A partir de los dos valores anteriores, se calculó la densidad de DMCs fuera del
elemento genómico, denDMCout
, como:
Cap
ítu
lo: 2
. mat
eria
l y m
éto
do
s
20
denDMCout
=numDMC
out
lenout
Por último, se calculó el cociente rDMC como:
r DMC=denDMC
in
denDMCout
2.8.3. ESTADÍSTICA POR ELEMENTO GENÓMICO
Por último, se realizó una estadística por cada tipo elemento genómico en la que se
recogieron los siguientes datos:
Número total de elementos genómicos de este tipo.
Datos acerca de la longitud de elementos genómicos de este tipo: longitud
media y desviación estándar poblacional de la longitud media.
Datos acerca del número de DMCs en elementos genómicos de este tipo:
número medio de DMCs, desviación estándar poblacional del número medio de
DMCs, cociente de enriquecimiento en DMCs y porcentaje de las DMCs totales
que están dentro de elementos genómicos de este tipo.
Datos acerca del número de CpGs en elementos genómicos de este tipo:
número medio de CpGs, desviación estándar poblacional del número medio de
CpGs, cociente de enriquecimiento en CpGs y porcentaje de las CpGs totales
que están dentro de elementos genómicos de este tipo.
Datos acerca de la DMCratio de elementos genómicos de este tipo: DMCratio
media y desviación estándar poblacional de la DMCratio media.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
21
3. RESULTADOS Y DISCUSIÓN
3.1. LA METILACIÓN Y EL LINAJE CELULAR
Como primer abordaje al estudio de la metilación del genoma humano en diferentes
linajes celulares, se estudió la correlación de Pearson de los mapas de metilación de
cuatro muestras del linaje hematopoyético, tres muestras de tejido conectivo, dos líneas
de células madre embrionarias, una muestra de sistema nervioso central y una muestra
de esperma. El resultado de este análisis se muestra en la figura 3.1.
Figura 3.2. Matriz de correlación para los once mapas de metilación. Se muestran los histogramas con la distribución del
nivel de metilación en el contexto CG para las once muestras (en la diagonal) y los coeficientes de correlación de Pearson (en
la matriz triangular superior) y los diagramas de dispersión de los mapas de metilación (en la matriz triangular inferior)
para los cincuenta y cinco pares de muestras.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
22
Como puede verse, todos los coeficientes de correlación son positivos y los diez más
altos corresponden a los diez pares de muestras más relacionados:
Las muestras de tipos celulares de tejido conectivo presentan correlaciones entre
0.60 y 0.78.
Las muestras de tipos celulares del linaje hematopoyético presentan
correlaciones entre 0.57 y 0.70.
Las dos muestras de células madre embrionarias presentan una correlación de
0.73.
En cuanto a las correlaciones más bajas, la mayoría corresponden a los pares en los que
se compara el esperma con otra muestra (véase la última columna de la matriz de
correlación). La correlación más baja es 0.25 y corresponde a los pares
foreskinfibroblast-sperm y imr90-sperm. Tiene sentido que la metilación de los
espermatozoides sea la que más difiere del resto, puesto que son el único tipo celular de
la línea germinal que se ha considerado en el estudio, siendo el resto de tipos celulares
de la línea somática.
La correlación de Pearson puede utilizarse como medida de distancia para agrupar
jerárquicamente las muestras en función del grado de semejanza de sus mapas de
metilación, como se muestra en la figura 3.2. Este dendrograma pone de manifiesto de
manera clara que la semejanza en el mapa de metilación está relacionada con el linaje
celular:
Las muestras de tipos celulares del linaje hematopoyético forman un clúster, que
a su vez de divide en dos clústeres:
► Un clúster formado por leucocitos maduros: linfocitos B y monocitos.
► Otro clúster formado por células madre hematopoyéticas.
Las muestras de tipos celulares de tejido conectivo forman un clúster, que a su
vez contiene otro clúster en el que se agrupan los fibroblastos, más alejados de
las células de epitelio mamario que entre sí.
Las muestras de células madre embrionarias forman un clúster, que a su vez está
más relacionado con la muestra de córtex prefrontal que con el resto. El córtex
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
23
prefrontal contiene tanto neuronas como células gliales, ambas en proporciones
equiparables. Al tratarse de una mezcla compleja de tipos celulares, entre las
cuales se incluyen células madre gliales, es probable que el perfil de metilación
resultante sea más semejante al perfil de células no diferenciadas.
En cuanto al esperma, el dendrograma lo muestra más cercano a la muestra de
córtex prefrontal y las muestras de células madre embrionarias, aunque esto
puede ser consecuencia del método de aglutinación utilizado.
Figura 3.3. Agrupamiento jerárquico de las muestras en función de su correlación de Pearson.
Mediante un análisis de componentes principales de los once mapas de metilación se
comprobó que el primer componente principal absorbe un 36% de la varianza (figura
3.3). Esto pone de manifiesto que uno de los mapas de metilación difiere bastante más
de los demás, probablemente el de esperma.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
24
Figura 3.4. Fracción de la varianza absorbida por cada componente principal (PC).
Los dos primeros componentes principales absorben la mitad de la varianza. Cuando se
dispersan las muestras frente a ellos, se observa que forman grupos que coinciden con
los clústeres del dendrograma (figura 3.4). Nótese que el esperma es la muestra más
apartada del resto y que la muestra de córtex prefrontal se sigue agrupando con las
muestras de células madre embrionarias.
Figura 3.5. Dispersión de las muestras en función del primer componente principal (PC1) frente al segundo (PC2).
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
25
3.2. MAPAS DE DMCs
Puesto que los patrones de metilación del genoma humano son dinámicos y que guardan
cierta relación con el linaje celular, decidimos caracterizar las diferencias de metilación
entre muestras a nivel de citosinas individuales.
Tras poner a punto los métodos computacionales para la detección de DMCs, los datos
obtenidos se procesaron y se almacenaron en una base de datos relacional MySQL para
su análisis. A continuación, se realizó un estudio estadístico comparativo de los
resultados de los métodos y de las diferencias por muestra y par de muestras, así como
un análisis del contenido en DMCs de las CGIs y de distintos tipos de elementos
genómicos.
Los mapas de DMCs obtenidos pueden visualizarse utilizando el navegador genómico
de UCSC. Para ver estos mapas, consulte el enlace 3.1 de la lista de enlaces.
3.3. DIFERENCIAS ENTRE MÉTODOS
Representando en un diagrama de Venn los conjuntos de DMCs detectados por cada
método, así como las intersecciones y diferencias de cada método (figura 3.5), se pone
de manifiesto que más de cuatro millones de DMCs detectadas por MOABS_sim no son
respaldadas por otros métodos (en gris oscuro) y que más de dos millones y medio solo
son respaldadas por solo uno de los métodos (en rojo oscuro, azul oscuro y verde
oscuro).
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
26
Figura 3.6. Diagrama de Venn de los conjuntos de DMCs por método. Los datos utilizados corresponden a la tabla
DMCdb_hg19_method. El valor abajo a la derecha representa el número total de DMCs detectadas por al menos un método.
Representando la proporción de DMCs totales detectadas por cada método (figura 3.6)
se observa que MOABS_sim es el método que detecta una mayor proporción (65.43%),
mientras que methylKit es el que detecta una proporción menor (33.56%). La figura 3.5
muestra, además, que la práctica totalidad de las DMCs detectadas por methylKit están
respaldadas por alguno de los otros métodos. Solo dos DMCs detectadas por methylKit
no son respaldadas por ningún otro método (en azul).
Con objeto de recoger aquellos datos que estén mejor respaldados para posteriores
análisis, definimos el conjunto de DMCs de consenso como la intersección de los
conjuntos de los cuatro métodos. En la figura 3.5, se observa que el conjunto consenso
posee casi nueve millones de DMCs (en gris claro), frente a los dieciocho millones de
DMCs detectados por solo alguno de los métodos (48.15%).
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
27
Figura 3.7. Proporción de las DMCs totales detectadas por cada método y por el consenso de los cuatro métodos (en
naranja).
Ziller et al. (2013) describieron un 22% de metilación diferencial en contexto CG.Sin
embargo, en este estudio exploratorio hemos encontrado un 31.80% de metilación
diferencial en contexto CG para el consenso de los cuatro métodos.
3.4. DIFERENCIAS ENTRE PARES DE MUESTRAS
Cuando se estudia la proporción de DMCs de consenso para cada par de muestras y se
representa en forma de matriz (tabla 3.1), se observa que las muestras que pertenecen a
los mismos clústeres en el dendrograma de correlación presentan una proporción de
DMCs menor del 5%, excepto el par hmec-imr90 (7.06%).
El par que presenta una proporción mayor de DMCs es h1-imr90 (17.40%). Que este
par sea el más diferente es coherente con los tipos celulares a los que corresponden, ya
que h1 son células madre embrionarias y imr90 son células diferenciadas (fibroblastos
de pulmón). Sin embargo, este resultado difiere del obtenido mediante el análisis de
correlación, según el cual los pares de esperma con el resto de muestras son los que
presentan mayores diferencias de metilación. Aunque no sea la correlación más baja,
bien es cierto que el par h1-imr90 presenta correlación relativamente baja (0.42). El par
de muestras con una proporción más baja es cd133hsc-pbmc (0.01%). Que este par
presente la menor proporción de DMCs está de acuerdo con su correlación
relativamente alta (0.59).
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
28
Tabla 3.2. Matriz de DMCs entre pares de muestras. La matriz superior muestra el número total de DMCs para cada par,
mientras que la matriz inferior muestra el porcentaje de DMCs frente al total CpGs para cada par. Las casillas coloreadas
indican que las dos muestras del par corresponden al mismo clúster según el dendrograma de correlación de Pearson: en
naranja las muestras del linaje hematopoyético, en azul las muestras de tejido conectivo y en morado el clúster de células
madre embrionarias y córtex prefrontal. Se han resaltado en negrita aquellos pares con más de un 5% de DMCs y en rojo
aquellos con más de un 10%. Los datos utilizados corresponden a la tabla DMCdb_hg19_pairs_consensus. ff:
foreskinfibroblast; pc: prefrontalcortex.
cd133hsc hspc bcell pbmc ff imr90 hmec h1 h9 pc sperm
cd133hsc
55755 72658 1479 496837 1310156 1002603 128392 133801 91610 410096
hspc 0,33%
242882 54412 1001544 2724557 1804363 517706 420995 411754 694449
bcell 0,47% 1,39%
17706 527640 1354842 1018141 413053 318701 351672 518255
pbmc 0,01% 0,40% 0,14%
82101 557100 325055 141299 42944 48859 87011
ff 3,38% 6,39% 3,63% 0,78%
116913 625467 1113788 896976 904541 997160
imr90 7,68% 14,06% 7,57% 3,98% 0,73%
1488619 3448513 1415986 2160094 1612282
hmec 5,48% 8,80% 5,40% 2,29% 3,57% 7,06%
2007680 1275279 1513053 1499566
h1 0,80% 2,82% 2,43% 1,04% 7,49% 17,40% 10,13%
14336 136219 483884
h9 0,85% 2,49% 2,04% 0,38% 5,37% 8,23% 6,74% 0,09%
228249 584821
pc 0,54% 2,22% 2,05% 0,38% 5,51% 11,37% 7,34% 0,76% 1,29%
686261
sperm 2,77% 4,35% 3,51% 0,79% 6,74% 9,86% 8,45% 3,15% 3,72% 4,16%
Cuando se representa la matriz de DMCs en forma de dendrograma (figura 3.7), se
observa un agrupamiento de las muestras coherente con los agrupamientos en función
del linaje celular y con el agrupamiento obtenido mediante el análisis de correlación.
Sin embargo, a pesar de que los dendrogramas de correlación y de DMCs son
coherentes entre sí, presentan algunas diferencias. Si bien los tres clústeres de las
muestras que corresponden a tejido conectivo, al linaje hematopoyético y a las células
madre embrionarias (junto con prefrontalcortex) están presentes en ambos
dendrogramas, la relación entre ellos es diferente.
Mientras que en el dendrograma de correlación las células madre embrionarias forman
un grupo hermano con los tipos celulares del tejido conectivo, en el dendrograma de
proporción de DMCs las células madre embrionarias forman un grupo hermano con los
tipos celulares del linaje hematopoyético.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
29
Figura 3.8. Agrupamiento jerárquico de las muestras en función de su proporción de DMCs frente al total de CpGs. El
método de aglutinamiento utilizado es el método de Ward, el mismo que se utilizó en el dendrograma de correlación.
3.5. CONTENIDO EN DMCs DE LAS CGIs
Dada su localización en las regiones promotoras, no es de extrañar que existan
evidencias de que la metilación diferencial de las CGIs esté involucrada en la regulación
de genes específicos de tejido (Song et al. 2005). De ahí la relevancia de estudiar su
contenido en DMCs.
Como se muestra en la tabla 3.2, las CGIs detectadas por CpGcluster/WordCluster
(Hackenberg et al. 2006, Hackenberg et al. 2011) son cortas, muy ricas en CpGs y
bastante ricas en DMCs.Sin embargo, cuando se dividen en categorías en función de su
patrón de metilación, vemos que las DMIs está muy enriquecidas en DMCs (más
incluso que en CpGs) y las MIs están discretamente enriquecidas en DMCs, mientras
que las UI son pobres en DMCs.Nótese que el número de DMCs por UI no difiere
demasiado del número de DMCs por MI, pero que el tamaño medio de las UIs es del
doble.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
30
Tabla 3.3. Estadística de las DMIs en relación a las DMCs de consenso y a las CpGs.
Tipo de isla CGI UI MI DMI
Número de islas 147862 39782 62379 45701
DMCs en estas islas (%) 7.08 0.32 1.32 5.44
CpGs en estas islas (%) 12.21 5.78 2.95 3.48
Enriquecimiento en DMCs (rDMC) 6.79 0.73 3.94 17.17
Enriquecimiento en CpGs (rCpG) 12.39 13.95 8.96 10.75
Longitud media (pb) ± SD 216 ± 196 317 ± 273 156 ± 92 211 ± 186
Número medio de DMCs ± SD 4 ± 8 1 ± 2 2 ± 3 10 ± 12
Número medio de CpGs ± SD 20 ± 24 36 ± 35 12 ± 5 19 ± 20
Proporción media de DMCs ± SD 0.26±0.34 0.03±0.07 0.16±0.24 0.60±0.33
A la vista de la distribución de la proporción media de DMCs (figura 3.8), se observa
que cerca de 20% de las DMIs tienen todas sus CpGs diferencialmente metilados. Sin
embargo, es sorprendente que cerca de un 10% de las DMIs tienen menos de un 10% de
DMCs.Esto sugiere que debe redefinirse el concepto de DMI. En cuanto a las UIs y a las
MIs, ambas presentan una distribución con una sola moda en 0.
Se sabe que la metilación en regiones con baja densidad de CpGs es incapaz de
bloquear la unión de factores de transcripción al DNA (Stadler et al. 2011). Por ello, las
DMIs podrían ser más adecuadas que las DMRs como unidad de estudio de la
metilación diferencial, ya que las DMRs se calculan sin tener en cuenta la densidad de
CpGs (Saito et al. 2014, Akalin et al. 2012, Sun et al. 2014).
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
31
Figura 3.9. Distribución de la proporción de DMCs frente al total de CpGs para las CGIs.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
32
3.6. METILACIÓN DIFERENCIAL EN ELEMENTOS GENÓMICOS
3.6.1. REGIONES GÉNICAS
La tabla 3.3 muestra la estadística de la anotación de los elementos DMCs y CpG en las
regiones génicas.
Tabla 3.4. Estadística de las distintas regiones génicas en relación a las DMCs de consenso y a las CpGs.
Tipo de región Gene500 R13 cdsExon cdsIntron R8
Número de regiones 28641 27041 191595 173869 24183
DMCs en estas regiones (%) 41.43 3.51 3.17 28.95 2.17
CpGs en estas regiones (%) 51.95 6.99 4.12 35.50 2.56
Enriquecimiento en DMCs (rDMC) 0.54 1.90 2.82 0.74 1.30
Enriquecimiento en CpGs (rCpG) 0.82 3.92 3.70 1.00 1.54
Longitud media (pb) ± SD 57188 ± 114012 2000 ± 0 173 ± 290 5890 ± 20270 2000 ± 0
Número medio de DMCs ± SD 127 ± 351 11 ± 12 1 ± 6 15 ± 69 8 ± 11
Número medio de CpGs ± SD 444 ± 828 63 ± 52 5 ± 12 50 ± 157 26 ± 24
Proporción media de DMCs ± SD 0.23 ± 0.22 0.28 ± 0.28 0.22 ± 0.35 0.23 ± 0.27 0.31 ± 0.27
Como puede verse, las regiones más abundantes son los exones y los intrones, mientras
que los genes, las regiones de inicio de la transcripción y las regiones de final de la
transcripción son aproximadamente igual de abundantes. Esto se debe a que,
normalmente, cada gen posee sus propias regiones de inicio y de final de la
transcripción y a que exones e intrones son componentes de los genes. Los exones son
los elementos más pequeños, con un tamaño medio inferior a 200 pb, mientras que los
intrones miden de media casi treinta veces más y los genes casi trescientas veces más.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
33
En cuanto a la longitud de las regiones de inicio y de final de la transcripción, se
desconocen por lo que suele estudiarse una región de unos dos mil pares de bases para
tener la certeza de que incluyen el promotor y el sitio de terminación, respectivamente.
Los genes, como es lógico, recogen una fracción de las DMCs totales mayor (41.43%)
que el resto de elementos componentes de los genes. La siguiente mayor fracción
corresponde a los intrones, con un 28.95%, mientras que el resto las regiones no llegan
al 4%. Pese al bajo número medio de DMCs por región que presentan los exones, son
los más enriquecidos en DMCs (nótese su pequeño tamaño). Las regiones de inicio y de
final de la transcripción también están enriquecidas en DMCs, mientras que los genes y
los intrones son pobres en DMCs.
El enriquecimiento en DMCs de los exones podría estar asociado a la regulación del
splicing alternativo o la estabilización de la elongación (Shukla et al. 2011, Hellman
DNA Chess 2007), mientras que en caso de las regiones de inicio y de final de la
transcripción podría estar asociado a la regulación de la expresión génica (Bell et al.
2011). En cuanto a los intrones, su empobrecimiento en DMCs puede deberse a la
presencia de elementos genéticos móviles (como LINE-1), lo que obliga a mantener
estable la metilación de estas regiones para evitar la transposición (Yoder et al. 1997).
En cuanto a la proporción media de DMCs por región, está en torno a 0.23 para genes,
exones e intrones y es ligeramente más alta en las regiones de inicio y de final de la
transcripción. Sin embargo, la desviación estándar de esta proporción es mayor para los
exones que para el resto de regiones.
En la figura 3.9 se muestra la distribución de esta proporción para cada región. Se
observa que la mayoría de las regiones presentan una distribución cuya moda es 0. En
cambio, los exones presentan una distribución bimodal, con una moda en 0 y otra moda,
seis veces más pequeña, en 1. Además, se aprecia cierto incremento de frecuencia en
0.5, lo cual podría deberse a fenómenos de impronta genómica. Ese mismo incremento
se observa también para los intrones y las regiones de inicio y de fin de la transcripción,
aunque no para los genes (probablemente no se aprecia por estar enmascarado por la
cola de la distribución). Por su parte, los genes también presentan una distribución
bimodal, con una moda en 0 y otra, con la mitad de frecuencia, en 0.1. Esta segunda
moda puede deberse a que uno de los componentes génicos presenta una distribución
bimodal.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
34
Figura 3.10. Distribución de la proporción de DMCs frente al total de CpGs para las distintas regiones génicas.
Mediante el uso de mapas circulares se pone de manifiesto que la metilación diferencial
no afecta siempre de la misma manera a los elementos genómicos, sino que
dependiendo de la región genómica, y de las muestras comparadas, la metilación
diferencial afecta a unos elementos o a otros. En la figura 3.10 se muestra un mapa del
cromosoma 4 en el que se representan, desde fuera hacia dentro, la anotación de DMCs
para genes, regiones de inicio de la transcripción, exones, intrones y regiones de final de
la transcripción. Como puede verse, en la región comprendida entre las posiciones 90 y
95 millones se aprecia una acumulación alta de DMCs en genes e intrones, moderada en
las regiones de inicio y final de la transcripción y leve en los exones. En la región en
torno a la posición 20 millones también se aprecia una acumulación alta de DMCs en
genes e intrones y leve en las regiones de inicio y final de la transcripción. En cambio,
en la región en torno a la posición 135 millones solo se aprecia un acumulo notable de
DMCs en los exones y en las regiones de inicio y final de la transcripción.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
35
Figura 3.11. Gráfico CIRCOS del cromosoma 4 del genoma humano con la pistas de tipo histograma con la anotación de las
DMCs en distintas regiones génicas. Las pistas, desde fuera hacia dentro, son: gene500, cdsIntrons, R13, R8 y cdsExons.
Los mapas circulares de la anotación del contenido en DMCs de elementos genómicos
están disponibles en el enlace 3.2 (véase la lista de enlaces).
3.6.2. ELEMENTOS REGULADORES DE LA TRANSCRIPCIÓN
En el genoma existen regiones que regulan la actividad transcripcional de los genes.
Dentro de esta categoría se encuentran los potenciadores, a lo que se unen proteínas
(factores de transcripción) para activar la transcripción de uno o varios genes, y los
aisladores, que bloquean la interacción entre potenciadores y promotores y previenen la
expansión de la heterocromatina de un gen silenciado a un gen transcripcionalmente
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
36
activo. Además de unirse a los potenciadores, los factores de transcripción puede unirse
a otras regiones para promover o bloquear el reclutamiento de la RNA polimerasa en
genes específicos. Estos lugares reciben el nombre de sitios de unión de factores de
transcripción o TFBSs. Existen, además, pequeñas regiones hipersensibles a la escisión
por DNAsa I y otras nucleasas que reciben el nombre de sitios hipersensibles a DNAsa I
o DHSs. En estas regiones la estructura nucleosomal es menos compacta, lo que facilita
la unión de proteínas (entre ellas, factores de transcripción) al DNA.
Tabla 3.5. Estadística de los elementos reguladores de la transcripción en relación a las DMCs y a las CpGs.
Tipo de elemento TFBS VISTA Enhancers Insulators DNase
Número de elementos 4283975 1309 310903 157556 1252829
DMCs en estos elementos (%) 25.81 0.14 3.86 4.75 30.41
CpGs en estos elementos (%) 23.70 0.09 3.68 5.29 25.89
Enriquecimiento en DMCs (rDMC) 0.28 1.98 1.32 2.47 2.87
Enriquecimiento en CpGs (rCpG) 0.25 1.24 1.26 2.76 2.30
Longitud media (pb) ± SD 373 ± 198 1524 ± 742 274 ± 121 363 ± 121 303 ± 183
Número medio de DMCs ± SD 0.5 ± 2 9 ± 9 1 ± 2 3 ± 4 2 ± 4
Número medio de CpGs ± SD 1 ± 8 16 ± 14 3 ± 6 8 ± 11 5 ± 11
Proporción media de DMCs ± SD 0.12 ± 0.29 0.58 ± 0.30 0.29 ± 0.42 0.46 ± 0.40 0.47 ± 0.43
Como se muestra en la tabla 3.4, los elementos reguladores de la transcripción son
abundantes y de pequeño tamaño. En promedio, TFBS, DHSs, potenciadores y
aisladores tienen una longitud de unos 300 pb, con la excepción del conjunto de
potenciadores VISTA, que presentan una longitud media cinco veces mayor. Los más
representados son los TFBSs, con más de cuatro millones de elementos. Le siguen los
DHSs, con más de un millón. Por su parte los potenciadores y los aisladores son,
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
37
respectivamente, diez y cinco veces más abundantes que los genes. La excepción de
nuevo son los potenciadores VISTA, que están poco representados por tratarse de
secuencias homólogas a potenciadores detectados in vivo en ratones transgénicos, a
diferencia de la anotación de ENCODE de potenciadores y aisladores, que se han
predicho a partir de la localización de TFBSs y de marcas de histonas en el caso de los
potenciadores y de clústeres de sitios de unión a CTCF en el caso de los aisladores. Los
TFBSs y los DHSs recogen una fracción importante del total de DMCs (25.81% y
30.41%, respectivamente). Sin embargo, los TFBSs muestran un fuerte
empobrecimiento en DMCs, mientras que los DHSs están moderadamente enriquecidos
en DMCs.Por su parte, el resto de elementos están moderadamente enriquecidos en
DMCs.Esto parece indicar que la metilación diferencial está más implicada en la
regulación de la actividad de potenciadores y de aisladores que en la regulación a nivel
de la unión de factores de transcripción (nótese que estos se unen a regiones de diversa
índole).
En la tabla 3.5 se muestra una estadística para un subconjunto de TFBSs implicados en
la unión de las RNA polimerasas II y III, si bien estos últimos están muy poco
representados. Estos elementos son de mayor tamaño que los otros (excepto los
potenciadores VISTA), con una longitud media en torno a 700 pb. Los sitios de unión de
la RNA polimerasa II recogen una fracción del total de DMCs relativamente alta (7.67%
del 23.70% que recoge el total de los TFBSs) y los sitios de unión de ambas RNA
polimerasas están más enriquecidos en DMCs que el resto de elementos.
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
38
Tabla 3.6. Estadística de los sitios de unión de las RNA polimerasas II y III en relación a las DMCs y a las CpGs.
Tipo de elemento Pol2 Pol3
Número de elementos 132278 228
DMCs en estos elementos (%) 7.67 0.01
CpGs en estos elementos (%) 10.14 0.03
Enriquecimiento en DMCs (rDMC) 2.65 1.61
Enriquecimiento en CpGs (rCpG) 3.60 4.76
Longitud media (pb) ± SD 662 ± 608 709 ± 338
Número medio de DMCs ± SD 5 ± 8 3 ± 6
Número medio de CpGs ± SD 19 ± 35 29 ± 19
Proporción media de DMCs ± SD 0.51 ± 0.40 0.16 ± 0.26
En cuanto a la proporción media de DMCs, los sitios de unión de la RNA polimerasa II,
los potenciadores VISTA, los aisladores y los DHSs presentan un valor alto (cercano o
superior a 0.5), mientras que el resto de elementos presenta un valor bastante bajo. Cabe
destacar, no obstante, que la proporción media de DMCs de los sitios de unión de la
RNA polimerasa III es baja debido a su enriquecimiento moderadamente alto en CpGs
(4.76).
La figura 3.11 muestra que todos los elementos presentan una distribución del
proporción de DMCs bimodal para 0 y 1, excepto los potenciadores VISTA, que
presentan una distribución trimodal para 0, 0.5 y 1, y los sitios de unión a la RNA
polimerasa III, que presentan una distribución con una sola moda en 0. En el caso de los
TFBSs y los potenciadores de ENCODE, la moda en 0 es más frecuente que la moda en
1 (siete y cuatro veces, respectivamente), mientras que en el caso de los potenciadores
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
39
vista la moda en 1 es el doble de frecuente que la moda en 0 e incluso la moda en 0.5 es
un poco mayor que la moda en 0. Por su parte, los DHSs, sitios de unión a la RNA
polimerasa II y los aisladores apenas presentan diferencias en la frecuencia de ambas
modas. Cabe destacar que los TFBSs, los sitios de unión a la RNA polimerasa II y los
aisladores de ENCODE presentan una frecuencia relativamente alta para el valor 0.5, al
igual que ocurría con los exones.
Figura 3.12. Distribución de la proporción de DMCs frente al total de CpGs para los elementos reguladores de la
transcripción.
3.6.3. SNVs Y ELEMENTOS EVOLUTIVAMENTE CONSERVADOS
Algunas regiones del genoma están evolutivamente conservadas, incluso entre especies
distantes. Entre estas destacan las regiones conservadas detectas por PhastCons para 46
especies de vertebrados o las detectadas por GERP para 35 especies de mamífero.
Como muestra la tabla 3.6, las primeras son muy cortas, con una media de 28 pb,
mientras que las segundas son unas diez veces mayores. En cuanto a su abundancia, las
primeras son casi cinco millones y las segundas casi un millón. Las regiones detectadas
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
40
por PhastCons casi no están enriquecidas en DMCs y las detectadas por GERP tiene un
enriquecimiento débil, a pesar de recoger en torno al 10% de las DMCs totales. Por otra
parte, existen regiones que evolucionan rápidamente, con sesgo mutacional en favor de
los alelos G/C (regiones PhastBiasGC). Estas regiones son más grandes, con casi 900
pb de media y presentan un enriquecimiento en DMCs moderado (2.38). Otras regiones
no conservadas son las variaciones recogidas por la base de datos dbSNP en los
conjuntos SNP138_common (polimorfismos) y SNP138_flagged (variaciones
potencialmente asociadas al desarrollo de patologías). Tanto en uno como en otro se
recogen mutaciones puntuales y pequeñas inserciones o deleciones. Son de pequeño
tamaño, con una media de unos 2 pb (muchos de ellos afectan solo a 1 pb) y el conjunto
SNP138_common comprende más de trece millones de elementos, mientras que el
conjunto SNP138_flagged no llega a los sesenta mil. En cuanto a su enriquecimiento en
DMCs, el conjunto SNP138_common está bastante enriquecido (4.91) y el conjunto
SNP138_flagged está moderadamente enriquecido (2.67).
Tabla 3.7. Estadística de las SNVs y los elementos evolutivamente conservados en relación a las DMCs y a las CpGs.
Tipo de elemento PhastCons GERP PhastBiasGC SNP138_common SNP138_flagged
Número de elementos 4953131 998057 8321 13240450 57600
DMCs en estos elementos (%) 5.29 10.32 0.61 4.48 0.02
CpGs en estos elementos (%) 6.08 10.03 0.56 3.29 0.02
Enriquecimiento en DMCs (rDMC) 1.11 1.55 2.38 4.91 2.67
Enriquecimiento en CpGs (rCpG) 1.29 1.50 2.20 3.56 3.72
Longitud media (pb) ± SD 28 ± 54 200 ± 271 889 ± 672 2 ± 2 3 ± 89
Número medio de DMCs ± SD 0.09 ± 0.58 0.91 ± 3.15 6.41 ± 12.23 0.02 ± 0.17 0.03 ± 0.24
Número medio de CpGs ± SD 0.30 ± 1.45 2.46 ± 8.41 16.59 ± 28.19 0.06 ± 0.24 0.10 ± 1.71
Proporción media de DMCs ± SD 0.05 ± 0.22 0.26 ± 0.41 0.42 ± 0.34 0.03 ± 0.17 0.02 ± 0.15
Cap
ítu
lo: 3
. Re
sult
ado
s y
dis
cusi
ón
41
La distribución de la proporción media de DMCs, mostrada en la figura 3.12, es
bimodal para todos los elementos, si bien las regiones PhastCons y los dos conjuntos de
dbSNP presentan una moda con frecuencia muy alta en 0 y una moda con muy baja
frecuencia en 1. Sin embargo, las regiones GERP y PhastBiasGC presentan una
frecuencia moderadamente alta para la moda en 1, siendo la moda en 0 solo dos y tres
veces más frecuente, respectivamente. Además, ambas distribuciones muestran una
frecuencia destacable para 0.5, al igual que ocurría con los exones y algunos elementos
reguladores de la transcripción.
Figura 3.13. Distribución de la proporción de DMCs frente al total de CpGs para las variaciones de secuencia y los elementos
evolutivamente conservados.
Basándonos en estos datos, parece que las regiones más conservadas tienen perfiles de
metilación más estables que las regiones de evolución rápida y que las regiones
polimórficas.
Cap
ítu
lo: 5
. co
ncl
usi
on
es
42
5. CONCLUSIONES
A la vista de los resultados obtenidos, se pueden extraer las siguientes conclusiones:
El análisis preliminar de los mapas de metilación mediante correlación de
Pearson, métodos de agrupamiento y análisis de componentes principales
proporciona una visión global que está muy de acuerdo con las semejanzas
biológicas entre las muestras.
Pese a ciertas discrepancias en los conjuntos de DMCs detectados por cada
método, la definición del conjunto consenso de DMCs como la intersección de
los resultados de los cuatro métodos permite disponer de mapas de DMCs de
mayor calidad, a la par que se recoge una fracción importante de las DMCs
detectadas.
La proporción de DMCs frente al total de CpGs por par de muestras es coherente
con el linaje celular al que pertenecen las muestras, al igual que el análisis de
correlación, pero ambos difieren en la relación que guardan los linajes entre sí.
El estudio del contenido en DMCs sugiere que debe redefinirse el concepto de
DMI, dado que la décima parte de estas presenta una proporción de DMCs
menor al 10%.
El enriquecimiento en DMCs en exones, sitios de inicio y final de la
transcripción, potenciadores, aisladores y sitios de unión de la RNA polimerasa
II constata el papel importante de la metilación diferencial en la regulación de la
expresión génica.
Cap
ítu
lo: 6
. per
spe
ctiv
as d
e fu
turo
43
6. PERSPECTIVAS DE FUTURO
En futuros estudios, sería interesante profundizar en el estudio del contenido en DMCs
de las DMIs, ya que algunas DMIs parecen presentar un bajo número de DMCs.Esto
podría deberse a que en el estudio de las DMIs no se han excluido las citosinas sin
dados para alguna de las muestras. Las DMCs podrían utilizarse para excluir DMIs de
baja calidad.
Por otra parte, la sexta parte de los exones presentan un elevado número de DMCs.Sería
interesante estudiar cuántos de estos exones corresponden al primer exón o a genes sin
intrones.
También sería conveniente estudiar la metilación diferencial en muestras de ratón de
los mismos linajes celulares estudiados para humanos, así como realizar un análisis
comparativo entre especies. Para ello la base de datos NGSmethDB (Hackenberg et al.
2010, Geisen et al. 2014) dispone de una amplia colección de mapas de metilación de
humano y de ratón.
Por otra parte, en plantas la metilación en los contextos CHG y CHH no es despreciable
(Henderson et al. 2007) y está regulada de forma distinta a la metilación en contextos
CG (Chan et al. 2005). Por ello, sería relevante analizar la metilación en diferentes
contextos en muestras de plantas. Concretamente, este estudio preliminar ayudará a
abrir camino al análisis de la metilación diferencial de varios cultivares de tomate en
relación con la resistencia a la araña roja en un Proyecto de Investigación Coordinado
(AGL2013-49090-C2-2-R) con la Universidad de Almería.
Cap
ítu
lo: l
ista
de
abre
viat
ura
s
44
LISTA DE ABREVIATURAS
CGI: CpG island.
DHS: DNase I hypersensitive site.
DMC: differentially methylated cytosine.
DMI: differentially methylated (CpG)island.
DMR: differentially methylated region.
ENCODE: the encyclopedia of DNA elements.
MI: methylated (CpG)island.
SNP: single nucleotide polymorphism.
SNV: single nucleotide variant.
TFBS: transcription factor binding sites.
UI: unmethylated (CpG)island.
Cap
ítu
lo: l
ista
de
figu
ras
45
LISTA DE FIGURAS
Figura 1.14. Número de publicaciones sobre epigenética entre los años 1994 y 2013. La gráfica representa el número de
publicaciones que contienen los términos “Epigenetic” o “Epigenomic” incluidas en la base de datos PubMed durante los
últimos 20 años (1994-2013). Además, se incluyen algunos de los hitos, tanto técnicos como científicos, más importantes en la
investigación epigenética: la aparición del primer método de secuenciación masiva (454 sequencing en el año 2000), la
fundación del consorcio ENCODE (Consortium 2004), la publicación de los resultados del proyecto piloto de ENCODE
(Birney et al. 2007), la incorporación de Illumina al mercado de la secuenciación masiva (2007), la fundación del consorcio
ROADMAP Epigenomics (Bernstein et al. 2010) y la publicación en septiembre de 2012 de 29 artículos (enlace 1.1) con los
resultados obtenidos a partir del proyecto ENCODE. Figura extraída de Barturen 2014b.
Figura 3.15. Matriz de correlación para los once mapas de metilación. Se muestran los histogramas con la distribución del
nivel de metilación en el contexto CG para las once muestras (en la diagonal) y los coeficientes de correlación de Pearson (en
la matriz triangular superior) y los diagramas de dispersión de los mapas de metilación (en la matriz triangular inferior)
para los cincuenta y cinco pares de muestras.
Figura 3.16. Agrupamiento jerárquico de las muestras en función de su correlación de Pearson.
Figura 3.17. Fracción de la varianza absorbida por cada componente principal (PC).
Figura 3.18. Dispersión de las muestras en función del segundo componente principal (PC2) frente al primero (PC1).
Figura 3.19. Diagrama de Venn de los conjuntos de DMCs por método. Los datos utilizados corresponden a la tabla
DMCdb_hg19_method. El valor abajo a la derecha representa el número total de DMCs detectadas por al menos un método.
Figura 3.20. Proporción de las DMCs totales recogidas por cada método y por el consenso (en naranja).
Figura 3.21. Agrupamiento jerárquico de las muestras en función de su proporción de DMCs frente al total de CpGs. El
método de aglutinamiento utilizado es el método de Ward, el mismo que se utilizó en el dendrograma de correlación.
Figura 3.22. Distribución de la proporción de DMCs frente al total de CpGs para las CGIs.
Figura 3.23. Distribución de la proporción de DMCs frente al total de CpGs para los elementos de la región génica.
Figura 3.24. Gráfico CIRCOS del cromosoma 4 del genoma humano con la pistas de tipo histograma con la anotación de las
DMCs en elementos de la región génica. Las pistas, desde fuera hacia dentro son: gene500, cdsIntrons, R13, R8 y cdsExons.
Figura 3.25. Distribución de la proporción de DMCs frente al total de CpGs para los elementos reguladores de la
transcripción.
Figura 3.26. Distribución de la proporción de DMCs frente al total de CpGs para las variaciones de secuencia y los elementos
evolutivamente conservados.
Cap
ítu
lo: l
ista
de
tab
las
46
LISTA DE TABLAS
Tabla 2.8. Mapas de metilación de la base de datos NGSmethDB utilizados en este estudio.
Tabla 3.9. Matriz de DMCs entre pares de muestras. La matriz superior muestra el número total de DMCs para cada par,
mientras que la matriz inferior muestra el porcentaje de DMCs frente al total CpGs para cada par. Las casillas coloreadas
indican que las dos muestras del par corresponden al mismo clúster según el dendrograma de correlación de Pearson: en
naranja las muestras del linaje hematopoyético, en azul las muestras de tejido conectivo y en morado el clúster de células
madre embrionarias y córtex prefrontal. Se han resaltado en negrita aquellos pares con más de un 5% de DMCs y en rojo
aquellos con más de un 10%. Los datos utilizados corresponden a la tabla DMCdb_hg19_pairs_consensus. ff:
foreskinfibroblast; pc: prefrontalcortex.
Tabla 3.10. Estadística de las DMIs en relación a las DMCs y a las CpGs.
Tabla 3.11. Estadística de los elementos de la región génica en relación a las DMCs y a las CpGs.
Tabla 3.12. Estadística de los elementos reguladores de la transcripción en relación a las DMCs y a las CpGs.
Tabla 3.13. Estadística de los sitios de unión de las RNA polimerasas II y III en relación a las DMCs y a las CpGs.
Tabla 3.14. Estadística de las SNVs y los elementos evolutivamente conservados en relación a las DMCs y a las CpGs.
Cap
ítu
lo: l
ista
de
enla
ces
47
LISTA DE ENLACES
Enlace 1.1. Resultados del Proyecto ENCODE: http://www.nature.com/ENCODE
Enlace 2.1. Web de la base de datos NGSmethDB: http://bioinfo2.ugr.es/NGSmethDB
Enlace 2.2. Web del programa NGSmethPipe: http://bioinfo2.ugr.es/NGSmethPipe
Enlace 2.3. Web del programa MethylExtract: http://bioinfo2.ugr.es/MethylExtract
Enlace 2.4. Tutorial para la creación de un track hub de UCSC:
http://genome.ucsc.edu/goldenPath/help/hgTrackHubHelp.html
Enlace 2.5. Descripción del formato bigWig:
http://genome.ucsc.edu/goldenPath/help/bigWig.html
Enlace 2.6. Tutorial para la creación de un gráfico CIRCOS:
http://CIRCOS.ca/documentation/tutorials
Enlace 3.1. Track hub de UCSC con los mapas de DMCs: http://genome.ucsc.edu/cgi-
bin/hgTracks?db=hg19&hubUrl=http://bioinfo2.ugr.es/DMCdb_hub/hub.txt
Enlace 3.2. Gráficos CIRCOS de la anotación en DMCs de diferentes elementos genómicos:
http://bioinfo2.ugr.es/DMCdb/CIRCOS
Cap
ítu
lo: b
iblio
graf
ía
48
BIBLIOGRAFÍA
Akalin, A. et al. 2012. methylKit: a comprehensive R package for the analysis of genome-wide
DNA methylation profiles. Genome Biol. 13: R87.
Barturen, G. 2014. Regiones genómicas implicadas en la metilación diferencial del DNA.Tesis
Doctoral, Universidad de Granada.
Barturen, G. et al. 2014. MethylExtract: High-Quality methylation maps and SNV calling from
whole genome bisulfite sequencing data. F1000Research. 2: 217.
Baylin, S. B. et al. 2001. Aberrant patterns of DNA methylation, chromatin formation and gene
expression in cancer. Hum. mol. gen. 10: 687.
Bell, J. T. and Spector, T. D. 2012. DNA methylation studies using twins: what are they telling
us?. Genome Biol. 13: 172.
Bell, J. T. et al. 2011. DNA methylation patterns associate with genetic and gene expression
variation in HapMap cell lines. Genome Biol. 12: R10.
Berger, S. L. et al. 2009. An operational definition of epigenetics. Genes Dev. 23: 781.
Bernstein, B. E. et al. 2010. The NIH Roadmap Epigenomics Mapping Consortium. Nat.
Biotechnol. 28: 1045.
Bird, A. 2002. DNA methylation patterns and epigenetic memory. Genes Dev. 16: 6.
Bird, A. 2007. Perceptions of epigenetics. Nature. 447: 396.
Birney, E. et al. 2007. Identification and analysis of functional elements in 1% of the human
genome by the ENCODE pilot project. Nature. 447: 799.
Bonasio, R. et al. 2010. Molecular signals of epigenetic states. Science. 330: 612.
Cedar, H. and Bergman, Y. 2009. Linking DNA methylation and histone modification: patterns
and paradigms. Nature Rev. Genet. 10: 295.
Chan, S. W. et al. 2005. Gardening the genome: DNA methylation in Arabidopsis thaliana.
Nature Rev. Genet. 6: 351.
Cheng, X. and Blumenthal, R. M. 2008. Mammalian DNA methyltransferases: a structural
perspective. Structure. 16: 341.
Cokus, S. J. et al. 2008. Shotgun bisulphite sequencing of the Arabidopsis genome reveals DNA
methylation patterning. Nature. 452: 215.
Cap
ítu
lo: b
iblio
graf
ía
49
Consortium, E. p. 2004. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 306:
636.
Consortium, E. p. et al. 2012. An integrated encyclopedia of DNA elements in the human
genome. Nature. 489: 57.
Davydov, E. V. et al. 2010. Identifying a high fraction of the human genome to be under
selective constraint using GERP++. PLoS Comput. Biol. 6: e1001025.
De Smet, C. et al. 1999. DNA methylation is the primary silencing mechanism for a set of germ
line- and tumorspecific genes with a CpG-rich promoter. Mol. cell. biol. 19: 7327.
Ehrlich, M. et al. 1982. Amount and distribution of 5-methylcytosine in human DNA from
different types of tissues of cells. Nucl. Acids Res. 10: 2709.
Esteller, M. et al. 2001. A gene hypermethylation profile of human cancer. Cancer Res. 61:
3225.
Feng, H. et al. 2014. A Bayesian hierarchical model to detect differentially methylated loci from
single nucleotide resolution sequencing data. Nucl. Acids Res. 42: e69.
Gardiner-Garden, M. and Frommer, M. 1987. CpG islands in vertebrate genomes. J. Mol. Biol.
196:261.
Geisen, S. et al. 2014. NGSmethDB: an updated genome resource for high quality, single-
cytosine resolution methylomes. Nucl. Acids Res. 42: D53.
Goll, M. G. and Bestor, T. H. 2005. Eukaryotic cytosine methyltransferases. Annu. Rev.
Biochem. 74: 481.
Hackenberg, M. et al. 2006. CpGcluster: A distance-based algorithm for CpG-island detection.
BMC Bioinformatics. 7: 446.
Hackenberg, M. et al. 2010. NGSmethDB: A database for next-generation sequencing single-
cytosine-resolution DNA methylation data. Nucl. Acids Res. 1: 1.
Hackenberg, M. et al. 2011. WordCluster: detecting clusters of DNA words and genomic
elements. Algorithm. Mol. Biol. 6:2.
Hackenberg, M. et al. 2012. DNA Methylation Profiling from High-Throughput Sequencing
Data. In: DNA Methylation – From Genomics to Technology. Dr. Tatiana Tatarinova (Ed.),
ISBN: 978-953-51-0320-2, InTech.
Hansen, K. D. et al. 2012. BSmooth: from whole genome bisulfite sequencing reads to
differentially methylated regions. Genome Biol. 13: R83.
Cap
ítu
lo: b
iblio
graf
ía
50
Hebestreit, K. et al. 2013. Detection of significantly differentially methylated regions in targeted
bisulfite sequencing data. Bioinformatics. 20: 1647.
Hellman, A. and Chess, A. 2007. Gene body-specific methylation on the active X chromosome.
Science. 315: 1141.
Henderson, I. R. & Jacobsen, S. E. 2007. Epigenetic inheritance in plants. Nature. 447: 418.
Hodges, E. et al. 2011. Directional DNA methylation changes and complez intermediate states
accompany lineage specificity in the adult hematopoietic compartment. Mol. Cell. 44: 17.
Holliday, R. 1994. Epigenetics: an overview. Dev. Genet. 15: 453.
Hon, G. C. et al. 2012. Global DNA hypomethylation coupled to repressive chromatin domain
formation and gene silencing in breast cancer. Genome Res. 22: 246.
Hon, G. C. et al. 2013. Epigenetic memory at embryonic enhancers identified in DNA
methylation maps from adult mouse tissues. Nat. Genet. 45: 1198.
Hubisz, M. J. et al. 2011. PHAST and RPHAST: phylogenetic analysis with space/time models.
Brief Bioinform. 12: 41.
Issa, J. p. 2004. CpG island methylator phenotype in cancer. Nat. Rev. 4: 988.
Kim, J. K. et al. 2009. Epigenetic mechanisms in mammals. Cell. Mol. Life Sci. 66: 596.
Klose, R. J. and Bird, A. p. 2006. Genomic DNA methylation: the mark and its mediators. Trends
Biochem. Sci. 31: 89.
Lander, E. S. et al. 2001. Initial sequencing and analysis of the human genome. Nature. 409:
860.
Laurent, L. et al. 2010. Dynamic changes in the human methylome during differentiation.
Genome Res. 20: 320.
Li, S. et al. 2013. An optimized algorithm for detecting and annotating regional differential
methylation. BMC Bioinformatics. 14: S10.
Li, Y. et al. 2010. The DNA methylome of human peripheral blood mononuclear cells. PLoS
Biol. 8: e1000533.
Lister, R. and Ecker, J. R. 2009. Finding the fifth base: genome-wide sequencing of cytosine
methylation. Genome Res. 19: 959.
Lister, R. et al. 2008. Highly integrated single-base resolution maps of the epigenome in
Arabidopsis. Cell. 133: 523.
Cap
ítu
lo: b
iblio
graf
ía
51
Lister, R. et al. 2009. Human DNA methylomes at base resolution show widespread epigenomic
differences. Nature. 462: 315.
Mann, J. R. 2014. Epigenetics and memigenetics. Cell. Mol. Life Sci. 71: 1117.
Mendel, G. 1866. Versuche über Pflanzen-Hybriden. Verh. Naturforsch. Ver. Brünn 4: 3 (in
English, J. R. 1901. Hortic. Soc. 26: 1).
Moarefi, A. H. and Chedin, F. 2011. ICF syndrome mutations cause a broad spectrum of
biochemical defects in DNMT3B-mediated de novo DNA methylation. J. Mol. Biol. 409: 758.
Molaro, A. et al. 2011. Sperm methylation profiles reveal features of epigenetic inheritance. Cell.
146: 1029.
Pruitt, K. D. et al. 2007. NCBI reference sequences (RefSeq): a curated non-redundant sequence
database of genomes, transcripts and proteins. Nucl. Acids Res. 35: D61.
Ramsahoye, B. H. et al. 2000. Non-CpG methylation is prevalent in embryonic stem cells and
may be mediated by DNA methyltransferase 3a. Proc. Natl Acad. Sci. USA. 97: 5237.
Riazalhosseini, Y. and Hoheisel, J. D. 2008. Do we use the appropriate controls for the
identification of informative methylation markers for early cancer detection?. Genome biol. 9:
405.
Riggs, A. D. et al. 1996. Introduction. In: Riggs, A. D. et al. (eds) Epigenetic mechanisms of
gene regulation. Cold Spring Harbor Laboratory Press, New York.
Saito, Y. et al. 2014. Bisulfighter: accurate detection of methylated cytosines and differentially
methylated regions. Nucl. Acids Res. 42: e45.
Sherry, S. T. et al. 2001. dbSNP: the NCBI database of genetic variation. Nucl. Acids Res. 29:
308.
Shukla, S. et al. 2011. CTCF-promoted RNA polymerase II pausing links DNA methylation to
splicing. Nature. 479: 74.
Siepel, A. 2005. Evolutionarily conserved elements in vertebrate, insect, worm, and yeast
genomes. Genome Res. 15: 1034.
Song, F. et al. 2005. Association of tissue-specific differentially methylated regions (TDMs)
with differential gene expression. Proceedings of the National Academy of Sciences of the
United States of America. 102: 3336.
Stockwell, p. A. et al. 2014. DMAP: differential methylation analysis package for RRBS and
WGBS data. Bioinformatics. 30: 1814.
Cap
ítu
lo: b
iblio
graf
ía
52
Sun, D. et al. 2014. MOABS: model based analysis of bisulfite sequecing data. Genome Biol. 15:
R38.
Suzuki, M. M. and Bird, A. 2008. DNA methylation landscapes: provocative insights from
epigenomics. Nat. Rev. Genet. 9: 465.
Varley, K. E. et al. 2013. Dynamic DNA methylation across diverse human cell lines and tissues.
Genome Res. 23: 555.
Venter, J. C. et al. 2001. The sequence of the human genome. Science. 291: 1304.
Visel, A. et al. 2007. vista Enhancer Browser--a database of tissue-specific human enhancers.
Nucl. Acids Res. 35: D88.
Waddington, C. H. 1942. The epigenotype. Endeavour. 1: 18.
Yoder, J. A. et al. 1997. Cytosine methylation and the ecology of intragenomic parasites. Trends
Genet. 13: 335.
Zhang, Y. et al. 2011. QDMR: a quantitative method for identification of differentially
methylated regions by entropy. Nucl. Acids Res. 39: e58.
Zhang, X. et al. 2006. Genome-wide high-resolution mapping and functional analysis of DNA
methylation in Arabidopsis. Cell. 126: 1189.
Zhu, J. et al. 2008. On the nature of human housekeeping genes. Trends Genet. 24: 481.
Ziller, M. J. et al. 2013. Charting a dynamic DNA methylation landscape of the human genome.
Nature. 500: 477.
Cap
ítu
lo: a
nex
os
53
ANEXOS
ANEXO I. FORMATO DE SALIDA DE METHYLEXTRACT
El formato de salida utilizado por MethylExtract consiste en un fichero de texto plano
para cada muestra, compuesto por columnas separadas por tabuladores y en el que cada
fila contiene los datos de un CpG. Las columnas son las siguientes:
chrom: primera columna de las coordenadas genómicas, en la que se indica el
cromosoma al que pertenece el CpG. El cromosoma se nombra utilizando el
prefijo "chr" seguido del índice (número y/o letra) del cromosoma.
pos: segunda columna de las coordenadas genómicas, en la que se indica la
posición dentro del cromosoma en la que se localiza la primera base de la hebra
Watson del CpG. Es la llamada coordenada de inicio o "chromStart".
context: esta columna se refiere al contexto de metilación del CpG. Puede
tratarse de un contexto con o sin ambigüedad para la citosina.
Watson METH: esta columna indica el número de lecturas que alinean con la
hebra Watson de la referencia en las coordenadas genómicas correspondientes al
CpG y que evidencian que la primera citosina está metilada.
Watson COVERAGE: esta columna indica el número total de lecturas que
alinean con la hebra Watson de la referencia en las coordenadas genómicas
correspondientes al CpG, evidencien o no que la primera citosina está metilada.
Watson QUAL: esta columna indica el valor de calidad PHRED medio para la
totalidad de lecturas que alinean con la hebra Watson de la referencia en las
coordenadas genómicas correspondientes al CpG.
Crick METH: esta columna indica el número de lecturas que alinean con la
hebra Crick de la referencia en las coordenadas genómicas correspondientes al
CpG y que evidencian que la segunda citosina está metilada.
Cap
ítu
lo: a
nex
os
54
Crick COVERAGE: esta columna indica el número total de lecturas que alinean
con la hebra Crick de la referencia en las coordenadas genómicas
correspondientes al CpG, evidencien o no que la segunda citosina está metilada.
Crick QUAL: esta columna indica el valor de calidad PHRED medio para la
totalidad de lecturas que alinean con la hebra Crick de la referencia en las
coordenadas genómicas correspondientes al CpG.
ANEXO II. FORMATO DE ENTRADA DE BISULFIGHTER
Se trata también de un fichero de texto con columnas separadas por tabuladores, pero en
este caso en lugar de contener los datos de metilación de una sola muestra contiene los
datos del par de muestras que se van a comparar. En este formato, cada fila contiene los
datos de un CpG de las dos muestras a comparar.
Debe cumplir los siguientes requisitos:
No debe tener encabezado. En otras palabras, la primera línea del fichero debe
contener los datos del primer CpG en lugar de los nombres de las columnas.
Los datos deben estar ordenados en función de las coordenadas genómicas, en
orden creciente. Esto es, las filas deben estar primero ordenadas alfabéticamente
según el nombre del cromosoma y luego ordenadas numéricamente por la
posición de inicio dentro del cromosoma.
En cuanto a las columnas que contiene este fichero, son las siguientes:
La primera columna indica el cromosoma al que pertenece el CpG.
La segunda columna indica la posición del CpG dentro del cromosoma.
La tercera columna indica el número total de lecturas que evidencian que el CpG
está metilado en la primera muestra de las dos muestras a comparar.
La cuarta columna indica el número total de lecturas que evidencian que el CpG
no está metilado en la primera muestra de las dos muestras a comparar.
La quinta columna indica el número total de lecturas que evidencian que el CpG
está metilado en la segunda muestra de las dos muestras a comparar.
Cap
ítu
lo: a
nex
os
55
La sexta columna indica el número total de lecturas que evidencian que el CpG
no está metilado en la segunda muestra de las dos muestras a comparar.
ANEXO III. FORMATO DE ENTRADA DE METHYLKIT
Se trata de ficheros de texto con columnas separadas por tabuladores que contienen,
cada uno de ellos, los datos de metilación de una sola muestra. Cada fila contiene los
datos de una citosina y no de un CpG.
Deben cumplir los siguientes requisitos:
Los ficheros de entrada deben tener encabezado. En otras palabras, la primera
línea del fichero debe contener los nombres de las columnas, tal y como se
indican más abajo en la descripción del contenido de estos ficheros, respetando
mayúsculas y minúsculas.
No es necesario ordenar los datos en función de las coordenadas genómicas.
En cuanto a las columnas que contiene cada fichero de entrada, son las siguientes:
chrBase: identificador único de cada citosina, compuesto por la concatenación
de las dos columnas siguientes (chr y base) utilizando un punto (".") como
separador.
chr: indica el cromosoma al que pertenece la citosina.
base: indica la posición en la que se localiza la citosina.
strand: indica la hebra en la que se localiza la citosina. Si se trata de la hebra
Watson el valor es F (de forward), mientras que si se trata de la hebra Crick el
valor es R (de reverse).
coverage: indica el número de lecturas que alinean con la referencia en las
coordenadas genómicas correspondientes a la citosina, independientemente de si
evidencian que dicha citosina está metilada o no.
freqC: indica el porcentaje (sin el símbolo %) de las lecturas totales que
evidencian que la citosina está metilada.
Cap
ítu
lo: a
nex
os
56
freqT: indica el porcentaje (sin el símbolo %) de las lecturas totales que
evidencian que la citosina no está metilada.
ANEXO IV. FORMATO DE ENTRADA DE MOABS
Se trata de ficheros de texto con columnas separadas por tabuladores que contienen,
cada uno de ellos, los datos de metilación de una sola muestra. Cada fila contiene los
datos de un CpG de las dos muestras a comparar.
Deben cumplir los siguientes requisitos:
Deben tener encabezado. En otras palabras, la primera línea del fichero debe
contener los nombres de las columnas, tal y como se indican más abajo en la
descripción del contenido de estos ficheros, respetando mayúsculas y
minúsculas.
Los datos deben estar ordenador en función de las coordenadas genómicas, en
orden creciente. Esto es, las filas deben estar primero ordenadas alfabéticamente
según el nombre del cromosoma y luego ordenadas numéricamente por la
coordenada de inicio dentro del cromosoma.
En cuanto a las columnas que contiene cada fichero de entrada, son las siguientes:
#chrom: indica el cromosoma al que pertenece el CpG.
start: indica la posición dentro del cromosoma en la que se localiza la primera
base del CpG.
end: indica la coordenada de final (+1) del CpG.
ratio: indica el tanto por uno de las lecturas totales que evidencian la metilación
del CpG.
strand: indica para que hebras se dispone de datos de metilación. Puede adoptar
tres valores:
► B (de both), cuando se dispone de datos para ambas hebras.
► + , cuando solo se dispone de datos para la hebra Watson.
► - , cuando solo se dispone de datos para la hebra Crick.
Cap
ítu
lo: a
nex
os
57
next: esta columna contiene una sola letra y se utiliza para diferenciar al
contexto CG de los otros contextos. Cuando el valor de esta columna es G, el
programa interpreta que esta fila contiene los datos de metilación de un CpG.
Plus: indica que las dos siguientes columnas contienen los datos de metilación
referentes a la hebra Watson. El valor de esta columna es siempre + .
totalC: indica el número total de lecturas que alinean con la hebra Watson de la
referencia en las coordenadas genómicas correspondientes al CpG,
independientemente de si evidencian o no metilación del CpG.
methC: indica el número de lecturas que evidencian que el CpG está metilado en
la hebra Watson.
Minus: indica que las dos siguientes columnas contienen los datos de metilación
referentes a la hebra Crick. El valor de esta columna es siempre - .
totalC: indica el número total de lecturas que alinean con la hebra Crick de la
referencia en las coordenadas genómicas correspondientes al CpG,
independientemente de si evidencian o no metilación del CpG.
methC: indica el número de lecturas que evidencian que el CpG está metilado en
la hebra Crick.
localSeq: indica el nombre de la muestra de la que se obtuvieron los datos.
ANEXO V. FORMATO DE SALIDA DE BISULFIGHTER
El fichero de salida con los datos de las DMCs de Bisulfighter es un fichero de texto con
columnas separadas por tabuladores y sin encabezado. Cada fila contiene los datos de
una DMC y consta de las siguientes columnas:
La primera columna indica el cromosoma al que pertenece la DMC.
La segunda columna indica la posición de inicio de la DMC dentro del
cromosoma.
La tercera columna indica el tanto por uno de las lecturas totales que evidencian
la metilación de la DMC en la primera muestra.
Cap
ítu
lo: a
nex
os
58
La cuarta columna indica el tanto por uno de las lecturas totales que evidencian
la metilación de la DMC en la segunda muestra.
La quinta columna indica la probabilidad, en tanto por uno, de hipermetilación
de la DMC en la primera muestra frente a la segunda. Es la probabilidad de estar
en el estado UP.
La sexta columna indica la probabilidad, en tanto por uno, de hipometilación de
la DMC en la primera muestra frente a la segunda. Es la probabilidad de estar en
el estado DOWN.
La séptima columna indica la probabilidad, en tanto por uno, de que no haya
cambios en la metilación de la DMC entre las dos muestras. Es la probabilidad
de estar en el estado NoCh.
ANEXO VI. FORMATO DE SALIDA DE METHYLKIT
El fichero de salida con los datos de las DMCs de methylKit es un fichero de texto con
columnas separadas por tabuladores y con encabezado. Cada fila contiene los datos de
una DMC y consta de las siguientes columnas:
chr: indica el cromosoma al que pertenece la DMC.
start: indica la posición de inicio de la DMC dentro del cromosoma.
end: pese a su nombre, el valor de esta columna es igual al valor de la columna
start.
strand: pese a su nombre, el valor de esta columna es siempre + .
pvalue: indica el valor de p de la DMC para el par de muestras comparado.
qvalue: indica el valor de q de la DMC para el par de muestras comparado.
meth.diff: indica el resultado, con signo, de sustraer al porcentaje de metilación
de la DMC para la primera muestra el porcentaje de metilación de la DMC para
la segunda muestra.
ANEXO VII. FORMATO DE SALIDA DE MOABS
Cap
ítu
lo: a
nex
os
59
El fichero de salida con los datos de las DMCs de MOABS (con la extensión .cvd.txt) es
un fichero de texto con columnas separadas por tabuladores y sin encabezado. Cada fila
contiene los datos de una DMC y consta de las siguientes columnas, a las que daremos
los nombres que indica la documentación del programa:
#chrom: indica el cromosoma al que pertenece la DMC.
start: indica la posición de inicio de la DMC dentro del cromosoma.
end: indica la posición de final de la DMC dentro del cromosoma.
totalC_0: indica la suma de la cobertura de ambas hembras de la DMC en la
primera muestra.
nominalRatio_0: indica el tanto por uno de las lecturas totales que evidencian la
metilación de la DMC para la primera muestra.
ratioCI_0: indica el intervalo de confianza para el valor de la columna
nominalRatio_0. El valor de esta columna está compuesto por el valor del límite
inferior del intervalo de confianza y por el valor del límite superior, con una
coma (",") como separador.
totalC_1: indica la suma de la cobertura de ambas hembras de la DMC en la
segunda muestra.
nominalRatio_1: indica el tanto por uno de las lecturas totales que evidencian la
metilación de la DMC para la segunda muestra.
ratioCI_1: indica el intervalo de confianza para el valor de la columna
nominalRatio_1. El valor de esta columna está compuesto por el valor del límite
inferior del intervalo de confianza y por el valor del límite superior, con una
coma (",") como separador.
nominalDif_1-0: indica la diferencia en el porcentaje de metilación de la DMC
entre ambas muestras.
credibleDif_1-0: indica la diferencia creíble en el porcentaje de metilación de la
DMC entre ambas muestras.
Cap
ítu
lo: a
nex
os
60
difCI_1-0: indica el intervalo de confianza para el valor de la columna
nominalDif_1-0. El valor de esta columna está compuesto por el valor del límite
inferior del intervalo de confianza y por el valor del límite superior, con una
coma (",") como separador.
p_sim_1_v_0: indica el valor p del valor de la columna nominalDif_1-0 para el
test de similaridad.
p_fet_1_v_0: indica el valor p del valor de la columna nominalDif_1-0 para el
test exacto de Fisher.
type: indica el tipo de DMC según la signo del valor de la columna
nominalDif_1-0 y la significación estadística para los valores de las columnas
p_sim_1_v_0 y p_fet_1_v_0. Adopta uno de los siguientes valores:
► hyper: indica que la DMC está hipermetilada en la segunda muestra con
respecto a la primera y que el valor de la columna p_sim_1_v_0 o el
valor de la columna p_fet_1_v_0 es menor que 0.05 (solo uno de los dos
valores, no ambos).
► strongHyper: indica que la DMC está hipermetilada en la segunda
muestra con respecto a la primera y que tanto el valor de la columna
p_sim_1_v_0 como el valor de la columna p_fet_1_v_0 son menores que
0.05.
► hypo: indica que la DMC está hipometilada en la segunda muestra con
respecto a la primera y que el valor de la columna p_sim_1_v_0 o el
valor de la columna p_fet_1_v_0 es menor que 0.05 (solo uno de los dos
valores, no ambos).
► strongHypo: indica que la DMC está hipometilada en la segunda muestra
con respecto a la primera y que tanto el valor de la columna
p_sim_1_v_0 como el valor de la columna p_fet_1_v_0 son menores que
0.05.
Recommended