31
Nuevos enfoques en el análisis de datos de microarrays Javier Pérez Florido Departamento de Arquitectura y Tecnología de Computadores, Universidad de Granada [email protected]

Nuevos enfoques en el análisis de datos de microarrays

Embed Size (px)

Citation preview

Page 1: Nuevos enfoques en el análisis de datos de microarrays

Nuevos enfoques en el análisis de datos de

microarrays

Javier Pérez FloridoDepartamento de Arquitectura y Tecnología de

Computadores, Universidad de Granada

[email protected]

Page 2: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 2

Índice de contenidos

• Un poco de historia• ¿Qué es un microarray y para qué

sirve?• Tecnologías de microarray más

conocidas.• Análisis de microarrays

– Pre-procesamiento• Ejemplo: Chronic Lymphocytic Leukemia

(CLL) data• Trabajos relacionados

Page 3: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 3

Un poco de historia

• A finales de los años 80, cuatro científicos , Stephen Fodor, Michael Pirrung, Leighton Read y Lubert Stryer, desarrollaron una revolucionaria tecnología para la determinación y cuantificación de ADN en una muestra.

• Esta tecnología, desembocó en la primera plataforma de microarrays de ADN: Genechip de Affymetrix.

Page 4: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 4

¿Para qué sirve un microarray?

• Nos permite observar la expresión de miles de genes del genoma de un organismo.

• Identificar genes que producen ciertas enfermedades mediante la comparación de los niveles de expresión entre células sanas y células que están desarrollando ciertos tipos de enfermedades.

Page 5: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 5

¿Qué es un microarray?

• Consiste en un gran número de moléculas de ADN ordenadas sobre un sustrato sólido, formando una matriz de secuencias en dos dimensiones.

• Estos fragmentos (sondas) de material genético de una sola hebra pueden ser:– Secuencias cortas (oligonucleótidos)– Secuencias de mayor tamaño (cDNA sintetizado a

partir del mRNA)– Productos PCR (Polymerase Chain Reaction)

• Los ácidos nucleicos de las muestras a analizar se marcan por diversos métodos (fluorescentes, enzimáticos, etc.) y se incuban/vierten sobre el panel de sondas -> hibridación de secuencias homólogas

Page 6: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 6

¿Qué es un microarray?

• Durante la hibridación, las muestras de material genético marcadas se unirán a sus complementarias inmovilizadas en el chip.

• Tras el lavado del microarray, el escáner identifica y cuantifica el ADN hibridado y las herramientas informáticas, permitirán interpretar y analizar

los datos obtenidos.

Page 7: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 7

¿Qué es un microarray?

• Aplicaciones:– Análisis de expresión génica.– Detección de mutaciones y polimorfismos.– Secuenciación.– Seguimiento de terapia.– Medicina preventiva.– Toxicología de fármacos.– Diagnóstico molecular– ...

Page 8: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 8

¿Qué es un microarray?

• Tecnologías más conocidas:– Spotted cDNA arrays (Brown/Botstein)– Short oligonucleotide arrays (Affymetrix)– Illumina Bead Arrays

Page 9: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 9

Spotted cDNA arrays• La razón de las intensidades rojas y

verdes para cada “spot” es indicativo de la abundancia relativa de la correspondiente sonda de ADN en las dos muestras diana.

• M=log2(A/B)=log2(A)-log2(B). Casos:– M>0: gen sobre-expresado en la

muestra verde.– M=0: gen expresado

equitativamente en ambas muestras.

– M<0: gen sobre-expresado en la muestra roja.

Page 10: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 10

Short oligonucleotide arrays - Affymetrix

• Cada gen o porción de gen se representa por 11-20 pares de sondas.

• Cada par de sondas consiste en dos oligonucleótidos (PM,MM) de 25 bases de longitud.

• “Perfect Match (PM)”: 25 bases complementarias a una secuencia referencia de interés (parte de un gen)

• “Mismatch (MM)”: =PM excepto la base en la posición 13 (G<->C, A<->T)

• Conjunto de pares de sondas: colección de pares de sondas (PM-MM) (11 a 20) relacionadas con un gen común o fracción de gen.

• El propósito de las sondas MM es medir la hibridación no específica y el ruido de fondo.

Page 11: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 11

Short oligonucleotide arrays - Affymetrix

Page 12: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 12

Short oligonucleotide arrays - Affymetrix

Page 13: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 13

Illumina Bead Arrays

Page 14: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 14

Análisis de microarrays• Análisis de calidad de los microarrays.• Pre-procesamiento: depende de la plataforma y trata

de reducir la variabilidad técnica sin alterar la variabilidad biológica de los datos

• Análisis estadístico: selección de los genes expresados diferencialmente– Mann Whitney U test, Student’s t-test

• Agrupación de genes en clusters de acuerdo con la similitud en los patrones de expresión o clasificación:– Clustering jerárquico, k-means, SOM– Support Vector Machines (SVMs), K-Nearest-Neighbour (K-

NN), Classification trees• Mapeo de genes a términos GO (Gene Ontology) ->

procesos biológicos, componentes celulares o funciones moleculares de los genes seleccionados.

Pre-procesamiento de datos

Análisis estadístico: detección de genes

expresados diferencialmente

Análisis de clusteringClasificación

Análisis GO (Gene Ontology)

Análisis de calidad

Page 15: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 15

Análisis de microarrays • Bioconductor (www.bioconductor.org), basado en el

lenguaje de programación R (http://www.R-project.org) es la herramienta referencia para el análisis de microarrays con un repertorio completo de paquetes para cada etapa de análisis de microarrays.

• Bioconductor es un proyecto de código abierto• Paquetes:

– Análisis de calidad: affy, simpleaffy, affyPLM, affyqcreport, arrayqualitymetrics

– Pre-procesamiento: affy, affyPLM, limma, vsn– Detección de genes expresados diferencialmente: limma,

siggenes, multtest– Agrupamiento: hopach, cluster, kohonen, class, som.

Clasificación: class, e1071, MASS, rpart– Análisis GO: GOstats, GO

– …y muchos más

Page 16: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 16

Análisis de microarrays

• Análisis de calidad de los microarrays.• Pre-procesamiento: depende de la plataforma y trata

de reducir la variabilidad técnica sin alterar la variabilidad biológica de los datos

• Análisis estadístico: selección de los genes expresados diferencialmente– Mann Whitney U test, Student’s t-test

• Agrupación de genes en clusters de acuerdo con la similitud en los patrones de expresión o clasificación:– Clustering jerárquico, k-means, SOM– Support Vector Machines (SVMs)

• Mapeo de genes a términos GO (Gene Ontology) -> procesos biológicos, componentes celulares o funciones moleculares de los genes seleccionados.

Pre-procesamiento de datos

Análisis estadístico: detección de genes

expresados diferencialmente

Análisis de clusteringClasificación

Análisis GO (Gene Ontology)

Análisis de calidad

Page 17: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 17

Pre-procesamiento en microarrays

• Experimento de microarrays:– Variaciones biológicas: heterogeneidad del

tejido, polimorfismo genético, cambios en el nivel de mRNA entre células/individuos -> de interés: variación real entre experimentos.

– Variaciones técnicas: preparación de muestras, hibridación, etc -> pueden tener un impacto negativo en la calidad de los datos -> enmascarar variaciones biológicas

Page 18: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 18

Pre-procesamiento en Affymetrix

• Corrección de ruido de fondo (Background)– Elimina ruido de fondo de las imágenes obtenidas por

los escáneres. • Normalización

– Reduce las diferencias no biológicas entre chips y normaliza la intensidad de la señal de los arrays para permitir la comparación entre ellos.

• Corrección de PM– Ajuste de la señal dada por los PMs para tener en

cuenta la señal no específica (MMs)• Sumarización

– Combinar las intensidades de todos los probes (11-20) de un probeset para producir un valor de expresión de un gen.

Page 19: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 19

Pre-procesamiento en Affymetrix-Bioconductor

• Para cada etapa del pre-procesamiento existen métodos específicos

• También existen métodos que realizan el pre-procesamiento completo:– expresso del paquete affy– rma del paquete affy– threestep del paquete affyPLM– gcrma del paquete affyPLM– mas5 del paquete affy– vsnrma del paquete vsn

Page 20: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 20

Ejemplo: CLL data usando Bioconductor y R

• CLL (Chronic Lymphocytic Leukemia) data. – Este paquete contiene 24 muestras depositadas

en microarrays HG-U95Av2 que son clasificadas como progresivas o estables de acuerdo al estado de la enfermedad.

Page 21: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 21

Ejemplo CLL data

Page 22: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 22

Ejemplo: CLL data

Page 23: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 23

Ejemplo: CCL data - Boxplot

Page 24: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 24

Ejemplo CLL data - Histograma

Page 25: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 25

Pre-procesamiento en Affymetrix

• Corrección de ruido de fondo (Background)– Elimina ruido de fondo de las imágenes obtenidas por

los escáneres. • Normalización

– Reduce las diferencias no biológicas entre chips y normaliza la intensidad de la señal de los arrays para permitir la comparación entre ellos.

• Corrección de PM– Ajuste de la señal dada por los PMs para tener en

cuenta la señal no específica (MMs)• Sumarización

– Combinar las intensidades de todos los probes (11-20) de un probeset para producir un valor de expresión de un gen.

Page 26: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 26

Pre-procesamiento en Affymetrix

• Métodos de normalización más conocidos:– Constant, contrasts, invariantset, loess, qsspline,

quantiles.– En este ejemplo utilizaremos quantiles (paquete

affy):• Rápido y conceptualmente sencillo.• El objetivo es dar a cada array la misma

distribución.

Page 27: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 27

CLL data – normalización con quantiles

Antes Después

Page 28: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 28

CLL data – normalización con quantiles

Antes Después

Page 29: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 29

Trabajos desarrollados relacionados con el pre-procesamiento de Affymetrix

• J.P.Florido et al., On selecting the best pre-processing method for Affymetrix Genechips, Lecture Notes in Computer Science, vol.1, nº5517 (International Work Conference on Artificial Neural Networks, IWANN 2009, Bioinformatics special session)– Estudio del rendimiento de cinco métodos de pre-

preprocesamiento (RMA, GCRMA, MAS5, dChip y VSN) y dos personalizados en términos de:

• Variabilidad de los datos • Similitud de distribuciones (Kolmogorov-Smirnov

test) • Coeficiente de correlación de Spearman

…entre réplicas de microarrays en una variedad de ejemplos.

Page 30: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 30

Trabajos desarrollados relacionados con el pre-procesamiento de Affymetrix

• Conclusiones:– Variance Stabilization Method (VSN) y Robust Multichip Average

(RMA) son los que mejores resultados arrojan

Means and 95,0 Percent LSD Intervals

Mea

n of

Spe

arm

an c

oeffi

cien

t

GC

RM

A

LO

ES

S1

LO

ES

S2

MA

S

RM

A

Ra

w

VS

N

0,94

0,95

0,96

0,97

0,98

0,99

1

GC

RM

A

LO

ES

S1

LO

ES

S2

MA

S

RM

A

Ra

w

VS

N

Means and 95,0 Percent LSD Intervals

0

0,1

0,2

0,3

0,4

0,5

0,6

Mea

n va

riabi

lity

GC

RM

A

LO

ES

S1

LO

ES

S2

MA

S

RM

A

Ra

w

VS

N

Means and 95,0 Percent LSD Intervals

0

0,03

0,06

0,09

0,12

0,15

Mea

n of

KS

Sta

tistic

Page 31: Nuevos enfoques en el análisis de datos de microarrays

13 de abr de 2023

Javier Pérez Florido - Depto. de Arquitectura y Tecnología de Computadores- UGR

D / 31

Gracias