Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística

Análisis de datos de alto rendimiento

Con ejemplos de Partek Genomics Suite

Alex Sánchez

Unitat d’Estadística i Bioinformàtica (IRHUVH)

Departament d’Estadística (UB)

Objetivos

Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles.

Análisis de datos de microarrays El proceso de análisis Estudios de expresión diferencial con

Partek GS Otros tipos de estudios

High troughput data

Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: High-troughput o de “alto rendimiento”

Por ejemplo Microarrays (expresión, SNPs, exones,…). Proteómica (Mass-Spectormetry). Next Generation Sequencing …

Análisis de datos de A.R.

Los datos de alto rendimiento, con las herramientas y los métodos

apropiados, permiten llevar a cabo estudios que

habrían sido impensables sin ellos. Por ejemplo

Selección de genes Busqueda de biomarcadores Estudios de asociación genética Detección de variantes víricas, etc.

Análisis de microarrays

Caso más conocido, “prototípico” de datos de A.R.

Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….)

Con algunas limitaciones que las nuevas tecnologías podrán superar

EMPEZAREMOS por ellos.

Tipos de estudios que se realizan usando microarrays de DNA

(1): Class comparison

(2): Class discovery

(3): Class prediction

Y muchos más tipos …

Time Course Perfiles de expresión a lo largo del

tiempo Pathway Analysis-(Systems Biology)

Reconstrucción de redes metabólicas a partir de datos de expressión

Whole Genome, CGH, Alternative Splicing

Estudios con datos de distintos tipos Fusión o Integración de datos

Herramientas para el análisis

Programas de análisis de datos de genómica y

protómica

Multitud de herramientas Gratuítas / Comerciales

[R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] Descargables / En-linea

[R, BRB, MeV…] / [Gepas,…] Aísladas / Parte de “suites” o de sitios

[BRB, dChip] / [MeV (TM4), OntoTools] A survey of free microarray data analysis

tools: http://chagall.med.cornell.edu/I2MT/MA-tools.pdf

Programas de análisis libres

Programa R/Bioconductor Potente, flexible,

actualizado, Unix/Windows/Mac

Consola, difícil de dominar

BRB tools Basado en Excel,User-friendly

Si falla, fallaDifícil de extender

dChip Expresión & SNP’sUser-friedly

Solo WindowsPocas opciones

GEPAS Web-based, Multiples opciones, Buen material

Web-basedManejo algo rígido

…

Programas de análisis comerciales

Programa geneSpring Muy extendido

Graficos potentesExtensible (R)

Modelos de ANOVA limitadosCARO

Partek ANOVA muy potenteMult. tipos de datosVisualización 3D

Sólo estadística “clásica”Difícil de extender

Ingenuity BD de anotaciónesAnálisis de significación biológica

Centrada mayormente en datos de cáncer

…

Experimentos con microarrays

Visión general del proceso (Affy)

@Affymetrix

Otra perspectiva general

El proceso de análisis

Workflow for a typical microarray experiment

(1) Imágenes(Datos crudos)

(2) C. de calidad(bajo nivel)

(3) Preprocesado

(4) Exploración de la Matriz de Expresión

(5) Análisis

(6) Significación Biológica

(1) Obtención de la imagen

• Entra: Microarrays• Salen:

– Imágenes (1/chip) – Ficheros (.CEL, .CHP)

• Información para cada sonda individual

• Datos para el análisis de bajo nivel– Control de calidad– Preprocesado– Sumarización

…

…

1.cel, 1.chp 2.cel, 2.chp

(2) Control de calidad de bajo nivel

• Entra: – Imágenes (.CEL)

• Proceso– Diagnósticos y

Control de calidad– Análisis basado en

modelos (PLM)

• Salen:– Gráficos– Estadísticos de

Affymetrix

…


(3) Preprocesado

• Entra:– Fichero de Imagenes

• Proceso– Eliminación de ruido– Normalización– Sumarización– Filtrado

• Sale:– Matriz de expresión

…


C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711

(4) Exploración

• Entra– Matriz de expresión

• Proceso– PCA, Cluster, MDS– Representaciones

en 2D/3D– Agrupaciones

• Sale– Detectado efectos

batch– Verificación calidad


(5) Análisis estadístico

• Entra:– Matriz expresión– Modelo de análisis

• Proceso– t-tests, ANOVA

• Ajustes de p-valores

• Sale– Listas de genes

• Fold change, p.values

– Gráficos– Perfiles de expresión


ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335

(6) Significación biologica

• Entra– Listas de genes

• Proceso– GEA, GSEA, …

• Sale:– Clases GO /

Grupos de GenesPathwaysespecialmente representados

ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4.9111457644_s_at Cxcl1 1457644_s_at 4.2861415904_at Lpl 1415904_at -4.1321449450_at Ptges 1449450_at 5.1641419209_at Cxcl1 1419209_at 5.0371416576_at Socs3 1416576_at 3.3721450330_at Il10 1450330_at 4.5191455899_x_at Socs3 1455899_x_at 3.6481419681_a_at Prok2 1419681_a_at 3.7091436555_at Slc7a2 1436555_at 3.724

Estudio de casos

Caso 1

Comparación de perfiles de expresión en AML con trisomía 8 o

citogenética normal

Descripción

PNAS, January 30, 2001 vol. 98 (3)

Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos.

No se dispone de información sobre el diseño experimental

Esquema del análisis

1. Datos para el análisis1. 15 archivos .CEL (5 por grupo)

2. Control de calidad [Expression console]3. Preprocesado [Partek]4. Exploración [Partek]5. ANOVA y selección de genes [Partek]6. Significación Biológica [Partek]

2. Control de calidad (1)

• Descargar Expression Console de la web de Affymetrix

• affymetrix.com• Instalarlo• Iniciar• Seleccionar

archivos .CEL– Create New

Study– Download library

files– Add Intensity

Files

2. Control de Calidad (2)

• Probe cell intensity view: Examen de las imágenes

• Una por chip

• Box plot– Absolute intensity– Relative intensity

2. Control de Calidad (3)

• Correlation plots– Pearson/

Spearman– Signal/detection-p

• Box plot– Absolute intensity– Relative intensity

Control de Calidad (y 4):Métricas de CdC

Scale Factor

% Presence

Análisis de los datos con Partek

La suite genómica de Partek permite analizar datos de expresión Leer datos (.CELs o matriz de

expresión) Explorar los datos (PCA/Cluster/MDS) Seleccionar los genes DE (ANOVA) Construccion de predictores

Análisis de otros tipos de datos Exon arrays, SNP arrays, Tiling, CGH …

Instalación de Partek

El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez.

Instalar el archivo setupPGS.6.08.0623-64Release.exe disponible en: \\servir3\recerca$Partek

Ejecutar el archivo Se instala el programa

Al iniciar el programa por 1ª vez pide El tipo de licencia “Floating License” Nombre del servidor “servir1”

Lectura/Importación de los datos

(1) Seleccionar archivos .CEL

Seleccionar .CEL a importar

Pulsar

(2) Definir parámetros importación

(3) Definir grupos y covariables (1)

A cada hoja de datos se le ha de asociar una lista de covariables Grupo al que pertenece cada muestra Informaciones clínicas, biométricas, etc

Puede prepararse a parte e importarlo o crearlo tras leer los datos.

http://www.partek.com/Tutorials/microarray/User_Guides/CreatingSampleInfoFile.pdf

(3) Definir covariables (y 2)

Tools Create Sample Info File

Seleccionar archivos CEL/CHP Añadir las columnas necesarias Definir el tipo de cada una

Tras llenar todas las columnas Save file (.txt)

Combinar datos y covariables Merge Spreadsheets

Grabar archivo resultante Save (format file, .fmt)

Análisis de datos

Para facilitar el proceso de análisis Workflows Itinerario sugerido desde los datos

hasta los resultados finales Permite guardar y continuar en otro

momento Existe un workflow para cada tipo de

datos

Workflow (WF) de análisis de

datos de expresión

WF (2.1): QA/QC. PCA

PCA• Visualizacion de

los datos en 2D/3D

• Permite detectar efectos “fuera del diseño o del modelo”

• Cada eje explica un mayor % que el siguiente Atención a la variabilidad total!!!

WF (2.2): QA/QC. Histogram

WF (3) Detect differentially expressed genes (DEG)

1. Seleccionar la(s) variable(s) para las que se desea realizar la comparación[Los factores del ANOVA]

2. Definir las comparaciones entre grupos [Los contrastes a efectuar]

3. Ejecutar el análisis

WF (3.1) Selección de factores

• Los factores representan las distintas fuentes de variación en los datos.

• Deben definirse como variables categoricas o “factor” al crear el archivo de covariables

WF (3.2) Contrastes

• Opción “Advanced” del dialogo ANOVA

• Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo.

• Comparaciones individuales (Grupo 1-Grupo 2) o más complejas(Tr1+Tr2+Tr3)/3-Ctl

• Para cada gen se obtiene los resultados de– Significación global– Significaciónn de cada contraste deseado

• De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…)

WF (3.3) Resultados

• Como en todo ANOVA la variabilidad explicada debe ser mayor que el error.

• Muy útil si hay más de 2 factores y uno es un efecto Batch.

WF (3.3) Sources of variation

• El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR.

WF (3.4) Multiple testing

• Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR).

– Stat Multiple Test False Discovery Rate (FDR)

WF (3.5) Create Gene Lists

• Para cada comparación realizada puede obtenerse una lista de genes seleccionados.

• A partir de las listas pueden hacerse gráficos diversos– Venn– Heatmaps

WF (4): Visualización

• Dada una lista de genes un heatmap permite visualizar patrones de expresión que pueden sugerir que ciertos grupos de genes se encuentran co-regulados.

WF (5) Biological significance

El programa permite realizar diversos tipos de análisis para ayudar a entender los procesos biológicos implicados Análisis de enriquecimiento sobre

categorías de la Gene Ontology. Deteccion de categorias

diferencialmente enriquecidas entre grupos experimentales.

Enviar las listas de genes a Ingenuity.

WF (5.1) GO Enrichment

Resumen y Conclusiones

El análisis de microarrays puede visualizarse como un proceso.

Es importante conocer Los parámetros El significado, Las limitaciones

de cada paso. Una herramienta como Partek puede

ayudar a seguir este proceso con relativa confianza.

Documents

Análisis de datos de alto rendimiento Con ejemplos de Partek Genomics Suite Alex Sánchez Unitat d’Estadística i Bioinformàtica (IRHUVH) Departament d’Estadística