Upload
bernardo-larin
View
12
Download
5
Embed Size (px)
Citation preview
Análisis de datos de alto rendimiento
Con ejemplos de Partek Genomics Suite
Alex Sánchez
Unitat d’Estadística i Bioinformàtica (IRHUVH)
Departament d’Estadística (UB)
Objetivos
Análisis de Datos de Alto Rendimiento Tipos de datos y Tipos de estudios. Herramientas disponibles.
Análisis de datos de microarrays El proceso de análisis Estudios de expresión diferencial con
Partek GS Otros tipos de estudios
High troughput data
Muchas técnicas modernas permiten generar información simultánea sobre miles de componentes de un sistema: High-troughput o de “alto rendimiento”
Por ejemplo Microarrays (expresión, SNPs, exones,…). Proteómica (Mass-Spectormetry). Next Generation Sequencing …
Análisis de datos de A.R.
Los datos de alto rendimiento, con las herramientas y los métodos
apropiados, permiten llevar a cabo estudios que
habrían sido impensables sin ellos. Por ejemplo
Selección de genes Busqueda de biomarcadores Estudios de asociación genética Detección de variantes víricas, etc.
Análisis de microarrays
Caso más conocido, “prototípico” de datos de A.R.
Tecnología madura (10 años) y diversificada (expresión, exones, tejidos, SNPs,….)
Con algunas limitaciones que las nuevas tecnologías podrán superar
EMPEZAREMOS por ellos.
Tipos de estudios que se realizan usando microarrays de DNA
(1): Class comparison
(2): Class discovery
(3): Class prediction
Y muchos más tipos …
Time Course Perfiles de expresión a lo largo del
tiempo Pathway Analysis-(Systems Biology)
Reconstrucción de redes metabólicas a partir de datos de expressión
Whole Genome, CGH, Alternative Splicing
Estudios con datos de distintos tipos Fusión o Integración de datos
Herramientas para el análisis
Programas de análisis de datos de genómica y
protómica
Multitud de herramientas Gratuítas / Comerciales
[R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity] Descargables / En-linea
[R, BRB, MeV…] / [Gepas,…] Aísladas / Parte de “suites” o de sitios
[BRB, dChip] / [MeV (TM4), OntoTools] A survey of free microarray data analysis
tools: http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
Programas de análisis libres
Programa R/Bioconductor Potente, flexible,
actualizado, Unix/Windows/Mac
Consola, difícil de dominar
BRB tools Basado en Excel,User-friendly
Si falla, fallaDifícil de extender
dChip Expresión & SNP’sUser-friedly
Solo WindowsPocas opciones
GEPAS Web-based, Multiples opciones, Buen material
Web-basedManejo algo rígido
…
Programas de análisis comerciales
Programa geneSpring Muy extendido
Graficos potentesExtensible (R)
Modelos de ANOVA limitadosCARO
Partek ANOVA muy potenteMult. tipos de datosVisualización 3D
Sólo estadística “clásica”Difícil de extender
Ingenuity BD de anotaciónesAnálisis de significación biológica
Centrada mayormente en datos de cáncer
…
Experimentos con microarrays
Visión general del proceso (Affy)
@Affymetrix
Otra perspectiva general
El proceso de análisis
Workflow for a typical microarray experiment
(1) Imágenes(Datos crudos)
(2) C. de calidad(bajo nivel)
(3) Preprocesado
(4) Exploración de la Matriz de Expresión
(5) Análisis
(6) Significación Biológica
(1) Obtención de la imagen
• Entra: Microarrays• Salen:
– Imágenes (1/chip) – Ficheros (.CEL, .CHP)
• Información para cada sonda individual
• Datos para el análisis de bajo nivel– Control de calidad– Preprocesado– Sumarización
…
…
1.cel, 1.chp 2.cel, 2.chp
(2) Control de calidad de bajo nivel
• Entra: – Imágenes (.CEL)
• Proceso– Diagnósticos y
Control de calidad– Análisis basado en
modelos (PLM)
• Salen:– Gráficos– Estadísticos de
Affymetrix
…
1.cel, 1.chp 2.cel, 2.chp
(3) Preprocesado
• Entra:– Fichero de Imagenes
• Proceso– Eliminación de ruido– Normalización– Sumarización– Filtrado
• Sale:– Matriz de expresión
…
1.cel, 1.chp 2.cel, 2.chp
C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
(4) Exploración
• Entra– Matriz de expresión
• Proceso– PCA, Cluster, MDS– Representaciones
en 2D/3D– Agrupaciones
• Sale– Detectado efectos
batch– Verificación calidad
C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
(5) Análisis estadístico
• Entra:– Matriz expresión– Modelo de análisis
• Proceso– t-tests, ANOVA
• Ajustes de p-valores
• Sale– Listas de genes
• Fold change, p.values
– Gráficos– Perfiles de expresión
C01-001.CEL C02-001.CEL C03-001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.6109531415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4.911 63.544 6.21E-14 2.80E-10 22.2441457644_s_at Cxcl1 1457644_s_at 4.286 53.015 3.52E-13 7.69E-10 20.7911415904_at Lpl 1415904_at -4.132 -50.455 5.66E-13 7.69E-10 20.3731449450_at Ptges 1449450_at 5.164 49.483 6.82E-13 7.69E-10 20.2071419209_at Cxcl1 1419209_at 5.037 47.175 1.08E-12 9.71E-10 19.7941416576_at Socs3 1416576_at 3.372 42.107 3.19E-12 2.08E-09 18.7841450330_at Il10 1450330_at 4.519 42.056 3.23E-12 2.08E-09 18.7731455899_x_at Socs3 1455899_x_at 3.648 40.821 4.29E-12 2.12E-09 18.5021419681_a_at Prok2 1419681_a_at 3.709 40.645 4.48E-12 2.12E-09 18.4631436555_at Slc7a2 1436555_at 3.724 40.081 5.12E-12 2.12E-09 18.335
(6) Significación biologica
• Entra– Listas de genes
• Proceso– GEA, GSEA, …
• Sale:– Clases GO /
Grupos de GenesPathwaysespecialmente representados
ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4.9111457644_s_at Cxcl1 1457644_s_at 4.2861415904_at Lpl 1415904_at -4.1321449450_at Ptges 1449450_at 5.1641419209_at Cxcl1 1419209_at 5.0371416576_at Socs3 1416576_at 3.3721450330_at Il10 1450330_at 4.5191455899_x_at Socs3 1455899_x_at 3.6481419681_a_at Prok2 1419681_a_at 3.7091436555_at Slc7a2 1436555_at 3.724
Estudio de casos
Caso 1
Comparación de perfiles de expresión en AML con trisomía 8 o
citogenética normal
Descripción
PNAS, January 30, 2001 vol. 98 (3)
Objetivo: Comparar perfiles de expresión en enfermos de AML+8 con enfermos AML y individuos sanos.
No se dispone de información sobre el diseño experimental
Esquema del análisis
1. Datos para el análisis1. 15 archivos .CEL (5 por grupo)
2. Control de calidad [Expression console]3. Preprocesado [Partek]4. Exploración [Partek]5. ANOVA y selección de genes [Partek]6. Significación Biológica [Partek]
2. Control de calidad (1)
• Descargar Expression Console de la web de Affymetrix
• affymetrix.com• Instalarlo• Iniciar• Seleccionar
archivos .CEL– Create New
Study– Download library
files– Add Intensity
Files
2. Control de Calidad (2)
• Probe cell intensity view: Examen de las imágenes
• Una por chip
• Box plot– Absolute intensity– Relative intensity
2. Control de Calidad (3)
• Correlation plots– Pearson/
Spearman– Signal/detection-p
• Box plot– Absolute intensity– Relative intensity
Control de Calidad (y 4):Métricas de CdC
Scale Factor
% Presence
Análisis de los datos con Partek
La suite genómica de Partek permite analizar datos de expresión Leer datos (.CELs o matriz de
expresión) Explorar los datos (PCA/Cluster/MDS) Seleccionar los genes DE (ANOVA) Construccion de predictores
Análisis de otros tipos de datos Exon arrays, SNP arrays, Tiling, CGH …
Instalación de Partek
El IR dispone de una licencia flotante a la que puede conectarse un solo usuario cada vez.
Instalar el archivo setupPGS.6.08.0623-64Release.exe disponible en: \\servir3\recerca$Partek
Ejecutar el archivo Se instala el programa
Al iniciar el programa por 1ª vez pide El tipo de licencia “Floating License” Nombre del servidor “servir1”
Lectura/Importación de los datos
(1) Seleccionar archivos .CEL
Seleccionar .CEL a importar
Pulsar
(2) Definir parámetros importación
(3) Definir grupos y covariables (1)
A cada hoja de datos se le ha de asociar una lista de covariables Grupo al que pertenece cada muestra Informaciones clínicas, biométricas, etc
Puede prepararse a parte e importarlo o crearlo tras leer los datos.
http://www.partek.com/Tutorials/microarray/User_Guides/CreatingSampleInfoFile.pdf
(3) Definir covariables (y 2)
Tools Create Sample Info File
Seleccionar archivos CEL/CHP Añadir las columnas necesarias Definir el tipo de cada una
Tras llenar todas las columnas Save file (.txt)
Combinar datos y covariables Merge Spreadsheets
Grabar archivo resultante Save (format file, .fmt)
Análisis de datos
Para facilitar el proceso de análisis Workflows Itinerario sugerido desde los datos
hasta los resultados finales Permite guardar y continuar en otro
momento Existe un workflow para cada tipo de
datos
Workflow (WF) de análisis de
datos de expresión
WF (2.1): QA/QC. PCA
PCA• Visualizacion de
los datos en 2D/3D
• Permite detectar efectos “fuera del diseño o del modelo”
• Cada eje explica un mayor % que el siguiente Atención a la variabilidad total!!!
WF (2.2): QA/QC. Histogram
WF (3) Detect differentially expressed genes (DEG)
1. Seleccionar la(s) variable(s) para las que se desea realizar la comparación[Los factores del ANOVA]
2. Definir las comparaciones entre grupos [Los contrastes a efectuar]
3. Ejecutar el análisis
WF (3.1) Selección de factores
• Los factores representan las distintas fuentes de variación en los datos.
• Deben definirse como variables categoricas o “factor” al crear el archivo de covariables
WF (3.2) Contrastes
• Opción “Advanced” del dialogo ANOVA
• Los contrastes indican que comparaciones concretas (entre niveles de un factor) se desea llevar a cabo.
• Comparaciones individuales (Grupo 1-Grupo 2) o más complejas(Tr1+Tr2+Tr3)/3-Ctl
• Para cada gen se obtiene los resultados de– Significación global– Significaciónn de cada contraste deseado
• De cada comparación obtenemos los p-valores y estadísticos de test solicitados (por ejemplo Fold Change, T-test,…)
WF (3.3) Resultados
• Como en todo ANOVA la variabilidad explicada debe ser mayor que el error.
• Muy útil si hay más de 2 factores y uno es un efecto Batch.
WF (3.3) Sources of variation
• El programa generará una tabla con el número de genes que se considerarían diferencialmente expresados asociados a un valor dado de FDR.
WF (3.4) Multiple testing
• Para evitar problemas de “multiple testing” podemos fijar un valor de tasa de falsos positivos (FDR).
– Stat Multiple Test False Discovery Rate (FDR)
WF (3.5) Create Gene Lists
• Para cada comparación realizada puede obtenerse una lista de genes seleccionados.
• A partir de las listas pueden hacerse gráficos diversos– Venn– Heatmaps
WF (4): Visualización
• Dada una lista de genes un heatmap permite visualizar patrones de expresión que pueden sugerir que ciertos grupos de genes se encuentran co-regulados.
WF (5) Biological significance
El programa permite realizar diversos tipos de análisis para ayudar a entender los procesos biológicos implicados Análisis de enriquecimiento sobre
categorías de la Gene Ontology. Deteccion de categorias
diferencialmente enriquecidas entre grupos experimentales.
Enviar las listas de genes a Ingenuity.
WF (5.1) GO Enrichment
Resumen y Conclusiones
El análisis de microarrays puede visualizarse como un proceso.
Es importante conocer Los parámetros El significado, Las limitaciones
de cada paso. Una herramienta como Partek puede
ayudar a seguir este proceso con relativa confianza.