Download ppt - Micro Arrays

Transcript
Page 1: Micro Arrays

Medida de la Expresión de Genes mediante

Microarreglos (Microarrays)

José Luis Vicente Villardón

Departamento de Estadística

Page 2: Micro Arrays

IntroducciónLos experimentos con microarreglos (microarrys) forman parte de lo que se ha dado en llamar Bioinformática. En ésta se integran métodos matemáticos, estadísticos y de ciencias de la computación, para analizar datos que provienen de la biología molecular.

La tecnología de los microarreglos tiene una importancia creciente, en especial debido al avance de los resultados de la genómica estructural (el mapa genómico humano fue completado en 2003 con el secuenciamiento de los pares de bases que constituyen el ADN cromosómico). Es parte de la genómica funcional en la que se desarrollan modelos para explicar el funcionamiento de las diferentes secuencias genómicas.

El número de publicaciones científicas relacionadas con el tema ha crecido exponencialmente en los últimos años.

Page 3: Micro Arrays

El dogma central de la biología molecular

El dogma central de la biología molecular se describe mediante un proceso en dos pasos, transcripción y translación, por los que la información contenida en los genes se transforma en proteinas: DNA → RNA → proteina.

http://www.phschool.com/science/biology_place/biocoach/transcription/overview.html

Transcripción es la síntesis de una copia de RNA a partir de un segmento de DNA. El RNA se sintetiza mediante la enzima RNA polimerasa.

Translación es la síntesis de un polipéptido especificado por un mRNA

Page 4: Micro Arrays

Transcripción y Traslación en Células

En una célula procariota la transcripción y la traslación están emparejadas; esto es, el proceso de traslación comienza cuando el mRNA está siendo aún sintetizado. En una célula eucariota, la transcripción se realiza en el núcleo mientras que la traslación se realiza en el citoplasma.

Debido a que no hay núcleo para separar los procesos de transcripción y traslación, cuando se transcriben los genes de las bacterias, sus transcripciones pueden trasladarse inmediatamente.

En las células eucariotas ambos procesos están espacial y temporalmente separados; la transcripción se lleva acabo en el núcleo produciendo una molécula de pre-mRNA.

La molécula de pre-mRNA se procesa para producir el mRNA maduro, que sale del núcleo y es trasladado en el citoplasma.

Page 5: Micro Arrays

Diferentes genes para diferentes RNAsHay 4 tipos de RNA.

El DNA genómico contiene toda la información de la estructura y funcionamiento de un organismo. En cada célula, solamente algunos de los genes se expresan, es decir se transcriben en RNA.

Hay 4 tipos de RNA, cada uno codificado por un tipo de gen:

•mRNA - RNA mensajero: Codifica la secuencia de aminoácidos de un polipéptido.

• tRNA - RNA transferente: Lleva los aminoácidos a los ribosomas durante la traslación.

•rRNA - RNA ribosómico: Con proteinas ribosómicas, constituye los ribosomas, encargados de la traslación de mRNA.

• snRNA - RNA pequeño nuclear: Está implicado en el proceso de maduración del RNA en las células eucariotas.

Page 6: Micro Arrays

Estructura básica de un gen codificador de proteínas

Un gen codificador de proteínas consiste en un promotor, seguido de la secuencia de codificación de la proteína y de un terminador.

El promotor es una secuencia de pares de bases que especifica dónde debe comenzar la transcripción.

El terminador es una secuencia que especifica el final de la transcripción en mRNA.

Page 7: Micro Arrays

La Molécula de RNA

Los nucleótidos de DNA y RNA tienen estructuras similares

El RNA es estructuralmente similar al DNA.

Page 8: Micro Arrays

El proceso de Transcripción

La RNA polimerasa cataliza una reacción química que resulta en la síntesis de RNA a partir de la cadena patrón de DNA.

La síntesis de RNA implica la separación de las cadenas de DNA y la síntesis de una molécula de RNA, mediante la enzima RNA polimerasa, utilizando las cadenas de DNA como patrón.

En los pares complementarios, A, T, G, y C en la cadena patrón de DNA se convierten en U, A, C, y G, respectivamente, en la cadena de RNA que está siendo sintetizada.

Page 9: Micro Arrays

Transcripción completa de una molécula de RNALa transcripción comienza en el promotor, por toda la región de codificación, y se acaba en el terminador.

Page 10: Micro Arrays

mRNA en Células Procariotas

La secuencia de un gen codificador de proteínas en una célula procariota es colinear con el mRNA trasladado; esto es, la transcripción del gen es la molécula que se traslada en un polipéptido.

Page 11: Micro Arrays

mRNA en Células Eucariotas

La secuencia de un gen codificador de proteínas en una célula eucariota no es normalmente colineal con el mRNA trasladado; esto es, la transcripción de un gen es una molécula que debe ser procesada para eliminar las secuencias extra (intrones) antes de trasladarlo en un polipéptido.

Page 12: Micro Arrays

Procesado del pre-mRNA (Splicing)

La mayor parte de los genes codificadores de proteínas en las células eucariotas contienen segmentos denominados intrones, que dividen la secuencia codificadora de aminoácidos en segmentos denominados exones. La transcripción de estos genes es pre-mRNA (mRNA precursor). El pre-mRNA es procesado en el núcleo para eliminar los intrones y unir los exones en una cadena de mRNA trasladable. Este mRNA sale del núcleo y se traslada en el citoplasma.

Page 13: Micro Arrays

Medida de la presencia y/o expresión de genes (Microarrays)

Medida de la expresión de genes (mRNA microarrays)

Plataformas de un colorPlataforma de dos colores

Medida de la presencia de DNA (DNA microarrays)Medida de la expresión de proteínas

Page 14: Micro Arrays

Medida de la expresión de genes (mRNA microarrays)- Introducción

El proyecto Genoma Humano ha documentado nuestra secuencia genética y ha descubierto que es idéntica en un 99.9% en todos los seres humanos. Sin embargo, incluso pequeñas diferencias en la secuencia de DNA pueden tener un efecto importante sobre la salud y la enfermedad.

El mismo gen puede trabajar correctamente en una persona, pero una mutación puede causar que no trabaje correctamente en otra.

Aunque todas las células poseen el código genético completo, no todos los genes producen proteínas (se expresan) en todas las células. Esto es lo que determina la diferencia en las funciones específicas de cada célula el los distintas partes del cuerpo.

Page 15: Micro Arrays

Medida de la expresión de genes (mRNA microarrays) - Introducción

Con respecto a la enfermedad, la diferencia del 0.1% ciertamente contribuye, pero las influencias ambientales juegan un papel igualmente importante en determinar cuales de nuestros genes se expresan de manera diferente. Por ejemplo, la exposición al humo del tabaco o los rayos X puede cambiar la forma en que se expresan los genes, resultando en la aparición de enfermedades como el cáncer. Aunque todas las células del cuerpo tienen la misma secuencia, cada célula no está afectada de la misma manera. Esto puede producir enfermedades más específicas como cánceres de pulmón, colon, piel, etc.

Los investigadores estudian la expresión de genes midiendo la cantidad de copias de mRNA que produce un gen. El microarray de expresión de genes es una herramienta que nos dice la cantidad de RNA que cada gen está fabricando, si es que lo está fabricando. Comparando la expresión del gen con la de una persona sana, el microarray ayuda a los científicos a encontrar que genes están fabricando demasiado o demasiado poco RNA en la persona enferma, ayudándoles a asociar un gen o grupo de genes con una enfermedad así como a a desarrollar drogas para tratar la enfermedad y pruebas diagnósticas para detectar o clasificar la enfermedad.

Page 16: Micro Arrays

Medida de la expresión de genes (mRNA microarrays) - Introducción

La expresión de genes ha sido utilizados para estudiar casi todos los tipos de enfermedad en la esperanza de encontrar una base molecular que permita el tratamiento.

La revolución proporcionada por los microarrys es que permiten al investigador comenzar sin ninguna hipótesis previa. Los microarrays permiten a los investigadores medir la expresión de cada gen del genoma humano, incluso aquellos con funciones desconocidas. Estudiando los patrones de expresión de genes de, por ejemplo, 100 personas sanas y 100 enfermas los científicos pueden pueden investigar rápidamente las diferencias en los patrones. Si observan un patrón de genes expresado (o no expresado) en los pacientes con la enfermedad, ahí es dónde deben comenzar su búsqueda.

El proceso de expresión de genes en RNA es conocido desde 1963. Hasta 1977 no se desarrolló un procedimiento práctico de medida, que sólo permitía un gen. En 1989 se desarrollan, basados en la tecnología de construcción de microchips, que permiten fijar millones de cadenas de DNA sobre una placa (los microarrays).

Page 17: Micro Arrays

Medida de la expresión de genes (mRNA microarrays) - Hibridación

Como ya vimos, cuando una cadena de DNA (ATCATG) se corresponde con una cadena de RNA (UAGUAC), la dos cadenas son complementarias y pueden pegarse la una a la otra. Sin embargo, si las bases no son complementarias, no pueden unirse. Con una sola base que no sea complementaria, ambas cadenas no se unen

Los microarrays usa esta propiedad de atracción de los pares de bases - conocida como hibridación- para ayudar a los investigadores a identificar que secuencias de RNA están presentes en una muestra y cual es la medida de la expresión de los mismos.

Page 18: Micro Arrays

mRNA microarrays - Probes

El primer paso consiste en fijar una cadena corta de DNA en la superficie de cristal del microarray. Estas cadenas son denominadas sondas (o probes en inglés). La cadena está formada por sólo 25 bases de las 100 que podría tener el gen. Las cadenas se comprueban para asegurarse de que no está presente en ningún otro gen, de esta manera, cuando una molécula de RNA se une al probe los científicos saben que el gen se ha expresado. Es como identidicar una canción con sólo unos compases.

Para asegurarse de que se está midiendo el gen correcto, los chips de Affimetrix toman 11 cadenas cortas pertenecientes al mismo gen.

Page 19: Micro Arrays

mRNA microarrays - Pareja de probes

Los probes buscan un “alineamiento perfecto” con el RNA que se trata de detectar. Por cada uno de los probes para alineamiento perfecto, se coloca un probe modificado (mismatch) en el que la base central se modifica para que no haya un alineamiento perfecto con el gen objetivo. Esto se hace así porque, aunque en teoría solo se adhieren al probe las secuencias complementarias, en la práctica se producen errores de adherencia no específicos. Se añade el probe modificado para saber si estos errores se producen.

Si el RNA se adhiere al probe modificado, es posible que la medida no sea fiable. Si solo se adhiere al probe objetivo podemos decir que el gen se está expresando realmente. Sin este procedimiento es difícil saber si se está alineando el RNA correcto o una secuencia ligeramente diferente.

Page 20: Micro Arrays

mRNA microarrays - Probes por genEn total hay 22 probes diferentes, o puntos de datos, usados para asegurarse de que el microarray está detectando la cadena correcta de RNA. Midiendo dicho RNA con 11 pares de probes podemos estar absolutamente seguros de que el gen que pensamos es el que se expresa realmente.

Si

Page 21: Micro Arrays

mRNA microarrays - Features y probesLa superficie de un microarray es como un tablero de ajedrez gigante que ha sido comprimido al tamaño de un solo cuadro. Cada uno de los cuadrados del tablero contiene un único tipo de probe. Cada probe se construye molécula a molécula, usando el mismo tipo de tecnología que la que se utiliza para construir semiconductores de ordenador. Las moléculas se van construyendo base a base añadiendo una encima de la otra. El microarray más reciente de Affimetrix para el genoma humano tiene 1.3 millones de cuadrados denominados “features”. Representa aproximadamente 47000 RNAs diferentes, prácticamente todos los que pueden expresarse y producir proteínas. Cada feature sobre el arreglo tiene un lado de 11 micrones, la quinta parte de un cabello humano.

A efectos de simplicidad hemos representado aquí solo un cuadrado y hemos reducido la longitud del probe a 6 bases, ATCATG.

Page 22: Micro Arrays

mRNA microarrays - Extracción y preparación del RNA

Una vez que hemos diseñado un probe para medir la expresión de RNA, tenemos que extraer el RNA de una muestra de sangre o saliva, por ejemplo.Los investigadores extraen RNA de la muestra y hacen miles de copias en un proceso en varios pasos. Copiar el RNA permite que sea más facilmente detectable sobre el array.Al mismo tiempo que se copia el RNA, se adjuntan a cada cadena moléculas de biotina (copa naranja en el dibujo).

Estas moléculas de biotina actúan como un pegamento molecular para moléculas fluorescentes que posteriormente se lavarán sobre el array. Cuando los investigadores pasen un scanner láser sobre el array, las moléculas fluorescentes brillarán, mostrando donde se han fijado las muestras de RNA sobre los probes de DNA del array.

Usando otro proceso químico, se fragmentan las cadenas de RNA en millones de piezas más cortas que todavía tienen las moléculas de biotina adheridas.

Page 23: Micro Arrays

mRNA microarrays - Lavado de la muestra sobre el array

Las muestras preparadas del RNA se lavan sobre el array por un periodo de 14 a 16 horas. El número de moléculas implicado en el proceso es enorme. Hay millones de copias de cada probe de DNA (ATCATG) en cada cuadrado del chip, y miles de millones de moléculas de RNA de cada gen que se expresa en la muestra.

Una parte de las moléculas de RNA encontrarán su complemento. Si la secuencia de bases del RNA encaja en la del probe de DNA, habrá un alineamiento perfecto y la muestra se pegará al probe.

Page 24: Micro Arrays

mRNA microarrays - Marcando el RNA

Supongamos que tenemos alineamientos y que el RNA de la muestra se ha unido a los probes colocados en el array. Entonces aclaramos el array para eliminar el RNA que no se ha alineado.Recordemos que el RNA había sido marcado con biotina.

Como no podemos ver el RNA, no podemos saber cuanto se ha pegado en cada probe. Sólo una cadena, o quizás 1000000.Para poderlo ver haremos que brille en la oscuridad usando un tinte fluorescente que se pegue a la biotina.

Page 25: Micro Arrays

mRNA microarrays - Un gen expresado

La moléculas fluorescentes se pegarán solamente en aquellos puntos donde se produjo un alineamiento de RNA. Tras aclarar el tinte se pasa una luz láser sobre el array, haciendo que el tinte fluorescente brille.Si el gen está altamente expresado, muchas moléculas de RNA se pegarán al probe, y su posición brillará intensamente al pasar el láser.Si en gen se expresa en un nivel inferior, se pegará menos RNA al probe, y por comparación, el punto será mucho menos brillante cuando se pase el láser.

Page 26: Micro Arrays

mRNA microarrays - Un gen no expresado

Si la muestra de RNA no se complementa, será rechazada por el probe del array.

Sabemos que el gen no se ha expresado porque el punto correspondiente no brilla.

Page 27: Micro Arrays

mRNA microarrays - Expresión simultánea de todos los genes

El chip puede medir la expresión de cientos de genes. Veamos solo unos pocos (4).En el ejemplo los genes 1, 2 y 3 se expresan porque el RNA fluorescente se ha unido a los probes.

Como los genomas humanos son casi idénticos, todo el mundo tiene estos tres genes, aunque no se expresan de la misma manera en todos los humanos. De esta forma, aunque no conozcamos su funcionamiento, es posible determinar que genes se expresan diferente en personas enfermas y sanas. El paso siguiente es investigar como afectan las proteínas que producen en el desarrollo de la enfermedad.

Page 28: Micro Arrays

mRNA microarrays - Comparación de la expresión

El objetivo es, entonces, comparar la expresión de los genes en dos muestras (enfermos y sanos, por ejemplo). Para presentar esto se utilizan mapas de color, normalmente los genes con expresiones altas se codifican en colores rojos y los genes con expresiones bajas en azul. Los genes que tienen el mismo color en todos los pacientes enfermos son los que se expresan diferente en ellos. Los genes no relacionados con la enfermedad no muestran patrones de color claros.

Page 29: Micro Arrays

mRNA microarrays - La imagen real de un microarray

En la realidad, los arrays de expresión de genes humanos tienen 1.3 millones de probes diferentes usados para detectar casi 50000 secuencias diferentes de RNA. El resultado final es una imagen como la que aparece a la izquierda. La fluorescencia de cada uno de los cuadrados le dice al investigador si el gen se ha expresado o no. Algunos de los probes miden altas concentraciones (altas intensidades, cuadrados rojos y blancos) y otros no (bajas intensidades, cuadros azules y negros.

Page 30: Micro Arrays

mRNA microarrays - La imagen real de un microarray

Page 31: Micro Arrays

mRNA microarrays - El equipo

Page 32: Micro Arrays

DNA microarrays - El problema

El mismo gen puede trabajar correctamente en una persona, pero una pequeña mutación puede hacer que no trabaje en absoluto en otra.Para encontrar las mutaciones que pueden causar una enfermedad los investigadores usan microarray para “genotipar” el DNA de los pacientes y determinar la secuencia exacta — A, T, C, or G — para miles de polimorfismos de un solo nucleótido (SNPs) distribuidos a través del genoma.

Supongamos que queremos encontrar un tratamiento para una determinada enfermedad, primero tendremos que encontrar la causa, una mutación o una disfunción en uno o varios genes, pero no tenemos investigaciones previas, y no tenemos ninguna idea de que genes presentan la mutación o disfunción que causa la enfermedad. La mutación que buscamos puede estar en cualquiera de los 3.1 billones de pares de bases en el genoma humano. ¿Dónde comenzamos?.

Antes de la aparición de los microarrays los investigadores buscaban una conexión con enfermedades similares suficientemente documentadas. Ahora es posible mirar directamente al DNA para explorar todo el genoma y buscar similitudes entre las personas que padecen la enfermedad. Es posible buscar entre 10000 o 100000 SNPs para determinar que gen o grupo de genes que contribuyen a la enfermedad. Por ejemplo, si un grupo de 500 enfermos comparten media docena de SNPs que no tiene un grupo de 500 sanos, los investigadores comenzarán a buscar, por mutaciones tras la enfermedad, entre estos SNPs. Los SNPs no dan la mutación exacta, pero indican en que parte del genoma buscar la mutación. Esta forma de proceder es posible solamente con microarrys de alta densidad.

Page 33: Micro Arrays

DNA microarrays - Funcionamiento. El procedimiento básico es el mismo que en los chips de expresión, es decir, se basan en los procesos de hibridación. La diferencia básica es que utilizan DNA en lugar de mRNA ya que aquel está presente en todas las células.El trabajo de secuenciación del genoma humano nos dice la secuencia existente alrededor de cada uno de los SNPs que queremos buscar. Los microarrys usan esa información para determinar los SNPs presentes en el genotipo.

Como vemos, el SNP está en el centro de la cadena. Por el procedimiento habitual sabremos cual de los dos genotipos está presente en el paciente.En este caso se utilizan 40 probes para determinar cada SNP.

Page 34: Micro Arrays

DNA microarrays - La muestra.

Extraemos ahora una muestra de DNA del paciente, al contrario que en caso anterior en el que no todos los genes se expresan en cada célula, ahora el DNA está presente en todas por lo que la muestra puede ser de cualquier parte (saliva, sangre, etc.)

Antes de continuar es necesario hacer miles de copias del DNA.

El resto del proceso es similar al ya descrito.

Page 35: Micro Arrays

cDNA microarrays - Dos coloresEl procedimiento básico es similar con la diferencia de que las cadenas de DNA utilizadas son más largas y que en el mismo array se comparan muestras de tejido enfermo y sano procedentes del mismo tejido y del mismo paciente.

Page 36: Micro Arrays

cDNA microarrays - Código de colores

Los puntos del array son circulares en lugar de cuadrículas. Si se utilizo el color verde para los sanos y el rojo para los enfermos, los puntos que aparecen en rojo corresponderán a los genes que se expresan con mayor intensidad en los enfermos, los puntos verdes a los que se expresan con mayor intensidad en sanos y los amarillos a los que se expresan de forma similar en ambos. Como medida final se suele utilizar el cociente entre las expresiones en ambos canales o su logaritmo.

Page 37: Micro Arrays

cDNA microarrays - La imagen

Page 38: Micro Arrays

cDNA microarrays - La imagen real

Page 39: Micro Arrays

Microarrays - Procesamiento de la imagen

Búsqueda de los puntos (spots)SegmentaciónCuantificaciónCalidad de la medida

Page 40: Micro Arrays

Búsqueda de los puntos

ManualSemiautomáticaAutomática

Como conocemos de antemano cuantos puntos hay, el patrón con el que se imprimieron y su tamaño, en principio un programa de ordenador simple podría procesar la imagen superponiendo una matriz de círculos (rectángulos) con las dimensiones y el espaciado dado en la imagen. Los pixels contenidos en los círculos serían la señal y los que están fuera, el fondo.En el mundo real la localización exacta puede variar en distintos chips incluso aunque las cuadrículas fueran perfectas, que no lo son.En la práctica hay diversas imperfecciones debidas a los procesos mecánicos de construcción del chip, a la lectura de la imagen y a la necesidad de imprimirla en un dispositivo de baja resolución.

Page 41: Micro Arrays

Segmentación

EspacialBasada en la intensidadMann-WhitneyCombinada (espacial-Intensidad)

Segmentación es el proceso de partir una imagen en un conjunto de regiones no solapadas cuya unión es la imagen completa. El propósito de la segmentación es descomponer la imagen de forma que los puntos con información queden separados del fondo.

Page 42: Micro Arrays

CuantificaciónEl propósito es combinar los valores de la intensidad en una única medida cuantitativa que pueda usarse para representar el nivel de expresión del gen depositado en la cuadrícula. Normalmente se cuantifica utilizando el total, la media, la mediana o la moda de las intensidades de todos los pixels. En condiciones ideales la intensidad total debería ser proporcional a la magnitud de la expresión.

La concentración de cDNA (mRNA) se hace correctamente de forma que su concentración es proporcional a la del tejido.

La hibridación se hace adecuadamente de forma que la concentración que se adhiere a las cuadrículas es proporcional a la que hay en el tejido.

La cantidad de DNA depositada en cada cuadrícula, en el proceso de fabricación, es constante.

No hay contaminación.Los pixels se leen correctamente en el procesamiento de la imagen.

En general supondremos que las dos primeras condiciones se cumplen, esto se consigue diseñando correctamente el experimento. En la mayor parte de los casos las dos últimas condiciones no se verifican.

Page 43: Micro Arrays

Medidas de la intensidadIntensidad total:

Sensible a la cantidad de DNA depositada, la contaminación y las anomalías en la lectura de la imagen.

Media: Utilizar la media reduce el problema de la cantidad de DNA al no

depender del tamaño. Buena sin contaminación o con la contaminación separada. Muy sensible a los outliers.

Mediana: Resistente a los outliers (Reduce problemas de contaminación y

procesamiento).Muy útil cuando el software no distingue bien entre señal, fondo y

contaminación.Una alternativa es la media truncada (Media eliminando los valores

extremos en ambas colas)

ModaResistente a los outliers.Muy sesgada en distribuciones multimodales.

Volumen: Suma de la intensidad de la señal por encima del fondo.

(media de la señal - media del fondo) x area de la señal.Supone que la señal tiene una componente aditiva debida al

alineamiento no específico igual a la del fondo.

Cociente (dos canales): Cociente entre la media mediana o moda de los dos canales.

No sensible a la cantidad exacta de DNA depositada al ser un cociente.

Page 44: Micro Arrays

Medidas de la calidad del punto

Razón entre el área de la señal y el área del punto.El área del punto es el área de la señal más el área contaminada

colindante.Información sobre el área ignorada.Menor razón implica mayor área ignorada y menor calidad.Medida de la contaminación local.

Regularidad de las formasRazón del número de pixels eliminados entre el área del círculo.

Razón entre el área del punto y el perímetro.Máxima para los puntos perfectamente circulares.

DesplazamientoDistancia desde el centro esperado hasta su localización real.

Uniformidad del punto1-(varianza/media)Un punto perfecto tendría una varianza 0 y uniformidad 1.Varianzas grandes en la intensidad producen índices de calidad

pequeños.Se divide por la media porque los puntos con mayor intensidad

tienen mayor variabilidad.

Page 45: Micro Arrays

Procesamiento de los microarrays de Affimetrix - Introducción- Como ya vimos, este tipo de microarrys utiliza secuencias más cortas para detectar los genes. Para compensar esto se utilizan varias de dichas secuencias. El primer problema es cómo combinar los resultados para obtener una única medida.

- La segunda diferencia es que en éstos no hay fondo, toda la superficie del chip está cubierta por los probes y no puede usarse un valor de fondo como indicación de nivel de intensidad cuando no hay hibridación. En lugar de esto se utilizan secuencias en las que se ha cambiado una de las bases (mismatch, MM) junto con las que se desea medir (perfect match, PM). Los RNAs se consideran presentes si la mezcla de señales de los probes PM están significativamente por encima del fondo después de restarle las intensidades de la señal de los MM.

- Para cada gen tenemos entonces un conjunto de pares de probes PM/MM.

- Un gen está presente si la mayor parte de valores de PM son mayores que los MM el gen es considerado “presente”; si la mayor parte son menores “ausente” y si es el 50% aproximadamente “marginal”. La fiabilidad de la clasificación se mide mediante un p-valor procedente de un test U de Mann-Whitney.

Page 46: Micro Arrays

Procesamiento de los microarrays de Affimetrix - Medida cuantitativa

- El propósito final consiste en calcular una medida cuantitativa que sea proporcional a la expresión del gen.

- Una medida común es la media de las diferencias entre los valores PM y MM.

- Pueden detectarse diferencias entre la clasificación cualitativa y la cuantificación numérica en el sentido de que una llamada “ausente” puede tener valores mayores en la cuantificación.

Page 47: Micro Arrays

Microarrays - Preprocesamiento y Normalización

Pre-procesamiento: Paso inicial que permite extraer caracteristicas significativas de los datos, preparándolos para el análisis posterior. Por ejemplo tomar logaritmos de los valores originales.

Normalización: Un tipo particular de preprocesamiento para eliminar las diferencias sistemáticas entre conjuntos de datos. Por ejemplo, modificar los valores para compensar las diferencias en las eficiencias de los dos canales en los experimentos con dos colores.

Algunos de los métodos sirven para todos los microarrays, otros son específicos de cada plataforma.

Page 48: Micro Arrays

Microarrays - Técnicas generales de preprocesamiento

Transformación logaritmica.Valores más interpretables desde el punto de vista biológico.Simetriza la distribución de la expresión.La base del logaritmo es normalmente 2.

Combinación de réplicas y eliminación de outliers.Promedio de diferentes spots en el mismo array o valores diferentes

de diferentes arrays.Conlleva una pérdida de información y debe hacerse con cuidado.Conviene guardar medidas adicionales al promedio: número de

réplicas, variabilidad, ….

Normalización por array : Para hacerlos comparables.Dividir por la media del array (o la mediana, o la moda)Restar la media (con logaritmos)Utilizar puntos de control con valores similares en distintos arrays.Regresión lineal iterativa con los dos canales

Page 49: Micro Arrays

Microarrays - Normalización en cDNA

Corrección con el fondo.Local.Subgrid.Con grupos de puntos.Con puntos sin información.Puntos de control.

Otros preprocesados a nivel de punto.Descartar los puntos no fiables

Normalización de color Se basa en el hecho de que la mayor parte de los genes no cambian y

por tanto hay una relación lineal en los dos colores).Ajuste de curvas y corrección posterior.LOWESS/LOESS (LOcally WEighted polinomial regreSSion).Normalización a trozos (ajuste lineal a por trozoa).

Page 50: Micro Arrays

Microarrays - Normalización Affimetrix

Corrección con el fondo.No hay fondo propiamente dicho.Se corrige con la zonas adyacentes a cada cuadrícula.

Cálculo de la señal.Corrección con la hibridación no específica.

Detección calls Clasificación en categorías: Presente, ausente y marginal.Utiliza el test U de Mann-Whitney.

Valores relativos de la expresión

Page 51: Micro Arrays

Microarrays - Análisis Estadístico

- Estadística Descriptiva.

- Comparación de medias.

- Diseño de Experimentos (ANOVAS).

-Correcciones para comparaciones múltiples.

- Descomposición en valores singulares : Componentes principales, correspondencias.

- Métodos de clasificación: Análisis Discriminante y variantes.

- ANALISIS DE CLUSTER.

- ANALISIS DE CLUSTER DE INDIVIDUOS Y GENES SIMULTANEAMENTE.

Page 52: Micro Arrays

Clasificación de cánceresAunque la clasificación del cáncer ha mejorado en los últimos años, no hay una forma general de identificar nuevos tipos de cáncer (class discovery) o de asignar tumores a tipos ya conocidos (class prediction).

Una metodología prometedora es la utilización de microarrays de DNA (mRNA) para detectar los genes alterados, es decir con expresión diferencial en tipos distintos de cáncer y en células sanas.

Si bien ésta no es la solución completa del problema, al menos es una forma d empezar a buscar los genes diferenciados que permiten iniciar la investigación en causas concretas, tratamiento basados en los genes y nuevos métodos de diagnóstico.

Page 53: Micro Arrays

Leucemias ALL-AML

Clasifiación de LeucemiasAcute myeloid leukemia (AML) Acute lymphoblastic leukemia (ALL)

Page 54: Micro Arrays

Gen U29656_at

1 cgctcccgca ccgccatcat gatctgcctg gtgctgacca tcttcgctaa cctcttcccc 61 gcggcctgca ccggcgcaca cgaacgcacc ttcctggccg tgaagccgga cggcgtgcag 121 cggcggctgg tgggcgagat tgtgcggcgc ttcgagagga agggcttcaa gttggtggcg 181 ctgaagctgg tgcagtcctc cgaggagctg ctgcgtgagc actacgccga gctgcgtgaa 241 cgcccgttct acggccgcct tgtcaagtat atggcctccg ggccggtggt ggccatggtt 301 tggcaggggc tggacgtggt gcgcacctcg cgggcgctca tcggagccac gaacccggcc 361 gacgccccgc ccggcaccat ccgcggggat ttctgcatcg aggttggcaa cctgattcac 421 ggcagcgact cggtggagag tgcccgccgc gagatcgctc tctggttccg cgcagacgag 481 ctcctctgct gggaggacag cgctgggcac tggctgtatg agtagcccgg cagatgcgcg 541 tcacagaggc tctcacattc cagcctcctc cagggcccag gtgggcggct tctggcccca 601 ccccacagcg cttggagcat ccctttggac gggctgctga acatccacct gtctggacgt 661 tgcatggagg gtggcgcagc ctctccaatc cctggcgtac agggtttcct gcccgaggac 721 ctgctccagg agcctgcgcg gctcgcctgg aaacgtgcca ggagcactgt cctggtgccc 781 agcccaacgt ggtccaaggt ttttttataa ttaaagtcct cgttttcgtt aaaaaaaaaa 841 aaaaaaaaa

SummaryOfficial Symbol

NME3Official Full Name

protein expressed in non-metastatic cells 3Primary source HGNC:7851

See related HPRD:03488; MIM:601817

Gene type protein coding Location : 16q13

RefSeq status Validated

Organism Homo sapiens

Lineage Eukaryota; Metazoa; Chordata; Craniata; Vertebrata; Euteleostomi; Mammalia; Eutheria; Euarchontoglires; Primates; Haplorrhini; Catarrhini; Hominidae; Homo

Also known as DR-nm23; KIAA0516; c371H6.2

Page 55: Micro Arrays

Descriptiva

ALL AML

U29656_at Estadístico Error típ. Estadístico Error típ.

Media 441.85 29.472 718.76 55.765

Intervalo de confianza para la media al 95%

Límite inferior382.53 603.67

Límite superior 501.18 833.85

Media recortada al 5% 428.85 710.93

Mediana 425.00 759.00

Varianza 40824.434 77742.023

Desv. típ. 202.051 278.823

Mínimo 117 102

Máximo 1114 1531

Rango 997 1429

Amplitud intercuartil 273 344

Asimetría 1.058 .347 .482 .464

Curtosis 1.753 .681 2.272 .902

Page 56: Micro Arrays

Histograma U29656_at Estadístico Error típ. Estadístico Error típ.

Media 441.85 29.472 718.76 55.765

Page 57: Micro Arrays

Estimadores M (robustos)

Estimadores-M

420.67 409.92 419.28 409.90

721.00 713.90 712.43 714.14

leucemiaALL

AML

U29656_at

Estimador-Mde Huber

aBiponderado

de Tukeyb

Estimador-Mde Hampel

cOnda deAndrews

d

La constante de ponderación es 1.339.a.

La constante de ponderación es 4.685.b.

Las constantes de ponderación son 1.700, 3.400 y 8.500.c.

La constante de ponderación es 1.340*pi.d.

Percentiles

162.00 217.80 293.00 425.00 566.00 701.60 874.60

174.90 370.80 536.50 759.00 880.50 989.80 1376.20

298.50 425.00 557.00

561.00 759.00 853.00

leucemiaALL

AML

ALL

AML

U29656_at

U29656_at

Promedioponderado(definición 1)

Bisagras de Tukey

5 10 25 50 75 90 95

Percentiles

Page 58: Micro Arrays

Normalidad-Homoscedastidad

Prueba de homogeneidad de la varianza

2.081 1 70 .154

1.897 1 70 .173

1.897 1 61.851 .173

2.113 1 70 .150

Basándose en la media

Basándose en lamediana.

Basándose en lamediana y con glcorregido

Basándose en la mediarecortada

U29656_at

Estadísticode Levene gl1 gl2 Sig.

Pruebas de normalidad

.110 47 .200* .936 47 .012

.104 25 .200* .951 25 .262

leucemiaALL

AML

U29656_atEstadístico gl Sig. Estadístico gl Sig.

Kolmogorov-Smirnova

Shapiro-Wilk

Este es un límite inferior de la significación verdadera.*.

Corrección de la significación de Lillieforsa.

Page 59: Micro Arrays

Tallo y Hojas

U29656_at Stem-and-Leaf Plot forleucemia= ALL

Frequency Stem & Leaf

3.00 1 . 149 9.00 2 . 023344559 9.00 3 . 013456777 12.00 4 . 012556666788 7.00 5 . 4467788 3.00 6 . 117 1.00 7 . 9 2.00 8 . 58 1.00 Extremes (>=1114)

Stem width: 100 Each leaf: 1 case(s)

U29656_at Stem-and-Leaf Plot forleucemia= AML

Frequency Stem & Leaf

1.00 Extremes (=<102) 2.00 3 . 48 1.00 4 . 1 5.00 5 . 11669 3.00 6 . 889 4.00 7 . 5899 3.00 8 . 135 4.00 9 . 0137 1.00 10 . 1 1.00 Extremes (>=1531)

Stem width: 100 Each leaf: 1 case(s)

Page 60: Micro Arrays

Gráficos de normalidad

Page 61: Micro Arrays

Box-Plot

Page 62: Micro Arrays

Barras de error

Page 63: Micro Arrays

Diagrama de dispersión

Page 64: Micro Arrays

Contraste t – Datos Independientes

Estadísticos de grupo

47 441.85 202.051 29.472

25 718.76 278.823 55.765

leucemiaALL

AML

U29656_atN Media

Desviacióntíp.

Error típ. dela media

Prueba de muestras independientes

2.081 .154 -4.837 70 .000 -276.909 57.247 -391.084 -162.734

-4.390 37.744 .000 -276.909 63.074 -404.623 -149.195

Se han asumidovarianzas iguales

No se han asumidovarianzas iguales

U29656_atF Sig.

Prueba de Levenepara la igualdad de

varianzas

t gl Sig. (bilateral)Diferenciade medias

Error típ. dela diferencia Inferior Superior

95% Intervalo deconfianza para la

diferencia

Prueba T para la igualdad de medias

Page 65: Micro Arrays

Varianzas distintasEstadísticos de grupo

47 70.62 122.598 17.883

25 -55.76 69.884 13.977

leucemiaALL

AML

M63488_atN Media

Desviacióntíp.

Error típ. dela media

Prueba de muestras independientes

8.030 .006 4.750 70 .000 126.377 26.605 73.315 179.439

5.568 69.592 .000 126.377 22.697 81.105 171.649

Se han asumidovarianzas iguales

No se han asumidovarianzas iguales

M63488_atF Sig.

Prueba de Levenepara la igualdad de

varianzas

t gl Sig. (bilateral)Diferenciade medias

Error típ. dela diferencia Inferior Superior

95% Intervalo deconfianza para la

diferencia

Prueba T para la igualdad de medias

Page 66: Micro Arrays

U de Mann-WhitneyEstadísticos descriptivos

72 26.74 122.718 -184 343 -56.50 1.50 89.50

72 1.35 .479 1 2 1.00 1.00 2.00

M63488_at

leucemia

N MediaDesviación

típica Mínimo Máximo 25 50 (Mediana) 75

Percentiles

Rangos

47 44.56 2094.50

25 21.34 533.50

72

leucemiaALL

AML

Total

M63488_atN

Rangopromedio

Suma derangos

Estadísticos de contrastea

208.500

533.500

-4.483

.000

U de Mann-Whitney

W de Wilcoxon

Z

Sig. asintót. (bilateral)

M63488_at

Variable de agrupación: leucemiaa.


Recommended