000148532

Embed Size (px)

DESCRIPTION

estadistica

Citation preview

  • UNIVERSIDAD SIMN BOLVAR DECANATO DE ESTUDIOS PROFESIONALES

    COORDINACIN DE MATEMTICAS

    ANLISIS MULTIVARIANTE PARA DETERMINAR GENES VARIABLES EN NMERO DE COPIAS ASOCIADOS A DISTINTAS POBLACIONES

    Por Br. Solymar Peraza Crespo

    Sartenejas, abril de 2009

  • UNIVERSIDAD SIMN BOLVAR DECANATO DE ESTUDIOS PROFESIONALES

    COORDINACIN DE MATEMTICAS

    ANLISIS MULTIVARIANTE PARA DETERMINAR GENES VARIABLES EN NMERO DE COPIAS ASOCIADOS A DISTINTAS POBLACIONES

    Por Br. Solymar Peraza Crespo

    Realizado con la Asesora de Tutor Acadmico: Prof. Alfredo Ros

    Tutor Industrial: Dr. Juan Ramn Gonzlez Ruiz

    INFORME FINAL DE CURSOS EN COOPERACIN TCNICA Y DESARROLLO SOCIAL

    Presentado ante la Ilustre Universidad Simn Bolvar como requisito parcial para optar al ttulo de Licenciada en Matemticas Aplicadas

    Sartenejas, abril de 2009

  • v

    UNIVERSIDAD SIMN BOLVAR DECANATO DE ESTUDIOS PROFESIONALES

    COORDINACIN DE MATEMTICAS

    ANLISIS MULTIVARIANTE PARA DETERMINAR GENES VARIABLES EN NMERO DE COPIAS ASOCIADOS A DISTINTAS POBLACIONES

    INFORME FINAL DE CURSOS EN COOPERACIN TCNICA Y DESARROLLO SOCIAL Presentado por

    Solymar Peraza Crespo Carnet: 01-34259

    REALIZADO CON LA ASESORIA DE: Prof. Alfredo Ros (Tutor Acadmico) Dr. Juan Ramn Gonzlez Ruiz (Tutor Industrial)

    RESUMEN El PRBB Parc de Recerca Biomdica de Barcelona (Parque de Investigacin

    Biomdica de Barcelona) requera la clasificacin de una matriz de intensidades, que contena la informacin de varias sondas genticas correspondientes a un grupo de individuos, para posteriormente poder realizar un anlisis de conglomerados que permitiera identificar la clasificacin por poblaciones segn el nmero de copias de cada gen.

    La realizacin del proyecto se llev a cabo en 4 etapas: La primera: Familiarizacin con la terminologa gentica y los mtodos estadsticos anteriormente empleados para las fases anteriores del proyecto. La segunda: El desarrollo e implementacin de un mtodo que permitiera determinar el nmero de copias de cada sonda gentica tomando en cuenta la distribucin de los datos. La tercera: La clasificacin de los individuos en poblaciones mediante el algoritmo de k-meoides y la cuarta: Evaluacin de resultados obtenidos.

    Los resultados obtenidos fueron satisfactorios e interesantes y una fuente para futuras publicaciones en estadstica gentica.

    PALABRAS CLAVES: Estimacin de mixturas, Clustering, clasificacin gentica, gentica, SNPs, CNVs, Proyecto HapMap, Epidemiologa.

    Aprobado con mencin: _______ Postulado para el premio: _______

    Sartenejas, abril de 2009

  • vi

    INDICE

    INDICE ....................................................................................................................... vi

    INTRODUCCIN .......................................................................................................10

    Antecedentes ........................................................................................................................................................ 10

    Justificacin del Proyecto ................................................................................................................................... 10

    Objetivos Generales: ........................................................................................................................................... 11

    Objetivos Especficos: ......................................................................................................................................... 11

    Estructura del Informe ....................................................................................................................................... 12

    CAPITULO 1 ..............................................................................................................13

    LA EMPRESA: El PRBB ...........................................................................................13

    (PARC RECERCA BIOMDICA DE BARCELONA) .................................................13 1.1. Historia y fundacin del PRBB ................................................................................................................. 13 1.2. Centros que conforman el PRBB............................................................................................................... 15

    1.2.1. Centro de Investigacin en Epidemiologa Ambiental (CREAL) ...................................................... 15 1.2.2. Hospital del Mar (IMAS)................................................................................................................... 15 1.2.3. Instituto Municipal de Investigacin Mdica (IMIM) ....................................................................... 16 1.2.4. Departamento de Ciencias Experimentales y de la Salud de la Universidad Pompeu Fabra (CEXS-UPF):............................................................................................................................................................ 17 1.2.5. Centro de Regulacin Genmica (CRG)............................................................................................ 17 1.2.6. Centro de Medicina Regenerativa de Barcelona (CMRB) ................................................................. 17 1.2.7. Instituto de Alta Tecnologa (IAT) .................................................................................................... 18

    CAPITULO 2 ..............................................................................................................19

    FUNDAMENTOS TERICOS....................................................................................19 2.1. Nociones y conceptos genticos: ............................................................................................................... 19 2.2. ADN (cido desoxirribonucleico).............................................................................................................. 20 2.3. Gen: ........................................................................................................................................................... 21

  • vii

    2.4. Alelos:........................................................................................................................................................ 21

    2.5. Polimorfismo gentico:.............................................................................................................................. 22

    Existen varios tipos de polimorfismos: .............................................................................................................. 22 2.6. Las Variaciones en nmero de copias o CNV (copy number variations) .................................................. 23

    2.6.1. Variable Categrica: .......................................................................................................................... 25 2.6.2. Variable Cuantitativa ......................................................................................................................... 26

    2.7. Tablas de Contingencia.............................................................................................................................. 26 2.8. Distribucin normal o Gaussiana:.............................................................................................................. 27 2.9. Coeficiente de concordancia Kappa: ......................................................................................................... 27 2.10. Estimacin de Mxima Verosimilitud ..................................................................................................... 29 2.11. Mixturas de distribuciones:...................................................................................................................... 30 2.12. EM (Expectation Maximization): ............................................................................................................ 31 2.13. Anlisis de Conglomerados (Clustering) ................................................................................................. 33

    2.13.1. No supervisado: ............................................................................................................................... 33 a) Anlisis de Clusters No Jerrquicos.................................................................................................... 33 b) Anlisis de Clusters Jerrquicos ......................................................................................................... 36

    2.13.2. Clustering supervisado:.................................................................................................................... 36 2.13.2. Distancias usadas en los distintos mtodos de Clustering................................................................ 37

    a) Distancia Eucldea............................................................................................................................... 37 b) Distancia Manhattan ........................................................................................................................... 37 c) Distancia de Minkowski...................................................................................................................... 37 d) Distancia del Supremo ........................................................................................................................ 38 e) Distancia de Canberra ......................................................................................................................... 38 f) Distancia Binaria ................................................................................................................................. 38 g) Distancia de Ward............................................................................................................................... 38

    2.14. Anlisis Discriminante: ........................................................................................................................... 39 2.14.1. Anlisis Discriminante Descriptivo: ................................................................................................ 39 2.14.2. Anlisis Discriminante Predictivo: .................................................................................................. 40

    CAPITULO 3 ..............................................................................................................42

    PROYECTO HAPMAP Y ...........................................................................................42

    PRE-PROCESAMIENTO DE LOS DATOS ...............................................................42 3.1. Proyecto HAPMAP: .................................................................................................................................. 42 3.2. Pre-procesamiento de los datos: ................................................................................................................ 43

    CAPITULO 4 ..............................................................................................................44

    METODOLOGA ........................................................................................................44

  • viii

    4.1. Primera fase: Proyecto HapMap y pre-procesamiento de los datos........................................................... 44

    4.2. Segunda fase: Clasificacin de los datos en nmero de copias (Modelo de Mixturas gaussianas) ........... 44 4.2.1. Estimacin de los parmetros: .......................................................................................................... 45 4.2.2. Seleccin de la clase .......................................................................................................................... 46 4.2.3. Inconveniente cerca de cero ............................................................................................................... 48 4.2.4. Modelo resultante............................................................................................................................... 49

    4.3. Tercera fase: Clustering............................................................................................................................. 49 4.3.1. Clasificacin de los individuos segn el nmero de copias ............................................................... 49 4.3.2. Clasificacin de los individuos segn el nmero de copias (Clustering no supervisado) .................. 50

    CAPITULO 5 ..............................................................................................................52

    RESULTADOS...........................................................................................................52 5.1. Mixturas Gaussianas:................................................................................................................................. 52 5.2. Clasificacin de las poblaciones:( clustering no supervisado)................................................................... 53 5.3. Anlisis discriminante: (Clustering Supervisado)...................................................................................... 54

    5.3.1. Clustering supervisado de los datos Clasificados: ............................................................................. 54 5.3.2. Clustering supervisado de los datos Originales: ................................................................................ 55

    5.4. Comparacin de las clasificaciones: .......................................................................................................... 55

    CONCLUSIONES Y FUTUROS ESTUDIOS..............................................................57

    REFERENCIAS..........................................................................................................58

    APENDICES ..............................................................................................................59 Anexo A. ............................................................................................................................................ 59

  • ix

  • 10

    INTRODUCCIN

    Planteamiento del Problema

    El PRBB requera el desarrollo de un mtodo que permitiera determinar el nmero de copias (factores) en cada marcador gentico, que tiene un grupo de individuos tomando en cuenta la distribucin de la poblacin para cada sonda, para luego realizar un anlisis multivariante y una a clasificacin de los individuos que permitiera determinar si la clasificacin obtenida permite diferenciar poblaciones.

    Antecedentes

    Recientemente, el estudio del papel que tienen los genes en distintas reas de la ciencia, como puede ser la medicina, ha tenido un gran auge. En particular, el estudio de la relacin de ciertos genes con enfermedades complejas ha recibido mucha atencin durante los ltimos aos. Uno de los ejemplos ms claros en medicina ha sido la epidemiologa. Se ha dedicado muchos aos de investigacin a estudiar minuciosamente los factores ambientales que se asocian a las enfermedades ms comunes como el cncer, las enfermedades cardiovasculares, o el SIDA. Actualmente los estudios epidemiolgicos incorporan el estudio de la implicacin de ciertos genes, as como su interaccin con otros factores ambientales conocidos.

    Justificacin del Proyecto

    Dado el elevado costo que implica la obtencin de los datos genticos, es necesario desarrollar alguna forma de inferir la informacin que realmente nos interesa, que en este caso es el nmero de copias, dado que la informacin que actualmente se obtiene es una intensidad para cada gen y cada individuo. Por esto se buscan mtodos que revelen la informacin que realmente nos interesa, para luego evaluar la posibilidad de hacer estudios de clasificacin de individuos con estos nuevos datos obtenidos, todo en miras de lograr detectar aquellos genes relacionados directamente con la diferenciacin de poblaciones, y mas especficamente en un futuro con las enfermedades antes mencionadas.

  • 11

    Objetivos Generales:

    La investigacin que el PRBB debe realizar, tiene como objetivo general obtener la informacin referente a qu nmero de copias de cada sonda gentica tiene cada individuo y posteriormente discriminar cuntas poblaciones hay en base a estos datos obtenidos.

    Objetivos Especficos:

    Se proponen distintos mtodos para obtener la clasificacin de los datos:

    o Clustering (Particin y jerrquico): mclust, hclust, etc.

    o Modelos de clases latentes (ajuste de mixturas).

    Se Investiga qu mtodos utilizan estas funciones de R y cmo son implementadas (esto es importante dada la magnitud de la base de datos).

    Luego se implementan los mtodos con los datos propuestos.

    Una vez inferido el nmero de copias de cada gen, o sonda gentica. Se realiza un anlisis de k-meoides para ver si estos CNVs permiten o no discriminar exitosamente los tres tipos de poblaciones que tenemos.

    Luego se realiza un anlisis multivariante con los datos clasificados y sin clasificar, utilizando la informacin a priori de la pertenencia de poblaciones.

    Se calcula el ndice kappa de concordancia y una tabla de contingencia, para ambas clasificaciones.

    Se evalan los resultados de cada mtodo.

  • 12

    Se establece la relacin entre la variacin en nmero de copias (CNVs) y la discriminacin de poblaciones.

    En un futuro esto podra extrapolarse para obtener los genes responsables de ciertas enfermedades (casos controles). Y as detectar los genes ms relevantes en dicha discriminacin.

    Estructura del Informe

    El presente informe es el resultado del proyecto de pasanta Anlisis multivariante para determinar genes variables en nmero de copias asociados a distintas poblaciones con duracin de veinte (20) semanas y est conformado por los siguientes captulos:

    El primero plantea los objetivos y fases que fueron planteados para desarrollar exitosamente un modelo que resolviera el problema de clases latentes; el segundo contiene una resea sobre el PRBB (Parc de Recerca Biomdica de Barcelona) uno de los centros de investigacin biomdica mas importante en Espaa y la Comunidad Europea, en el cual se desarroll el proyecto de pasanta, el tercero explica la proveniencia de los datos (proyecto HapMap) y el proceso previo realizado por los investigadores del PRBB, mediante el cual se procesan los datos antes de ser discretizados y clasificados, el cuarto captulo desarrolla una introduccin sobre los fundamentos tericos utilizados en el desarrollo del modelo multivariante, as como los conceptos tericos utilizados en gentica, el quinto describe la metodologa desarrollada y empleada, el sexto muestra los resultados obtenidos, el sptimo contiene las conclusiones y recomendaciones, el octavo contiene las referencias bibliogrficas y el noveno el apndice.

  • CAPITULO 1

    LA EMPRESA: El PRBB (PARC RECERCA BIOMDICA DE BARCELONA)

    1.1. Historia y fundacin del PRBB

    En mayo del ao 2006 se inaugura del Parque de Investigacin Biomdica de Barcelona (Parc de Recerca Biomdica de Barcelona, PRBB), tras cinco aos de edificacin y un perodo de unos veinte aos trabajando para construir una infraestructura cientfica capaz de competir con los mejores centros europeos. En este sentido, el PRBB es un campus de produccin intensiva de conocimiento en el mbito de la biomedicina y de las ciencias de la salud, que destaca por su masa crtica, por su personal investigador de alto nivel y tambin por su carcter internacional.

    Es uno de los ncleos ms grandes de investigacin biomdica del sur de Europa. El PRBB, una iniciativa de la Generalitat de Catalua, el Ayuntamiento de Barcelona y la Universidad Pompeu Fabra (UPF), es una gran infraestructura cientfica, en conexin fsica con el Hospital del Mar de Barcelona, que rene a seis centros pblicos de investigacin estrechamente coordinados entre si.

    Los centros que componen el PRBB se interesan en descifrar los enigmas de la vida y los problemas de salud de la sociedad. El personal investigador de sus centros destaca por sus descubrimientos en la bsqueda de respuestas a los grandes problemas de salud actuales, y por su contribucin para que la humanidad disfrute de una mejor calidad de vida y tenga ms conocimiento. El compromiso es mltiple: desde generar nuevo conocimiento en el mbito de las ciencias de la salud y de la vida hasta la transferencia de la tecnologa y conocimiento al mundo de la

  • 14

    empresa. As tambin las actividades, laboratorios e ingenios estn a la disposicin de cualquier persona, entidad o sociedad cvica que desee conocerlos por dentro.

    Otro compromiso muy importante es la formacin de personal cientfico. La mayora de personas que trabajan aqu son muy jvenes y una buena parte de las casi mil personas que hay en el edificio del PRBB no son Espaolas. De hecho hay ms de treinta nacionalidades diferentes, de manera que el ingls es el idioma habitual en nuestros seminarios y reuniones cientficas.

    Echando un simple vistazo por la pgina web se pueden ver las grandes lneas de investigacin y plataformas tecnolgicas. Adems, de contar con un buscador interno para explorar a fondo las publicaciones cientficas ya que los resultados cientficos son pblicos. El PRBB Tambin ha asumido compromisos colectivos respecto a la calidad de sus actividades y para prevenir problemas de integridad en sus investigaciones: fue creado el Cdigo de Buenas Prcticas Cientficas de los centros del PRBB, el cual tambin est disponible para acceso pblico. En la Fig.1.1 podemos ver una imagen del edificio del PRBB.

    Fig.1.1 Edificio sede del PRBB

  • 15

    1.2. Centros que conforman el PRBB

    El proyecto cientfico del PRBB rene a varias instituciones y centros de investigacin independientes, todos ellos enfocados a distintos aspectos de la biomedicina.

    1.2.1. Centro de Investigacin en Epidemiologa Ambiental (CREAL)

    La investigacin del CREAL se centra, sobre todo, en el estudio de los determinantes ambientales de las enfermedades respiratorias, del cncer y de los efectos precoces de los contaminantes ambientales en los primeros aos de vida de los nios. Se trata de una investigacin con una finalidad muy prctica, orientada al desarrollo de polticas de proteccin de la salud que permitan la disminucin de las enfermedades y las discapacidades sociales debidas a exposiciones ambientales.

    Identifica los determinantes ambientales de la salud y promueve su prevencin y control.

    1.2.2. Hospital del Mar (IMAS)

    El Hospital del Mar, perteneciente al Instituto Municipal de Asistencia Sanitaria (IMAS), es un hospital moderno, universitario, activo e investigador, en el cual se atienden patologas de complejidad media y alta y que posee una larga historia y amplia tradicin de servicio en la ciudad. En la fig. 1.2 podemos ver el hospital del mar.

  • 16

    Fig.1.2 Hospital del mar

    1.2.3. Instituto Municipal de Investigacin Mdica (IMIM)

    Interconecta de manera prctica la investigacin bsica con la realidad clnica presente en el hospital universitario.

    La investigacin de este centro se organiza en cinco programas de carcter multidisciplinar, alrededor de los siguientes ejes temticos:

    Cncer Epidemiologa y Salud Pblica Procesos inflamatorios y cardiovasculares Informtica Biomdica Neuropsicofarmacologa

    La produccin cientfica generada como fruto de esta investigacin, incluye cerca de 400 publicaciones anuales en revistas internacionales indexadas en el Science Citation Index (SCI) y el Social Sciences Citation Index (SSCI), y unas 200 en revistas de mbito nacional Espaol. Esta produccin cientfica sita al IMIM-Hospital del Mar en la octava posicin en el ranking de centros de mayor produccin cientfica en biomedicina de todo el estado espaol, y la cuarta posicin en Catalua. Asimismo, el IMIM-Hospital del Mar es el centro de investigacin sanitaria espaol que publica mayor proporcin de trabajos en colaboracin internacional.

  • 17

    1.2.4. Departamento de Ciencias Experimentales y de la Salud de la Universidad Pompeu Fabra (CEXS-UPF):

    Invierte en la formacin de futuros cientficos de alto nivel y ofrecemos un programa de doctorado interdisciplinario impartido en ingls.

    1.2.5. Centro de Regulacin Genmica (CRG)

    El Centro de Regulacin Genmica (CRG) es un centro de investigacin biomdica bsica, cuyo objetivo es promover una investigacin bsica de excelencia en biomedicina y, especialmente, en los mbitos de la genmica y la protemica.

    Tiene como reto entender la base genmica de las enfermedades para mejorar la calidad de vida.

    1.2.6. Centro de Medicina Regenerativa de Barcelona (CMRB)

    Despus de la aprobacin de la ley de reproduccin asistida en noviembre de 2003, se hizo posible investigar en Espaa con embriones humanos congelados y con las clulas madre derivadas de los mismos.

    El CMRB tiene la misin bsica de investigar con clulas madre embrionarias humanas, as como en diferentes modelos animales y la finalidad de conocer:

    Los mecanismos bsicos del desarrollo inicial y de la organognesis. Aplicacin de las lneas celulares que se derivan de las clulas madre a

    enfermedades (medicina regenerativa) en las que hay prdida de clulas (enfermedades degenerativas).

    Con esto se pretende entender los mecanismos bsicos del desarrollo inicial y de la organognesis, as como encontrar aplicaciones para el tratamiento de las enfermedades degenerativas.

  • 18

    1.2.7. Instituto de Alta Tecnologa (IAT)

    Tiene como misin ofrecer a la Comunidad Cientfica y a la Industria Farmacutica servicios de Imagen Molecular basados en la Tomografa por Emisin de Positrones (PET) y en la Resonancia Magntica.

    Estas tecnologas (PET y de imagen celular), permiten visualizan los procesos bioqumicos in vivo para la investigacin bsica y clnica.

  • CAPITULO 2

    FUNDAMENTOS TERICOS

    2.1. Nociones y conceptos genticos:

    La gentica es la ciencia que estudia la herencia biolgica, es decir, la transmisin de los caracteres morfolgicos y fisiolgicos que pasan de padres a hijos. El ncleo que contiene la informacin gentica se encuentra en la molcula de ADN, que a su vez se encuentra en los cromosomas.

    El cuerpo de cada ser humano esta conformado por clulas, cada una con 46 cromosomas, estas estn distribuidas en 23 pares o cromosomas homlogos. Los pares del 1 al 22 son iguales en ambos sexos y se conocen como autosomas, el par nmero 23 est compuesto por los cromosomas que determinan el sexo. Las mujeres tienen dos cromosomas X y los hombres un cromosoma X y un cromosoma Y. Mientras que todas las clulas tienen 46 cromosomas, las clulas reproductivas slo tienen 23 cromosomas no pareados, que al combinarse (vulo y espermatozoide), forman una clula nueva con 46 cromosomas que dan como resultado un ser humano, que es, genticamente nico y cuyo diseo est determinado por el padre y la madre en partes iguales. En la fig. 2.3 podemos ver una cadena de adn.

  • 20

    Fig.2.3

    Todos los seres humanos tienen un aproximado de 30.000 genes, estos se encuentran en lugares concretos denominados locus (o loci en plural) los cuales determinan el crecimiento, el desarrollo y el funcionamiento de nuestros sistemas bioqumicos y fsicos.

    2.2. ADN (cido desoxirribonucleico)

    Se localiza en el ncleo de las clulas y es el material gentico que contiene toda la informacin referente al desarrollo fenotpico de un individuo. Est compuesto de dos bandas llamadas nucletidos. Las dos bandas se disponen en espiral formando una doble hlice y estn unidas entre s por enlaces de hidrgeno entre las bases de nucletidos. La informacin gentica est contenida en secuencia a lo largo de la molcula; la cual puede hacer copias exactas de s misma mediante un proceso llamado replicacin, pasando de este modo la informacin a las clulas hijas.

    Fig.2.4 Estructura del ADN

  • 21

    2.3. Gen:

    El concepto de gen vara segn el tipo de fenmeno que queramos describir, si lo importante es la transmisin de informacin o la mutacin, la unidad considerada como gen, puede ser el par de bases nitrogenadas o el cromosoma mismo. Si hablamos de evolucin, el gen ser la unidad mnima capaz de ser seleccionada. Tambin se puede definir como segmentos de ADN que contienen informacin para elaborar una protena especfica. Adems de ser conocido por todos un factor hereditario que controla un carcter, como el color de ojos, la altura, color de cabello, enfermedades hereditarias, y probablemente, muchas otras cosas que aun no han sido descubiertas.

    2.4. Alelos:

    Es cada una de las formas alternativas que puede tener un gen, es decir las posibles variaciones. Estos se diferencian en su secuencia y se pueden manifestar en cambios en la funcin del gen. La mayora de los mamferos, poseen dos alelos de cada gen (son diploides), cada uno de proveniente de cada padre y cada par de alelos se ubica en igual locus o lugar del cromosoma.

    Los alelos pueden diferir en secuencia o funcin. Los que varan en secuencia tienen diferencias como inserciones, deleciones, o sustituciones de nucletidos en la secuencia. Los alelos que difieren en funcin pueden tener o no diferencias conocidas en las secuencias, pero se evalan por la forma en que afectan al organismo.

    Segn su expresin en el fenotipo se pueden clasificar en:

    Alelos dominantes: Son aquellos que aparecen en el individuo ya sea heterocigotos (posee cromosomas cuyos alelos tienen diferente informacin, uno es dominante y otro recesiva.) u homocigoto (Es un individuo que solamente contiene un alelo del par).

    Alelos recesivos: los que quedan enmascarados del fenotipo de un

  • 22

    individuo heterocigoto y slo aparecen en el homocigoto, siendo homocigtico para los genes recesivos.

    2.5. Polimorfismo gentico:

    Un polimorfismo gentico es una variacin en la secuencia de un lugar determinado de ADN entre los individuos de una poblacin, una variante allica en la que se produce cuando se sustituye un par de bases nitrogenadas por otro par distinto, es decir es la existencia de mltiples alelos de un gen presentes en una poblacin. Esta debe existir de forma estable en una poblacin y para ser considerado un polimorfismo gentico y no una mutacin, para esto debe presentar una frecuencia de al menos el 1%. Las mutaciones, son mucho menos frecuentes y van asociadas, habitualmente, a enfermedades hereditarias. Estos polimorfismos, normalmente se expresan como diferentes fenotipos. Por ejemplo el color de la piel es un polimorfismo.

    Un polimorfismo puede tratarse de la sustitucin de una simple base nitrogenada, por ejemplo, sustituir una A (adenina), por una C (citosina), o puede ser ms complicado, como por ejemplo la repeticin de una secuencia determinada de ADN, donde un porcentaje de individuos tenga un determinado nmero de copias de una determinada secuencia.

    Los cambios poco frecuentes en la secuencia de bases en el ADN, no se llaman polimorfismos, pues podran tratarse de mutaciones.

    Existen varios tipos de polimorfismos:

    RFLP: (restriction-fragment-length polymorphisms) Polimorfismos de longitud de fragmentos de restriccin.

    SNPs: (Single Nucleotide Polimorphism)Polimorfismo de un solo nucletido. Los SNP forman hasta el 90% de todas las variaciones genmicas humanas, y aparecen cada 100 a 300 bases en promedio, a lo largo del genoma humano. Dos tercios de los SNP corresponden a la sustitucin de una citosina (C) por una timina (T). Estas variaciones en la secuencia del ADN pueden afectar a la respuesta de los individuos a enfermedades, bacterias,

  • 23

    virus, productos qumicos, frmacos, etc.

    Los SNP que se localizan dentro de una secuencia codificante de ADN pueden modificar o no la cadena de aminocidos que producen, si la modifican se llama SNP sinnimo (o mutacin silenciosa) y SNP no-sinnimo si no. Los SNP que se encuentren en regiones no codificantes pueden tener consecuencias en el proceso de unin de factores de transcripcin o modificando la secuencia de RNA no codificante. En la fig.2.5 podemos ver grficamente una representacin de lo que sucede en la cadena de ADN al producirse un SNP:

    Fig. 2.5 Polimorfismo de un solo nucletido (Single nucleotid polimorphisim)

    2.6. Las Variaciones en nmero de copias o CNV (copy number variations)

    Anteriormente era pensado que los genes estaban casi siempre presentes en dos copias en el genoma humano. Sin embargo descubrimientos recientes han revelado que largos segmentos de AND pueden variar en el nmero de copias y estas variaciones pueden derivar en desbalances. Por ejemplo, se han encontrado genes que normalmente tienen dos copias, con una, tres o ms de tres copias, o incluso en algunos casos con ninguna.

    Las diferencias en nuestro ADN contribuyen a nuestra unicidad. Estos cambios influencian la mayora de lo rasgos incluyendo al susceptibilidad a ciertas

  • 24

    enfermedades. Antes se pensaba que los SNP en el ADN eran la variacin ms importante y prevalente en el ADN, pero estudios actuales estn revelando que los CNVs comprenden al menos tres veces el contenido de SNPs. Los CNVs muchas veces abarcan genes enteros, entonces se pueden pensar que juegan un papel importante en enfermedades y respuesta a tratamientos con drogas, adems de poder darnos una pista en la evolucin del genoma humano.

    Actualmente se esta realizando un mapeo de CNVs que se piensa transformar la investigacin medica en cuatro reas, la primera y ms importante es la bsqueda de genes que se relacionen con las enfermedades comunes, la segunda, el estudio de condiciones gticas familiares, la tercera el estudio de miles de defectos del desarrollo causados por reagrupamientos cromosmicos, el mapeo con CNVs esta siendo usado para excluir las variaciones detectadas en individuos no afectados, esto permitir ayudar a los investigadores a detectar la regin exacta de modificacin que puede estar afectando. Los datos generados contribuirn adems a tener una referencia ms acertada y completa sobre la secuencia de referencia del genoma humano usado por todos los cientficos biomdicos.

    Un descubrimiento sorprendente fue que aproximadamente un 12% del genoma humano presenta variacin en nmero de copias, esto sugiere que los CNV son ms comunes de lo que pensamos. Alrededor de 2900 genes o 10% de aquellos conocidos son abarcados por CNVs. Algunos CNVs encontrados en la poblacin general pueden tener un tamao de millones de bases, afectando numerosos genes que aun no tienen una consecuencia observable. Hasta ahora, se han descrito 2000 CNVs aproximadamente, se sospecha que pueda haber miles mas. Un gen tiene aproximadamente 60.000 bases, alrededor de 100 CNVs fueron detectados en cada genoma con un tamao promedio de 250.000 bases.

    La mayora de los CNVs son variantes benignas que no causan enfermedades directamente. Sin embargo hay muchas instancias en las que los CNVs que afectan el desarrollo crtico de los genes causan enfermedades, por ejemplo estudios recientes han listado 17 condiciones del solo sistema nervioso (incluido el mal de parkinson) que pueden resultar como causa del numero de copias.

  • 25

    Como con cualquier tipo de variacin gentica, los CNVs pueden varan en frecuencia y ocurrencia entre poblaciones dicindonos algo sobre nuestra historia compartida. Como resultado de nuestro origen comn, la gran mayora de CNV (un 89 %) es compartido entre diversas poblaciones estudiadas. En la fig. 2.6 podemos ver los tipos principales de variaciones:

    Fig. 2.6 Tipos de variaciones en la estructura

    Conceptos matemticos y estadsticos:

    Tipos de Variables

    2.6.1. Variable Categrica:

    Se refiere a cualquier variable que implica la incorporacin de elementos en categoras, son etiquetas alfanumricas o nombres. Estas pueden ser:

  • 26

    a) Variable Nominales Asignan nombres a las diferentes formas que pueda tomar la variable, sus posibles valores son mutuamente excluyentes entre s y no tienen alguna forma natural de ordenacin.

    b) Variable Ordinales Son las variables categricas que tienen algn orden. Aquellas en las cuales podemos comparar que una tiene ms en con relacin a una caracterstica de lo que tiene otro elemento de la muestra, esto nos permite ordenar los elementos. Por ejemplo: bueno, regular y malo.

    2.6.2. Variable Cuantitativa:

    Son las variables en donde las diferencias entre los elementos de la muestra pueden ser expresados en cantidades. Estas pueden ser:

    a) Variable Discretas: Aquellas en la que sus valores estn claramente separados unos de otros. Un ejemplo clsico es el tamao de una familia: una familia puede tener un hijo o 2, 3, 4, 5, etc. Pero no puede tener 2.5 o 4.75 hijos.

    b) Variable Continuas: Son tambin comnmente llamadas variables de medicin, son aquellas que toman cualquier valor numrico (entero, fraccionario, real o irracional). Este tipo de variables se obtienen principalmente, a travs de mediciones y estn sujetas a la precisin de los instrumentos de medicin.

    2.7. Tablas de Contingencia

    La distribucin conjunta o tabla de contingencia, permiten ver la relacin entre dos o ms variables. En esta tabla, cada entrada tendr el nmero de casos o individuos que poseen el nivel de uno de los factores y otro nivel de otro factor simultneamente. Se utiliza generalmente con dos o ms variables categricas.

  • 27

    2

    2

    2)(

    21)(

    pi

    =

    x

    exf

    2.8. Distribucin normal o Gaussiana:

    Su funcin de densidad est dada por:

    donde (mu) es la media y (sigma) es la desviacin estndar ( es la varianza).

    Tiene forma de campana (vase fig.2.7) y se utiliza comnmente por la frecuencia con la que ciertos fenmenos tienden a parecerse en su comportamiento a esta distribucin. Es muy til ya que su funcin de densidad tiene forma de campana y es simtrica esto favorece su aplicacin como modelo a gran nmero de variables estadsticas.

    Fig. 2.7

    2.9. Coeficiente de concordancia Kappa:

    Se utiliza para medir el grado de acuerdo o concordancia entre dos vectores con categoras mutuamente excluyentes. Este mtodo se prefiere sobre otros ndices de concordancia ya que corrige el porcentaje de acuerdo que pueda deberse al azar, es decir permite determinar hasta qu punto la concordancia observada es superior a la

    (1)

  • 28

    que se poda obtener por puro azar.

    El ndice de concordancia kappa se define de la siguiente manera:

    e

    eo

    PPPk

    =

    1

    Para calcular Po es decir, la proporcin de concordancia observada, tenemos:

    sdesacuerdoNumacuerdosNumacuerdosNumPo

    ..

    .

    +=

    Para calcular Pe es decir la proporcin de concordancia por azar, tenemos:

    =

    =n

    iiie ppP

    121 )(

    Donde: n = nmero de categoras i = nmero de la categora (de 1 hasta n) pi1 = proporcin de ocurrencia de la categora i para el observador 1. Pi2 = proporcin de ocurrencia de la categora i para el observador 2.

    Si hay acuerdo perfecto K ser 1, por lo que 1-Pe representa el porcentaje de acuerdo posible no atribuible al azar.

    El coeficiente kappa fue propuesto originalmente por Cohen en 1960 por lo que a menudo se le conoce como kappa de Cohen, inicialmente para el caso de dos mtodos. Posteriormente fue generalizado para el caso de ms de dos evaluadores.

    Podemos usar la siguiente tabla para interpretar el ndice k:

    (2)

    (3)

    (4)

  • 29

    k grado de acuerdo

    < 0 sin acuerdo

    0 - 0,2 insignificante

    0,2 - 0,4 bajo

    0,4 - 0,6 moderado

    0,6 - 0,8 bueno

    0,8 - 1 muy bueno

    Tabla 1

    2.10. Estimacin de Mxima Verosimilitud

    La mayora de los procedimientos estadsticos suponen que los datos siguen algn tipo de modelo matemtico que se que se puede definir por medio de una ecuacin de la cual se desconoce alguno de sus parmetros, lo cual genera el problema de calcular o estimar estos parmetros desconocidos a partir de la informacin obtenida en un estudio diseado para tal fin.

    El mtodo de mxima verosimilitud es uno de los procedimientos ms verstiles, a la hora de estimar los parmetros de una distribucin de probabilidad, ya que se puede aplicar en gran cantidad de situaciones.

    Definicin del problema de estimacin:

    Sea X={x1, x2, xn} una muestra que creemos tiene una distribucin de probabilidad p(x|) de parmetros . Queremos estimar los parmetros * que mas se ajusten a la muestra que tenemos.

  • 30

    La funcin de estimacin de verosimilitud de los parmetros dad la muestra es

    =

    =N

    iixpXL

    1)|()|(

    Luego

    ))|(max(arg* XL =

    Y se obtiene igualando a cero:

    0))|(log( = XL

    2.11. Mixturas de distribuciones:

    Es posible que la variable x provenga no solo de una distribucin sino de una combinacin de varias. En este caso la combinacin ponderada de las distribuciones sera:

    =

    =M

    jjjj xpqxp

    1)|()|(

    Con },{ jq= y =j

    jq 1

    El problema es que al aplicando el mtodo de mxima verosimilitud, no se puede resolver analticamente:

    = == =

    =

    =

    N

    i

    M

    jjijj

    N

    i

    M

    jjijj xpqxpqxLog

    1 11 1),(log),(log)|(

    (5)

    (6)

    (7)

    (12)

    (13)

  • 31

    0))|(log( = XL

    En las figuras 2.8 y 2.9 podemos ver un ejemplo de un grupo de datos que no pueden ser estimados correctamente con una normal, pero se estiman perfectamente bien con una mixtura de dos normales:

    Fig.2.8 Datos que no pueden ser estimados con una normal

    Fig

    Fig. 2.9 mismo grupo de datos estimado con una mixtura de varias normales

    2.12. EM (Expectation Maximization):

    Es una tcnica iterativa general que permite hacer estimacin de mxima verosimilitud de parmetros en datos en los que existe informacin oculta. Permite

  • 32

    estimar los parmetros que describen una distribucin de probabilidad subyacente. Adems sirve como anlisis complementario de las tcnicas de clustering jerrquico estndar.

    Definicin:

    Sea Z=(x,Y) un conjunto de datos donde los datos X son visibles pero los datos Y estan ocultos.

    Entonces:

    )|,()|( = yxpzp

    )|(),|( = ypyxp

    En este caso no se puede estimar ),|()|( YXLZL = ya que no conocemos Y. Entonces se supone que es una variable aleatoria y se calcula la media:

    dyypyXLQy

    gg = )|(),,(log()|(

    ],|)|,([log gXyxpE =

    Donde g

    son parmetros propuestos.

    Luego el algoritmo EM busca los parmetros ptimos de ),|()|( YXLZL = por medio de dos pasos:

    Paso E (esperanza): En el cual se calcula la esperanza de la verosimilitud

    respecto a la informacin que se conoce y los parmetros propuestos t

    cualesquiera:

    ],|)|,([log)|( )()( tt XyxpEQ =

    Paso M (maximizacin): En el cual se maximiza Q respecto a los parmetros escogidos en E.

    (14)

    (15)

    (16)

    (17)

  • 33

    ))|((maxarg)1( tt Q =

    +

    Estos dos pasos se repiten hasta alcanzar la convergencia.

    2.13. Anlisis de Conglomerados (Clustering)

    Es una tcnica multivariante en la cual se busca agrupar las variables o datos tratando de lograr clasificarlos en grupos. Esta clasificacin se puede hacer de manera jerrquica o no, en cualquier caso todos los algoritmos toman como elemento de medicin la distancia entre los datos, y los grupos resultantes de la clasificacin tendrn la propiedad de estar conformados por los elementos ms cercanos entre s y los grupos tendrn la distancia mxima.

    El anlisis de conglomerados puede ser:

    2.13.1. No supervisado:

    Con estas tcnicas se agrupan los datos en funcin de una distancia sin utilizar ningn tipo de informacin externa para organizar los grupos. Dependiendo de la forma en la que los datos son agrupados, podemos distinguir dos tipos de clustering:

    a) Anlisis de Clusters No Jerrquicos

    Con esta clasificacin se crean grupos independientes entre s, con distancia mxima entre ellos. Cada observacin o valor se agrega a un solo grupo y todas las observaciones dentro de cada grupo estn lo ms cerca posible.

    Normalmente el algoritmo comienza a calcular la matriz de distancias a partir de un nmero de clusters seleccionado anteriormente por el usuario y luego se va recolocando de forma iterativa los datos en los diferentes grupos hasta minimizar la dispersin interna de cada cluster.

  • 34

    Los dos algoritmos ms conocidos de anlisis de clustering no jerrquicos en estudios genticos son:

    K-Medias: Es un algoritmo que permite clasificar n datos en k particiones, basndose en los atributos de estos datos. Este comienza con una muestra de k datos elegidos al azar de la matriz original de datos, los cuales son utilizados como centroides iniciales de los k clusters que se van a formar. La matriz de distancias se calcula desde dichos centroides hasta cada uno de los dems datos de la matriz y cada uno de ellos ser asignado de esta forma al centroide ms cercano. Entonces la matriz de distancias se recalcula reemplazando cada centroide por la media de los datos asignados a el y el algoritmo repite el proceso anterior.

    El objetivo es minimizar la disimilaridad de los elementos dentro de cada cluster y maximizar la disimilaridad de los elementos que caen en diferentes clusters.

    El algoritmo es el siguiente:

    1. Se da como entrada un conjunto de datos S y el nmero de clusters a formar k

    2. Selecciona los centroides iniciales de los K grupos: c1, c2, ..., cK. 3. Asignar cada observacin xi de S al cluster C(i) cuyo centroide c(i)

    est mas cerca de xi. Es decir, C(i)=argmin1kK||xi-ck|| 4. Para cada uno de los clusters se recalcula su centroide basado en

    los elementos que estn contenidos en el cluster y minimizando la suma de cuadrados dentro del cluster. Es decir,

    5. Volver al paso 2 hasta que se consiga convergencia. 6. Al final obtenemos una lista que dice en que cluster est cada dato.

    K-Meoides:

    Este algoritmo es una versin ms robusta del algoritmo de k-medias, este escoge los centroides dentro de los mismos datos. Al igual que k-medias parte los datos en grupos para luego minimizar la distancia entre el centro y los datos pertenecientes a

    = =

    =

    K

    k kiCkiWSS

    1 )(

    2|||| cx (18)

  • 35

    dicho centro. Tiene la ventaja de ser menos vulnerable a los datos extremos.

    Un meoide puede definirse como el punto mejor centrado dentro del grupo de datos.

    El algoritmo es el siguiente:

    1. Se comienza con un nmero arbitrario de Meoides (k0 se regresa al set anterior de meoides, si C

  • 36

    b) Anlisis de Clusters Jerrquicos

    Se basan en una matriz de distancias. Comienza con pequeos grupos que tienen un patrn de expresin comn y luego se construye un dendrograma que es una representacin grfica con forma de rbol, con las relaciones basadas en la cercana o similitud entre los datos, el cual se crea de forma secuencial.

    Este rbol establece una relacin ordenada de los grupos anteriormente definidos y la longitud de sus ramas permite tener una idea de la distancia entre los distintos nodos del mismo. Todos siguen la misma estrategia, en general separan cada dato en un nodo luego calculan la distancia entre los dos genes ms prximos y los juntan en un conglomerado o cluster, luego se vuelve a calcular la matriz de distancias sustituyendo los dos patrones que se han unido por el promedio de ambos. Siempre queda a eleccin del usuario el mtodo y el tipo de distancia que quiera utilizar. En la siguiente figura 2.10 podemos ver un ejemplo de dendrograma:

    Fig.2.10 Dendrograma

    2.13.2. Clustering supervisado:

    Para este tipo de clustering debemos contar con una informacin previa sobrer los datos, por ejemplo en la mayora de muestras biolgicas se puede contar con una

  • 37

    informacin preliminar que puede utilizarse para agrupacin de nuevos datos en clusters. El mtodo supervisado aprende de la informacin previa, que generalmente vienen dada por un conjunto de datos de entrenamiento, que del cual se extrae la forma en que deben clasificar los nuevos datos. Entre estos mtodos podemos destacar:

    SVM (Supported Vector Machines): Es una tcnica que utiliza hper planos que permiten separar los datos en el espacio multidimencional como puntos negativos o positivos.

    Pereceptrones o redes neuronales: Pueden discriminar entre varias clases diferentes y clasificar muchas muestras al mismo tiempo.

    2.13.2. Distancias usadas en los distintos mtodos de Clustering

    Sean ( )imiii xxxx ,...,, 21= y ( )jmjjj xxxx ,...,, 21= observaciones que se encuentran en las filas i y j de una matriz mnX . Podemos definir las siguientes distancias:

    a) Distancia Eucldea

    Viene dada por:

    ( ) ( ) ( )kiTjimk

    jkikij xxxxxxd == =1

    2

    b) Distancia Manhattan

    Viene dada por:

    =

    =

    i

    kjkikij xxb

    1

    c) Distancia de Minkowski

    Viene dada por:

    (19)

    (20)

  • 38

    1

    1

    =

    =

    m

    kjkikij xxm

    d) Distancia del Supremo Viene dada por:

    jkikij xxs = sup

    e) Distancia de Canberra Viene dada por:

    = +

    =

    m

    k jkik

    jkikij

    xx

    xxc

    1

    f) Distancia Binaria

    Se utiliza cuando los datos son binarios, es decir ceros y unos. Se implementa

    contando cuenta el nmero de bits diferentes en ix y jx , siempre que al menos uno

    de los bits es distinto de cero.

    g) Distancia de Ward

    Tambin se conoce como la suma de los cuadrados incrementales, la medida de proximidad entre los grupos i, j y c viene dada por:

    ( )bac SSWSSWSSW +=

    Donde

    ( )= =

    =

    in

    k

    m

    hihihki xxSSW

    1 1

    2.

    Donde i=a,b,c

    (21)

    (22)

    (23)

    (24)

  • 39

    2.14. Anlisis Discriminante:

    Es una tcnica de anlisis estadstico multivariante y de clasificacin. Permite establecer las diferencias existentes entre grupos e identificar aquellas variables que discriminan mejor entre dos o ms grupos definidos con anterioridad. Se parte de una muestra de N sujetos en los que se ha medido P variables independientes, estas se utilizarn para tomar la decisin en cuanto al grupo en el que se clasifica cada sujeto.

    Para realizar el anlisis discriminante, cada sujeto debe tener puntuaciones en una o ms de las variables cuantitativas independientes y un valor que le identifique como miembro de alguno de los grupos. Se puede decir que el anlisis discriminante se utiliza para determinar si los grupos difieren de los promedios de las variables y se utilizan esas variables para predecir cuales son los miembros que pertenecen a cada grupo.

    Su gran utilidad est en describir las diferencias existentes entre diferentes grupos a base de los valores que toman ciertas variables sobre los individuos de cada uno de los grupos. Tambin ayuda a clasificar nuevos individuos en alguno de los grupos ya existentes, en funcin de los valores que toman ciertas variables para esos individuos. Es decir, mediante la identificacin y utilizacin de aquellas variables que parecen ser las mejores predictoras para cada uno de los grupos. Es usado tambin para identificar las correlaciones entre las variables, as como las relaciones de causa y efecto.

    El anlisis discriminante puede clasificarse en:

    2.14.1. Anlisis Discriminante Descriptivo:

    El anlisis discriminante descriptivo nos permite detectar las variables que mejor diferencian a los grupos ya definidos.

  • 40

    2.14.2. Anlisis Discriminante Predictivo:

    El anlisis discriminante predictivo tiene la funcin de clasificar el grupo al cual pertenece cada sujeto. Con la clasificacin, se desea predecir con mayor precisin los miembros de cada grupo.

    La funcin discriminante utiliza la combinacin de los valores de las variables predictoras para clasificar un objeto o sujeto en uno de los grupos de la variable de criterio. La funcin discriminante es una variable derivada, que podemos definir como la suma del peso de los valores en las variables predictoras. Se utiliza tambin, un concepto de puntuacin lmite, los sujetos que obtengan una puntuacin discriminante mayor a la puntuacin lmite se clasifican en un grupo y los que obtengan una menor se clasifican en el otro.

    El concepto de la funcin discriminante se utiliza tambin en aquellas situaciones donde se tienen ms de dos grupos. En ese caso se calcula ms de una funcin discriminante para decidir la clasificacin de los sujetos. La funcin discriminante busca disminuir el nmero de errores de clasificacin.

    Supuestos:

    1. Normalidad: Se asume que la informacin representa una muestra de una distribucin multivariada normal. Si este supuesto no cumple, los valores arrojados en los resultados, pueden ser invlidos.

    2. Homogeniedad de varianzas/covarianzas: Se asume que las matrices de la varianza/covarianza son homogneas entre grupos. Si no se cumple con este supuesto, se producirn resultados invlidos.

    3. Seleccin aleatoria de la muestra: Se asume que la muestra debe ser escogida al azar y que las puntuaciones en una variable, debe ser independiente entre sujetos. Si no se cumple este criterio, los resultados de significancia no son confiables.

  • 41

    4. Clasificacin correcta: Cada una de las observaciones en la clasificacin inicial debe estar correctamente clasificada.

    Las ventajas del Anlisis discriminante residen en que se puede identificar variables que se relacionan con una variable criterio. Adems cuando la variable predictora tiene unos valores definidos, se puede predecir las valores de la variable criterio. Permite identificar las variables que mejor discriminan entre grupos. Por ltimo permite identificar relaciones entre las variables, as como relaciones de causa y efecto.

    Entre las desventajas del anlisis esta el que el anlisis es muy complejo en trminos a pasos a seguir. Adems la muestra debe tener gran tamao. Finalmente, la posibilidad de cometer errores de clasificacin.

  • CAPITULO 3

    PROYECTO HAPMAP Y PRE-PROCESAMIENTO DE LOS DATOS

    3.1. Proyecto HAPMAP:

    El proyecto HapMap es una iniciativa que naci en octubre de 2002 y que pretende realizar la creacin de un catlogo de las variantes genticas que ocurren ms comnmente en los seres humanos y de las cuales hasta ahora se sabe bastante poco. Fue creado para intentar describir qu son estas variantes y cmo estn distribuidas en las diferentes poblaciones y lugares del mundo. El proyecto en s, no est utilizando la informacin recolectada en estudios que relacionen los diferentes genes con enfermedades, pero est diseado para proveer informacin que otros investigadores pueden usar con este fin, con la intencin de desarrollar nuevos mtodos de prevencin, diagnstico y tratamiento.

    Es un esfuerzo realizado por varios pases para identificar y catalogar similitudes y diferencias genticas en los seres humanos. Es una colaboracin entre cientficos de Japn, Reino Unido, Canad, China, Nigeria y Estados Unidos. Y toda la informacin generada por el proyecto es accesible al pblico.

    El propsito de todo esto es comparar las secuencias genticas de diferentes individuos para identificar las regiones de secuencias genticas variables que son compartidas o frecuentes. Al hacer que estos datos sean accesibles y gratuitos, se ayuda a los investigadores biomdicos a encontrar los genes relacionados con algunas enfermedades, as como la respuesta a ciertas drogas de tratamiento.

  • 43

    En la parte inicial del proyecto, se reuni informacin de cuatro poblaciones con ancestros africanos, asiticos y europeos. La interaccin con los miembros de estas poblaciones proporcionan una valiosa experiencia en la realizacin de investigaciones con poblaciones identificadas

    Organizaciones pblicas y privadas en seis pases estn participando en el proyecto. Estos datos pueden ser descargados con un mnimo de restricciones, es decir estn disponibles para casi cualquier investigador que los necesite.

    Debido a la historia del la especie humana, la mayora de las variaciones genticas o haplotipos que se encuentran en los cromosomas ocurren en todas las poblaciones humanas. Sin embargo, algunas variaciones pueden ser mas comunes en unas poblaciones que en otras, y las variaciones mas recientes pueden encontrarse por ejemplo slo en una poblacin y en otras no. Para escoger eficientemente los SNPs es necesario mirar las frecuencias de haplotipos en mltiples poblaciones. Esto tambin mejora los datos genticos para ms de una poblacin, as como la habilidad de los investigadores de detectar la contribucin gentica de las enfermedades que son ms o menos prevalentes en diferentes grupos.

    3.2. Pre-procesamiento de los datos:

    La base de datos que se utiliz para el presente estudio proviene de un estudio previo realizado en el PRBB, para extraer seleccionar de entre la gran cantidad de datos del proyecto HAPMAP una cantidad menor de datos que concentrara un alto nmero de variaciones en nmero de copia.

    Las muestras de ADN resultantes tienen en total 270 personas repartidas en tres poblaciones: Los Yoruba gente de (Ibadan, Nigueria) provee un sets de 90 muestras, los japoneses y chinos, que comprenden 45 muestras provenientes de Tokio y 45 provenientes de Beijing y finalmente 90 muestras provenientes de Estados Unidos y Europa. Las muestras no estn relacionadas de ninguna forma con los participantes, es decir, no se conoce nombres, direcciones o datos personales, pero s se sabe el sexo y la proveniencia del individuo. Para ms informacin ver el ANEXO C.

  • CAPITULO 4

    METODOLOGA

    4.1. Primera fase: Proyecto HapMap y pre-procesamiento de los datos

    Comprende la obtencin de los datos y el trabajo previo realizado por los investigadores del PRBB, para obtener un grupo de genes ms pequeo, que concentrase una alta cantidad de SNPs y CNVs para facilitar las pruebas y el desarrollo del mtodo posteriormente planteado.

    4.2. Segunda fase: Clasificacin de los datos en nmero de copias (Modelo de Mixturas gaussianas)

    Para nuestro estudio se cuenta con una seleccin de 144 genes (o marcadores genticos), correspondientes a 272 individuos. Almacenada en una matrz X272x144 de variables xij, es decir el valor xij representa la intensidad del gen j en el individuo i.

    Para cada sonda gentica queremos clasificar los individuos en un nmero de clases C, usando la variable continua x. Tomando en cuenta la variabilidad de los datos en cada caso. Algunas sondas muestran claramente los picos que diferencian las clases presentes y otras son ms difciles de inferir a simple vista, como podemos ver en la fig. 4.11:

  • 45

    Fig. 4.11

    Queremos modelar la variable subyacente C, usando la variable observada x. Para esto, proponemos utilizar un modelo de mixturas finitas de C componentes:

    En la cual )|( xN es la distribucin y cC ....1= es el nmero de clases, y denota los parmetros de la distribucin de las mixturas de funciones normales

    ),( cc = media y varianza.

    4.2.1. Estimacin de los parmetros:

    Para estimar los parmetros de las mixturas podemos utilizar el algoritmo EM (Expectation Maximization, implementado en la funcin mix de R) ya que este algoritmo esta diseado para hacer la estimacin de mxima verosimilitud parmetros que describen una distribucin de probabilidad subyacente, como sucede en este caso.

    Este algoritmo nos permite entonces obtener los valores de media y varianza para

    (25)

  • 46

    las distribuciones normales que ajustan nuestros datos.

    Luego calculamos la probabilidad de que el dato correspondiente al individuo i de la sonda pertenezca a la clase j :

    4.2.2. Seleccin de la clase Luego usamos estas probabilidades para segmentar los datos asignando a cada

    individuo el nmero de copia correspondiente a la probabilidad ms alta:

    C1

    C2

    Cc

    x1

    0.0001

    0.0007

    0.98

    xm

    0.00098

    0.95

    0.0007

    Tabla 2

    Por ejemplo en la figura 4.12 el dato a correspondera a la clasificacin C2 ya que la probabilidad de estar en C1, en este caso, sera muchsimo menor.

    (26)

  • 47

    Fig.4.12 Clasificacin del punto a en un modelo de dos mixturas

    Esto se realiza para cada punto, asignndole a cada dato su clase correspondiente, como se ve en la fig. 4.13. En la cual los datos azul marino tienen cero copias del gen, los datos en azul claro tienen una copia y los datos en rojo tienen 2 copias del gen en cuestin:

    Fig. 4.13 Grfica de una sonda gentica clasificada Segn la distribucin de sus datos.

    C1

    C2 a

  • 48

    4.2.3. Inconveniente cerca de cero

    En algunos casos cuando hay individuos con cero copias de un gen, las intensidades obtenidas dan muy cercanas a cero y en este caso, la estimacin de los parmetros falla. Los individuos con cero copias no estn normalmente distribuidos, ya que nadie tiene un nmero negativo de copias de un gen.

    En este caso podemos agregar un parmetro threshold escogido por el usuario, como se ve en la fig. 4.14 todos los datos por debajo de este parmetro se consideran con cero copias:

    Fig 4.14. Clasificacin de una sonda con la El nuevo parmetro

    Es decir se asigna la clase 1 correspondiente a cero copias a todos los valores por debajo del valor threshold.

  • 49

    4.2.4. Modelo resultante

    Entonces nuestro modelo inicial quedara:

    Donde es dado por el usuario denota la funcin indicadora y

    con

    El valor de y ya que la clase c1 la estamos forzando al convertir todos los datos bajo el threshold en cero.

    Al hacer esto asignamos a cada dato la clase que le corresponde.

    4.3. Tercera fase: Clustering

    4.3.1. Clasificacin de los individuos segn el nmero de copias

    Luego de obtener la matriz de datos que contiene la informacin de cuntas copias de cada gen tiene cada individuo, como vemos en la siguiente fig.4.15 :

    Fig. 4.15 Matriz de sondas genticas clasificadas segn el nmero de copias

    (27)

    (28)

  • 50

    Realizamos un anlisis de clustering para ver como se agrupan los individuos segn el nmero de copias. Es decir, queremos ver si hay alguna relacin que permita clasificar los individuos con diferentes copias de cada gen.

    4.3.2. Clasificacin de los individuos segn el nmero de copias (Clustering no supervisado)

    Para esto se utiliza la funcin pam de la librera cluster de R que utiliza el algoritmo de k-meoides (una versin ms robusta del algoritmo k-medias). Se realiza una clasificacin tanto para los datos sin clasificar como para los nuevos datos por clase obtenidos con el modelo de mixturas explicado previamente.

    Esto nos permite comparar la clasificacin de los individuos antes y despus del proceso. En nuestro caso sabemos que las muestras proceden de tres grupos o poblaciones de distinta raza, queremos ver si las variaciones en cuanto a nmero de copias nos permiten diferenciar las distintas razas de individuos.

    Para comparar los resultados obtenidos realizamos una tabla de contingencia utilizado las clases obtenidas mediante la clasificacin de meoides versus el vector con la informacin de a qu poblacin corresponde cada sonda. Y un coeficiente kappa que mide el porcentaje de acuerdos.

    Posteriormente realizamos un anlisis discriminante en el cual se recalcula la clasificacin (clustering) de los individuos de manera supervisada, esta se obtiene mediante la funcin de R discrimin: Primero se clasifica segn la intensidad de cada sonda gentica xij y luego segn el nmero de copias de cada gen cij y en cada caso se compara con los grupos originales existentes (CEU, YRI, CHB). Esto nos permite tener una idea de que tan acertados son los resultados luego de clasificar cada sonda segn el nmero de copia en una intensidad.

    Posteriormente el anlisis discriminante, permitir identificar aquellas variables que discriminan entre dos o ms grupos definidos con anterioridad y, establecer diferencias entre dichos grupos. La idea es poder identificar aquellos genes que son relevantes en la diferenciacin de las poblaciones. Esta fase sigue en estudios

  • 51

    actualmente ya que la idea es aplicar este mtodo para diferenciar poblaciones sanas de enfermas y descubrir por ejemplo, los genes relacionados a alguna enfermedad o patologa.

  • CAPITULO 5

    RESULTADOS

    5.1. Mixturas Gaussianas:

    Se utiliz una matriz de datos experimental, con la informacin de 144 marcadores genticos (columnas) y con 272 individuos (filas) pertenecientes a tres poblaciones, a la cual aplicamos el modelo de mixturas normales descrito en el capitulo anterior:

    En la fig. 5.16 Podemos ver la clasificacin de una de las 144 sondas en las clases: 0,1,2 y 3 copias del gen. Para estos datos 2.0=

    Fig. 5.16 Clasificacin de una sonda.

  • 53

    Esta clasificacin sucede para cada una de las sondas, y obtenemos como resultado una matriz de 144 marcadores genticos (columnas) y con 272 con valores de clases cij = 0,1,2 3.

    5.2. Clasificacin de las poblaciones:( clustering no supervisado)

    Luego se utiliza esta matriz resultante de datos enteros para realizar un clustering de k-meoides, que nos permite clasificar a cada individuo en un grupo segn su patrn en nmero de copias para cada gen. Y posteriormente se compara este resultado con el obtenido para la matriz original de datos no clasificados por nmero de copias. Se puede ver el resultado de dicho anlisis en la siguiente fig.5.17 en la mitad superior se encuentra el resultado para la matriz inicial y en la parte de abajo para los datos clasificados obtenidos con la clasificacin por mixturas.

    Fig. 5.17 Resultado del anlisis de k-meoides

  • 54

    Vemos que el anlisis de k-meoides realizado para la matriz original, sugiere que la clasificacin mas ptima se obtiene con k = 2 3; es decir, con 2 3 poblaciones. Pero no se puede decir cual clasificacin resulta mejor. Mientras que para los datos clasificados es claro que la mejor clasificacin se obtiene con K = 3 poblaciones.

    Sabemos (a priori) que los datos provienen de tres poblaciones, por lo tanto la clasificacin obtenida es mejor para los datos discretos, es decir para la matriz obtenida por el modelo de clases latentes, ya que la otra no nos da un claro discernimiento entre si son dos o tres poblaciones.

    5.3. Anlisis discriminante: (Clustering Supervisado)

    5.3.1. Clustering supervisado de los datos Clasificados: Aqu podemos ver los clusters obtenidos mediante la funcin discrimin, para los

    datos cij obtenidos mediante el modelo de mixtura de normales, comparados con la clasificacin real de las poblaciones. En la fig. 5.18 se puede apreciar que en ambos casos los clusters estn perfectamente separados.

    Fig.5.18 Grupos obtenidos al clasificar los datos obtenidos mediante el modelo de mixtura de normales

    utilizando el anlisis discriminante

    Grupos 1, 2 y 3 discrimin Poblaciones Originales CEU,CHB y YRB

  • 55

    5.3.2. Clustering supervisado de los datos Originales:

    Aqu podemos ver los clusters obtenidos mediante la funcin discrimin, para los datos xij que se tena originalmente, comparados con la clasificacin real de las poblaciones. Se puede apreciar que en este caso los grupos no estn tan bien separados. Esto sugiere que hay una mejor clasificacin con los datos cij.

    Fig. 5.19 Grupos obtenidos al clasificar los datos originales utilizando el anlisis discriminante

    5.4. Comparacin de las clasificaciones: Para comparar la clasificacin obtenida con la real, realizamos una tabla de

    contingencia: Datos Cij Datos xij

    Coeficiente Kappa: (2*PA-1) = 0.793103 Coeficiente Kappa: (2*PA-1) = 0.739464

    Tabla 3

    Grupos 1, 2 y 3 discrimin Poblaciones Originales CEU,CHB y YRB

    56 3 1 3

    2 128 2 2

    0 16 53 1 YRI CHCE

    58 25 48 3

    0 117 4 2

    0 5 4 1

    YRI CHCE

  • 56

    En la tabla vemos que la mayor concentracin de datos se encuentra en la diagonal, esto quiere decir que no slo est bien que tengamos 3 grupos, sino que adems estn bastante bien clasificados.

    Cosa que se corrobora con el coeficiente de concordancia kappa, que en ambos casos es altsimo pero en el caso de la matriz datos obtenidos mediante el modelo de mixtura es mayor.

  • 57

    CONCLUSIONES Y FUTUROS ESTUDIOS

    Descubrimos que el modelo propuesto de mixturas gaussianas permite determinar el nmero de copias de manera adecuada y casi sin perdida de informacin, de hecho, la discriminacin de poblaciones en ambos casos (utilizando o no la informacin a priori) da mejores resultados con los datos discretos o nmero de copias obtenida mediante el modelo propuesto de mixturas gaussianas que con los continuos de la matriz original de intensidades.

    Luego de realizar las comparaciones vemos que al realizar la clasificacin de datos mediante el modelo de mixturas, y realizar el clustering sobre los datos con SNPs y CNVs vemos que estas variaciones son tiles para discriminar poblaciones, en este caso en el cual comparamos personas de razas diferentes, esto nos hace pensar en el potencial de informacin que podemos obtener al estudiar estas variaciones genticas recientemente descubiertas, de las cuales apenas se esta comenzando a saber algo, de hecho se conoce aproximadamente un 10% de la funcin de las variaciones genticas mas simples, como por ejemplo, color de ojos, piel, cabello, etc.

    Un siguiente paso seria ver si estos SNPs y CNVs permiten diferenciar poblaciones sanas de poblaciones enfermas, con alergias, con diferentes tipos de resistencia al HIV, cncer, la resistencia a ciertos medicamentos, y un sin fin de respuestas biolgicas diversas que hasta ahora solo se tratan con ensayo y error.

    De ser as esta metodologa podra ser til, nos solo para diferenciar estas poblaciones sino para para determinar aquellos CNVs y SNPs asociados a las enfermedades ms complejas que han afectado al ser humano.

  • 58

    REFERENCIAS

    1] Kotler P., Jain D. C. y S. Maesincee. El marketing se mueve, Paids, 2002.

    [2] Da Costa J. Diccionario de mercadeo directo ingls-espaol, Panapo, 1996.

    [3]

    [4] Picn E. Segmentacin de mercados, Aspectos estratgicos y metodolgicos,

    Prentice Hall, 2004.

    [5] Schiffman L., Kanuk G. L. y Leslie. Comportamiento del Consumidor, Editorial Prentice Hall, 1997.

    [6] Prez C. Tcnicas de Anlisis Multivariante de Datos, Aplicaciones con SPSS,

    Prentice Hall, 2004.

    [7] Johnson D. E. Mtodos Multivariados aplicados al anlisis de datos, International

    Thomson Editores, 1998.

  • 59

    APENDICES

    Anexo A. Codigos del programa

    1) Mixdist datos enteros XMC.R Solymar Peraza Crespo Dic: 2008 R v7.1

    # Programa que realiza la discretizacin de la matriz de datos continuos

    # que contiene los marcadores genticos de una o varias poblaciones mediante # clustering, utilizando la funcin de la libreria # del programa R (freeware) # Archivos necesarios: data.dum,asignaClase.R y search.threshold.R # Archivos de salida: XMC.dum library(mixdist) # Preparacin de los datos: # Obtencin de los datos rm(list=ls()) # Borra todas las variables residuales data.dum

  • 60

    # boxplot(datos,main='Boxplot de datos sin NAs y datos atipicos') # Inicializaciones: indi

  • 61

    ## 1) Datos cercanos a cero (en el intervalo [0,th)):

    p0

  • 62

    ## A veces una mixtura con desviacin estndar mas grande que otra causa malas clasificaciones

    ## para arreglar esto usamos la funcin search.threshold()

    th2=search.threshold(res,xmc[p1,i]) if (length(th2)>=2){ for (j in 1:length(xad)){ for (k in 2:length(th2)){ if (xad[j]=th2[k-1])&(xad[j]=th2[k]) xmc[p1[j],i]=k+1; } } }

    if (min(grup)>0.5){xmc[p1,i]=xmc[p1,i]+which(cen==min(grup))-2} # Corrige el problema de por ejemplo darle clase 1 # a los que estan sobre 0.5

    ## 3) Datos con poca densidad: Clasificacin. if (length(poc)!=0){ xpm=c() nc=c(1,2,3,4)

    for (j in 1:length(poc)){ avec[poc[j]])&(x

  • 63

    } ) 2) k_meoides.R # Programa que realiza la clasificacin de los individuos segun la

    informacin # de los los marcadores genticos y compara el resultado obtenido entre la # matrz de datos enteros XMC y la matriz de datos continuos

    # utilizando las funciones ,, , # del programa R (freeware)

    # Archivos necesarios: XMC.dum

    source("C:/Documents and Settings /XMC.dum") xn

  • 64

    # Datos enteros XMC dxne = daisy(xmc, metric = c("gower")) ##Aqui uso datos discretizados hxe2= pam(dxne, k=2) hxe3= pam(dxne, k=3) hxe4= pam(dxne, k=4)

    ## Plot de k-meoides (continuos y discretos)

    op

  • 65

    # Coeficiente de fiabilidad kappa continuos pam y pop k=3 concord

  • 66

    library(maptree) # Graficos para clusterin jerarquico require(graphics)

    rm(list=ls()) source("C:/Documents and Settings/K_meoides.dum")

    ## A) Datos continuos normalizados XN

    hxc2= pam(dxnc, k=2) ###################################################

    pobfc2

  • 67

    plot(rte.pop.3.c) ####################################################

    hxc3= pam(dxnc, k=3) ###################################################

    pobfc3

  • 68

    xmc.f=c() xmc.f=data.frame(apply(xmc,2,as.factor)) dd.2.e

  • 69

    plot(rte.3.e) #################################################### hxe4= pam(dxne, k=4) ###################################################

    pobfe4

  • Latent Class Model to Assess Association between

    Copy Number and Disease in Targeted Studies

    Juan R. Gonzalez1,2,3, Isaac Subirana2,3, Geo`rgia Escarams2,4, Solymar Peraza2,1,

    Alejandro Caceres1, Xavier Estivill4,2, Llus Armengol4

    1 Center for research in environmental epidemiology (CREAL)

    2 CIBER en Epidemiologa y Salud Publica (CIBERESP)

    3 Institut Municipal dInvestigacio Me`dica (IMIM)

    4Genes and Disease Program, Center for Genomic Regulation, Barcelona, Spain

    Correspondence to: Dr. Juan R. GonzalezCenter for research in environmental epidemiology (CREAL) (room 188)Barcelona Biomedical Research Park (PRBB)Plaza Charles Darwin s/n, Barcelona 08003, Spain.e-mail: [email protected]

    e-mail addresses:JRG: [email protected]: [email protected]: [email protected]: [email protected]: [email protected]: [email protected]: [email protected]

    1

  • Abstract

    Background: Copy number variations (CNVs) might play an important role by alter-

    ing dosage of genes and other regulatory elements, which may have functional and, ulti-

    mately, phenotypical consequences. Therefore, determining whether a CNV is associated

    or not with a given disease might be relevant in understanding genesis and progression

    of human diseases. In this paper, we present a framework to assess assocation between

    CNVs and disease in case-control studies. We extend the model to analyze discrete traits

    and adjust for confounding covariates.

    Results: Through simulation studies, we have shown that our method outperforms

    other simple methods based on using pre-defined thresholds to define copy number status.

    We illustrate the method using a real data example in a controlled MLPA experiment

    showing good results.

    Conclusions: We illustrate that our method is robust and achives maximal theoretical

    power since it accomodates the possible missclassification error when copy number status

    are stablished. We have made the software freely available and will be included in the R

    package MLPAstats.

    2

  • Background

    With the recent technological advances, different genome-wide studies have uncovered an

    unprecedented number of structural variants in the human genome [1, 2, 3], mainly in

    the form of copy number variations (CNVs). The important number of genes and other

    regulatory elements encompassed by those variable regions, make CNVs very likely to

    have functional and, ultimately, phenotypical consequences [4, 5]. In fact, recent studies

    have correlated the number of copies of specific genes with different degrees of disease

    predisposition [6, 7, 8], showing that the identification of DNA copy number is important

    in understanding genesis and progression of human diseases.

    Several techniques and platforms have been developed for genome-wide analysis of

    DNA copy number, such as array-based comparative genomic hybridization (aCGH).

    The goal of this approach is to identify contiguous DNA segments where copy number

    changes are present. The ability of aCGH to discern between different number of copies is

    limited, thus the use of different kinds of quantitative techniques are required for targeted

    and more precise analysis of genomic regions. For known CNVs, real time PCR assays

    can be applied to study the copy number status of given loci in cases and controls groups.

    Individuals are typically binned into copy number categories using pre-defined thresholds.

    Currently, Multiplex Ligation-dependent Probe Amplification (MLPA) [9] has also been

    used to quantify copy number classes. This method allows the analysis of several loci at

    a the same time in a unique assay. MLPA is normally used to test differences in gains

    and losses among test and control samples [10] but it can also be used in the context of

    association studies in a case-control or cohort settings [11, 12].

    Statistical methods used in CNV-disease association studies are very simple. Quan-

    titative methods give CNV measurements for each individual as a continuous variable.

    After that, copy number status is usually inferred generally by using pre-defined thresh-

    olds, and subsequently assess differences in copy number distribution between cases and

    3

  • controls by using 2, Fisher or Mann-Whitney tests [6, 13, 14]. However, the distribu-

    tion of CNV meassurements is continuous and multimodal, meaning that peak intensity

    should be considered as a mixture of curves. In many occassions, these curves overlap with

    different underlying distributions. Therefore, scoring copy number by binning and then

    assessing the association may lead to misclassification and hence obtain false findings.

    To overcome this difficulty, we propose a latent class (LC) model to assess association

    between CNVs and disease wich incorporates possible misclassification in scoring copy

    number status. After inferring copy numbers using gaussian finite mixture distributions,

    the model assesses the relationship among the trait and a CNV with a mixture of gen-

    eralized linear models. Association is then assessed using a likelihood ratio procedure.

    We validate and compare our method with the existing methods through a simulation

    study. We then illustrate how to test association between two CNVs in a case-control

    study using a real data set.

    Methods

    Inference of copy number status

    Let us assume that we observe I individuals from a given population, that consists of

    C mutually exclusive latent classes c = 1, . . . , C (e.g. copy number status). Insteadof observing these classes, we observe a surrogate variable, X, that corresponds to a

    continuous variable arising from any quantitative method. For instance, in targeted

    studies using MLPA or real-time PCR, X corresponds to peak intensities for each CNV.

    In the context of a whole genome scan, one may have quantitative data from Illumina or

    Affymetrix array, where for each probe, the variableX corresponds to a ratio of intensities.

    Figure 1 shows possible patterns that peak intensities may have. Some variants cleary

    show different underlying copy number status with multimodal peak intensities (CNV2,

    4

  • CNV4 and CNV6). In other cases, where the existence of different copy numbers is not

    clear, inferring copy number by binning the data may be difficult or unfeasible.

    For each CNV variant, we are interested in classifying the individuals into the C classesusing the surrogate variable X. We propose to model the unobserved latent classes using

    a finite mixture model with C components of the form

    f(x|) =C

    c=1

    cN(x|), (1)

    where N(|c, 2c ) is the Gaussian distribution with denoting all model parameters(e.g., = (c,

    2c ), c = 1, . . . , C), and x is the surrogate variable that corresponds to the

    quantitative measure of the copy number status. For the component weigths c it holds

    Cc=1

    c = 1 and c 0, c = 1, . . . , C.

    The value of C to be used is chosen by applying the Bayesian Information Criteria (BIC)[15]. It should be pointed out that in some occasions, specially when there are individuals

    with 0 copies, the intensity distributions (see CNV2 and CNV4 in Figure 1) are very close

    to 0. In this situation, the estimation procedure of parameters involved in (1) used to fail

    since the underlying distribution of individuals with 0 copies is not normally distributed.

    In these situations we propose to fit the following mixture model to determine the latent

    classes

    f(x|) = 1I{x} +(

    Cc=2

    cN(x|c, 2c ))I{x>}, (2)

    where is given by the user, 1 =P

    I{x}I

    , I denotes an indicator function, and

    1 +

    Cc=2

    c = 1 and c 0 c = 2, . . . , C.

    5

  • The posterior probabilities are used to segment data by assigning each individual to

    a given copy number status that will correspond to the class with maximum posterior

    probability (MAP). After fitting this finite mixture model, we can perform a goodness-

    of-fit test using a 2 test statistic. Finite mixture parameters can be estimated using the

    EM algorithm [16, 17] or Newton-type procedures [17]. Then, the posterior probability

    that the individual i with an observed value x belongs to copy number class j is given by

    wij = P(j|x,) =jN(x|j , 2j )c cN(x|c, 2c )

    . (3)

    Latent class model

    Discrete traits

    Let us suppose that copy number status is associated with a binary phenotype (case-

    control). The association is typically assessed with a 2 test for the contingency Table 1.

    Missclassification in the table is incorporated when we assign each individual to a given

    class c using maximum a posteriori probability (MAP). Thus, this problem can be seen as

    an association study with missclassification (measurement error) [18]. It is well known

    that misclassification of covariates has important implications on parameter estimates

    and statistical inference [19]. Some approaches account for such error [20, 21]. These

    are, however, based on performing validation studies in a subsample. In our context, this

    is unfeasible because hundreds of genes are normally analyzed at time, and technology

    may have different sensitivity and specificity for each of the inspected loci. We therefore

    propose the posterior probability of belonging to each latent class to model the degree of

    missclasification regarding the copy number status. We then account for this information

    in the association model.

    6

  • Conditionally on cluster c, we have that

    P(yi|Ci = c,) = yiic(1 ic)1yi, (4)

    where = (1, . . . , c), c = 1, . . . , C is our vector of parameters, and

    logit(ic) c

    Then, equation (4) can be rewritten as

    P(yi|Ci = c,) = eyic

    1 + ec

    Now, we consider that copy number status is measured with error (i.e., the latent class

    is not known). Therefore, we are modelling the probability of being case as a mixture of

    C binomial variables in the following way

    P(yi|) =C

    c=1

    wicP(yi|Ci = c,),

    where wic is the posterior probability that the individual i belongs to copy number class

    c given in (3). Therefore, assuming conditional independence of case-control status given

    latent class, the likelihood function for model parameters can be written as

    Ii=1

    Cc=1

    wicP(yi|Ci = c,) =Ii=1

    Cc=1

    wiceyic

    1 + ec. (5)

    It is straightforward to see that we can compute the odds ratio (OR) of belonging to class

    c with respect to a given reference r as

    ORc/r = ecr . (6)

    7

  • Quantitative traits

    We now consider the case where our phenotype, Y , is continuous. We assume that

    Y |c N(c, 2). In this case, conditionally to cluster c we have that

    P(yi|Ci = c, ) = 12

    e(yiic)

    2

    22 , (7)

    where

    ic c

    And, similarly to the case of discrete traits, the likelihood function for model parameters

    is given by

    Ii=1

    Cc=1

    wicP(yi|Ci = c, ) =I

    i=1

    Cc=1

    wic12

    e(yic)

    2

    22 . (8)

    In this case we are interested in evaluating the difference between mean effect of individ-

    uals with c copies and r copies. This can simply be computed as

    yc/r = c r

    Model with covariates

    In some ocassions researchers are interested in assessing the effect of CNVs adjusted for

    other covariates, Z1, . . . , ZK (normally called confounding variables). In this case, the

    likelihood function can be written as

    Ii=1

    Cc=1

    wicP (yi|Ci = c, Z, c, ),

    where

    P (yi|Ci = c, Z, c, ) = eic

    1 + eic(9)

    8

  • for discrete traits, and

    P (yi|Ci = c, Z, c, , ) = 12

    e(yiic)

    2

    22 (10)

    for qualitative traits. In both cases

    ic = c + 1Zi1 + . . .+ KZiK (11)

    Parameter estimation

    In this section we address parameter estimation for the general situation of having co-

    variates and either discrete or quantitative traits. For brevity let (, , ) (noticethat for discrete traits = 1). We consider that wic are known and that they are given

    by the surrogate variable X from equation (3). Therefore, they can be pluged in the

    log-likelihood resulting in

    logP (YYY |Ci = c, Z,) =Ii=1

    logC

    c=1

    wicP (yi|Ci = c, Z,). (12)

    Here P (yi|Ci = c, Z,) is given by equations (9) and (10) for discrete and quantitativetraits, respectively. The maximum likelihood estimators (MLE) of the model parameters

    maximize this log-likelihood function. We propose to use a Newton-Raphson procedure

    to find parameter estimates. The k-th component of the score, S, is given by

    Sk(y|C, ) logP (YYY |)

    k=

    Ii=1

    Cc=1

    hickC

    c=1 hic.

    The k-th element of the hessian, H , is

    Hkk() 2 logP (YYY |)kk

    =Ii=1

    Cs=1

    hickk

    Cs=1 hic

    Cs=1

    hick

    Cs=1

    hick(J

    s=1 hic

    )2 ,

    9

  • where

    hic wicP (yi|Ci = c, Z, ).

    Formulas for the derivatives of hic for covariates and for discrete and qualitative traits