27
Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades de Estadística - CLATSE Montevideo Uruguay, Octubre 2008 Insertar logo UdeC

Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Embed Size (px)

Citation preview

Page 1: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Análisis de datos correlacionados

Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción

Chile

Octavo Congreso Latinoamericano de Sociedades de Estadística - CLATSEMontevideo Uruguay, Octubre 2008

Insertar logo UdeC

Page 2: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Definición

• Definimos datos correlacionados cuando las observaciones se agrupan naturalmente en grupos o conglomerados (clusters).

• Por ejemplo:

– Estudios longitudinales (múltiple observaciones en el tiempo en el mismo sujeto).

– Estudios de familia (genética).– Estudios multicéntricos (pacientes de un mismo centro)– Estudios de caries (múltiples observaciones en un mismo

sujeto).– Análisis espacial (autocorrelación espacial)

Page 3: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Programa

• Modelos lineales mixtos

• Modelos lineales generalizados mixtos

• Modelos no lineales mixtos

• Modelos bayesianos semiparamétricos

Page 4: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Algo de Historia

• Fisher. 1918,1925 ANOVA, correlación intraclase.

• Henderson. Estimation of variance and covariance components. Biometrics 1953.

• Harville. 1974, 1976, 1977

• Laird & Ware. Random effects models for longitudinal data. Biometrics 1982.

• ……

Page 5: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos lineales y SAS

Respuesta Efectos Fijos Efectos mixtos

NormalModelo lineal

general

Proc GLM

Modelo lineal mixto

Proc MIXED

Familia exponencial*

Modelo lineal generalizado

Proc GENMOD

Modelo lineal mixto generalizado

Proc GLIMMIX

*Normal, Poisson, Binomial, Gama, Normal inversa

Page 6: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de Efectos Mixtos: Ejemplo 1

• Investigadores de la Escuela de Odontología de la Universidad de Carolina del Norte, analizaron el crecimiento de 27 niños (16 hombres, 11 mujeres) desde los 8 hasta los 14 años. Biometrika, 1964.

• Con rayos X midieron, cada dos años, la distancia entre la pituitaria y la fisura pterigomaxilar.

Page 7: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Datos

Page 8: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de Efectos Mixtos: Perfiles individuales

Edad en años

Dis

tan

cia

de

la p

ituita

ria

a la

fisu

ra p

teri

go

ma

xila

r

20

25

30

8 10 13

M16 M05

8 10 13

M02 M11

8 10 13

M07 M08

8 10 13

M03 M12

8 10 13

M13

M14 M09 M15 M06 M04 M01 M10 F10

20

25

30

F09

20

25

30

F06

8 10 13

F01 F05

8 10 13

F07 F02

8 10 13

F08 F03

8 10 13

F04 F11

Page 9: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de Efectos Mixtos: Gráfico de tallarines (spaghetti plots)

Page 10: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de Efectos Mixtos: Ejemplo 1

Preguntas:

• ¿Cómo afecta la edad en el crecimiento?

• ¿Hay diferencias por sexo?

• ¿Es el crecimiento diferentes entre los dos sexos (hay interacción)?

Page 11: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

¿Solución?

• Software

• Library nlme: Linear and Nonlinear Mixed Effects Models

• Author:Jose Pinheiro, Douglas Bates, Saikat DebRoy, Deepayan Sarkar, the R Core team

Page 12: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

lm #linear models

Page 13: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos: Ejemplo 1

• Modelo de regresión lineal simple

i=1,. . . ,N j=1,. . . ,ni ²i ji id» N (0;¾2)

Problema: no tomamos en cuenta la correlación dentro de los sujetos y la variabilidad entre los sujetos

Distanciai j = ¯0+¯1Edadi j +²i j

Page 14: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Datos correlacionados

¿Porqué hacer un diseño de datos correlacionados?

• Aumentar la precisión haciendo comparaciones dentro del grupo.

• Reducir la posibilidad de confusión haciendo comparaciones dentro del grupo.

• Examinar comportamiento de sujetos en el tiempo.

• No hay otra alternativa.

Page 15: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos: Ejemplo 1

• Modelos de regresión lineal individuales

i=1,. . . ,N j=1,. . . ,ni

Distanciai j = ¯0i +¯1iEdadi j +²i j

²i ji id» N (0;¾2)

Page 16: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos: Ejemplo 1

• Modelo lineal mixto

Distanciai j = (¯0+b0i ) +(¯1+b1i )Edadi j +²i j= ¯0+¯1Edadi j +b0i +b1iEdadi j +²i j

Page 17: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

lme #linear mixed models

Page 18: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos: Ejemplo 1

• Descripción del modelo

8 9 10 11 12 13 14

15

20

25

30

Age (yr)

Dis

tan

ce (

mm

)

¯0+¯1Agei j+b0i +b1iAgei j

¯0+¯1Edadi j

Page 19: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos

• Modelo lineal general de efectos mixtos

yi =X i¯ +Z ibi +² i

bii id» N (0;§ )

E(yi j bi ) = X i¯ +Z ibi

Page 20: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos

• Modelo lineal general de efectos mixtos

yi j bi»N (X i¯ +Z ibi ;¾2I );bii id» N (0;§ )

Page 21: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelos de efectos mixtos: software

• Máxima Verosimilitud:• R• STATA• SAS

• Análisis Bayesiano: • BUGS• R

Page 22: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Modelo con pendiente aleatoria

Page 23: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Resumen de ajuste para efecto de interacción Sexo*Edad

ModelosCoeficiente

estimado efectoInteracción

Error Estándar Valor p

Modelo lineal -0,3048 0,1977 0,1261

Modelo lineal mixto: intercepto aleatorio

-0,3048 0,1214 0,0141

Modelo lineal mixto: intercepto y pendiente aleatorios

-0,3048 0,1347 0,0264

Page 24: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Comparación de modelos

Akaike Information Criterion: -2 log L + 2 npar

Bayesian Information Criterion: -2 log L + npar*log(nobs)

Modelo AIC BIC

Modelo lineal 488,24 501, 65

Modelo lineal mixto: intercepto aleatorio

445,76 461,62

Modelo lineal mixto: pendiente aleatoria 448,58 469,74

Page 25: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

MV o MVR (ML or REML)

• MV maximiza la verosimilitud, son sesgados

• MVR maximiza la verosimilitud marginal, insesgados en diseños balanceados (idénticos a los estimadores de momentos en ANOVA simple)

• Ambos métodos son asintóticamente equivalentes

Page 26: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Final

• La variable respuesta Y se asume como una función de covariables X con coeficientes que regresión que pueden variar por sujeto.

• La heterogeneidad entre los sujetos es de interés y se puede modelar explícitamente.

Page 27: Análisis de datos correlacionados Gloria Icaza Alejandro Jara Universidad de Talca Universidad de Concepción Chile Octavo Congreso Latinoamericano de Sociedades

Final II

• Estos métodos podrían ser analizados asumiendo respuesta multivariada

• En la práctica se tienen datos no balanceados:– Número desigual de observaciones por sujeto– Mediciones no tomadas en un tiempo fijo

• Por lo que los Modelos de efectos mixtos son más flexibles