View
214
Download
0
Category
Preview:
Citation preview
Dpto. Medicina Preventiva. Francisco Javier Barón López 1
Estadísticamultivariada
Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”
Francisco Javier Barón López 2Dpto. Medicina Preventiva.
Notas previas: Leyendo modelos estadísticos
Altura = 170
La altura media en la población es de 170 cm
Cada individuo introduce además un término de error aleatorio 170 + 5 170 – 3 …
Los términos de error tienen algún tipo de distribución conocida Normal, … Igualmente distribuidos en grupos… Independientes Incorrelados temporalmente, …
Francisco Javier Barón López 3Dpto. Medicina Preventiva.
Modelos con variables dicotómicas
Altura = 160 + 10 Sexo
Codificación de los grupos por sexo: 0 mujeres 1 hombres
Interpretación: La altura media en las mujeres es de 160
cm La altura media en los hombres es de
170 cm El sexo influye en la altura. El sexo
hombre tiene un efecto no nulo de 10 cm sobre la altura media.
Código: 0Grupo de control,caso base…
Código: 1Grupo de tratamiento, …
Promedio delcaso base
Efecto de sexo = 1
160 + 0 160 + 10
Francisco Javier Barón López 4Dpto. Medicina Preventiva.
Modelos con variables numéricas
Precio casa = 100.000 + 10.000 Habitación
Interpretación: El precio de una casa con cero habitaciones es 100.000
¡Extraño! En realidad es mejor interpretarlo como lo que habría que añadir a
una casa con un numero medio de habitaciones para que tuviese un precio medio.
Las casas aumentan de precio en función del número de habitaciones.
El efecto de añadir una habitación es aumentar el precio de la casa en 10.000.
Intercepción, Intersección,… Pendiente.Aumento de valor de una casa por cada habitación.
Francisco Javier Barón López 5Dpto. Medicina Preventiva.
Modelos con variables dicotómicas y numéricas
Precio casa = 100.000 + 10.000 Habitación + 30.000 Barrio
Codificación del barrio: 0 Bajo 1 Alto
Francisco Javier Barón López 6Dpto. Medicina Preventiva.
… y con variables cualitativas en general
Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2
Codificación del barrio:
Barrio1 Barrio2
Bajo 0 0
Medio 1 0
Alto 0 1
Grupo de control
Tratamiento 1
Tratamiento 2
Variables indicadoras, mudasNos ayudarán a comprender mejorlos efectos, interacciones,…
Variable cualitativa inicial
Francisco Javier Barón López 7Dpto. Medicina Preventiva.
… esperad, aún hay más…
Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2 + 6.000 Aparcamiento
Codificación del aparcamiento 0: Sin aparcamiento 1: Con aparcamiento
Francisco Javier Barón López 8Dpto. Medicina Preventiva.
… y faltan las interacciones.
Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2 + 6.000 Aparcamiento + 2.000 Aparcamiento * Barrio1 + 4.000 Aparcamiento * Barrio2
Francisco Javier Barón López 9Dpto. Medicina Preventiva.
El modelo no debe quedarse corto ni pasarse
Un modelo muy simple no explicará bien la variabilidad presente en los datos. Precio = 100.000
Un modelo muy complicado será difícil de comprender. Además podemos encontrarnos sorpresas:
correlaciones entre variables explicativas (falta de ortogonalidad), inestabilidad numérica,…
Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento + …
Francisco Javier Barón López 10Dpto. Medicina Preventiva.
Complicar el modelo lo justito Elegir modelo que explique lo observado y que sea
tan simple como sea posible.
Precio = 100.000 Bondad de ajuste corregida 1%. Significación = 0,0001 Muy simple. No explica la variabilidad. Compliquémoslo.
Precio = 100.000 + 10.000 Hab. Bondad de ajuste corregida 10%. Significación = 0,01 Mejor. Pero hay mucha variabilidad por explicar.
Compliquémoslo.
Precio = 100.000 + 10.000 Hab + 30.000 Barrio Bondad de ajuste corregida 41%. Significación = 0,12 Tal vez no valga la pena complicarlo más.
Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento
Bondad de ajuste corregida 40%. Significación = 0,15 No ha merecido la pena la complicación.
¡OJO!SPSS sólo enseñadirectamente lasignificacióndel modelo mínimofrente al que nosotrospropongamos. Raroserá que no seasignificativo un modelotan simple.
Un cálculo manual nospermitirá comparar unosmodelos con otros.
Francisco Javier Barón López 11Dpto. Medicina Preventiva.
Dos técnicas para abordar problemas multivariados
En función del tipo de la variable respuesta vamos a considerar dos técnicas que son casos particulares del modelo lineal generalizado. Este abarca buena parte de las técnicas estadísticas que se aplican en Medicina:
Modelo lineal generalizado Respuesta numérica: (Regresión lineal)
T-student en 2 muestras ANOVA de 1 vía ANOVA de 2 vias con/sin interaccciones Modelos factoriales…
Respuesta dicotómica (Regresión Logística) Vivo/Muerto Enfermo/Sano
Francisco Javier Barón López 12Dpto. Medicina Preventiva.
Marco general
Tenemos una serie de variables explicativas, X1,…,Xp Numéricas Ordinales Dicotómicas Cualitativas codificadas en forma de múltiples dicotómicas Interacciones,…
Tenemos una sola variable explicada (univariante)
Numérica: Modelo lineal de regresión Y = b0 + Σ bi xi
Dicotómica: Regresión logística Ln (Odds) = b0 + Σ bi xi
Francisco Javier Barón López 13Dpto. Medicina Preventiva.
1
0
Francisco Javier Barón López 14Dpto. Medicina Preventiva.
Un contraste de igualdad de medias (t-student)
Hipótesis nula: Es el salario medio inicial igual para hombres y mujeres
Salario = b0
Hipótesis alternativa: El Género tiene un efecto no nulo sobre el salario
Salario = b0 + b1 Genero
Este problema puede formularse en términos de un análisis de regresión: Salario = b0 + b1 Genero
Valor medio del grupo controlGENERO=0 (mujer)
Efecto del “tratamiento”GENERO=1 (hombre)
La hipótesis nula afirma quees cero.Si signif. pequeña la rechazamos.
Francisco Javier Barón López 15Dpto. Medicina Preventiva.
ANOVAb
6,111E+09 1 6,11E+09 124,376 ,000a
2,319E+10 472 49131619
2,930E+10 473
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), GENEROa.
Variable dependiente: Salario inicialb.
Coeficientesa
13091,968 476,929 27,451 ,000
7209,428 646,447 ,457 11,152 ,000
(Constante)
GENERO
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Salario iniciala.
Se rechaza elmodelo simple
Se rechaza elmodelo simple
Salario promedio del “grupo control” (mujeres)
Efecto del genero 1 en el salario medio
Francisco Javier Barón López 16Dpto. Medicina Preventiva.
Sin embargo el modelo alternativo no es bueno…Resumen del modelo
,457a ,209 ,207 $7,009.395Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), GENEROa.
Sólo un 21% de la variabilidad presentePuede ser explicada por un modelo que contengaAl género como variable explicativa.Debe haber más razones para esa variabilidad
Los modelos con muchos parámetros tienden a exagerarla bondad del modelo.
Corrección de “honestidad” sobre la bondad.
Si al introducir variables vemos que no aumenta o que baja, deberíamos reconsiderar la complejidad del modelo.
Francisco Javier Barón López 17Dpto. Medicina Preventiva.
¿Y si consideramos el nivel de estudios?
Hipótesis nula:Es el salario medio inicial igual para hombres
y mujeres y para cualquier nivel de estudios ¡Increíblemente simple! Salario = b0
Hipótesis alternativa:El Género y los años de estudios tienen un
efecto no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios
Francisco Javier Barón López 18Dpto. Medicina Preventiva.
Resumen del modelo
,680a ,462 ,460 $5,784.256Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), Nivel educativo,GENERO
a.
ANOVAb
1,354E+10 2 6,77E+09 202,381 ,000a
1,576E+10 471 33457613
2,930E+10 473
Regresión
Residual
Total
Modelo1
Suma decuadrados gl
Mediacuadrática F Sig.
Variables predictoras: (Constante), Nivel educativo, GENEROa.
Variable dependiente: Salario inicialb.
Coeficientesa
-5096,451 1282,290 -3,974 ,000
4180,769 570,853 ,265 7,324 ,000
1470,321 98,655 ,539 14,904 ,000
(Constante)
GENERO
Nivel educativo
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Salario iniciala.
La nueva variable aumenta notablemente la variabilidad explicada.¿Podremos mejorarlo introduciendo otra variable?
Por supuesto, seguimos teniendoevidencia contra la hipótesis nula (modelo simple)Desde ahora lo ignoramos.
Aparentemente estas variables tienen algo que decir, pero… ¿habrá variables confusoras?
Francisco Javier Barón López 19Dpto. Medicina Preventiva.
¿Y si añadimos la categoría laboral?
Hipótesis nula: Es el salario medio inicial igual para
hombres y mujeres y para cualquier nivel de estudios y categoría laboral
¡No me lo puedo creer! Salario = b0
Hipótesis alternativa: El Género, los años de estudios y la
categoría laboral directivo tienen un efecto no nulo sobre el salario
Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR +b4 DIRECT
SEGUR DIRECT.
Admin 0 0
Seguridad 1 0
Directivo 0 1
Francisco Javier Barón López 20Dpto. Medicina Preventiva.
Resumen del modelo
,828a ,685 ,683 $4,433.540Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), DIRECT, SEGUR,GENERO, Nivel educativo
a.
Coeficientesa
5380,332 1224,054 4,396 ,000
2973,936 472,573 ,188 6,293 ,000
577,370 97,217 ,212 5,939 ,000
842,887 983,133 ,025 ,857 ,392
12297,992 676,146 ,597 18,188 ,000
(Constante)
GENERO
Nivel educativo
SEGUR
DIRECT
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Salario iniciala.
El nuevo modelo mejora claramente al anterior…
…pero parece que parte del modelo no era necesario. El término que mide el efecto de ser empleado de seguridad no tiene un efecto muy diferente del caso base.
Francisco Javier Barón López 21Dpto. Medicina Preventiva.
Simplifiquemos el modelo
Hipótesis nula: Es el salario medio inicial igual para hombres y mujeres y para
cualquier nivel de estudios, aunque sea directivo Salario = b0
Hipótesis alternativa: El Género, los años de estudios y ser directivo tienen un efecto
no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR + b4 DIRECT
Resumen del modelo
,828a ,685 ,683 $4,432.290Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), DIRECT, GENERO, Niveleducativo
a.
El modelo es más simple, pero no disminuyeLa variabilidad explicada ¡Lo preferimos así!
Francisco Javier Barón López 22Dpto. Medicina Preventiva.
¿Habrá interacciones?
Hipótesis nula: Es el salario medio inicial igual para hombres y mujeres y para cualquier
nivel de estudios, aunque sea directivo Salario = b0
Hipótesis alternativa: El género, los años de estudios y ser directivo tienen un efecto no nulo
sobre el salario, y también tiene un “premio especial” ser hombre directivo (interacción).
Salario = b0 + b1 Genero + b2 Estudios + b3 DIRECT +b4 Genero*DIRECT
Coeficiente de la interacciónSi positivo: sinérgiasSi negativo: efectos antagónicosSi nulo: No hay interacción
En SPSS podemos introducir interacciones con otro modelo.
Para seguir con el modelo de regresión introducimos otra variable.
Francisco Javier Barón López 23Dpto. Medicina Preventiva.
Francisco Javier Barón López 24Dpto. Medicina Preventiva.
Resumen del modelo
,839a ,704 ,701 $4,301.155Modelo1
R R cuadradoR cuadradocorregida
Error típ. de laestimación
Variables predictoras: (Constante), INTERAC, GENERO,Nivel educativo, DIRECT
a.
Coeficientesa
6200,525 1117,686 5,548 ,000
2440,028 445,742 ,155 5,474 ,000
537,160 88,301 ,197 6,083 ,000
5325,909 1432,737 ,259 3,717 ,000
8304,488 1513,769 ,383 5,486 ,000
(Constante)
GENERO
Nivel educativo
DIRECT
INTERAC
Modelo1
B Error típ.
Coeficientes noestandarizados
Beta
Coeficientesestandarizad
os
t Sig.
Variable dependiente: Salario iniciala.
Sube ligeramente la variabilidad explicada. ¿Vale la pena considerarlael efecto de la interacción?
Tenemos evidenciaen contra de que ninguno de los coeficientes es nulo.
¿Deberíamos considerar más variables? ¿Más interacciones?
Francisco Javier Barón López 25Dpto. Medicina Preventiva.
Marco general (recordatorio)
Tenemos una serie de variables explicativas, X1,…,Xp Numéricas Ordinales Dicotómicas Cualitativas codificadas en forma de múltiples dicotómicas Interacciones,…
Tenemos una sola variable explicada (univariante)
Numérica: Modelo lineal de regresión Y = b0 + Σ bi xi
Dicotómica: Regresión logística Ln (Odds) = b0 + Σ bi xi
Francisco Javier Barón López 26Dpto. Medicina Preventiva.
Regresión Logística
La variable respuesta (explicada) es dicotómica) Vivo/Muerto Sano/Enfermo …
Claramente el modelo lineal tal cual no es adecuado.
En epidemiología es frecuente usar modelos multiplicativos en lugar de aditivos: Fumar multiplica por 10 las “odds” de enfermedad. Usar el casco disminuye por 20 la “odds” de lesión grave. …
Francisco Javier Barón López 27Dpto. Medicina Preventiva.
Es decir, preferimos un modelo del tipoOdds(fumar,beber,..) = Odds(base) *
OR(fumar) * OR(beber)*…
Francisco Javier Barón López 28Dpto. Medicina Preventiva.
Los individuos de controlNi fuman ni beben
Odds=1/12
Factor Riesgo: FumarOdds Ratio= 4
Factor Riesgo: BeberOdds Ratio= 3
Factor Riesgo: Fumar y BeberOdds Ratio= 3*4=12
Fumadores
Odds=1/12 * 4=4/12
Bebedores
Odds=1/12 * 3=3/12
Fumadores bebedores
Odds=1/12 * 4 * 3=12/12
Francisco Javier Barón López 29Dpto. Medicina Preventiva.
El modelo de regresion logística es equivalente a:
22110 xbxbb eeeOdds
Odds caso base Variación de oddsdebido a x1
Odds Ratio
Variación de oddsdebido a x2
Odds Ratio
Francisco Javier Barón López 30Dpto. Medicina Preventiva.
Caso simple: Una variable explicativa dicotómica
X1=0: No está presente el factor de riesgo
X1=1: Sí hay factor de riesgo
10/1)10/1(10/1 011 eeOdds xb
111 )10/1(10/1 bxb eeOdds Odds RatioDe X1
Odds del caso base
Odds del caso base
Francisco Javier Barón López 31Dpto. Medicina Preventiva.
Si b1 es el coeficiente de la variable x1
Si b1=0 entonces OR=1 No es realmente un factor de riesgo
Si b1>0 entoces OR>1 Aumenta el riesgo
Si b1<0 entonces OR<1 Disminuye el riesgo
1 riesgo deFactor del Ratio Odds1 xeb
Francisco Javier Barón López 32Dpto. Medicina Preventiva.
Un ejemplo: Condenas a pena de muerte en Florida
Variables explicativas:Raza de la víctima
1=Blanco (factor de riesgo, con perdón)
Raza del acusado 1=Negro (intuitivamente, factor de riesgo, ¡glubs!)
Variable explicada1=Condena a pena de muerte
Francisco Javier Barón López 33Dpto. Medicina Preventiva.
¿Será la raza negra del acusado un factor de riesgo?
Tabla de contingencia PM * ACUSADO
432 178 610
88,9% 92,2% 89,8%
54 15 69
11,1% 7,8% 10,2%
486 193 679
100,0% 100,0% 100,0%
Recuento
% de ACUSADO
Recuento
% de ACUSADO
Recuento
% de ACUSADO
No
Sí
PM
Total
Blanco Negro
ACUSADO
Total
En principio un simple estudio descriptivo parece modtrar que no.Incluso parece que reduce el riesgo.
Francisco Javier Barón López 34Dpto. Medicina Preventiva.
¿Será la raza negra del acusado un factor de riesgo?
Veamos que dice el modelo de regresión logística:
Francisco Javier Barón López 35Dpto. Medicina Preventiva.
¿Será la raza negra del acusado un factor de riesgo?
Variables en la ecuación
-,394 ,305 1,670 1 ,196 ,674 ,371 1,226
-2,079 ,144 207,556 1 ,000 ,125
ACUSADO
Constante
Paso1
a
B E.T. Wald gl Sig. Exp(B) Inferior Superior
I.C. 95,0% para EXP(B)
Variable(s) introducida(s) en el paso 1: ACUSADO.a.
El coeficiente es negativo.Más bien debe reducir el riesgo serAcusado de raza negra.
Para encontrar la Odds Ratio hayque mirar la columna Exp(B) Odds Ratio
El intervalo de confianza para OddsRatio incluye al valor1No tenemos evidenciaen contra de que laraza no sea factorde riesgo.
La prueba es no significativa
Francisco Javier Barón López 36Dpto. Medicina Preventiva.
¿Y si incluimos en el modelo la raza de la víctima?Tabla de contingencia PM * ACUSADO * VICTIMA
Recuento
17 140 157
0 4 4
17 144 161
415 38 453
54 11 65
469 49 518
No
Sí
PM
Total
No
Sí
PM
Total
VICTIMANegro
Blanco
Blanco Negro
ACUSADO
Total
Aparentemente, al tener en cuenta la raza de la víctima, parece ser quesi la víctima es blanca, la probabilidad de ser condenado a muerte es mayor.Veamos que dice el modelo logístico.
Francisco Javier Barón López 37Dpto. Medicina Preventiva.
Francisco Javier Barón López 38Dpto. Medicina Preventiva.
Variables en la ecuación
,827 ,365 5,129 1 ,024 2,286 1,118 4,677
2,391 ,599 15,937 1 ,000 10,928 3,378 35,355
-4,435 ,614 52,198 1 ,000 ,012
ACUSADO
VICTIMA
Constante
Paso1
a
B E.T. Wald gl Sig. Exp(B) Inferior Superior
I.C. 95,0% para EXP(B)
Variable(s) introducida(s) en el paso 1: ACUSADO, VICTIMA.a.
Ambos coeficientes son positivos.Parecen ser factores de riesgo. Significativos
Odds Ratios de cadafactor de riesgo
Con la confianza habitual 1 no forma parte de ningún intervalo de confianza.
Recommended