38
Dpto. Medicina Prev entiva. Francisco Javier Barón Lópe z 1 Estadística multivariada Programa de doctorado: Calidad de vida, Bienestar Social y Salud Pública”

Estadística multivariada

  • Upload
    emilia

  • View
    40

  • Download
    0

Embed Size (px)

DESCRIPTION

Estadística multivariada. Programa de doctorado: “ Calidad de vida, Bienestar Social y Salud Pública”. Notas previas: Leyendo modelos estadísticos. Altura = 170 La altura media en la población es de 170 cm Cada individuo introduce además un término de error aleatorio 170 + 5 170 – 3 … - PowerPoint PPT Presentation

Citation preview

Page 1: Estadística multivariada

Dpto. Medicina Preventiva. Francisco Javier Barón López 1

Estadísticamultivariada

Programa de doctorado: “Calidad de vida, Bienestar Social y Salud Pública”

Page 2: Estadística multivariada

Francisco Javier Barón López 2Dpto. Medicina Preventiva.

Notas previas: Leyendo modelos estadísticos

Altura = 170

La altura media en la población es de 170 cm

Cada individuo introduce además un término de error aleatorio 170 + 5 170 – 3 …

Los términos de error tienen algún tipo de distribución conocida Normal, … Igualmente distribuidos en grupos… Independientes Incorrelados temporalmente, …

Page 3: Estadística multivariada

Francisco Javier Barón López 3Dpto. Medicina Preventiva.

Modelos con variables dicotómicas

Altura = 160 + 10 Sexo

Codificación de los grupos por sexo: 0 mujeres 1 hombres

Interpretación: La altura media en las mujeres es de 160

cm La altura media en los hombres es de

170 cm El sexo influye en la altura. El sexo

hombre tiene un efecto no nulo de 10 cm sobre la altura media.

Código: 0Grupo de control,caso base…

Código: 1Grupo de tratamiento, …

Promedio delcaso base

Efecto de sexo = 1

160 + 0 160 + 10

Page 4: Estadística multivariada

Francisco Javier Barón López 4Dpto. Medicina Preventiva.

Modelos con variables numéricas

Precio casa = 100.000 + 10.000 Habitación

Interpretación: El precio de una casa con cero habitaciones es 100.000

¡Extraño! En realidad es mejor interpretarlo como lo que habría que añadir a

una casa con un numero medio de habitaciones para que tuviese un precio medio.

Las casas aumentan de precio en función del número de habitaciones.

El efecto de añadir una habitación es aumentar el precio de la casa en 10.000.

Intercepción, Intersección,… Pendiente.Aumento de valor de una casa por cada habitación.

Page 5: Estadística multivariada

Francisco Javier Barón López 5Dpto. Medicina Preventiva.

Modelos con variables dicotómicas y numéricas

Precio casa = 100.000 + 10.000 Habitación + 30.000 Barrio

Codificación del barrio: 0 Bajo 1 Alto

Page 6: Estadística multivariada

Francisco Javier Barón López 6Dpto. Medicina Preventiva.

… y con variables cualitativas en general

Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2

Codificación del barrio:

Barrio1 Barrio2

Bajo 0 0

Medio 1 0

Alto 0 1

Grupo de control

Tratamiento 1

Tratamiento 2

Variables indicadoras, mudasNos ayudarán a comprender mejorlos efectos, interacciones,…

Variable cualitativa inicial

Page 7: Estadística multivariada

Francisco Javier Barón López 7Dpto. Medicina Preventiva.

… esperad, aún hay más…

Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2 + 6.000 Aparcamiento

Codificación del aparcamiento 0: Sin aparcamiento 1: Con aparcamiento

Page 8: Estadística multivariada

Francisco Javier Barón López 8Dpto. Medicina Preventiva.

… y faltan las interacciones.

Precio casa = 100.000 + 10.000 Habitación + 10.000 Barrio1 + 20.000 Barrio2 + 6.000 Aparcamiento + 2.000 Aparcamiento * Barrio1 + 4.000 Aparcamiento * Barrio2

Page 9: Estadística multivariada

Francisco Javier Barón López 9Dpto. Medicina Preventiva.

El modelo no debe quedarse corto ni pasarse

Un modelo muy simple no explicará bien la variabilidad presente en los datos. Precio = 100.000

Un modelo muy complicado será difícil de comprender. Además podemos encontrarnos sorpresas:

correlaciones entre variables explicativas (falta de ortogonalidad), inestabilidad numérica,…

Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento + …

Page 10: Estadística multivariada

Francisco Javier Barón López 10Dpto. Medicina Preventiva.

Complicar el modelo lo justito Elegir modelo que explique lo observado y que sea

tan simple como sea posible.

Precio = 100.000 Bondad de ajuste corregida 1%. Significación = 0,0001 Muy simple. No explica la variabilidad. Compliquémoslo.

Precio = 100.000 + 10.000 Hab. Bondad de ajuste corregida 10%. Significación = 0,01 Mejor. Pero hay mucha variabilidad por explicar.

Compliquémoslo.

Precio = 100.000 + 10.000 Hab + 30.000 Barrio Bondad de ajuste corregida 41%. Significación = 0,12 Tal vez no valga la pena complicarlo más.

Precio = 100.000 + 10.000 Hab + 30.000 Barrio + 6.000 Aparcamiento

Bondad de ajuste corregida 40%. Significación = 0,15 No ha merecido la pena la complicación.

¡OJO!SPSS sólo enseñadirectamente lasignificacióndel modelo mínimofrente al que nosotrospropongamos. Raroserá que no seasignificativo un modelotan simple.

Un cálculo manual nospermitirá comparar unosmodelos con otros.

Page 11: Estadística multivariada

Francisco Javier Barón López 11Dpto. Medicina Preventiva.

Dos técnicas para abordar problemas multivariados

En función del tipo de la variable respuesta vamos a considerar dos técnicas que son casos particulares del modelo lineal generalizado. Este abarca buena parte de las técnicas estadísticas que se aplican en Medicina:

Modelo lineal generalizado Respuesta numérica: (Regresión lineal)

T-student en 2 muestras ANOVA de 1 vía ANOVA de 2 vias con/sin interaccciones Modelos factoriales…

Respuesta dicotómica (Regresión Logística) Vivo/Muerto Enfermo/Sano

Page 12: Estadística multivariada

Francisco Javier Barón López 12Dpto. Medicina Preventiva.

Marco general

Tenemos una serie de variables explicativas, X1,…,Xp Numéricas Ordinales Dicotómicas Cualitativas codificadas en forma de múltiples dicotómicas Interacciones,…

Tenemos una sola variable explicada (univariante)

Numérica: Modelo lineal de regresión Y = b0 + Σ bi xi

Dicotómica: Regresión logística Ln (Odds) = b0 + Σ bi xi

Page 13: Estadística multivariada

Francisco Javier Barón López 13Dpto. Medicina Preventiva.

1

0

Page 14: Estadística multivariada

Francisco Javier Barón López 14Dpto. Medicina Preventiva.

Un contraste de igualdad de medias (t-student)

Hipótesis nula: Es el salario medio inicial igual para hombres y mujeres

Salario = b0

Hipótesis alternativa: El Género tiene un efecto no nulo sobre el salario

Salario = b0 + b1 Genero

Este problema puede formularse en términos de un análisis de regresión: Salario = b0 + b1 Genero

Valor medio del grupo controlGENERO=0 (mujer)

Efecto del “tratamiento”GENERO=1 (hombre)

La hipótesis nula afirma quees cero.Si signif. pequeña la rechazamos.

Page 15: Estadística multivariada

Francisco Javier Barón López 15Dpto. Medicina Preventiva.

ANOVAb

6,111E+09 1 6,11E+09 124,376 ,000a

2,319E+10 472 49131619

2,930E+10 473

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), GENEROa.

Variable dependiente: Salario inicialb.

Coeficientesa

13091,968 476,929 27,451 ,000

7209,428 646,447 ,457 11,152 ,000

(Constante)

GENERO

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Salario iniciala.

Se rechaza elmodelo simple

Se rechaza elmodelo simple

Salario promedio del “grupo control” (mujeres)

Efecto del genero 1 en el salario medio

Page 16: Estadística multivariada

Francisco Javier Barón López 16Dpto. Medicina Preventiva.

Sin embargo el modelo alternativo no es bueno…Resumen del modelo

,457a ,209 ,207 $7,009.395Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), GENEROa.

Sólo un 21% de la variabilidad presentePuede ser explicada por un modelo que contengaAl género como variable explicativa.Debe haber más razones para esa variabilidad

Los modelos con muchos parámetros tienden a exagerarla bondad del modelo.

Corrección de “honestidad” sobre la bondad.

Si al introducir variables vemos que no aumenta o que baja, deberíamos reconsiderar la complejidad del modelo.

Page 17: Estadística multivariada

Francisco Javier Barón López 17Dpto. Medicina Preventiva.

¿Y si consideramos el nivel de estudios?

Hipótesis nula:Es el salario medio inicial igual para hombres

y mujeres y para cualquier nivel de estudios ¡Increíblemente simple! Salario = b0

Hipótesis alternativa:El Género y los años de estudios tienen un

efecto no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios

Page 18: Estadística multivariada

Francisco Javier Barón López 18Dpto. Medicina Preventiva.

Resumen del modelo

,680a ,462 ,460 $5,784.256Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), Nivel educativo,GENERO

a.

ANOVAb

1,354E+10 2 6,77E+09 202,381 ,000a

1,576E+10 471 33457613

2,930E+10 473

Regresión

Residual

Total

Modelo1

Suma decuadrados gl

Mediacuadrática F Sig.

Variables predictoras: (Constante), Nivel educativo, GENEROa.

Variable dependiente: Salario inicialb.

Coeficientesa

-5096,451 1282,290 -3,974 ,000

4180,769 570,853 ,265 7,324 ,000

1470,321 98,655 ,539 14,904 ,000

(Constante)

GENERO

Nivel educativo

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Salario iniciala.

La nueva variable aumenta notablemente la variabilidad explicada.¿Podremos mejorarlo introduciendo otra variable?

Por supuesto, seguimos teniendoevidencia contra la hipótesis nula (modelo simple)Desde ahora lo ignoramos.

Aparentemente estas variables tienen algo que decir, pero… ¿habrá variables confusoras?

Page 19: Estadística multivariada

Francisco Javier Barón López 19Dpto. Medicina Preventiva.

¿Y si añadimos la categoría laboral?

Hipótesis nula: Es el salario medio inicial igual para

hombres y mujeres y para cualquier nivel de estudios y categoría laboral

¡No me lo puedo creer! Salario = b0

Hipótesis alternativa: El Género, los años de estudios y la

categoría laboral directivo tienen un efecto no nulo sobre el salario

Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR +b4 DIRECT

SEGUR DIRECT.

Admin 0 0

Seguridad 1 0

Directivo 0 1

Page 20: Estadística multivariada

Francisco Javier Barón López 20Dpto. Medicina Preventiva.

Resumen del modelo

,828a ,685 ,683 $4,433.540Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), DIRECT, SEGUR,GENERO, Nivel educativo

a.

Coeficientesa

5380,332 1224,054 4,396 ,000

2973,936 472,573 ,188 6,293 ,000

577,370 97,217 ,212 5,939 ,000

842,887 983,133 ,025 ,857 ,392

12297,992 676,146 ,597 18,188 ,000

(Constante)

GENERO

Nivel educativo

SEGUR

DIRECT

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Salario iniciala.

El nuevo modelo mejora claramente al anterior…

…pero parece que parte del modelo no era necesario. El término que mide el efecto de ser empleado de seguridad no tiene un efecto muy diferente del caso base.

Page 21: Estadística multivariada

Francisco Javier Barón López 21Dpto. Medicina Preventiva.

Simplifiquemos el modelo

Hipótesis nula: Es el salario medio inicial igual para hombres y mujeres y para

cualquier nivel de estudios, aunque sea directivo Salario = b0

Hipótesis alternativa: El Género, los años de estudios y ser directivo tienen un efecto

no nulo sobre el salario Salario = b0 + b1 Genero + b2 Estudios + b3 SEGUR + b4 DIRECT

Resumen del modelo

,828a ,685 ,683 $4,432.290Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), DIRECT, GENERO, Niveleducativo

a.

El modelo es más simple, pero no disminuyeLa variabilidad explicada ¡Lo preferimos así!

Page 22: Estadística multivariada

Francisco Javier Barón López 22Dpto. Medicina Preventiva.

¿Habrá interacciones?

Hipótesis nula: Es el salario medio inicial igual para hombres y mujeres y para cualquier

nivel de estudios, aunque sea directivo Salario = b0

Hipótesis alternativa: El género, los años de estudios y ser directivo tienen un efecto no nulo

sobre el salario, y también tiene un “premio especial” ser hombre directivo (interacción).

Salario = b0 + b1 Genero + b2 Estudios + b3 DIRECT +b4 Genero*DIRECT

Coeficiente de la interacciónSi positivo: sinérgiasSi negativo: efectos antagónicosSi nulo: No hay interacción

En SPSS podemos introducir interacciones con otro modelo.

Para seguir con el modelo de regresión introducimos otra variable.

Page 23: Estadística multivariada

Francisco Javier Barón López 23Dpto. Medicina Preventiva.

Page 24: Estadística multivariada

Francisco Javier Barón López 24Dpto. Medicina Preventiva.

Resumen del modelo

,839a ,704 ,701 $4,301.155Modelo1

R R cuadradoR cuadradocorregida

Error típ. de laestimación

Variables predictoras: (Constante), INTERAC, GENERO,Nivel educativo, DIRECT

a.

Coeficientesa

6200,525 1117,686 5,548 ,000

2440,028 445,742 ,155 5,474 ,000

537,160 88,301 ,197 6,083 ,000

5325,909 1432,737 ,259 3,717 ,000

8304,488 1513,769 ,383 5,486 ,000

(Constante)

GENERO

Nivel educativo

DIRECT

INTERAC

Modelo1

B Error típ.

Coeficientes noestandarizados

Beta

Coeficientesestandarizad

os

t Sig.

Variable dependiente: Salario iniciala.

Sube ligeramente la variabilidad explicada. ¿Vale la pena considerarlael efecto de la interacción?

Tenemos evidenciaen contra de que ninguno de los coeficientes es nulo.

¿Deberíamos considerar más variables? ¿Más interacciones?

Page 25: Estadística multivariada

Francisco Javier Barón López 25Dpto. Medicina Preventiva.

Marco general (recordatorio)

Tenemos una serie de variables explicativas, X1,…,Xp Numéricas Ordinales Dicotómicas Cualitativas codificadas en forma de múltiples dicotómicas Interacciones,…

Tenemos una sola variable explicada (univariante)

Numérica: Modelo lineal de regresión Y = b0 + Σ bi xi

Dicotómica: Regresión logística Ln (Odds) = b0 + Σ bi xi

Page 26: Estadística multivariada

Francisco Javier Barón López 26Dpto. Medicina Preventiva.

Regresión Logística

La variable respuesta (explicada) es dicotómica) Vivo/Muerto Sano/Enfermo …

Claramente el modelo lineal tal cual no es adecuado.

En epidemiología es frecuente usar modelos multiplicativos en lugar de aditivos: Fumar multiplica por 10 las “odds” de enfermedad. Usar el casco disminuye por 20 la “odds” de lesión grave. …

Page 27: Estadística multivariada

Francisco Javier Barón López 27Dpto. Medicina Preventiva.

Es decir, preferimos un modelo del tipoOdds(fumar,beber,..) = Odds(base) *

OR(fumar) * OR(beber)*…

Page 28: Estadística multivariada

Francisco Javier Barón López 28Dpto. Medicina Preventiva.

Los individuos de controlNi fuman ni beben

Odds=1/12

Factor Riesgo: FumarOdds Ratio= 4

Factor Riesgo: BeberOdds Ratio= 3

Factor Riesgo: Fumar y BeberOdds Ratio= 3*4=12

Fumadores

Odds=1/12 * 4=4/12

Bebedores

Odds=1/12 * 3=3/12

Fumadores bebedores

Odds=1/12 * 4 * 3=12/12

Page 29: Estadística multivariada

Francisco Javier Barón López 29Dpto. Medicina Preventiva.

El modelo de regresion logística es equivalente a:

22110 xbxbb eeeOdds

Odds caso base Variación de oddsdebido a x1

Odds Ratio

Variación de oddsdebido a x2

Odds Ratio

Page 30: Estadística multivariada

Francisco Javier Barón López 30Dpto. Medicina Preventiva.

Caso simple: Una variable explicativa dicotómica

X1=0: No está presente el factor de riesgo

X1=1: Sí hay factor de riesgo

10/1)10/1(10/1 011 eeOdds xb

111 )10/1(10/1 bxb eeOdds Odds RatioDe X1

Odds del caso base

Odds del caso base

Page 31: Estadística multivariada

Francisco Javier Barón López 31Dpto. Medicina Preventiva.

Si b1 es el coeficiente de la variable x1

Si b1=0 entonces OR=1 No es realmente un factor de riesgo

Si b1>0 entoces OR>1 Aumenta el riesgo

Si b1<0 entonces OR<1 Disminuye el riesgo

1 riesgo deFactor del Ratio Odds1 xeb

Page 32: Estadística multivariada

Francisco Javier Barón López 32Dpto. Medicina Preventiva.

Un ejemplo: Condenas a pena de muerte en Florida

Variables explicativas:Raza de la víctima

1=Blanco (factor de riesgo, con perdón)

Raza del acusado 1=Negro (intuitivamente, factor de riesgo, ¡glubs!)

Variable explicada1=Condena a pena de muerte

Page 33: Estadística multivariada

Francisco Javier Barón López 33Dpto. Medicina Preventiva.

¿Será la raza negra del acusado un factor de riesgo?

Tabla de contingencia PM * ACUSADO

432 178 610

88,9% 92,2% 89,8%

54 15 69

11,1% 7,8% 10,2%

486 193 679

100,0% 100,0% 100,0%

Recuento

% de ACUSADO

Recuento

% de ACUSADO

Recuento

% de ACUSADO

No

PM

Total

Blanco Negro

ACUSADO

Total

En principio un simple estudio descriptivo parece modtrar que no.Incluso parece que reduce el riesgo.

Page 34: Estadística multivariada

Francisco Javier Barón López 34Dpto. Medicina Preventiva.

¿Será la raza negra del acusado un factor de riesgo?

Veamos que dice el modelo de regresión logística:

Page 35: Estadística multivariada

Francisco Javier Barón López 35Dpto. Medicina Preventiva.

¿Será la raza negra del acusado un factor de riesgo?

Variables en la ecuación

-,394 ,305 1,670 1 ,196 ,674 ,371 1,226

-2,079 ,144 207,556 1 ,000 ,125

ACUSADO

Constante

Paso1

a

B E.T. Wald gl Sig. Exp(B) Inferior Superior

I.C. 95,0% para EXP(B)

Variable(s) introducida(s) en el paso 1: ACUSADO.a.

El coeficiente es negativo.Más bien debe reducir el riesgo serAcusado de raza negra.

Para encontrar la Odds Ratio hayque mirar la columna Exp(B) Odds Ratio

El intervalo de confianza para OddsRatio incluye al valor1No tenemos evidenciaen contra de que laraza no sea factorde riesgo.

La prueba es no significativa

Page 36: Estadística multivariada

Francisco Javier Barón López 36Dpto. Medicina Preventiva.

¿Y si incluimos en el modelo la raza de la víctima?Tabla de contingencia PM * ACUSADO * VICTIMA

Recuento

17 140 157

0 4 4

17 144 161

415 38 453

54 11 65

469 49 518

No

PM

Total

No

PM

Total

VICTIMANegro

Blanco

Blanco Negro

ACUSADO

Total

Aparentemente, al tener en cuenta la raza de la víctima, parece ser quesi la víctima es blanca, la probabilidad de ser condenado a muerte es mayor.Veamos que dice el modelo logístico.

Page 37: Estadística multivariada

Francisco Javier Barón López 37Dpto. Medicina Preventiva.

Page 38: Estadística multivariada

Francisco Javier Barón López 38Dpto. Medicina Preventiva.

Variables en la ecuación

,827 ,365 5,129 1 ,024 2,286 1,118 4,677

2,391 ,599 15,937 1 ,000 10,928 3,378 35,355

-4,435 ,614 52,198 1 ,000 ,012

ACUSADO

VICTIMA

Constante

Paso1

a

B E.T. Wald gl Sig. Exp(B) Inferior Superior

I.C. 95,0% para EXP(B)

Variable(s) introducida(s) en el paso 1: ACUSADO, VICTIMA.a.

Ambos coeficientes son positivos.Parecen ser factores de riesgo. Significativos

Odds Ratios de cadafactor de riesgo

Con la confianza habitual 1 no forma parte de ningún intervalo de confianza.