22
Regresión logística 1

Regresión logística

  • Upload
    misty

  • View
    81

  • Download
    1

Embed Size (px)

DESCRIPTION

Regresión logística. Ejemplos comunes. Lanzamiento de una moneda (sol/ águila ) Resultado de un juego ( ganar / ñerder ) Estado del tiempo ( lluvia / seco ) Llegar al trabajo (a tiempo / tarde ) Presentar un examen ( pasar / reprobar ). Probabilidad y esperanza. - PowerPoint PPT Presentation

Citation preview

1

Regresión logística

2

Ejemplos comunes Lanzamiento de una moneda (sol/águila)

Resultado de un juego (ganar/ñerder)

Estado del tiempo (lluvia/seco)

Llegar al trabajo (a tiempo/tarde)

Presentar un examen (pasar/reprobar)

3

Probabilidad y esperanzaPara describir la posibilidad de que

ocurra un evento se utiliza el término probabilidad y esperanza.◦Probabilidad (P)= resultados

deseados/resultados posibles◦Para un dado, la probabilidad P(6) = 1/6◦Esperanza (O) = resultados deseados /

resultados Indeseados◦Para un dado, la esperanza O(6) = 1/5 =

0.2

4

ProbabilidadPara el caso de dos dados, si el

resultado esperado es 7 se tiene P(7) = 6/36 = 1/61 2 3 4 5 6

1 2 3 4 5 6 72 3 4 5 6 7 83 4 5 6 7 8 94 5 6 7 8 9 105 6 7 8 9 10 116 7 8 9 10 11 12

5

EsperanzaPara el caso de dos dados, si el

resultado esperado es 7 se tiene O(7) = 6/301 2 3 4 5 6

1 2 3 4 5 6 72 3 4 5 6 7 83 4 5 6 7 8 94 5 6 7 8 9 105 6 7 8 9 10 116 7 8 9 10 11 12

6

Probabilidad y EsperanzaEsperanza (O) = P/(1-P)Probabilidad (P) = O/(O+1)Para el ejemplo de un dado,

P = 6/36 = 0.1667O = 6:30 = 0.2000

P = O/(O+1) = 0.2 / (0.2 + 1) = 0.1667

O = P/(1-P) = 0.1667 / (1 – 0.1667) = 0.2000

7

Ejemplo: Introducción de un nuevo producto en función del tiempo

Año Ventas Total Probabilidad1 1 15 0.06672 2 17 0.11763 4 21 0.19054 8 27 0.29635 22 47 0.46816 35 55 0.63647 58 76 0.76328 87 100 0.87009 105 116 0.905210 86 90 0.955611 61 63 0.9683

8

Ejemplo: con Regresión lineal

121086420

1.2

1.0

0.8

0.6

0.4

0.2

0.0

Año

Prob

abilid

ad

S 0.0598550R-Sq 97.6%R-Sq(adj) 97.3%

Fitted Line PlotProbabilidad = - 0.07487 + 0.1087 Año

9

Regresión linealAl sustituir valores en X de -5 y +6 da

probabilidades ilógicas de -0.051 y 1.118

También los residuos tienen un cierto patrón

1.21.00.80.60.40.20.0

0.10

0.05

0.00

-0.05

-0.10

Fitted Value

Resid

ual

Versus Fits(response is Probabilidad)

10

Ejemplo: Cálculo de la Esperanza = p / (1-P) y su logaritmo natural e

Año Ventas TotalProbabilidad(

P) Esperanza (O) Ln (O)1 1 15 0.0667 0.0714 -2.63912 2 17 0.1176 0.1333 -2.01493 4 21 0.1905 0.2353 -1.44694 8 27 0.2963 0.4211 -0.86505 22 47 0.4681 0.8800 -0.12786 35 55 0.6364 1.7500 0.55967 58 76 0.7632 3.2222 1.17018 87 100 0.8700 6.6923 1.90109 105 116 0.9052 9.5455 2.256110 86 90 0.9556 21.5000 3.068111 61 63 0.9683 30.5000 3.4177

11

Regresión logísticaEs una herramienta de modelado

usado para calcular una ecuación de predicción (o función de transferencia) cuando se tiene Y binaria y X continuas

Es decir tiene la función de determinar cuales variables predictoras son significativas y determinar el nivel de influencia para la respuesta

12

Regresión logística – paso a pasoOrganizar los datos “y” en resultados

binarios (0,1, pasa, no pasa, etc.)Graficar los datosCorrer el modelo de regresión logísticaBuscar:

◦Curva “S”◦Valores P◦Tasa de esperanzas◦Ecuación de predicción o función de

transferencia

13

Regresión logística – Gráfica en “S”

14

Regresión logística – paso a pasoFile Open worksheet Exh-RegrStat > Regression > Binary Logistic

Regression.En Response, poner RestingPulse. En

Model, poner Smokes Weight. En Factors (optional), poner Smokes.

Click Graphs. Sel. Delta chi-square vs probability y Delta chi-square vs leverage. Click OK.

Click Results. Choose In addition, list of factor level values, tests for terms with more than 1 degree of freedom, and 2 additional goodness-of-fit tests. Click OK en cada caja de diálogo.

Storage seleccionar Event Probability

NOTA: El valor 1 o superior representa el valor éxito

15

DatosRestingPulse Smokes WeightLow No 140Low No 145Low Yes 160Low Yes 190Low No 155Low No 165High No 150Low No 190Low No 195Low No 138High Yes 160Low No 155High Yes 153Low No 145Low No 170Low No 175Low Yes 175Low Yes 170Low Yes 180

Low No 135Low No 170Low No 157Low No 130Low Yes 185High No 140Low No 120Low Yes 130High No 138High Yes 121Low No 125High No 116Low No 145High Yes 150Low Yes 112Low No 125Low No 190Low No 155Low Yes 170

Low No 155Low No 215Low Yes 150Low Yes 145Low No 155Low No 155Low No 150Low Yes 155Low No 150High Yes 180Low No 160Low No 135Low No 160Low Yes 130Low Yes 155Low Yes 150Low No 148High No 155Low No 150

High Yes 140Low No 180Low Yes 190High No 145High Yes 150Low Yes 164Low No 140Low No 142High No 136Low No 123Low No 155High No 130Low No 120Low No 130High Yes 131Low No 120Low No 118Low No 125High Yes 135Low No 125High No 118Low No 122Low No 115Low No 102Low No 115Low No 150Low No 110High No 116Low Yes 108High No 95High Yes 125Low No 133Low No 110High No 150Low No 108

16

Regresión logística – paso a paso

Logistic Regression Table Odds 95% CI

Predictor Coef SE Coef Z P Ratio Lower Upper Constant -1.98717 1.67930 -1.18 0.237 Smokes Yes -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Weight 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05 Log-Likelihood = -46.820 Test that all slopes are zero: G = 7.574, DF = 2, P-Value = 0.023 Goodness-of-Fit Tests Method Chi-Square DF P Pearson 40.8477 47 0.724 Deviance 51.2008 47 0.312 Hosmer-Lemeshow 4.7451 8 0.784

Si P value es menor a alfa (.05), se puede decir que no es un buen modelo. Un valor cercano a 1 indica un ajuste excelente.

Como regla utilizar el estadístico de Hosmer-Lemeshow.

17

Regresión logística – paso a paso

Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -1.98717 1.67930 -1.18 0.237 Smokes Yes -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Weight 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05

La tasa de esperanza de Pulso Bajo del peso de (1.03) indica que un incremento en peso de 10 libras, incrementa la esperanza que el pulso bajo se incremente 1.28 veces.

Para fumar, con el mismo peso, la tasa de esperanza de Pulso Bajo de los sujetos que fuman es de un 30% de los que no fuman. Un valor de 1.0 indica que no hay efecto en el resultado

18

Regresión logística – paso a pasoEn la prueba de Hosmer Lemeshow,

los valores mayores a 3.84 son valores atípicos, desajustan el modelo

1.00.90.80.70.60.50.4

6

5

4

3

2

1

0

Probability

Delta

Chi

-Squ

are

Delta Chi-Square versus Probability

19

Regresión logística – paso a pasoEn la prueba de Hosmer Lemeshow,

los valores mayores a 3.84 son valores atípicos

0.160.140.120.100.080.060.040.020.00

6

5

4

3

2

1

0

Leverage

Delta

Chi

-Squ

are

Delta Chi-Square versus Leverage

20

Regresión logística – paso a paso

Logistic Regression Table Odds 95% CI Predictor Coef SE Coef Z P Ratio Lower Upper Constant -1.98717 1.67930 -1.18 0.237 Smokes Yes -1.19297 0.552980 -2.16 0.031 0.30 0.10 0.90 Weight 0.0250226 0.0122551 2.04 0.041 1.03 1.00 1.05

La ecuación de regresión es:

RestingPulse = -1.987 – 1.193*Fuma +0.025*Weight

21

Regresión logística – paso a pasoBLR calcula el logaritmo natural de la Esperanza (odds) de un evento y Odds = expo (Log odds), yProbabilidad = Odds / (1 + Odds)

La ecuación de regresión es:

RestingPulse = -1.987 – 1.193*Fuma +0.025*Weight

En nuestro caso, a 150 lbs de peso para SI fuma: Log Odds =-1.987+0.025*Weight = 1.763Odds = exp(1.763) = 5.83Probability = 5.83/6.83= 0.853or a 85.3% de probabilidad de éxito

22

Regresión logística – paso a pasoLa gráfica de probabilidades vs peso

es: La probabilidad de pulso bajo es mayor para los no fumadores vs los fumadores y en ambos aumenta conforme aumenta el peso.

220200180160140120100

1.0

0.9

0.8

0.7

0.6

0.5

0.4

0.3

Weight

EPRO

1

NoYes

Smokes

Scatterplot of EPRO1 vs Weight