Clase 5 Regresion 2013.pdf

Magíster en Ingeniería Industrial

Departamento de Ingeniería Industrial y de Sistemas

Pontificia Universidad Católica de Chile

IND 3100Modelos Cuant. Para la Toma de Dec.

IND3100 - Prof. Jorge Vera A ©2013

Modelos de Regresión

Extraer más información de los datos…• Muchas veces tenemos datos respecto a

distintos fenómenos y sospechamos que hay algún tipo de relación entre ellos…

• Más formalmente: tenemos datos de variables aleatorias y sospechamos que están


aleatorias y sospechamos que están relacionadas (correlacionadas).

• ¿Cómo podemos saber si eso es “verdad”?

Appleglo First-YearAdvertising

Expenditures($ millions)

First-YearSales

($ millions)

Region x yMaine 1.8 104

New Hampshire 1.2 68Vermont 0.4 39

Massachusetts 0.5 43Connecticut 2.5 127

Rhode Island 2.5 134New York 1.5 87

New Jersey 1.2 77

40

80

120

160

el p

rimer

añ

o($

Mill

ions

)

(x3,y3)

Un Ejemplo: ventas v/s gasto en publicidad


i) ¿Cómo relacionar el gasto publicitario con las ventas? ii) ¿Cuáles son las ventas esperadas del primer año, si el gastopublicitario es de $2.2 millones?

New Jersey 1.2 77Pennsylvania 1.6 102

Delaware 1.0 65Maryland 1.5 101

West Virginia 0.7 46Virginia 1.0 52

Ohio 0.8 33

0

0 0.5 1 1.5 2 2.5

Gasto en publicidad ($Millions)

Ven

tas

el p

rimer

OBJETIVO : Desarrollar un modelo que relacione dos variables

X: variable “independiente” (también llamada “explicativa”) generalmente bajo nuestro control

Y: variable “dependiente”magnitud que se determina en gran parte por el valor de x,es la cantidad a ser pronosticada

Análisis de Regresión


es la cantidad a ser pronosticada

Ejemplos:

Y (var. depend.) X (var. indep.)

Notas en Universidad Ptje. PSU

Tasa cáncer pulmón Cantidad de cigarrillos

Retorno de acción Gasto en I&D

Ventas 1er año Gasto en publicidad

Contenidos• Regresión lineal simple

• Regresión múltiple

• Análisis de resultados de una regresión

• Coeficiente de determinación, R2

• Validación del modelo de regresión

• Confiabilidad de la estimación e intervalos de


• Confiabilidad de la estimación e intervalos de confianza.

Datos: (x1, y1), (x2, y2), . . . , (xn, yn), una muestra de tamaño n tomada de una población de todos los valores (X,Y)

Modelo de la población:

� El modelo asume una relación lineal entre X e Y, con interceptoβ0 y pendiente β1

� β y β son los parámetros para toda la población.

Regresión Lineal Simple

0 1Y Xβ β ε= + +


� β0 y β1 son los parámetros para toda la población.

� Como no los conocemos vamos a estimarlos a partir de unamuestra de tamaño n.

� ε representa el término de error aleatorio. Estructuralmente hay una relación lineal entre Y y X pero está afectada por variacionesaleatorias.

Modelo para cada elemento de la población (y para la muestra):

Comentarios:

� εi se asume N(0, σ2 ). Así, ε1, ε2, . . . , εn son v.a. i.i.d. con

Regresión Lineal Simple

0 1 , 1,...,i i iY X i nβ β ε= + + =


� εi se asume N(0, σ ). Así, ε1, ε2, . . . , εn son v.a. i.i.d. con distribución normal.

� es el valor esperado de Y para un valor dado de X. Es justamente el valor promedio de la v.a. Y para un valor dado de X

� SD(Yi | X=xi) = σ. Notar que la SD de Yi es igual a la SD de εi y que es una constante independiente del valor de x.

0 1( | )i i iE Y X x xβ β= = +

Coeficientes de Regresión: b0 y b1 serán estimadores de β0 y β1

Estimador para Y dado xi : (predicción)

Residuo (error):

Valor de Y en xi : (uso de error para obtener la igualdad)

¿Cómo elegimos la mejor línea?

0 1ˆi iy b b x= +

0 1i i iy b b x e= + +

ˆi i ie y y= −


La “mejor” línea de regresión es la que elige b0 y b1 para minimizar el error cuadrático total

i i i

2 2

1 1

ˆ( )n n

i i ii i

SSR e y y= =

= = −∑ ∑

Sean:

¿Cómo elegimos la mejor línea?

1

1 n

ii

x xn =

= ∑1

1 n

ii

y yn =

= ∑

Entonces:

( )( )n

x x y y− −∑


11

2

1

( )( )

( )

i ii

n

ii

x x y yb

x x

=

=

− −=

−

∑

∑

y:

0 1b y b x= −

¿Cómo elegimos la mejor línea?• En la práctica, no hay que trabajar directamente con las

fórmulas de los estimadores de “mínimos cuadrados”.

• Excel y los software estadísticos hacen eso “fácilmente”.

60

80

Fir

st Y

ear

Sale

s ($

M)

(xi, yi)^

Estimadores:b = 13,82


0

20

40

0 0.5 1

Advertising Expenditures ($M)

Fir

st Y

ear

Sale

s ($

M)

bo=13.82

Slope b1 = 48.60

(xi, yi)

ei bo = 13,82b1 = 48,60

Regresión Múltiple• En muchos casos, existe más de un factor que

puede explicar el comportamiento de unavariable.

• En este caso, postularemos lo que se llama un modelo “multivariado” (con varias variables).


modelo “multivariado” (con varias variables).

• La “Regresión Múltiple” permite manejar másde una variable independiente.

• Suguiente ejemplo: ventas en fución de variascosas.

region sales advertising promotions competitor’s sales

Selkirk 101.8 1.3 0.2 20.40 Susquehanna 44.4 0.7 0.2 30.50 Kittery 108.3 1.4 0.3 24.60 Acton 85.1 0.5 0.4 19.60 Finger Lakes 77.1 0.5 0.6 25.50 Berkshire 158.7 1.9 0.4 21.70

x1 x2 x3Y

Ejemplo: Ventas de Nature-Bar ($MM)


Berkshire 158.7 1.9 0.4 21.70 Central 180.4 1.2 1.0 6.80 Providence 64.2 0.4 0.4 12.60 Nashua 74.6 0.6 0.5 31.30 Dunster 143.4 1.3 0.6 18.60 Endicott 120.6 1.6 0.8 19.90 Five-Towns 69.7 1.0 0.3 25.60 Waldeboro 67.8 0.8 0.2 27.40 Jackson 106.7 0.6 0.5 24.30 Stowe 119.6 1.1 0.3 13.70

Regresión MúltipleVariables independientes: X1, X2, . . . , Xk

Datos: (y1, x11, x21, . . . , xk1), . .

Variable dependiente: Y


. (yn, x1n, x2n, . . . , xkn),

Modelo:

0 1 1 2 2 ... , 1,...,i i i k ki iY X X X i nβ β β β ε= + + + + + =

Regresión Múltiple

Modelo:

0 1 1 2 2 ... , 1,...,i i i k ki iY X X X i nβ β β β ε= + + + + + =

ε 1, ε 2, . . . , ε n son v.a. i.i.d., ~ N(0, σ2)

Coeficientes regresión: b0, b1,…, bk son estimadores de β0, β1,…, βk .


Objetivo: Elegir b0, b1, ... , bk para minimizar el error de estimación:

Estimador de yi :

0 1 k 0 1 k

0 1 1 2 2ˆ ...i i i k ki iy x x x eβ β β β= + + + + +

2 2

1 1

ˆ( )n n

i i ii i

SSR e y y= =

= = −∑ ∑

Regresiones en Excel y otros• Excel permite hacer regresiones lineales

• “Datos” →“Análisis de Datos” →”Regresión”


Resultado de la Regresión (Excel)Estadísticas de la regresión

Coeficiente de

correlación múltiple 0,912693Coeficiente de

determinación R^2 0,833008

R^2 ajustado 0,787465

Error típico 17,600291

Observaciones 15,000000ANÁLISIS DE VARIANZA

Grados de

libertad

Suma de

cuadrados

Promedio

de los

cuadrados F

Valor

crítico de F


libertad cuadrados cuadrados F crítico de F

Regresión 3 16997,537 5665,8455 18,2904763 0,0001388

Residuos 11 3407,4728 309,77026

Total 14 20405,009

Coeficientes Error típico

Estadístico

t Probabilidad

Inferior

95%

Superior

95%

Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403

advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366

promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519

competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466

b1 = 48,979 ($1 millón adicional en publicidad se espera que

1) Coeficientes de regresión: b0, b1, . . . , bk son estimadores de β0, β1, . . . , βk basados en los datos de la muestra.

2) Notemos que E[bj ] =βj . (estimador insesgado)

b0 = 65,705 (intrepretación depende del contexto).

Intrepretando los resultados


b1 = 48,979 ($1 millón adicional en publicidad se espera que resulte en $49 millones de aumento en ventas)

b2 = 59,654 ($1 millón adicional en promoción se espera que resulte en $60 millones de aumento en ventas)

b3 = -1,838 ($1 millón adicional de ventas de competencia seespera que resulte en $1,9 millones de baja en ventas)

2) Error típico (estándar): un estimador de σ, la SD de cada ε i.Medida de la cantidad de “ruido” en el modelo. En la tabla es:

s = 17,60

3) Grados de libertad (gl): n – k – 1Se usan en intervalos de confianza



4) Error típico de los coeficientes: sb0 , sb1 , . . . , sbkSon desviaciones estándar de los coeficientes b0 , b1, . . . , bk.Útiles para evaluar la calidad de los estimadores de los

coeficientes, y validar el modelo.

5) Hay otros resultados mostrados, pero no los abordaremos eneste curso.

5) Coeficiente de determinación: R2

• Medida de la calidad general de la regresión. • Es el % de la variabilidad total en los datos yi que es explicada•por la línea de la regresión de la muestra

- Variación total en Y =

- La media muestral de Y:


1 2 ... ny y yy

n

+ + +=2( )

n

iy y=

−∑


1i=∑

- Pero, el modelo lineal no explica toda la variación en Y.

- Variación residual en Y: 2 2

1 1

ˆ( )n n

i i ii i

e y y= =

= −∑ ∑

2 variabilidad explicada variabilidad no explicada1

variabilidad total variabilidad totalR = = −

2

1

2

1

ˆ( )1

( )

n

i ii

n

ii

y y

y y

=

=

−= −

−

∑

∑

R2 toma valores entre 0 and 1 (es un porcentaje).

R2 = 0,833 en nuestro ejemplo

0

40

80

120

160

0 0.5 1 1.5 2 2.5

Advertising Expenditures ($Millions)

Firs

t Yea

r S

ales

($M

illio

ns)

X

05

101520253035

0 5 10 15 20 25 30


X

0

5

10

15

20

25

30

0 5 10 15 20 25 30

R2 = 1; los valores de X explicantoda la variación de los Y

R2 = 0; los valores de X noexplican la variación de Y

Coeficiente de Determinación R2

• R2 alto: significa que la mayoría de la variabilidad observada en los datos yi, se atribuye a sus respectivos valores xi

• Regresión simple: R2 es alto si los puntos están bien alineados con la línea. En regresión múltiple es cuando están “más o menos” en el mismo “hiperplano”.

• ¿Cuándo es “bueno” un R2 ?: depende de la situación (del uso que se le dará a la regresión, y de la


(del uso que se le dará a la regresión, y de la complejidad del problema).

• Muchas personas miran sólo R2, pero este no contiene toda la información. Es importante que el modelo de regresión sea válido.

• ¡Mientras más variables explicativas tenga el modelo, más alto es R2 !

Coeficiente de Determinación R2

• Uno no debe incluir en el modelo variables X que no estén realmente relacionadas con Y, sólo para hacer que el R2 sea alto.

• R es la corr(x,y) y es la raíz cuadrada de R2

� Recordemos que corr(x,y)=cov(x,y)/σxσy


� Recordemos que corr(x,y)=cov(x,y)/σxσy

• El R2 ajustado modifica al R2 para tomar en cuenta el número de variables y el tamaño muestral

2 21Adjusted 1 (1 )

( 1)

nR R

n k

−= − −− +

Validación del modelo de regresión• Validar el modelo es verificar que se cumplen

efectivamente las hipótesis:

• 1) Linealidad. Es el supuesto estructural.

� Con dos variables, se puede hacer un gráfico

� Puede haber conocimiento adicional

� Verificar consistencia de signos de los bi


� Verificar consistencia de signos de los bi

• 2) Normalidad de los residuos.

� Graficar los residuos y hacer un histograma

� Debería verse un comportamiento “normal”.

3) Heterocedasticidad: variación en la SD de los errore s

• ¿Tienen los residuos una SD constante? (i.e., SD(εi ) = σ para todo i?)

• Chequear gráfico de residuos vs. cada variables independiente

Residuos Residuos

Validación del modelo de regresión

Res

idua

ls

10.00

20.00

10.00

20.00


No hay evidencia de heterocedasticidad

Se puede solucionar:• Haciendo una transformación (por ej. usar x2 en vez de x)• Agregando o eliminando variables independientes

Evidencia de heterocedasticidad

Publicidad

Res

idua

ls

-20.00

-10.00

0.00

0.0 1.0 2.0

-20.00

-10.00

0.000.0 1.0 2.0

Publicidad

4) Autocorrelación: ¿Hay independencia entre los residuos?

- Graficar los residuos para identificar patrones

Validación del modelo de regresión

Gráfico de tiempo

0

2

4

6

Res

iduo

s

Gráfico de tiempo

2

4

6

Res

iduo

s


No hay evidencia de autocorrelación

•Autocorrelación podría presentarse si las observaciones tienen unorden secuencial natural, como por ejemplo, tiempo.•Se puede solucionar introduciendo una variable independiente (porej. tiempo propiamente tal).

Evidencia de autocorrelación

-6

-4

-2

00 5 10 15 20R

esid

uos

-4

-2

00 5 10 15 20

Res

iduo

s

Validación del modelo de regresión• En resumen:

• La validación es muy importante.

• Sólo una vez validado el modelo, y si presenta buenas características de ajuste, podríamos usarlo para explicar el fenómeno o hacer predicciones…


predicciones…

• Y el R2 no es el único indicador de si el modelo es “bueno” o no.

0 X0 X

Residuos “sanos”


0 X0 X

Residuos con varianza no constante

0 X0 X


0 X0 X

0 X 0 X0 X0 X 0 X0 X

Residuos no independientes


Posible solución: Insertar tiempo (secuencia) de las observaciones como una variable.

1) Sobre especificaciónIncluir muchas variables independientes que hagan al R2

artificialmente alto puede ser muy malo.Regla: deberíamos mantener n >= 5(k+2).

2) Extrapolar fuera del rango de los datos muestrales debe hacerse con cuidado

Aspectos importantes a considerar


Publicidad

Ven

tas

del 1

er a

ño

0

30

60

90

120

0.0 1.0 2.0 3.0

3) Multicolinearidad

• Ocurre cuando dos variables independientes están altamentecorrelacionadas.

• Señales de multicolinearidad:

- Coeficientes de regresión (bi) tienen el signo equivocado

Aspectos importantes a considerar


- Coeficientes de regresión (bi) tienen el signo equivocado- El agregar o borrar una variable independiente provoca grandes

cambios en los coeficientes- Coeficientes de regresión (bi) no significativamente diferentes de 0.

• La multicolinearidad altera la significancia de los estimadores.• Se corrige borrando variables independientes.

Student Graduate CollegeNumber GPA GPA GMAT

1 4,0 3,9 6402 4,0 3,9 6443 3,1 3,1 5574 3,1 3,2 5505 3,0 3,0 5476 3,5 3,5 5897 3,1 3,0 5338 3,5 3,5 6009 3,1 3,2 630

10 3,2 3,2 548

Ejemplo: rendimiento de estudiantes


10 3,2 3,2 54811 3,8 3,7 60012 4,1 3,9 63313 2,9 3,0 54614 3,7 3,7 60215 3,8 3,8 61416 3,9 3,9 64417 3,6 3,7 63418 3,1 3,0 57219 3,3 3,2 57020 4,0 3,9 65621 3,1 3,1 57422 3,7 3,7 63623 3,7 3,7 63524 3,9 4,0 65425 3,8 3,8 633

R Square 0.96Standard Error 0.08Observations 25

Coefficients Standard ErrorIntercept 0.09540 0.28451College GPA 1.12870 0.10233GMAT -0.00088 0.00092

¿Qué pasó?

Graduate College GMATGraduate 1College 0.98 1GMAT 0.86 0.90 1

Ejemplo: Resultado de Regresión


College GPA y GMATestán altamentecorrelacionadas

R Square 0.958Standard Error 0.08Observations 25

Coefficients Standard ErrorIntercept -0.1287 0.1604College GPA 1.0413 0.0455

GMAT 0.86 0.90 1

• En regresión lineal, seleccionamos los “mejores” coeficientes b0, b1, ... , bk como estimadores de β0, β1,…, βk .

• Sabemos que en promedio cada bj “apunta” a β j .

Calidad de los coeficientes


• Sin embargo, queremos saber la confiabilidad de esosestimadores, tal como lo hicimos con la media muestral.

• Se puede mostrar que bajo supuestos de normalidad de los errores, los estimadores de los coeficientes siguen unadistribución t-student.

Volvamos al ejemploEstadísticas de la regresión

Coeficiente de

correlación múltiple 0,912693Coeficiente de

determinación R^2 0,833008

R^2 ajustado 0,787465

Error típico 17,600291

Observaciones 15,000000ANÁLISIS DE VARIANZA

Grados de

libertad

Suma de

cuadrados

Promedio

de los

cuadrados F

Valor

crítico de F


libertad cuadrados cuadrados F crítico de F

Regresión 3 16997,537 5665,8455 18,2904763 0,0001388

Residuos 11 3407,4728 309,77026

Total 14 20405,009

Coeficientes Error típico

Estadístico

t Probabilidad

Inferior

95%

Superior

95%

Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403

advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366

promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519

competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466

1) Grados de libertad (gl)

• Grados de libertad de los residuos = n - (k+1)

• Usamos (k + 1) gl para determinar (k+1) estimadores b0, b1, . . . , bk

2) Error estándar de los coeficientes: sb0 , sb1 , . . . , sbk

• Estos son las SD de los estimadores b0, b1, . . . , bk .

IC para los coeficientes


• Hecho: Antes de observar b j y sbj, sabemos que

tiene una t-student con gl = (n - k - 1), los mismos gl que los residuos.

(estadístico t)j j

bj

b

s

β−

• ¿Cuál sería un IC al 95% para β j?

• El IC al α % para β j es:

(bj - c × sbj, bj + c × sbj ),

donde c es el valor para el cual

P(- c < T < c) = α %

y T tiene una distrib. t-student con gl = (n - k - 1)



• Si en intervalo NO CONTIENE el 0, entonces podemos

concluir que βj es significativamente diferente a cero.

En el ejemplo :

b1 = 48.979, sb1= 10.658, gl = 15 - 3 - 1 = 11,

Un IC al 95% para β1 : (c= 2.201)(b1 - c × sb1, b1 + c × sb1)



(48.979 - 2.201 × 10.658, 48.979 + 2.201 × 10.658) = (25.52, 72.44)

Además, para el valor del estadístico t : 4,5956, se puede buscar en la tabla de la distribución t cuál es el percentil al que corresponde:

Ese es el “nivel de significancia”, en este caso 1-0,0008=0,9992

Resumen, tenga cuidado con:• Linearidad: Gráfico, sentido común, conocer el

problema

• Signo de coeficientes: ¿Coinciden con la intuición?

• T-test: ¿Son los coeficientes significativamente diferentes de cero?

• R2: ¿Es razonablemente alto dado el contexto?

• Normalidad: Graficar un histograma de residuos


• Normalidad: Graficar un histograma de residuos

• Heterocedasticidad: graficar residuos contra var. indep.

• Autocorrelación: graficar serie de tiempo de residuos

• Multicolineridad: Calcular correlaciones entre var. indep.

Otros tipos de modelos• Hemos visto modelos de estructura lineal.

• ¿Y si sospechamos o sabemos que la relación es no lineal…?

• Por ejemplo: en Marketing interesa estudiar la “densidad de venta” de una tienda: ventas/población, en función del “ingreso medio” de la población.

• Un modelo conocido es:


• Para estimar los coeficientes se usas “Ingreso” e “Ingreso al cuadrado” como variables explicativas y el modelo es lineal en esas variables.

20 1 2_ ( ) ( )Densidad venta Ingreso Ingresoβ β β= + × + ×

Otros tipos de modelos• Otro ejemplo:

• Muchas veces la demanda por un producto se puede modelar como una función decreciente del precio:

• Donde β1 < 0.

10 ( )demanda precio ββ= ×


• Donde β1 < 0.

• Si se dispone de datos de demanda y precio, la siguiente transformación “lineariza” el modelo:

• El modelo es ahora lineal en los logaritmos de la demanda y el precio….

0 1log( ) log( )demanda precioβ β= + ×

Variables “dummy”• Un taller de reparación de autos quiere explicar el costo

de la reparación de transmisión en función de la edad del auto.

Auto Edad

Costo

reparacion Transmision

1 3 956 Auto

2 4 839 manual

3 6 1257 manual

4 5 1225 Auto

5 4 1288 Auto

6 2 728 Auto


6 2 728 Auto

7 4 961 manual

8 8 1588 Auto

9 7 1524 manual

10 4 875 manual

11 3 999 Auto

12 5 1295 Auto

13 3 884 manual

14 2 789 Auto

15 4 785 manual

16 3 923 Auto

17 4 1223 Auto

18 9 1770 manual

19 2 692 Auto

Variables “dummy”• El modelo de costo en función de edad entrega:

• R2 igual a 0,92

• Estadístico t para la edad igual a 9,47

• Pero podríamos postular un modelo en el que se agrega una variable “dummy” que vale 1 si hay transmisión automática y 0 si no…


automática y 0 si no…

• Veamos la regresión en Excel…

• Ahora:

• R2 igual a 0,96, Estadístico t para la edad igual a 12,42 y el de la Dummy igual a 3,66, todos significativos al menos al 99%

Conclusión:• Los modelos de regresión son muy potentes y

usados en muchos ámbitos.� En márketing

� En Economía (econometría)

� En ciencias

� Etc…


• Pero deben construirse sobre datos sólidos y debe tenerse cuidado con los resultados.

• La regresión sólo refleja relaciones numéricas entre los datos: la existencia de cuasalidad es una definición a posteriori…

Documents

Clase 5 Regresion 2013.pdf