22
Magíster en Ingeniería Industrial Departamento de Ingeniería Industrial y de Sistemas Pontificia Universidad Católica de Chile IND 3100 Modelos Cuant. Para la Toma de Dec. IND3100 - Prof. Jorge Vera A ©2013 Modelos de Regresión Extraer más información de los datos… Muchas veces tenemos datos respecto a distintos fenómenos y sospechamos que hay algún tipo de relación entre ellos… Más formalmente: tenemos datos de variables aleatorias y sospechamos que están IND3100 - Prof. Jorge Vera A ©2013 relacionadas (correlacionadas). ¿Cómo podemos saber si eso es “verdad”?

Clase 5 Regresion 2013.pdf

Embed Size (px)

Citation preview

Page 1: Clase 5 Regresion 2013.pdf

Magíster en Ingeniería Industrial

Departamento de Ingeniería Industrial y de Sistemas

Pontificia Universidad Católica de Chile

IND 3100Modelos Cuant. Para la Toma de Dec.

IND3100 - Prof. Jorge Vera A ©2013

Modelos de Regresión

Extraer más información de los datos…• Muchas veces tenemos datos respecto a

distintos fenómenos y sospechamos que hay algún tipo de relación entre ellos…

• Más formalmente: tenemos datos de variables aleatorias y sospechamos que están

IND3100 - Prof. Jorge Vera A ©2013

aleatorias y sospechamos que están relacionadas (correlacionadas).

• ¿Cómo podemos saber si eso es “verdad”?

Page 2: Clase 5 Regresion 2013.pdf

Appleglo First-YearAdvertising

Expenditures($ millions)

First-YearSales

($ millions)

Region x yMaine 1.8 104

New Hampshire 1.2 68Vermont 0.4 39

Massachusetts 0.5 43Connecticut 2.5 127

Rhode Island 2.5 134New York 1.5 87

New Jersey 1.2 77

40

80

120

160

el p

rimer

o($

Mill

ions

)

(x3,y3)

Un Ejemplo: ventas v/s gasto en publicidad

IND3100 - Prof. Jorge Vera A ©2013

i) ¿Cómo relacionar el gasto publicitario con las ventas? ii) ¿Cuáles son las ventas esperadas del primer año, si el gastopublicitario es de $2.2 millones?

New Jersey 1.2 77Pennsylvania 1.6 102

Delaware 1.0 65Maryland 1.5 101

West Virginia 0.7 46Virginia 1.0 52

Ohio 0.8 33

0

0 0.5 1 1.5 2 2.5

Gasto en publicidad ($Millions)

Ven

tas

el p

rimer

OBJETIVO : Desarrollar un modelo que relacione dos variables

X: variable “independiente” (también llamada “explicativa”) generalmente bajo nuestro control

Y: variable “dependiente”magnitud que se determina en gran parte por el valor de x,es la cantidad a ser pronosticada

Análisis de Regresión

IND3100 - Prof. Jorge Vera A ©2013

es la cantidad a ser pronosticada

Ejemplos:

Y (var. depend.) X (var. indep.)

Notas en Universidad Ptje. PSU

Tasa cáncer pulmón Cantidad de cigarrillos

Retorno de acción Gasto en I&D

Ventas 1er año Gasto en publicidad

Page 3: Clase 5 Regresion 2013.pdf

Contenidos• Regresión lineal simple

• Regresión múltiple

• Análisis de resultados de una regresión

• Coeficiente de determinación, R2

• Validación del modelo de regresión

• Confiabilidad de la estimación e intervalos de

IND3100 - Prof. Jorge Vera A ©2013

• Confiabilidad de la estimación e intervalos de confianza.

Datos: (x1, y1), (x2, y2), . . . , (xn, yn), una muestra de tamaño n tomada de una población de todos los valores (X,Y)

Modelo de la población:

� El modelo asume una relación lineal entre X e Y, con interceptoβ0 y pendiente β1

� β y β son los parámetros para toda la población.

Regresión Lineal Simple

0 1Y Xβ β ε= + +

IND3100 - Prof. Jorge Vera A ©2013

� β0 y β1 son los parámetros para toda la población.

� Como no los conocemos vamos a estimarlos a partir de unamuestra de tamaño n.

� ε representa el término de error aleatorio. Estructuralmente hay una relación lineal entre Y y X pero está afectada por variacionesaleatorias.

Page 4: Clase 5 Regresion 2013.pdf

Modelo para cada elemento de la población (y para la muestra):

Comentarios:

� εi se asume N(0, σ2 ). Así, ε1, ε2, . . . , εn son v.a. i.i.d. con

Regresión Lineal Simple

0 1 , 1,...,i i iY X i nβ β ε= + + =

IND3100 - Prof. Jorge Vera A ©2013

� εi se asume N(0, σ ). Así, ε1, ε2, . . . , εn son v.a. i.i.d. con distribución normal.

� es el valor esperado de Y para un valor dado de X. Es justamente el valor promedio de la v.a. Y para un valor dado de X

� SD(Yi | X=xi) = σ. Notar que la SD de Yi es igual a la SD de εi y que es una constante independiente del valor de x.

0 1( | )i i iE Y X x xβ β= = +

Coeficientes de Regresión: b0 y b1 serán estimadores de β0 y β1

Estimador para Y dado xi : (predicción)

Residuo (error):

Valor de Y en xi : (uso de error para obtener la igualdad)

¿Cómo elegimos la mejor línea?

0 1ˆi iy b b x= +

0 1i i iy b b x e= + +

ˆi i ie y y= −

IND3100 - Prof. Jorge Vera A ©2013

La “mejor” línea de regresión es la que elige b0 y b1 para minimizar el error cuadrático total

i i i

2 2

1 1

ˆ( )n n

i i ii i

SSR e y y= =

= = −∑ ∑

Page 5: Clase 5 Regresion 2013.pdf

Sean:

¿Cómo elegimos la mejor línea?

1

1 n

ii

x xn =

= ∑1

1 n

ii

y yn =

= ∑

Entonces:

( )( )n

x x y y− −∑

IND3100 - Prof. Jorge Vera A ©2013

11

2

1

( )( )

( )

i ii

n

ii

x x y yb

x x

=

=

− −=

y:

0 1b y b x= −

¿Cómo elegimos la mejor línea?• En la práctica, no hay que trabajar directamente con las

fórmulas de los estimadores de “mínimos cuadrados”.

• Excel y los software estadísticos hacen eso “fácilmente”.

60

80

Fir

st Y

ear

Sale

s ($

M)

(xi, yi)^

Estimadores:b = 13,82

IND3100 - Prof. Jorge Vera A ©2013

0

20

40

0 0.5 1

Advertising Expenditures ($M)

Fir

st Y

ear

Sale

s ($

M)

bo=13.82

Slope b1 = 48.60

(xi, yi)

ei bo = 13,82b1 = 48,60

Page 6: Clase 5 Regresion 2013.pdf

Regresión Múltiple• En muchos casos, existe más de un factor que

puede explicar el comportamiento de unavariable.

• En este caso, postularemos lo que se llama un modelo “multivariado” (con varias variables).

IND3100 - Prof. Jorge Vera A ©2013

modelo “multivariado” (con varias variables).

• La “Regresión Múltiple” permite manejar másde una variable independiente.

• Suguiente ejemplo: ventas en fución de variascosas.

region sales advertising promotions competitor’s sales

Selkirk 101.8 1.3 0.2 20.40 Susquehanna 44.4 0.7 0.2 30.50 Kittery 108.3 1.4 0.3 24.60 Acton 85.1 0.5 0.4 19.60 Finger Lakes 77.1 0.5 0.6 25.50 Berkshire 158.7 1.9 0.4 21.70

x1 x2 x3Y

Ejemplo: Ventas de Nature-Bar ($MM)

IND3100 - Prof. Jorge Vera A ©2013

Berkshire 158.7 1.9 0.4 21.70 Central 180.4 1.2 1.0 6.80 Providence 64.2 0.4 0.4 12.60 Nashua 74.6 0.6 0.5 31.30 Dunster 143.4 1.3 0.6 18.60 Endicott 120.6 1.6 0.8 19.90 Five-Towns 69.7 1.0 0.3 25.60 Waldeboro 67.8 0.8 0.2 27.40 Jackson 106.7 0.6 0.5 24.30 Stowe 119.6 1.1 0.3 13.70

Page 7: Clase 5 Regresion 2013.pdf

Regresión MúltipleVariables independientes: X1, X2, . . . , Xk

Datos: (y1, x11, x21, . . . , xk1), . .

Variable dependiente: Y

IND3100 - Prof. Jorge Vera A ©2013

. (yn, x1n, x2n, . . . , xkn),

Modelo:

0 1 1 2 2 ... , 1,...,i i i k ki iY X X X i nβ β β β ε= + + + + + =

Regresión Múltiple

Modelo:

0 1 1 2 2 ... , 1,...,i i i k ki iY X X X i nβ β β β ε= + + + + + =

ε 1, ε 2, . . . , ε n son v.a. i.i.d., ~ N(0, σ2)

Coeficientes regresión: b0, b1,…, bk son estimadores de β0, β1,…, βk .

IND3100 - Prof. Jorge Vera A ©2013

Objetivo: Elegir b0, b1, ... , bk para minimizar el error de estimación:

Estimador de yi :

0 1 k 0 1 k

0 1 1 2 2ˆ ...i i i k ki iy x x x eβ β β β= + + + + +

2 2

1 1

ˆ( )n n

i i ii i

SSR e y y= =

= = −∑ ∑

Page 8: Clase 5 Regresion 2013.pdf

Regresiones en Excel y otros• Excel permite hacer regresiones lineales

• “Datos” →“Análisis de Datos” →”Regresión”

IND3100 - Prof. Jorge Vera A ©2013

Resultado de la Regresión (Excel)Estadísticas de la regresión

Coeficiente de

correlación múltiple 0,912693Coeficiente de

determinación R^2 0,833008

R^2 ajustado 0,787465

Error típico 17,600291

Observaciones 15,000000ANÁLISIS DE VARIANZA

Grados de

libertad

Suma de

cuadrados

Promedio

de los

cuadrados F

Valor

crítico de F

IND3100 - Prof. Jorge Vera A ©2013

libertad cuadrados cuadrados F crítico de F

Regresión 3 16997,537 5665,8455 18,2904763 0,0001388

Residuos 11 3407,4728 309,77026

Total 14 20405,009

Coeficientes Error típico

Estadístico

t Probabilidad

Inferior

95%

Superior

95%

Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403

advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366

promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519

competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466

Page 9: Clase 5 Regresion 2013.pdf

b1 = 48,979 ($1 millón adicional en publicidad se espera que

1) Coeficientes de regresión: b0, b1, . . . , bk son estimadores de β0, β1, . . . , βk basados en los datos de la muestra.

2) Notemos que E[bj ] =βj . (estimador insesgado)

b0 = 65,705 (intrepretación depende del contexto).

Intrepretando los resultados

IND3100 - Prof. Jorge Vera A ©2013

b1 = 48,979 ($1 millón adicional en publicidad se espera que resulte en $49 millones de aumento en ventas)

b2 = 59,654 ($1 millón adicional en promoción se espera que resulte en $60 millones de aumento en ventas)

b3 = -1,838 ($1 millón adicional de ventas de competencia seespera que resulte en $1,9 millones de baja en ventas)

2) Error típico (estándar): un estimador de σ, la SD de cada ε i.Medida de la cantidad de “ruido” en el modelo. En la tabla es:

s = 17,60

3) Grados de libertad (gl): n – k – 1Se usan en intervalos de confianza

Intrepretando los resultados

IND3100 - Prof. Jorge Vera A ©2013

4) Error típico de los coeficientes: sb0 , sb1 , . . . , sbkSon desviaciones estándar de los coeficientes b0 , b1, . . . , bk.Útiles para evaluar la calidad de los estimadores de los

coeficientes, y validar el modelo.

5) Hay otros resultados mostrados, pero no los abordaremos eneste curso.

Page 10: Clase 5 Regresion 2013.pdf

5) Coeficiente de determinación: R2

• Medida de la calidad general de la regresión. • Es el % de la variabilidad total en los datos yi que es explicada•por la línea de la regresión de la muestra

- Variación total en Y =

- La media muestral de Y:

Intrepretando los resultados

1 2 ... ny y yy

n

+ + +=2( )

n

iy y=

−∑

IND3100 - Prof. Jorge Vera A ©2013

1i=∑

- Pero, el modelo lineal no explica toda la variación en Y.

- Variación residual en Y: 2 2

1 1

ˆ( )n n

i i ii i

e y y= =

= −∑ ∑

2 variabilidad explicada variabilidad no explicada1

variabilidad total variabilidad totalR = = −

2

1

2

1

ˆ( )1

( )

n

i ii

n

ii

y y

y y

=

=

−= −

R2 toma valores entre 0 and 1 (es un porcentaje).

R2 = 0,833 en nuestro ejemplo

0

40

80

120

160

0 0.5 1 1.5 2 2.5

Advertising Expenditures ($Millions)

Firs

t Yea

r S

ales

($M

illio

ns)

X

05

101520253035

0 5 10 15 20 25 30

IND3100 - Prof. Jorge Vera A ©2013

X

0

5

10

15

20

25

30

0 5 10 15 20 25 30

R2 = 1; los valores de X explicantoda la variación de los Y

R2 = 0; los valores de X noexplican la variación de Y

Page 11: Clase 5 Regresion 2013.pdf

Coeficiente de Determinación R2

• R2 alto: significa que la mayoría de la variabilidad observada en los datos yi, se atribuye a sus respectivos valores xi

• Regresión simple: R2 es alto si los puntos están bien alineados con la línea. En regresión múltiple es cuando están “más o menos” en el mismo “hiperplano”.

• ¿Cuándo es “bueno” un R2 ?: depende de la situación (del uso que se le dará a la regresión, y de la

IND3100 - Prof. Jorge Vera A ©2013

(del uso que se le dará a la regresión, y de la complejidad del problema).

• Muchas personas miran sólo R2, pero este no contiene toda la información. Es importante que el modelo de regresión sea válido.

• ¡Mientras más variables explicativas tenga el modelo, más alto es R2 !

Coeficiente de Determinación R2

• Uno no debe incluir en el modelo variables X que no estén realmente relacionadas con Y, sólo para hacer que el R2 sea alto.

• R es la corr(x,y) y es la raíz cuadrada de R2

� Recordemos que corr(x,y)=cov(x,y)/σxσy

IND3100 - Prof. Jorge Vera A ©2013

� Recordemos que corr(x,y)=cov(x,y)/σxσy

• El R2 ajustado modifica al R2 para tomar en cuenta el número de variables y el tamaño muestral

2 21Adjusted 1 (1 )

( 1)

nR R

n k

−= − −− +

Page 12: Clase 5 Regresion 2013.pdf

Validación del modelo de regresión• Validar el modelo es verificar que se cumplen

efectivamente las hipótesis:

• 1) Linealidad. Es el supuesto estructural.

� Con dos variables, se puede hacer un gráfico

� Puede haber conocimiento adicional

� Verificar consistencia de signos de los bi

IND3100 - Prof. Jorge Vera A ©2013

� Verificar consistencia de signos de los bi

• 2) Normalidad de los residuos.

� Graficar los residuos y hacer un histograma

� Debería verse un comportamiento “normal”.

3) Heterocedasticidad: variación en la SD de los errore s

• ¿Tienen los residuos una SD constante? (i.e., SD(εi ) = σ para todo i?)

• Chequear gráfico de residuos vs. cada variables independiente

Residuos Residuos

Validación del modelo de regresión

Res

idua

ls

10.00

20.00

10.00

20.00

IND3100 - Prof. Jorge Vera A ©2013

No hay evidencia de heterocedasticidad

Se puede solucionar:• Haciendo una transformación (por ej. usar x2 en vez de x)• Agregando o eliminando variables independientes

Evidencia de heterocedasticidad

Publicidad

Res

idua

ls

-20.00

-10.00

0.00

0.0 1.0 2.0

-20.00

-10.00

0.000.0 1.0 2.0

Publicidad

Page 13: Clase 5 Regresion 2013.pdf

4) Autocorrelación: ¿Hay independencia entre los residuos?

- Graficar los residuos para identificar patrones

Validación del modelo de regresión

Gráfico de tiempo

0

2

4

6

Res

iduo

s

Gráfico de tiempo

2

4

6

Res

iduo

s

IND3100 - Prof. Jorge Vera A ©2013

No hay evidencia de autocorrelación

•Autocorrelación podría presentarse si las observaciones tienen unorden secuencial natural, como por ejemplo, tiempo.•Se puede solucionar introduciendo una variable independiente (porej. tiempo propiamente tal).

Evidencia de autocorrelación

-6

-4

-2

00 5 10 15 20R

esid

uos

-4

-2

00 5 10 15 20

Res

iduo

s

Validación del modelo de regresión• En resumen:

• La validación es muy importante.

• Sólo una vez validado el modelo, y si presenta buenas características de ajuste, podríamos usarlo para explicar el fenómeno o hacer predicciones…

IND3100 - Prof. Jorge Vera A ©2013

predicciones…

• Y el R2 no es el único indicador de si el modelo es “bueno” o no.

Page 14: Clase 5 Regresion 2013.pdf

0 X0 X

Residuos “sanos”

IND3100 - Prof. Jorge Vera A ©2013

0 X0 X

Residuos con varianza no constante

0 X0 X

IND3100 - Prof. Jorge Vera A ©2013

0 X0 X

Page 15: Clase 5 Regresion 2013.pdf

0 X 0 X0 X0 X 0 X0 X

Residuos no independientes

IND3100 - Prof. Jorge Vera A ©2013

Posible solución: Insertar tiempo (secuencia) de las observaciones como una variable.

1) Sobre especificaciónIncluir muchas variables independientes que hagan al R2

artificialmente alto puede ser muy malo.Regla: deberíamos mantener n >= 5(k+2).

2) Extrapolar fuera del rango de los datos muestrales debe hacerse con cuidado

Aspectos importantes a considerar

IND3100 - Prof. Jorge Vera A ©2013

Publicidad

Ven

tas

del 1

er a

ño

0

30

60

90

120

0.0 1.0 2.0 3.0

Page 16: Clase 5 Regresion 2013.pdf

3) Multicolinearidad

• Ocurre cuando dos variables independientes están altamentecorrelacionadas.

• Señales de multicolinearidad:

- Coeficientes de regresión (bi) tienen el signo equivocado

Aspectos importantes a considerar

IND3100 - Prof. Jorge Vera A ©2013

- Coeficientes de regresión (bi) tienen el signo equivocado- El agregar o borrar una variable independiente provoca grandes

cambios en los coeficientes- Coeficientes de regresión (bi) no significativamente diferentes de 0.

• La multicolinearidad altera la significancia de los estimadores.• Se corrige borrando variables independientes.

Student Graduate CollegeNumber GPA GPA GMAT

1 4,0 3,9 6402 4,0 3,9 6443 3,1 3,1 5574 3,1 3,2 5505 3,0 3,0 5476 3,5 3,5 5897 3,1 3,0 5338 3,5 3,5 6009 3,1 3,2 630

10 3,2 3,2 548

Ejemplo: rendimiento de estudiantes

IND3100 - Prof. Jorge Vera A ©2013

10 3,2 3,2 54811 3,8 3,7 60012 4,1 3,9 63313 2,9 3,0 54614 3,7 3,7 60215 3,8 3,8 61416 3,9 3,9 64417 3,6 3,7 63418 3,1 3,0 57219 3,3 3,2 57020 4,0 3,9 65621 3,1 3,1 57422 3,7 3,7 63623 3,7 3,7 63524 3,9 4,0 65425 3,8 3,8 633

Page 17: Clase 5 Regresion 2013.pdf

R Square 0.96Standard Error 0.08Observations 25

Coefficients Standard ErrorIntercept 0.09540 0.28451College GPA 1.12870 0.10233GMAT -0.00088 0.00092

¿Qué pasó?

Graduate College GMATGraduate 1College 0.98 1GMAT 0.86 0.90 1

Ejemplo: Resultado de Regresión

IND3100 - Prof. Jorge Vera A ©2013

College GPA y GMATestán altamentecorrelacionadas

R Square 0.958Standard Error 0.08Observations 25

Coefficients Standard ErrorIntercept -0.1287 0.1604College GPA 1.0413 0.0455

GMAT 0.86 0.90 1

• En regresión lineal, seleccionamos los “mejores” coeficientes b0, b1, ... , bk como estimadores de β0, β1,…, βk .

• Sabemos que en promedio cada bj “apunta” a β j .

Calidad de los coeficientes

IND3100 - Prof. Jorge Vera A ©2013

• Sin embargo, queremos saber la confiabilidad de esosestimadores, tal como lo hicimos con la media muestral.

• Se puede mostrar que bajo supuestos de normalidad de los errores, los estimadores de los coeficientes siguen unadistribución t-student.

Page 18: Clase 5 Regresion 2013.pdf

Volvamos al ejemploEstadísticas de la regresión

Coeficiente de

correlación múltiple 0,912693Coeficiente de

determinación R^2 0,833008

R^2 ajustado 0,787465

Error típico 17,600291

Observaciones 15,000000ANÁLISIS DE VARIANZA

Grados de

libertad

Suma de

cuadrados

Promedio

de los

cuadrados F

Valor

crítico de F

IND3100 - Prof. Jorge Vera A ©2013

libertad cuadrados cuadrados F crítico de F

Regresión 3 16997,537 5665,8455 18,2904763 0,0001388

Residuos 11 3407,4728 309,77026

Total 14 20405,009

Coeficientes Error típico

Estadístico

t Probabilidad

Inferior

95%

Superior

95%

Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403

advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366

promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519

competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466

1) Grados de libertad (gl)

• Grados de libertad de los residuos = n - (k+1)

• Usamos (k + 1) gl para determinar (k+1) estimadores b0, b1, . . . , bk

2) Error estándar de los coeficientes: sb0 , sb1 , . . . , sbk

• Estos son las SD de los estimadores b0, b1, . . . , bk .

IC para los coeficientes

IND3100 - Prof. Jorge Vera A ©2013

• Hecho: Antes de observar b j y sbj, sabemos que

tiene una t-student con gl = (n - k - 1), los mismos gl que los residuos.

(estadístico t)j j

bj

b

s

β−

• ¿Cuál sería un IC al 95% para β j?

Page 19: Clase 5 Regresion 2013.pdf

• El IC al α % para β j es:

(bj - c × sbj, bj + c × sbj ),

donde c es el valor para el cual

P(- c < T < c) = α %

y T tiene una distrib. t-student con gl = (n - k - 1)

IC para los coeficientes

IND3100 - Prof. Jorge Vera A ©2013

• Si en intervalo NO CONTIENE el 0, entonces podemos

concluir que βj es significativamente diferente a cero.

En el ejemplo :

b1 = 48.979, sb1= 10.658, gl = 15 - 3 - 1 = 11,

Un IC al 95% para β1 : (c= 2.201)(b1 - c × sb1, b1 + c × sb1)

IC para los coeficientes

IND3100 - Prof. Jorge Vera A ©2013

(48.979 - 2.201 × 10.658, 48.979 + 2.201 × 10.658) = (25.52, 72.44)

Además, para el valor del estadístico t : 4,5956, se puede buscar en la tabla de la distribución t cuál es el percentil al que corresponde:

Ese es el “nivel de significancia”, en este caso 1-0,0008=0,9992

Page 20: Clase 5 Regresion 2013.pdf

Resumen, tenga cuidado con:• Linearidad: Gráfico, sentido común, conocer el

problema

• Signo de coeficientes: ¿Coinciden con la intuición?

• T-test: ¿Son los coeficientes significativamente diferentes de cero?

• R2: ¿Es razonablemente alto dado el contexto?

• Normalidad: Graficar un histograma de residuos

IND3100 - Prof. Jorge Vera A ©2013

• Normalidad: Graficar un histograma de residuos

• Heterocedasticidad: graficar residuos contra var. indep.

• Autocorrelación: graficar serie de tiempo de residuos

• Multicolineridad: Calcular correlaciones entre var. indep.

Otros tipos de modelos• Hemos visto modelos de estructura lineal.

• ¿Y si sospechamos o sabemos que la relación es no lineal…?

• Por ejemplo: en Marketing interesa estudiar la “densidad de venta” de una tienda: ventas/población, en función del “ingreso medio” de la población.

• Un modelo conocido es:

IND3100 - Prof. Jorge Vera A ©2013

• Para estimar los coeficientes se usas “Ingreso” e “Ingreso al cuadrado” como variables explicativas y el modelo es lineal en esas variables.

20 1 2_ ( ) ( )Densidad venta Ingreso Ingresoβ β β= + × + ×

Page 21: Clase 5 Regresion 2013.pdf

Otros tipos de modelos• Otro ejemplo:

• Muchas veces la demanda por un producto se puede modelar como una función decreciente del precio:

• Donde β1 < 0.

10 ( )demanda precio ββ= ×

IND3100 - Prof. Jorge Vera A ©2013

• Donde β1 < 0.

• Si se dispone de datos de demanda y precio, la siguiente transformación “lineariza” el modelo:

• El modelo es ahora lineal en los logaritmos de la demanda y el precio….

0 1log( ) log( )demanda precioβ β= + ×

Variables “dummy”• Un taller de reparación de autos quiere explicar el costo

de la reparación de transmisión en función de la edad del auto.

Auto Edad

Costo

reparacion Transmision

1 3 956 Auto

2 4 839 manual

3 6 1257 manual

4 5 1225 Auto

5 4 1288 Auto

6 2 728 Auto

IND3100 - Prof. Jorge Vera A ©2013

6 2 728 Auto

7 4 961 manual

8 8 1588 Auto

9 7 1524 manual

10 4 875 manual

11 3 999 Auto

12 5 1295 Auto

13 3 884 manual

14 2 789 Auto

15 4 785 manual

16 3 923 Auto

17 4 1223 Auto

18 9 1770 manual

19 2 692 Auto

Page 22: Clase 5 Regresion 2013.pdf

Variables “dummy”• El modelo de costo en función de edad entrega:

• R2 igual a 0,92

• Estadístico t para la edad igual a 9,47

• Pero podríamos postular un modelo en el que se agrega una variable “dummy” que vale 1 si hay transmisión automática y 0 si no…

IND3100 - Prof. Jorge Vera A ©2013

automática y 0 si no…

• Veamos la regresión en Excel…

• Ahora:

• R2 igual a 0,96, Estadístico t para la edad igual a 12,42 y el de la Dummy igual a 3,66, todos significativos al menos al 99%

Conclusión:• Los modelos de regresión son muy potentes y

usados en muchos ámbitos.� En márketing

� En Economía (econometría)

� En ciencias

� Etc…

IND3100 - Prof. Jorge Vera A ©2013

• Pero deben construirse sobre datos sólidos y debe tenerse cuidado con los resultados.

• La regresión sólo refleja relaciones numéricas entre los datos: la existencia de cuasalidad es una definición a posteriori…