Upload
esanhuez771381941
View
218
Download
0
Embed Size (px)
Citation preview
Magíster en Ingeniería Industrial
Departamento de Ingeniería Industrial y de Sistemas
Pontificia Universidad Católica de Chile
IND 3100Modelos Cuant. Para la Toma de Dec.
IND3100 - Prof. Jorge Vera A ©2013
Modelos de Regresión
Extraer más información de los datos…• Muchas veces tenemos datos respecto a
distintos fenómenos y sospechamos que hay algún tipo de relación entre ellos…
• Más formalmente: tenemos datos de variables aleatorias y sospechamos que están
IND3100 - Prof. Jorge Vera A ©2013
aleatorias y sospechamos que están relacionadas (correlacionadas).
• ¿Cómo podemos saber si eso es “verdad”?
Appleglo First-YearAdvertising
Expenditures($ millions)
First-YearSales
($ millions)
Region x yMaine 1.8 104
New Hampshire 1.2 68Vermont 0.4 39
Massachusetts 0.5 43Connecticut 2.5 127
Rhode Island 2.5 134New York 1.5 87
New Jersey 1.2 77
40
80
120
160
el p
rimer
añ
o($
Mill
ions
)
(x3,y3)
Un Ejemplo: ventas v/s gasto en publicidad
IND3100 - Prof. Jorge Vera A ©2013
i) ¿Cómo relacionar el gasto publicitario con las ventas? ii) ¿Cuáles son las ventas esperadas del primer año, si el gastopublicitario es de $2.2 millones?
New Jersey 1.2 77Pennsylvania 1.6 102
Delaware 1.0 65Maryland 1.5 101
West Virginia 0.7 46Virginia 1.0 52
Ohio 0.8 33
0
0 0.5 1 1.5 2 2.5
Gasto en publicidad ($Millions)
Ven
tas
el p
rimer
OBJETIVO : Desarrollar un modelo que relacione dos variables
X: variable “independiente” (también llamada “explicativa”) generalmente bajo nuestro control
Y: variable “dependiente”magnitud que se determina en gran parte por el valor de x,es la cantidad a ser pronosticada
Análisis de Regresión
IND3100 - Prof. Jorge Vera A ©2013
es la cantidad a ser pronosticada
Ejemplos:
Y (var. depend.) X (var. indep.)
Notas en Universidad Ptje. PSU
Tasa cáncer pulmón Cantidad de cigarrillos
Retorno de acción Gasto en I&D
Ventas 1er año Gasto en publicidad
Contenidos• Regresión lineal simple
• Regresión múltiple
• Análisis de resultados de una regresión
• Coeficiente de determinación, R2
• Validación del modelo de regresión
• Confiabilidad de la estimación e intervalos de
IND3100 - Prof. Jorge Vera A ©2013
• Confiabilidad de la estimación e intervalos de confianza.
Datos: (x1, y1), (x2, y2), . . . , (xn, yn), una muestra de tamaño n tomada de una población de todos los valores (X,Y)
Modelo de la población:
� El modelo asume una relación lineal entre X e Y, con interceptoβ0 y pendiente β1
� β y β son los parámetros para toda la población.
Regresión Lineal Simple
0 1Y Xβ β ε= + +
IND3100 - Prof. Jorge Vera A ©2013
� β0 y β1 son los parámetros para toda la población.
� Como no los conocemos vamos a estimarlos a partir de unamuestra de tamaño n.
� ε representa el término de error aleatorio. Estructuralmente hay una relación lineal entre Y y X pero está afectada por variacionesaleatorias.
Modelo para cada elemento de la población (y para la muestra):
Comentarios:
� εi se asume N(0, σ2 ). Así, ε1, ε2, . . . , εn son v.a. i.i.d. con
Regresión Lineal Simple
0 1 , 1,...,i i iY X i nβ β ε= + + =
IND3100 - Prof. Jorge Vera A ©2013
� εi se asume N(0, σ ). Así, ε1, ε2, . . . , εn son v.a. i.i.d. con distribución normal.
� es el valor esperado de Y para un valor dado de X. Es justamente el valor promedio de la v.a. Y para un valor dado de X
� SD(Yi | X=xi) = σ. Notar que la SD de Yi es igual a la SD de εi y que es una constante independiente del valor de x.
0 1( | )i i iE Y X x xβ β= = +
Coeficientes de Regresión: b0 y b1 serán estimadores de β0 y β1
Estimador para Y dado xi : (predicción)
Residuo (error):
Valor de Y en xi : (uso de error para obtener la igualdad)
¿Cómo elegimos la mejor línea?
0 1ˆi iy b b x= +
0 1i i iy b b x e= + +
ˆi i ie y y= −
IND3100 - Prof. Jorge Vera A ©2013
La “mejor” línea de regresión es la que elige b0 y b1 para minimizar el error cuadrático total
i i i
2 2
1 1
ˆ( )n n
i i ii i
SSR e y y= =
= = −∑ ∑
Sean:
¿Cómo elegimos la mejor línea?
1
1 n
ii
x xn =
= ∑1
1 n
ii
y yn =
= ∑
Entonces:
( )( )n
x x y y− −∑
IND3100 - Prof. Jorge Vera A ©2013
11
2
1
( )( )
( )
i ii
n
ii
x x y yb
x x
=
=
− −=
−
∑
∑
y:
0 1b y b x= −
¿Cómo elegimos la mejor línea?• En la práctica, no hay que trabajar directamente con las
fórmulas de los estimadores de “mínimos cuadrados”.
• Excel y los software estadísticos hacen eso “fácilmente”.
60
80
Fir
st Y
ear
Sale
s ($
M)
(xi, yi)^
Estimadores:b = 13,82
IND3100 - Prof. Jorge Vera A ©2013
0
20
40
0 0.5 1
Advertising Expenditures ($M)
Fir
st Y
ear
Sale
s ($
M)
bo=13.82
Slope b1 = 48.60
(xi, yi)
ei bo = 13,82b1 = 48,60
Regresión Múltiple• En muchos casos, existe más de un factor que
puede explicar el comportamiento de unavariable.
• En este caso, postularemos lo que se llama un modelo “multivariado” (con varias variables).
IND3100 - Prof. Jorge Vera A ©2013
modelo “multivariado” (con varias variables).
• La “Regresión Múltiple” permite manejar másde una variable independiente.
• Suguiente ejemplo: ventas en fución de variascosas.
region sales advertising promotions competitor’s sales
Selkirk 101.8 1.3 0.2 20.40 Susquehanna 44.4 0.7 0.2 30.50 Kittery 108.3 1.4 0.3 24.60 Acton 85.1 0.5 0.4 19.60 Finger Lakes 77.1 0.5 0.6 25.50 Berkshire 158.7 1.9 0.4 21.70
x1 x2 x3Y
Ejemplo: Ventas de Nature-Bar ($MM)
IND3100 - Prof. Jorge Vera A ©2013
Berkshire 158.7 1.9 0.4 21.70 Central 180.4 1.2 1.0 6.80 Providence 64.2 0.4 0.4 12.60 Nashua 74.6 0.6 0.5 31.30 Dunster 143.4 1.3 0.6 18.60 Endicott 120.6 1.6 0.8 19.90 Five-Towns 69.7 1.0 0.3 25.60 Waldeboro 67.8 0.8 0.2 27.40 Jackson 106.7 0.6 0.5 24.30 Stowe 119.6 1.1 0.3 13.70
Regresión MúltipleVariables independientes: X1, X2, . . . , Xk
Datos: (y1, x11, x21, . . . , xk1), . .
Variable dependiente: Y
IND3100 - Prof. Jorge Vera A ©2013
. (yn, x1n, x2n, . . . , xkn),
Modelo:
0 1 1 2 2 ... , 1,...,i i i k ki iY X X X i nβ β β β ε= + + + + + =
Regresión Múltiple
Modelo:
0 1 1 2 2 ... , 1,...,i i i k ki iY X X X i nβ β β β ε= + + + + + =
ε 1, ε 2, . . . , ε n son v.a. i.i.d., ~ N(0, σ2)
Coeficientes regresión: b0, b1,…, bk son estimadores de β0, β1,…, βk .
IND3100 - Prof. Jorge Vera A ©2013
Objetivo: Elegir b0, b1, ... , bk para minimizar el error de estimación:
Estimador de yi :
0 1 k 0 1 k
0 1 1 2 2ˆ ...i i i k ki iy x x x eβ β β β= + + + + +
2 2
1 1
ˆ( )n n
i i ii i
SSR e y y= =
= = −∑ ∑
Regresiones en Excel y otros• Excel permite hacer regresiones lineales
• “Datos” →“Análisis de Datos” →”Regresión”
IND3100 - Prof. Jorge Vera A ©2013
Resultado de la Regresión (Excel)Estadísticas de la regresión
Coeficiente de
correlación múltiple 0,912693Coeficiente de
determinación R^2 0,833008
R^2 ajustado 0,787465
Error típico 17,600291
Observaciones 15,000000ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio
de los
cuadrados F
Valor
crítico de F
IND3100 - Prof. Jorge Vera A ©2013
libertad cuadrados cuadrados F crítico de F
Regresión 3 16997,537 5665,8455 18,2904763 0,0001388
Residuos 11 3407,4728 309,77026
Total 14 20405,009
Coeficientes Error típico
Estadístico
t Probabilidad
Inferior
95%
Superior
95%
Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403
advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366
promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519
competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466
b1 = 48,979 ($1 millón adicional en publicidad se espera que
1) Coeficientes de regresión: b0, b1, . . . , bk son estimadores de β0, β1, . . . , βk basados en los datos de la muestra.
2) Notemos que E[bj ] =βj . (estimador insesgado)
b0 = 65,705 (intrepretación depende del contexto).
Intrepretando los resultados
IND3100 - Prof. Jorge Vera A ©2013
b1 = 48,979 ($1 millón adicional en publicidad se espera que resulte en $49 millones de aumento en ventas)
b2 = 59,654 ($1 millón adicional en promoción se espera que resulte en $60 millones de aumento en ventas)
b3 = -1,838 ($1 millón adicional de ventas de competencia seespera que resulte en $1,9 millones de baja en ventas)
2) Error típico (estándar): un estimador de σ, la SD de cada ε i.Medida de la cantidad de “ruido” en el modelo. En la tabla es:
s = 17,60
3) Grados de libertad (gl): n – k – 1Se usan en intervalos de confianza
Intrepretando los resultados
IND3100 - Prof. Jorge Vera A ©2013
4) Error típico de los coeficientes: sb0 , sb1 , . . . , sbkSon desviaciones estándar de los coeficientes b0 , b1, . . . , bk.Útiles para evaluar la calidad de los estimadores de los
coeficientes, y validar el modelo.
5) Hay otros resultados mostrados, pero no los abordaremos eneste curso.
5) Coeficiente de determinación: R2
• Medida de la calidad general de la regresión. • Es el % de la variabilidad total en los datos yi que es explicada•por la línea de la regresión de la muestra
- Variación total en Y =
- La media muestral de Y:
Intrepretando los resultados
1 2 ... ny y yy
n
+ + +=2( )
n
iy y=
−∑
IND3100 - Prof. Jorge Vera A ©2013
1i=∑
- Pero, el modelo lineal no explica toda la variación en Y.
- Variación residual en Y: 2 2
1 1
ˆ( )n n
i i ii i
e y y= =
= −∑ ∑
2 variabilidad explicada variabilidad no explicada1
variabilidad total variabilidad totalR = = −
2
1
2
1
ˆ( )1
( )
n
i ii
n
ii
y y
y y
=
=
−= −
−
∑
∑
R2 toma valores entre 0 and 1 (es un porcentaje).
R2 = 0,833 en nuestro ejemplo
0
40
80
120
160
0 0.5 1 1.5 2 2.5
Advertising Expenditures ($Millions)
Firs
t Yea
r S
ales
($M
illio
ns)
X
05
101520253035
0 5 10 15 20 25 30
IND3100 - Prof. Jorge Vera A ©2013
X
0
5
10
15
20
25
30
0 5 10 15 20 25 30
R2 = 1; los valores de X explicantoda la variación de los Y
R2 = 0; los valores de X noexplican la variación de Y
Coeficiente de Determinación R2
• R2 alto: significa que la mayoría de la variabilidad observada en los datos yi, se atribuye a sus respectivos valores xi
• Regresión simple: R2 es alto si los puntos están bien alineados con la línea. En regresión múltiple es cuando están “más o menos” en el mismo “hiperplano”.
• ¿Cuándo es “bueno” un R2 ?: depende de la situación (del uso que se le dará a la regresión, y de la
IND3100 - Prof. Jorge Vera A ©2013
(del uso que se le dará a la regresión, y de la complejidad del problema).
• Muchas personas miran sólo R2, pero este no contiene toda la información. Es importante que el modelo de regresión sea válido.
• ¡Mientras más variables explicativas tenga el modelo, más alto es R2 !
Coeficiente de Determinación R2
• Uno no debe incluir en el modelo variables X que no estén realmente relacionadas con Y, sólo para hacer que el R2 sea alto.
• R es la corr(x,y) y es la raíz cuadrada de R2
� Recordemos que corr(x,y)=cov(x,y)/σxσy
IND3100 - Prof. Jorge Vera A ©2013
� Recordemos que corr(x,y)=cov(x,y)/σxσy
• El R2 ajustado modifica al R2 para tomar en cuenta el número de variables y el tamaño muestral
2 21Adjusted 1 (1 )
( 1)
nR R
n k
−= − −− +
Validación del modelo de regresión• Validar el modelo es verificar que se cumplen
efectivamente las hipótesis:
• 1) Linealidad. Es el supuesto estructural.
� Con dos variables, se puede hacer un gráfico
� Puede haber conocimiento adicional
� Verificar consistencia de signos de los bi
IND3100 - Prof. Jorge Vera A ©2013
� Verificar consistencia de signos de los bi
• 2) Normalidad de los residuos.
� Graficar los residuos y hacer un histograma
� Debería verse un comportamiento “normal”.
3) Heterocedasticidad: variación en la SD de los errore s
• ¿Tienen los residuos una SD constante? (i.e., SD(εi ) = σ para todo i?)
• Chequear gráfico de residuos vs. cada variables independiente
Residuos Residuos
Validación del modelo de regresión
Res
idua
ls
10.00
20.00
10.00
20.00
IND3100 - Prof. Jorge Vera A ©2013
No hay evidencia de heterocedasticidad
Se puede solucionar:• Haciendo una transformación (por ej. usar x2 en vez de x)• Agregando o eliminando variables independientes
Evidencia de heterocedasticidad
Publicidad
Res
idua
ls
-20.00
-10.00
0.00
0.0 1.0 2.0
-20.00
-10.00
0.000.0 1.0 2.0
Publicidad
4) Autocorrelación: ¿Hay independencia entre los residuos?
- Graficar los residuos para identificar patrones
Validación del modelo de regresión
Gráfico de tiempo
0
2
4
6
Res
iduo
s
Gráfico de tiempo
2
4
6
Res
iduo
s
IND3100 - Prof. Jorge Vera A ©2013
No hay evidencia de autocorrelación
•Autocorrelación podría presentarse si las observaciones tienen unorden secuencial natural, como por ejemplo, tiempo.•Se puede solucionar introduciendo una variable independiente (porej. tiempo propiamente tal).
Evidencia de autocorrelación
-6
-4
-2
00 5 10 15 20R
esid
uos
-4
-2
00 5 10 15 20
Res
iduo
s
Validación del modelo de regresión• En resumen:
• La validación es muy importante.
• Sólo una vez validado el modelo, y si presenta buenas características de ajuste, podríamos usarlo para explicar el fenómeno o hacer predicciones…
IND3100 - Prof. Jorge Vera A ©2013
predicciones…
• Y el R2 no es el único indicador de si el modelo es “bueno” o no.
0 X0 X
Residuos “sanos”
IND3100 - Prof. Jorge Vera A ©2013
0 X0 X
Residuos con varianza no constante
0 X0 X
IND3100 - Prof. Jorge Vera A ©2013
0 X0 X
0 X 0 X0 X0 X 0 X0 X
Residuos no independientes
IND3100 - Prof. Jorge Vera A ©2013
Posible solución: Insertar tiempo (secuencia) de las observaciones como una variable.
1) Sobre especificaciónIncluir muchas variables independientes que hagan al R2
artificialmente alto puede ser muy malo.Regla: deberíamos mantener n >= 5(k+2).
2) Extrapolar fuera del rango de los datos muestrales debe hacerse con cuidado
Aspectos importantes a considerar
IND3100 - Prof. Jorge Vera A ©2013
Publicidad
Ven
tas
del 1
er a
ño
0
30
60
90
120
0.0 1.0 2.0 3.0
3) Multicolinearidad
• Ocurre cuando dos variables independientes están altamentecorrelacionadas.
• Señales de multicolinearidad:
- Coeficientes de regresión (bi) tienen el signo equivocado
Aspectos importantes a considerar
IND3100 - Prof. Jorge Vera A ©2013
- Coeficientes de regresión (bi) tienen el signo equivocado- El agregar o borrar una variable independiente provoca grandes
cambios en los coeficientes- Coeficientes de regresión (bi) no significativamente diferentes de 0.
• La multicolinearidad altera la significancia de los estimadores.• Se corrige borrando variables independientes.
Student Graduate CollegeNumber GPA GPA GMAT
1 4,0 3,9 6402 4,0 3,9 6443 3,1 3,1 5574 3,1 3,2 5505 3,0 3,0 5476 3,5 3,5 5897 3,1 3,0 5338 3,5 3,5 6009 3,1 3,2 630
10 3,2 3,2 548
Ejemplo: rendimiento de estudiantes
IND3100 - Prof. Jorge Vera A ©2013
10 3,2 3,2 54811 3,8 3,7 60012 4,1 3,9 63313 2,9 3,0 54614 3,7 3,7 60215 3,8 3,8 61416 3,9 3,9 64417 3,6 3,7 63418 3,1 3,0 57219 3,3 3,2 57020 4,0 3,9 65621 3,1 3,1 57422 3,7 3,7 63623 3,7 3,7 63524 3,9 4,0 65425 3,8 3,8 633
R Square 0.96Standard Error 0.08Observations 25
Coefficients Standard ErrorIntercept 0.09540 0.28451College GPA 1.12870 0.10233GMAT -0.00088 0.00092
¿Qué pasó?
Graduate College GMATGraduate 1College 0.98 1GMAT 0.86 0.90 1
Ejemplo: Resultado de Regresión
IND3100 - Prof. Jorge Vera A ©2013
College GPA y GMATestán altamentecorrelacionadas
R Square 0.958Standard Error 0.08Observations 25
Coefficients Standard ErrorIntercept -0.1287 0.1604College GPA 1.0413 0.0455
GMAT 0.86 0.90 1
• En regresión lineal, seleccionamos los “mejores” coeficientes b0, b1, ... , bk como estimadores de β0, β1,…, βk .
• Sabemos que en promedio cada bj “apunta” a β j .
Calidad de los coeficientes
IND3100 - Prof. Jorge Vera A ©2013
• Sin embargo, queremos saber la confiabilidad de esosestimadores, tal como lo hicimos con la media muestral.
• Se puede mostrar que bajo supuestos de normalidad de los errores, los estimadores de los coeficientes siguen unadistribución t-student.
Volvamos al ejemploEstadísticas de la regresión
Coeficiente de
correlación múltiple 0,912693Coeficiente de
determinación R^2 0,833008
R^2 ajustado 0,787465
Error típico 17,600291
Observaciones 15,000000ANÁLISIS DE VARIANZA
Grados de
libertad
Suma de
cuadrados
Promedio
de los
cuadrados F
Valor
crítico de F
IND3100 - Prof. Jorge Vera A ©2013
libertad cuadrados cuadrados F crítico de F
Regresión 3 16997,537 5665,8455 18,2904763 0,0001388
Residuos 11 3407,4728 309,77026
Total 14 20405,009
Coeficientes Error típico
Estadístico
t Probabilidad
Inferior
95%
Superior
95%
Intercepción 65,7046 27,7311 2,3693 0,0372 4,6689 126,7403
advertising 48,9788 10,6579 4,5956 0,0008 25,5210 72,4366
promotions 59,6543 23,6247 2,5251 0,0282 7,6567 111,6519
competitor’s sales -1,8376 0,8138 -2,2582 0,0452 -3,6287 -0,0466
1) Grados de libertad (gl)
• Grados de libertad de los residuos = n - (k+1)
• Usamos (k + 1) gl para determinar (k+1) estimadores b0, b1, . . . , bk
2) Error estándar de los coeficientes: sb0 , sb1 , . . . , sbk
• Estos son las SD de los estimadores b0, b1, . . . , bk .
IC para los coeficientes
IND3100 - Prof. Jorge Vera A ©2013
• Hecho: Antes de observar b j y sbj, sabemos que
tiene una t-student con gl = (n - k - 1), los mismos gl que los residuos.
(estadístico t)j j
bj
b
s
β−
• ¿Cuál sería un IC al 95% para β j?
• El IC al α % para β j es:
(bj - c × sbj, bj + c × sbj ),
donde c es el valor para el cual
P(- c < T < c) = α %
y T tiene una distrib. t-student con gl = (n - k - 1)
IC para los coeficientes
IND3100 - Prof. Jorge Vera A ©2013
• Si en intervalo NO CONTIENE el 0, entonces podemos
concluir que βj es significativamente diferente a cero.
En el ejemplo :
b1 = 48.979, sb1= 10.658, gl = 15 - 3 - 1 = 11,
Un IC al 95% para β1 : (c= 2.201)(b1 - c × sb1, b1 + c × sb1)
IC para los coeficientes
IND3100 - Prof. Jorge Vera A ©2013
(48.979 - 2.201 × 10.658, 48.979 + 2.201 × 10.658) = (25.52, 72.44)
Además, para el valor del estadístico t : 4,5956, se puede buscar en la tabla de la distribución t cuál es el percentil al que corresponde:
Ese es el “nivel de significancia”, en este caso 1-0,0008=0,9992
Resumen, tenga cuidado con:• Linearidad: Gráfico, sentido común, conocer el
problema
• Signo de coeficientes: ¿Coinciden con la intuición?
• T-test: ¿Son los coeficientes significativamente diferentes de cero?
• R2: ¿Es razonablemente alto dado el contexto?
• Normalidad: Graficar un histograma de residuos
IND3100 - Prof. Jorge Vera A ©2013
• Normalidad: Graficar un histograma de residuos
• Heterocedasticidad: graficar residuos contra var. indep.
• Autocorrelación: graficar serie de tiempo de residuos
• Multicolineridad: Calcular correlaciones entre var. indep.
Otros tipos de modelos• Hemos visto modelos de estructura lineal.
• ¿Y si sospechamos o sabemos que la relación es no lineal…?
• Por ejemplo: en Marketing interesa estudiar la “densidad de venta” de una tienda: ventas/población, en función del “ingreso medio” de la población.
• Un modelo conocido es:
IND3100 - Prof. Jorge Vera A ©2013
• Para estimar los coeficientes se usas “Ingreso” e “Ingreso al cuadrado” como variables explicativas y el modelo es lineal en esas variables.
20 1 2_ ( ) ( )Densidad venta Ingreso Ingresoβ β β= + × + ×
Otros tipos de modelos• Otro ejemplo:
• Muchas veces la demanda por un producto se puede modelar como una función decreciente del precio:
• Donde β1 < 0.
10 ( )demanda precio ββ= ×
IND3100 - Prof. Jorge Vera A ©2013
• Donde β1 < 0.
• Si se dispone de datos de demanda y precio, la siguiente transformación “lineariza” el modelo:
• El modelo es ahora lineal en los logaritmos de la demanda y el precio….
0 1log( ) log( )demanda precioβ β= + ×
Variables “dummy”• Un taller de reparación de autos quiere explicar el costo
de la reparación de transmisión en función de la edad del auto.
Auto Edad
Costo
reparacion Transmision
1 3 956 Auto
2 4 839 manual
3 6 1257 manual
4 5 1225 Auto
5 4 1288 Auto
6 2 728 Auto
IND3100 - Prof. Jorge Vera A ©2013
6 2 728 Auto
7 4 961 manual
8 8 1588 Auto
9 7 1524 manual
10 4 875 manual
11 3 999 Auto
12 5 1295 Auto
13 3 884 manual
14 2 789 Auto
15 4 785 manual
16 3 923 Auto
17 4 1223 Auto
18 9 1770 manual
19 2 692 Auto
Variables “dummy”• El modelo de costo en función de edad entrega:
• R2 igual a 0,92
• Estadístico t para la edad igual a 9,47
• Pero podríamos postular un modelo en el que se agrega una variable “dummy” que vale 1 si hay transmisión automática y 0 si no…
IND3100 - Prof. Jorge Vera A ©2013
automática y 0 si no…
• Veamos la regresión en Excel…
• Ahora:
• R2 igual a 0,96, Estadístico t para la edad igual a 12,42 y el de la Dummy igual a 3,66, todos significativos al menos al 99%
Conclusión:• Los modelos de regresión son muy potentes y
usados en muchos ámbitos.� En márketing
� En Economía (econometría)
� En ciencias
� Etc…
IND3100 - Prof. Jorge Vera A ©2013
• Pero deben construirse sobre datos sólidos y debe tenerse cuidado con los resultados.
• La regresión sólo refleja relaciones numéricas entre los datos: la existencia de cuasalidad es una definición a posteriori…