UNIDAD II
ANÁLISIS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL SIMLE (MCRLS)
DR. ROGER ALEJANDRO BANEGAS RIVERO
1
Contenido
• El modelo de regresión lineal simple
• Gráficos de dispersión
• Estimación por mínimos cuadrados ordinarios
• Propiedades de los estimadores MCO
• Supuestos Gauss-Markov
• Insesgamiento
• Eficiencia
2
1. Regresión lineal simple Es un modelo matemático para predecir el efecto de una
variable sobre otra, ambas cuantitativas.
Una variable es la dependiente y otra la independiente
Se grafica con el diagrama de dispersión.
Dice cómo es la relación entre las dos variables.
El análisis consiste en encontrar la “mejor” línea recta de esos puntos.
Estadística Económica 2007-
2008. Sara Mateo.
Dadas dos variables X y Y tomadas sobre el mismo elemento de la población, el
diagrama de dispersión es simplemente un gráfico de dos dimensiones, donde
en un eje (la abscisa) se sitúa una variable, y en el otro eje (la ordenada) se sitúa
la otra variable. Si las variables están correlacionadas, el gráfico mostraría
algún nivel de correlación (tendencia) entre las dos variables. Si no hay ninguna
correlación, el gráfico presentaría una figura sin forma, una nube de puntos
dispersos en el gráfico.
GRÁFICOS DE DISPERSIÓN: Permite ver si hay asociación
Asociación
positiva. Si
aumenta X
aumenta Y
La relación entre dos variables métricas puede ser representada
mediante la línea de mejor ajuste a los datos. Esta recta se le denomina
recta de regresión, que puede ser negativa o positiva, la primera con
tendencia decreciente y la segunda creciente.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles.
GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN
y = Bo+ B1x
El modelo de regresión lineal
• La relación se puede representar gráficamente
mediante una línea recta.
Se supone que el error sigue una distribución
normal con media cero y varianza sigma2.
• El modelo de regresión completo es
uxy 10 Y es el valor de la variable dependiente
Bo es el intercepto, donde cruza el eje Y
B1 beta es la pendiente o inclinación
y = 0 + 1x + u
• donde y es la variable:
– Dependiente
– Explicada
– Resultado
– Respuesta
– Controlada
– Regresada
– Endógena
– Predicha
• u es:
– Residuo
– Término de error
– Término de perturbación
• mientras que x es la
variable:
– Independiente
– Explicativa
– Covariable
– Estímulo
– De control
– Regresor
– Exógena
– Predictora
• β0 y β1: parámetros o
coeficientes a estimar
8
1x 2x3x ix 1nx nx
1y
2y
3y
iy
1ny
ny
Intercepto
Pendiente Recta de regresión
ˆiy
ˆi i iu y y
yi
iii uxBBoy 1
3uiu
Error
Llamemos a “u” perturbación o error, siendo la diferencia que hay entre el
valor observado de la variable exógena (y) y el valor estimado que
obtendremos a través de la recta de regresión .
La metodología para la obtención de la recta será hacer MÍNIMA la suma de
los CUADRADOS de las perturbaciones. ¿Por qué se elevan al cuadrado?
2 2ˆ( )i i iu y y 2 2
1 1
ˆ( )n n
i i i
i i
u y y
22 2
, 1 1 1
ˆ( )minn n n
i i i i iq p i i i
xpu qy y y
ˆiy
ii xBBoy 1
Bo xiB1
2. Método de Mínimos Cuadrados Ordinarios
Vamos a deducir su ecuación usando el método de los mínimos cuadrados. Dado un valor de X,
tenemos los dos valores de Y, el observado, yi , y el teórico, yi* = βo + β1xi. Hemos de minimizar los
errores cometidos:
n
i
ii
n
i
ii
n
i
xBBoyxBBoyu1
22
11
211
El valor que hemos
aproximado para “y” con
la recta de regresión y*
Errores cometidos al
aproximar por una recta
MINIMI
ZAR
0121
012
i
i
ii
i
ii
xxBBoyB
u
xBBoyBo
u
xByBoxBynBoi
i
i
i 11
i i
ii
i
ii
i i i
ii
xBxBoyx
xBBoy
21
1
2
2
22
2
2
11
1
11
11
x
xy
xxy
i
i
i
ii
i i
ii
i
i
ii
i i
ii
i
ii
S
SBSBS
xnxBxnyyx
xBxnxBxn
yyx
xBxxByyx
2
21 u
Y
SR
S
Cuando solo exista una variable explicativa o
independiente y una sola dependiente se cumple:
2
2
22
2
xy
yx
xy
y
xy
x
xyr
SS
S
S
S
S
SR
Varianza residual: Ayuda a medir la dependencia.
Si es grande, los residuos, por término medio, serán
grandes. Dependencia pequeña y viceversa.
Varianza marginal: Es la varianza total de X o de Y. Si dividimos la
varianza residual entre esta se elimina el problema de unidades de
medida.
2yS
2xS
yy
u
VT
VR
S
S
2
2
Elevado al cuadrado obtenemos el coeficiente de determinación que sirve
como medida del buen ajuste de la recta de regresión
2R
Ayuda a determinar la
asociación pero en
sentido inverso. La mejor
medida es R.
Haciendo unas transformaciones se demuestra que r(xy) visto en
el capítulo 6 sólo es un caso particular de R Rrxy
Coeficiente de correlación general:
2
Estadística Económica 2007-
2008. Sara Mateo.
Para el caso de distribuciones bidimensionales: 2 2R r R r
2 21 1 1 1 0 1 0 1r R r R
2 2 2ˆ XY XY XY
i i i
X X X
S S Sy y x x y x x
S S S
2ˆ XY Y
i i i i
X
X Y Y
Y
Y
X Y X
X
X X
SS Sy y x x y x
S S S
S Sx y x
SS Sr
S Sx
Recta de regresión:
1 0r 0 1r 1r 1r 0r
Pendiente Negativa Positiva Nula
14
.
. .
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
u1
u2
u3
u4
x
y
Línea de regresión, observaciones y errores
E(y|x) = 0 + 1x
Sobre el estimador MCO de 1
• β1, es la covarianza muestral entre x y y, dividida entre la varianza muestral de x.
• Si x y y están correlacionados positivamente, β1 será positivo (pues la varianza del denominador siempre es positiva).
• Si x y y están correlacionados negativamente, β1 será negativo.
• Si x y y no tienen correlación alguna, β1 no será estadísticamente distinto de cero (volveremos a esto más tarde).
• Obviamente, se requiere que x tenga cierta varianza en la muestra.
15
MCO / OLS
• Intuitivamente, MCO ajusta una línea a través de los datos muestrales, de modo que la suma de residuales al cuadrado (SSR) sea la mínima posible: de ahí el término “mínimos cuadrados”.
• El residual, û, es un estimado del término de error entre lo observado y lo predicho, es decir, la diferencia entre la línea de regresión (fitted line) y el dato observado.
• Ver gráfica...
16
17
.
. .
.
y4
y1
y2
y3
x1 x2 x3 x4
}
}
{
{
û1
û2
û3
û4
x
y
Línea de regresión muestral, observaciones, y
residuales estimados
xy 10ˆˆˆ
Propiedades algebraicas de MCO / OLS
• Al minimizar los residuales cuadrados:
• La suma de los residuales de MCO será igual a cero.
• Por ende, la media muestral de los residuales será cero
también.
• La covarianza muestral entre las variables explicativas y
los residuales será cero.
• La línea de regresión de MCO siempre cruzará la media
de la muestra, ie, la media de x y la media de y.
18
Propiedades algebraicas (matemáticamente)
xy
(x,u) ux
n
u
u
n
i
ii
n
i
in
i
i
10
1
1
1
ˆˆ
0cov por tanto, 0ˆ
0
ˆ
por tanto, 0ˆ
19
Es decir, la solución de MCO es idéntica a la del método de
momentos.
3. Supuestos del modelo clásico
de regresión lineal (MCRL)
• La variable X o independiente o predictora (está bajo el control del investigador), la variable Y es la variable dependiente o predicha.
• Los valores de X son fijos (seleccionados previamente por el investigador).
• Para cada X, existe un conjunto de valores de Y, que deben seguir una distribución normal para aplicar con validez los procedimientos de inferencia y/o estimación.
• Todas las varianzas de las subpoblaciones de Y son iguales.
Normalidad en los residuos
• El valor promedio de u, el término de error, en
la población es = 0. Es decir,
E(u) = 0
• Este supuesto no es muy restrictivo puesto que
siempre podemos ajustar el intercepto b0 para
normalizar E(u) = 0
21
Media condicional = 0
• Hay un supuesto crucial sobre la relación entre el error y la variable explicativa: cov(x, u)
• Queremos que la información contenida en x sea independiente de la información contenida en u (ie, que no estén relacionados), de modo que:
• E(u|x) = E(u) = 0, lo cual implica:
• E(y|x) = b0 + b1x
22
23
.
.
x1 x2
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
E(y|x) = 0 + 1x
y
f(y)
Supuestos claves
• No existe heteroscedasticidad.
• No existe autocorrelación.
• El modelo se encuentra bien específicado.
Supuestos adicionales econométricos modernos:
• Las variables son estacionarias.
• Las variables pueden ser no estacionarias con verificación de relaciones de largo plazo.
24
Suma de cuadrados: Terminología
SSR SSE SST que implica cual Lo
SSR :cuadrados de Residual Suma la es ˆ
SSE :cuadrados de Explicada Suma la es ˆ
SST :cuadrados de Total Suma la es
:siguiente lodefinir podemos que modo De ˆˆ
:explicado no componenteun y co)(sistemáti explicado
componenteun en n observació cadaseparar Podemos
2
2
2
i
i
i
iii
u
yy
yy
uyy
25
SST es la suma de “desviaciones al cuadrado” de las observaciones de la
muestra: es proporcional, más no igual, a VAR(y).
Demostración: SST = SSE + SSR
SSE SSR
0 ˆˆ que sabemos comoy
SSE ˆˆ2 SSR
ˆˆˆ2ˆ
ˆˆ
ˆˆSST
22
2
22
yyu
yyu
yyyyuu
yyu
yyyyyy
ii
ii
iiii
ii
iiii
26
Bondad de ajuste: R2
• ¿Cómo saber qué tan bueno es el ajuste entre la línea de regresión y los datos de la muestra?
• Podemos calcular la proporción de la Suma de cuadrados totales (SST) que es “explicada” por el modelo.
• Esto es la llamada R-cuadrada de una regresión: R2 = SSE/SST = 1 – SSR/SST
27
4. Sesgo y eficiencia de MCO
• Dos características deseables de cualquier estimador estadístico son:
• Insesgamiento (unbiasedness): que el parámetro estimado sea, en promedio, igual al “verdadero” parámetro poblacional.
• Eficiencia (efficiency): que la varianza del estimador sea mínima (ie, máxima precisión).
• Así, buscamos estimadores con sesgo mínimo y máxima eficiencia (ie, mínima varianza).
• MCO cuenta con ambas propiedades bajo ciertas condiciones: los supuestos Gauss-Markov. (MCO son MELI)
28
Supuestos Gauss-Markov MELI:
Insesgamiento de MCO/OLS
1. El modelo poblacional es lineal en sus
parámetros: y = b0 + b1x + u
2. Muestra aleatoria de tamaño n, {(xi, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = b0 + b1xi + ui
3. Media condicional cero: E(u|x) = 0 y por tanto E(ui|xi) = 0
4. Varianza(xi ) > 0
29
Insesgamiento de MCO
• Para analizar el sesgo del estimador, necesitamos
reescribirlo en términos del parámetro poblacional.
• De modo que reescribimos la fórmula para b1 como:
22
21 donde ,ˆ
xxs
s
yxx
ix
x
ii
30
Insesgamiento de MCO (cont.)
iiiii
iiiii
iiiii
uxxxxxxx
uxxxxxxx
uxxxyxx
10
10
10
31
Sustituyendo para yi, el numerador de la expresión anterior puede
descomponerse como sigue:
desviaciones de x + n*var(x) +
n*cov(x,u)
Insesgamiento de MCO (cont.)
211
2
1
22
ˆ
tantolopor y ,
:así sereescribir puedenumerador el que modo de
y ,0
:que sabemos básica, aestadísticPor
x
ii
iix
xiii
i
s
uxx
uxxs
sxxxxx
xx
32
Insesgamiento de MCO (cont.)
1211
21
1ˆ
:esperado valor aplicamosy ,1ˆ
que modo de , definimos si ,Finalmente
iix
iix
i
ii
uEds
E
uds
xxd
33
El operador E(.) aplica a ui, el único componente aleatorio de la
expresión.
El valor esperado de la 1 estimada es el “verdadero” parámetro
poblacional—toda vez que los 4 supuestos Gauss-Markov se cumplan.
Insesgamiento: resumen
• Los estimadores MCO de 1 y 0 son insesgados.
• La demostración de esto depende de los 4 supuestos Gauss-Markov: si alguno de ellos no se cumple, MCO no necesariamente será insesgado.
• El insesgamiento es una propiedad del estimador muestral: dada cierta muestra, éste puede estar cerca o lejos del verdadero parámetro poblacional.
34
Varianza de los estimadores MCO
• Ya se observó que la “distribución muestral” de nuestro estimador está centrada en torno al “verdadero” parámetro.
• ¿Qué tan dispersa será la distribución del estimador?
• Para analizar esto, requerimos un supuesto Gauss-Markov adicional (el 5º): var(u|x) = s2
conocido como homoscedasticidad (homoskedasticity): varianza constante.
35
Varianza de MCO (cont.) • Por estadística sabemos que:
s2 = Var(u|x) = E(u2|x)-[E(u|x)]2
• Y como E(u|x) = 0, entonces: s2 = E(u2|x) = E(u2) = Var(u)
• De modo que s2 es la varianza no condicional de los residuales, también llamada varianza del error.
• s, la raíz cuadrada de la varianza del error, se conoce como la desviación estándar del error.
• Con lo cual podemos decir que:
• E(y|x)=b0 + b1x
• Var(y|x) = s2
36
37
.
.
x1 x2
Homoscedasticidad
E(y|x) = 0 + 1x
y
f(y|x)
38
.
x
f(y|x)
x1 x2 x3
. .
E(y|x) = 0 + 1x
Heteroscedasticidad
Varianza de MCO (cont.)
12
22
2
22
2
2
2222
2
2
2
2
2
2
2
211
ˆ1
11
11
1ˆ
Vars
ss
ds
ds
uVards
udVars
uds
VarVar
xx
x
ix
ix
iix
iix
iix
39
Varianza de MCO: resumen
• A mayor varianza del error, s2, mayor varianza del estimador de b1.
• A mayor varianza en xi, menor varianza del estimador de b1.
• Por ende, a mayor tamaño de muestra, n, menor varianza del estimador de b1.
• Pero ojo, la varianza del error es “desconocida”: necesitamos estimarla también.
40
Estimación de la varianza del error
iii xyu 10ˆˆˆ
41
• No conocemos la varianza del error, s2, porque no
observamos los errores de la población, ui
• Lo que observamos son los residuales (estimados) del
modelo muestral:
• Pero podemos usar los residuales estimados para
construir un estimador de la varianza del error.
Estimación de la varianza del error
2ˆ
2
1ˆ
:es de insesgadoestimador un que modo de
.eliminan.. se paréntesis ambos nto,insesgamiepor
ˆˆ
ˆˆ
para dosustituyeny ,ˆˆˆ
22
2
1100
1010
10
n
SSRu
n
xu
xux
yxyu
i
ii
iii
iiii
42
Estimación de la varianza del error
2
12
1
1
2
ˆˆse
:ˆ deestándar error el
tenemosentonces , de en vez ˆ ssustituimo si
ˆstd.dev :que recordemos
regresión la deestándar error ˆˆ
xx
s
i
x
43
Y, una vez que conocemos el error estándar de b1 estimada, podemos calcular
su intervalo de confianza y hacer pruebas de hipótesis.