Download pdf - Building Econometric Models...el capítulo 6 sólo es un caso particular de R r xy R Coeficiente de correlación general: 2 . Estadística Económica 2007-2008. Sara Mateo. ... R r

UNIDAD II

ANÁLISIS DEL MODELO CLÁSICO DE REGRESIÓN LINEAL SIMLE (MCRLS)

DR. ROGER ALEJANDRO BANEGAS RIVERO

1

Contenido

• El modelo de regresión lineal simple

• Gráficos de dispersión

• Estimación por mínimos cuadrados ordinarios

• Propiedades de los estimadores MCO

• Supuestos Gauss-Markov

• Insesgamiento

• Eficiencia

2

1. Regresión lineal simple Es un modelo matemático para predecir el efecto de una

variable sobre otra, ambas cuantitativas.

Una variable es la dependiente y otra la independiente

Se grafica con el diagrama de dispersión.

Dice cómo es la relación entre las dos variables.

El análisis consiste en encontrar la “mejor” línea recta de esos puntos.

Estadística Económica 2007-

2008. Sara Mateo.

Dadas dos variables X y Y tomadas sobre el mismo elemento de la población, el

diagrama de dispersión es simplemente un gráfico de dos dimensiones, donde

en un eje (la abscisa) se sitúa una variable, y en el otro eje (la ordenada) se sitúa

la otra variable. Si las variables están correlacionadas, el gráfico mostraría

algún nivel de correlación (tendencia) entre las dos variables. Si no hay ninguna

correlación, el gráfico presentaría una figura sin forma, una nube de puntos

dispersos en el gráfico.

GRÁFICOS DE DISPERSIÓN: Permite ver si hay asociación

Asociación

positiva. Si

aumenta X

aumenta Y

La relación entre dos variables métricas puede ser representada

mediante la línea de mejor ajuste a los datos. Esta recta se le denomina

recta de regresión, que puede ser negativa o positiva, la primera con

tendencia decreciente y la segunda creciente.

GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN

Para el cálculo de la recta de regresión se aplica el método de mínimos cuadrados entre dos variables. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles.

GRÁFICOS DE DISPERSIÓN / RECTA DE REGRESIÓN

y = Bo+ B1x

El modelo de regresión lineal

• La relación se puede representar gráficamente

mediante una línea recta.

Se supone que el error sigue una distribución

normal con media cero y varianza sigma2.

• El modelo de regresión completo es

uxy 10 Y es el valor de la variable dependiente

Bo es el intercepto, donde cruza el eje Y

B1 beta es la pendiente o inclinación

y = 0 + 1x + u

• donde y es la variable:

– Dependiente

– Explicada

– Resultado

– Respuesta

– Controlada

– Regresada

– Endógena

– Predicha

• u es:

– Residuo

– Término de error

– Término de perturbación

• mientras que x es la

variable:

– Independiente

– Explicativa

– Covariable

– Estímulo

– De control

– Regresor

– Exógena

– Predictora

• β0 y β1: parámetros o

coeficientes a estimar

8

1x 2x3x ix 1nx nx

1y

2y

3y

iy

1ny

ny

Intercepto

Pendiente Recta de regresión

îy

î i iu y y

yi

iii uxBBoy 1

3uiu

Error

Llamemos a “u” perturbación o error, siendo la diferencia que hay entre el

valor observado de la variable exógena (y) y el valor estimado que

obtendremos a través de la recta de regresión .

La metodología para la obtención de la recta será hacer MÍNIMA la suma de

los CUADRADOS de las perturbaciones. ¿Por qué se elevan al cuadrado?

2 2ˆ( )i i iu y y 2 2

1 1

ˆ( )n n

i i i

i i

u y y

22 2

, 1 1 1

ˆ( )minn n n

i i i i iq p i i i

xpu qy y y

îy

ii xBBoy 1

Bo xiB1

2. Método de Mínimos Cuadrados Ordinarios

Vamos a deducir su ecuación usando el método de los mínimos cuadrados. Dado un valor de X,

tenemos los dos valores de Y, el observado, yi , y el teórico, yi* = βo + β1xi. Hemos de minimizar los

errores cometidos:

n

i

ii

n

i

ii

n

i

xBBoyxBBoyu1

22

11

211

El valor que hemos

aproximado para “y” con

la recta de regresión y*

Errores cometidos al

aproximar por una recta

MINIMI

ZAR

0121

012

i

i

ii

i

ii

xxBBoyB

u

xBBoyBo

u

xByBoxBynBoi

i

i

i 11

i i

ii

i

ii

i i i

ii

xBxBoyx

xBBoy

21

1

2

2

22

2

2

11

1

11

11

x

xy

xxy

i

i

i

ii

i i

ii

i

i

ii

i i

ii

i

ii

S

SBSBS

xnxBxnyyx

xBxnxBxn

yyx

xBxxByyx

2

21 u

Y

SR

S

Cuando solo exista una variable explicativa o

independiente y una sola dependiente se cumple:

2

2

22

2

xy

yx

xy

y

xy

x

xyr

SS

S

S

S

S

SR

Varianza residual: Ayuda a medir la dependencia.

Si es grande, los residuos, por término medio, serán

grandes. Dependencia pequeña y viceversa.

Varianza marginal: Es la varianza total de X o de Y. Si dividimos la

varianza residual entre esta se elimina el problema de unidades de

medida.

2yS

2xS

yy

u

VT

VR

S

S

2

2

Elevado al cuadrado obtenemos el coeficiente de determinación que sirve

como medida del buen ajuste de la recta de regresión

2R

Ayuda a determinar la

asociación pero en

sentido inverso. La mejor

medida es R.

Haciendo unas transformaciones se demuestra que r(xy) visto en

el capítulo 6 sólo es un caso particular de R Rrxy

Coeficiente de correlación general:

2

Estadística Económica 2007-

2008. Sara Mateo.

Para el caso de distribuciones bidimensionales: 2 2R r R r

2 21 1 1 1 0 1 0 1r R r R

2 2 2ˆ XY XY XY

i i i

X X X

S S Sy y x x y x x

S S S

2ˆ XY Y

i i i i

X

X Y Y

Y

Y

X Y X

X

X X

SS Sy y x x y x

S S S

S Sx y x

SS Sr

S Sx

Recta de regresión:

1 0r 0 1r 1r 1r 0r

Pendiente Negativa Positiva Nula

14

.

. .

.

y4

y1

y2

y3

x1 x2 x3 x4

}

}

{

{

u1

u2

u3

u4

x

y

Línea de regresión, observaciones y errores

E(y|x) = 0 + 1x

Sobre el estimador MCO de 1

• β1, es la covarianza muestral entre x y y, dividida entre la varianza muestral de x.

• Si x y y están correlacionados positivamente, β1 será positivo (pues la varianza del denominador siempre es positiva).

• Si x y y están correlacionados negativamente, β1 será negativo.

• Si x y y no tienen correlación alguna, β1 no será estadísticamente distinto de cero (volveremos a esto más tarde).

• Obviamente, se requiere que x tenga cierta varianza en la muestra.

15

MCO / OLS

• Intuitivamente, MCO ajusta una línea a través de los datos muestrales, de modo que la suma de residuales al cuadrado (SSR) sea la mínima posible: de ahí el término “mínimos cuadrados”.

• El residual, û, es un estimado del término de error entre lo observado y lo predicho, es decir, la diferencia entre la línea de regresión (fitted line) y el dato observado.

• Ver gráfica...

16

17

.

. .

.

y4

y1

y2

y3

x1 x2 x3 x4

}

}

{

{

û1

û2

û3

û4

x

y

Línea de regresión muestral, observaciones, y

residuales estimados

xy 10ˆˆˆ

Propiedades algebraicas de MCO / OLS

• Al minimizar los residuales cuadrados:

• La suma de los residuales de MCO será igual a cero.

• Por ende, la media muestral de los residuales será cero

también.

• La covarianza muestral entre las variables explicativas y

los residuales será cero.

• La línea de regresión de MCO siempre cruzará la media

de la muestra, ie, la media de x y la media de y.

18

Propiedades algebraicas (matemáticamente)

xy

(x,u) ux

n

u

u

n

i

ii

n

i

in

i

i

10

1

1

1

ˆˆ

0cov por tanto, 0ˆ

0

ˆ

por tanto, 0ˆ

19

Es decir, la solución de MCO es idéntica a la del método de

momentos.

3. Supuestos del modelo clásico

de regresión lineal (MCRL)

• La variable X o independiente o predictora (está bajo el control del investigador), la variable Y es la variable dependiente o predicha.

• Los valores de X son fijos (seleccionados previamente por el investigador).

• Para cada X, existe un conjunto de valores de Y, que deben seguir una distribución normal para aplicar con validez los procedimientos de inferencia y/o estimación.

• Todas las varianzas de las subpoblaciones de Y son iguales.

Normalidad en los residuos

• El valor promedio de u, el término de error, en

la población es = 0. Es decir,

E(u) = 0

• Este supuesto no es muy restrictivo puesto que

siempre podemos ajustar el intercepto b0 para

normalizar E(u) = 0

21

Media condicional = 0

• Hay un supuesto crucial sobre la relación entre el error y la variable explicativa: cov(x, u)

• Queremos que la información contenida en x sea independiente de la información contenida en u (ie, que no estén relacionados), de modo que:

• E(u|x) = E(u) = 0, lo cual implica:

• E(y|x) = b0 + b1x

22

23

.

.

x1 x2

E(y|x) es una funcion lineal de x: para cada x,

la predicción de y es E(y|x)

E(y|x) = 0 + 1x

y

f(y)

Supuestos claves

• No existe heteroscedasticidad.

• No existe autocorrelación.

• El modelo se encuentra bien específicado.

Supuestos adicionales econométricos modernos:

• Las variables son estacionarias.

• Las variables pueden ser no estacionarias con verificación de relaciones de largo plazo.

24

Suma de cuadrados: Terminología

SSR SSE SST que implica cual Lo

SSR :cuadrados de Residual Suma la es ˆ

SSE :cuadrados de Explicada Suma la es ˆ

SST :cuadrados de Total Suma la es

:siguiente lodefinir podemos que modo De ˆˆ

:explicado no componenteun y co)(sistemáti explicado

componenteun en n observació cadaseparar Podemos

2

2

2

i

i

i

iii

u

yy

yy

uyy

25

SST es la suma de “desviaciones al cuadrado” de las observaciones de la

muestra: es proporcional, más no igual, a VAR(y).

Demostración: SST = SSE + SSR

SSE SSR

0 ˆˆ que sabemos comoy

SSE ˆˆ2 SSR

ˆˆˆ2ˆ

ˆˆ

ˆˆSST

22

2

22

yyu

yyu

yyyyuu

yyu

yyyyyy

ii

ii

iiii

ii

iiii

26

Bondad de ajuste: R2

• ¿Cómo saber qué tan bueno es el ajuste entre la línea de regresión y los datos de la muestra?

• Podemos calcular la proporción de la Suma de cuadrados totales (SST) que es “explicada” por el modelo.

• Esto es la llamada R-cuadrada de una regresión: R2 = SSE/SST = 1 – SSR/SST

27

4. Sesgo y eficiencia de MCO

• Dos características deseables de cualquier estimador estadístico son:

• Insesgamiento (unbiasedness): que el parámetro estimado sea, en promedio, igual al “verdadero” parámetro poblacional.

• Eficiencia (efficiency): que la varianza del estimador sea mínima (ie, máxima precisión).

• Así, buscamos estimadores con sesgo mínimo y máxima eficiencia (ie, mínima varianza).

• MCO cuenta con ambas propiedades bajo ciertas condiciones: los supuestos Gauss-Markov. (MCO son MELI)

28

Supuestos Gauss-Markov MELI:

Insesgamiento de MCO/OLS

1. El modelo poblacional es lineal en sus

parámetros: y = b0 + b1x + u

2. Muestra aleatoria de tamaño n, {(xi, yi): i=1, 2, …, n}, representativa de la población, de modo que el modelo muestral es: yi = b0 + b1xi + ui

3. Media condicional cero: E(u|x) = 0 y por tanto E(ui|xi) = 0

4. Varianza(xi ) > 0

29

Insesgamiento de MCO

• Para analizar el sesgo del estimador, necesitamos

reescribirlo en términos del parámetro poblacional.

• De modo que reescribimos la fórmula para b1 como:

22

21 donde ,ˆ

xxs

s

yxx

ix

x

ii

30

Insesgamiento de MCO (cont.)

iiiii

iiiii

iiiii

uxxxxxxx

uxxxxxxx

uxxxyxx

10

10

10

31

Sustituyendo para yi, el numerador de la expresión anterior puede

descomponerse como sigue:

desviaciones de x + n*var(x) +

n*cov(x,u)


211

2

1

22

ˆ

tantolopor y ,

:así sereescribir puedenumerador el que modo de

y ,0

:que sabemos básica, aestadísticPor

x

ii

iix

xiii

i

s

uxx

uxxs

sxxxxx

xx

32


1211

21

1ˆ

:esperado valor aplicamosy ,1ˆ

que modo de , definimos si ,Finalmente

iix

iix

i

ii

uEds

E

uds

xxd

33

El operador E(.) aplica a ui, el único componente aleatorio de la

expresión.

El valor esperado de la 1 estimada es el “verdadero” parámetro

poblacional—toda vez que los 4 supuestos Gauss-Markov se cumplan.

Insesgamiento: resumen

• Los estimadores MCO de 1 y 0 son insesgados.

• La demostración de esto depende de los 4 supuestos Gauss-Markov: si alguno de ellos no se cumple, MCO no necesariamente será insesgado.

• El insesgamiento es una propiedad del estimador muestral: dada cierta muestra, éste puede estar cerca o lejos del verdadero parámetro poblacional.

34

Varianza de los estimadores MCO

• Ya se observó que la “distribución muestral” de nuestro estimador está centrada en torno al “verdadero” parámetro.

• ¿Qué tan dispersa será la distribución del estimador?

• Para analizar esto, requerimos un supuesto Gauss-Markov adicional (el 5º): var(u|x) = s2

conocido como homoscedasticidad (homoskedasticity): varianza constante.

35

Varianza de MCO (cont.) • Por estadística sabemos que:

s2 = Var(u|x) = E(u2|x)-[E(u|x)]2

• Y como E(u|x) = 0, entonces: s2 = E(u2|x) = E(u2) = Var(u)

• De modo que s2 es la varianza no condicional de los residuales, también llamada varianza del error.

• s, la raíz cuadrada de la varianza del error, se conoce como la desviación estándar del error.

• Con lo cual podemos decir que:

• E(y|x)=b0 + b1x

• Var(y|x) = s2

36

37

.

.

x1 x2

Homoscedasticidad

E(y|x) = 0 + 1x

y

f(y|x)

38

.

x

f(y|x)

x1 x2 x3

. .

E(y|x) = 0 + 1x

Heteroscedasticidad

Varianza de MCO (cont.)

12

22

2

22

2

2

2222

2

2

2

2

2

2

2

211

ˆ1

11

11

1ˆ

Vars

ss

ds

ds

uVards

udVars

uds

VarVar

xx

x

ix

ix

iix

iix

iix

39

Varianza de MCO: resumen

• A mayor varianza del error, s2, mayor varianza del estimador de b1.

• A mayor varianza en xi, menor varianza del estimador de b1.

• Por ende, a mayor tamaño de muestra, n, menor varianza del estimador de b1.

• Pero ojo, la varianza del error es “desconocida”: necesitamos estimarla también.

40

Estimación de la varianza del error

iii xyu 10ˆˆˆ

41

• No conocemos la varianza del error, s2, porque no

observamos los errores de la población, ui

• Lo que observamos son los residuales (estimados) del

modelo muestral:

• Pero podemos usar los residuales estimados para

construir un estimador de la varianza del error.


2ˆ

2

1ˆ

:es de insesgadoestimador un que modo de

.eliminan.. se paréntesis ambos nto,insesgamiepor

ˆˆ

ˆˆ

para dosustituyeny ,ˆˆˆ

22

2

1100

1010

10

n

SSRu

n

xu

xux

yxyu

i

ii

iii

iiii

42


2

12

1

1

2

ˆˆse

:ˆ deestándar error el

tenemosentonces , de en vez ˆ ssustituimo si

ˆstd.dev :que recordemos

regresión la deestándar error ˆˆ

xx

s

i

x

43

Y, una vez que conocemos el error estándar de b1 estimada, podemos calcular

su intervalo de confianza y hacer pruebas de hipótesis.