T opicos de Econometr a: Microeconometr a · 2019-09-25 · El problema de la regresi onI Asuma que se dispone de un vector de p variables predictoras X 2Rp y una variable de respuesta

Topicos de Econometrıa: Microeconometrıa

Karoll [email protected]

http://karollgomez.wordpress.com

Segundo semestre 2019

II. Metodos de estimacion eneconometrıa

El problema de la regresion I

• Asuma que se dispone de un vector de p variables predictorasX ∈ Rp y una variable de respuesta Y ∈ R.

• Supongase (X ,Y ) distribuyen conjuntamente acorde conP(X ,Y ) con medias E(X ) = µX y E(Y ) = µY , y covarianzasΣXX , ΣYY = σ2

Y , y ΣXY .

• Considerese ahora el problema de predecir a la variable Y pormedio de una funcion de X , f (X ).

• La precision de la prediccion es medida por medio de una funcionde valor real funcion de perdida

L(Y , f (X )).

• La calidad de f como predictor es medida por medio de laperdida esperada (conocida como funcion de riesgo),

R(f ) = E [L(Y , f (X ))] =

∫L(Y , f (X ))dP(X ,Y ).

El problema de la regresion II

• Para una funcion de riesgo L(Y , f (X )) = (Y − f (X ))2 (errorcuadratico medio),

R(f ) = E[(Y − f (X ))2

]=

∫(y − f (x))2dP(x , y)

=

∫(y − f (x))2dP(y |x)dP(x)

= EX[EY |X

[(Y − f (X ))2|X

]].

• R(f ) puede minimizarse en cada punto x ,

m(x) = arg minf : Rp→R

EY |X[(Y − f (X ))2|X = x

]

El problema de la regresion III

Cuya solucion es la media condicional (o funcion de regresion),

m(x) = E(Y |X = x) =

∫ydP(y |x)

En efecto

E[(Y − f (X ))2

]= E

[(Y −m(X )− (f (X )−m(X ))2

]= E

[(Y −m(X ))2

]+ E

[(f (X )−m(X ))2

]− 2E [(Y −m(X )(f (X )−m(X ))]

= E[(Y −m(X ))2

]+ E

[(f (X )−m(X ))2

],

El problema de la regresion IV

teniendo en cuenta que

E [(Y −m(X )(f (X )−m(X ))]

= E {E [(Y −m(X ))(f (X )−m(X ))|X = x ]}= E {E [(Y −m(X ))|X = x ] (f (X )−m(X ))}= E {(E [Y |X = x ]−m(X ))(f (X )−m(X ))}= E {(m(X )−m(X ))(f (X )−m(X ))}= 0

Ası, el primer termino en

E[(Y − f (X ))2

]= E

[(Y −m(X ))2

]+ E

[(f (X )−m(X ))2

]no depende de f (X ), por lo tanto minimizar el riesgo equivale aminimizar E

[(f (X )−m(X ))2

], que es cero si f (X ) = m(X ).

El problema de la regresion V

Ejemplo:

• Si Y es linealmente relacionada con X = (X1, . . . ,Xp)>

entonces,

Y = f (X ,β) + ε

= X>β + ε

=

p∑j=1

βjXj + ε,

donde ε es una variable aleatoria no observada (componente deerror) con media 0 y varianza σ2 > 0, e independiente de X .

El problema de la regresion VI

• Otro modelo lineal es cuando las variablesX = (Yt − 1, . . . ,Yt − p)> son p rezagos de la variabledependiente

Y = f (X ,β) + ε

= X>β + ε

=

p∑j=1

βjYt − j + ε,

Este modelo se comoce como autoregresivo de orden p, AR(p).

Estimation methods

Estimation methods

Ordinary Least SquaredIdentification and estimation

2.1 Least squared estimation:

Estimation methods

Estimation methods

Example: cross-section iid data

yi = x>i β + εi , i = 1, . . . , (n > p)

Then,

SCE(β) =n∑

i=1

ε2i

=n∑

i=1

(yi − x>i β)2

= (y − Xβ)>(y − Xβ)

=(y> − β>X>

)(y − Xβ)

= y>y − β>X>y − y>Xβ + β>X>Xβ

= y>y − 2y>Xβ + β>X>Xβ.

• Knowing that

∂(a>z)

∂z= a y

∂(z>Az)

∂z= 2Az para A simetrica,

then, taking difference w.r.t. β we have

∂SCE(β)

∂β= −2X>y + 2X>Xβ.

Making equal to 0 ew obtaint a set of p normal equations

X>Xβ = X>y .

Asumiming Rango(X ) = p, the unique solution is given by

b = β =(X>X

)−1X>y

=

(n∑

i=1

x ix>i

)−1 n∑i=1

x iyi .

Estimation methods

Estimation methods

Remarks:

I The strict exogeneity assumption cannot hold, since that would requirethat εt is independent of all values of the regressor, past, present andfuture.

I However, we can guarantie weak dependence: in general E [ε′X ] = 0must be hold, and here Xt−1 is not correlated with εt .

I For weak dependence to hold, the stability condition | φ |< 1 must besatisfied.

I The ”first order”nature of the AR(1) model: once the first lag of X isincluded, no additional lags of X affect the expected value of X in thislinear relationship.

Estimation methods

Remarks:

I To use standard inference procedures, we must impose assumptions ofhomoskedasticity and no serial correlation on the error process. Herewe include contemporaneous homoskedasticity and serial independence.

I This implies that the usual OLS standard errors, t statistics and Fstatistics are asymptotically valid.

Maximum Likelihood

2.2 Maximun Likelihood estimation:

Estimation methods

Estimation methods

Example: Linear model

Estimation methods

Estimation methods I

Another way to write the problem:

� The likelihood function

L(y | x ,β, σ2) =n∏

i=1

1

(2πσ2)1/2exp

{− 1

2σ2ε2i

}

=1

(2πσ2)n/2exp

{− 1

2σ2

n∑i=1

ε2i

}

=1

(2πσ2)n/2exp

{− 1

2σ2ε>ε

}.

Estimation methods II

� The log-likelihhod function

L(y | x ,β, σ2) =n∑

i=1

log

(1

(2πσ2)1/2exp

{− 1

2σ2ε2i

})= −n

2log(2π)− n

2log(σ2)− 1

2σ2(y − Xβ)>(y − Xβ)

= −n

2log(2π)− n

2log(σ2)− 1

2σ2SCEn(β).

� Given that log L(β, σ2) is a function of β throught the sum ofthe sum of the squared errors SCEn(β); maximize the likelihoodfunction is identical to minimize the sum of the squared errorsSCEn

βMV = βMCO.

Estimation methods III

� The FOC:

∂ log L(y | x ,β, σ2)

∂β=

n

σ2X>(y − Xβ) = 0

and

∂ log L(y | x ,β, σ2)

∂σ2= − n

2σ2+

1

2σ4(y − Xβ)>(y − Xβ) = 0.

� Assuming thatl Rango(X ) = p, the unique solution is gven by

βMV =(X>X

)−1X>y = β

σ2 =1

ne>e =

(n − p)

nS2.

Estimation methods IV

� The second order conditions

H =

∂2 log L

∂β∂β>∂2 log L∂β∂σ2

∂2 log L

∂σ2β>∂2 log L∂(σ2)2

=

(− 1σ2 X>X − 1

σ4 X>ε− 1σ4ε>X n

2σ4 − 1σ6ε>ε

).

negative semidefine.

� The asymptotic covariance (Cramer-Rao quote or informationmatrix)

{I(β, σ2)

}−1=[−E(H(β, σ2))

]−1=

σ2(X>X

)−10

0> 2σ4

n

.

Estimation methods

Estimation methods

Estimation methods

Estimation methods

Method of Moments

2.3 Method of Moments:

Metodo de los momentos I

Definicion:Para un entero positivo k, el k-esimo momento poblacional de unavariable aleatoria U con f.p.m. o f.d.p. f (u,θ), θ ∈ Θ ⊂ Rp, es

µk = E(Uk)

=

{∑u u

k f (u,θ), U discreta∫u u

k f (u,θ), U continua.

Con base en una muestra aleatoria U1, . . . ,Un, el respectivo k-esimomomento muestral esta dado por

mk =1

n

n∑i=1

Uki .

Ejemplos:

X Para k = 1, µ1 = E(U), y m1 = n−1∑n

i=1 Ui = U.

X Para k = 2, µ2 = E(U2) = µ2 − µ21, y m2 = n−1

∑ni=1 U

2i .

Metodo de los momentos II

Definicion:Sea U1, . . . ,Un una m.a. con f.p.m. o f.d.p. f (u,θ), conθ ∈ Θ ⊂ Rp desconocido.

El estimador de momentos θMM se obtiene igualando los primeros pmomentos poblacionales con los respectivos momentos muestrales, yluego resolver para θ. Esto es, resolver

µ1 = E(U) =1

n

∑n

i=1Ui = m1

µ2 = E(U2) =1

n

∑n

i=1U2i = m2

......

......

µp = E(Up) =1

n

∑n

i=1Upi = mp,

donde los momentos poblacionales son funciones de θ, µk(θ).

Metodo de los momentos III

Ejemplo 1: Media poblacional

• Estimacion de la media poblacional de una v.a. i.i.d. Y conmedia µ.

E(Y ) = µ −→ E(Y − µ) = 0.

Reemplazando el operador E(·) por el promedio n−1∑n

i=1 parala muestra Y1, . . . ,Yn, se tiene que

1

n

n∑i=1

(Yi − µ) = 0.

Resolviendo para µ, el estimador de momentos es

µMM =1

n

n∑i=1

Yi = Y .

Metodo de los momentos IV

Ejemplo 2: Estimacion del modelo de regresion lineal multiple.

Dado que E (ε|x) = 0, la condicion de momentos incondicional es

E(x>ε

)= E

[x>(y − x>β

)]= 0.

El estimador es la solucion a la condicion de momentos muestral

1

n

n∑i=1

x i

(yi − x>i β

)= 0.

Resolviendo para β se tiene que

βMM =

(n∑

i=1

x ix>i

)−1 n∑i=1

x iyi .

Ası, βMCO es una caso particular del metodo de los momentos.

Estimation methods

In the time-series context:

Estimation methods

Estimador GMM I

2.4 Generalized Method of Moments:

Definicion: Sea θ un vector p × 1 desconocido, w i un vector dev.a.’s, y h(·) un vector r × 1 de funciones, r ≥ p. La condicion demomentos poblacional toma la forma

E [h (w i ,θ)] = 0, para todo i = 1, . . . , n,

donde el respectivo momento muestral esta dado por

1

n

n∑i=1

h (w i ,θ) .

• La forma funcional de h(·) depende del modelo especificado.X Media poblacional: h (w, θ) = Y − µ, donde w = Y y θ = µ.

X MCO: h (w, θ) = x(y − x>β), donde w = (y, x) y θ = β.X MV: h (w, θ) = ∂ log f (w, θ) /∂θ, donde f (·) es la f.d.p.

X IV: h (w, θ) = z(y − x>β), donde w = (y, x, z) y θ = β.

Estimador GMM II

Definicion: El estimador del metodo de momentos generalizadobasado en E [h (w i ,θ)] = 0 es el valor de θ que minimiza

Qn(θ) =

{1

n

n∑i=1

h (w i ,θ)

}>W n

{1

n

n∑i=1

h (w i ,θ)

},

donde W n es una matriz r × r simetrica y definida positiva.

Esto es,

θGMM = arg minθ∈Θ

Qn(θ),

• Diferentes elecciones de W n conllevan a diferentes estimadoresque, aunque consistentes, tienen diferente varianza si r > p.

Estimador GMM III

• Si r = p, entonces E [h (w i ,θ)] = 0 es reemplazada por

1

n

n∑i=1

h (w i ,θ) = 0.

Por lo tanto, el estimador de momentos θMM es la solucion a

1

n

n∑i=1

h(w i , θMM

)= 0,

que equivalente a minimizar Qn(θ) con W n = I n.

Estimador GMM IV

• Si r > p, el sistema n−1∑n

i=1 h (w i ,θ) = 0 essobre-identificado, y tiene multiples soluciones.

En su lugar, θ es elegido tal que la forma cuadratica den−1

∑ni=1 h(w i , θ) sea suficientemente cercana a 0. Esto es,

θGMM = arg minθ∈Θ

Qn(θ),

Diferenciando Qn(θ) con respecto a θ rinde las c.p.o.

∂Qn(θ)

∂θ=

{1

n

n∑i=1

∂h(w i , θ)

∂θ

}>W n

{1

n

n∑i=1

h(w i , θ)

}= 0.

Estimador GMM V

La formula anterior de ∂Qn(θ)/∂θ es resultado de la proposicion:

Proposicion. Sea la forma cuadratica Q = p>Wp, donde p es unvector r × 1 funcion de un vector p × 1, θ, y W una matrizsimetrica. Entonces,

∂Q

∂θ= 2

(∂p∂θ

)>Wp.

Estimation methods

Estimation methods

Estimation methods

Endogeneidad I

2.4.1 El problema de la endogeneidad

• Una complicacion, comun en aplicaciones microeconomicas, es laposibilidad de tener estimadores inconsistentes debido a lapresencia de regresores endogenos.

• Los regresores endogenos se dan cuando algunos de los regresoresen x estan correlacionados con el error ε. Esto es, cuando

E (εi |x i ) 6= 0,

implicando que

E (x iεi ) = E [E (x iεi |x i )] = E [x iE(εi |x i )] 6= 0.

Endogeneidad II

• Algunos ejemplos que generan este problema son:

X Omision de variablesX SimultaneidadX Errores de medicion en los regresoresX Sesgos de seleccion muestral.

Veamos algunos de ellos:

X Simultaneidad: ocurre cuando dos o mas variables endogenasestan conjuntamente determinadas por un sistema de ecuacionessimultaneas.

Considerese el modelo de demanda-oferta

qd = γdp + X dβd + εd , E(εd) = 0, Var(εd) = σ2d

qs = γsp + X sβs + εs , E(εs) = 0, Var(εs) = σ2s

q = qd = qs , Cov(εd , εs) = 0,

Endogeneidad III

donde qd , qs y p son las cantidades demandada y ofrecida, y elprecio, respectivamente; y X d y X s son matrices de variablesexogenas que afectan la demanda y oferta, respectivamente.

Matricialmente, el modelo se expresa como(1 −γd1 −γs

)(qp

)=

(X dβd

X sβs

)+

(εdεs

).

La solucion, si el det

(1 −γd1 −γs

)= γd − γs 6= 0, esta dada por

(qp

)=

(1 −γd1 −γs

)−1 [(X dβd

X sβs

)+

(εdεs

)]=

1

γd − γs

(−γs γd−1 1

)[(X dβd

X sβs

)+

(εdεs

)].

Endogeneidad IV

Esto es:

q =1

γd − γs(γd · X sβs − γs · X dβd) +

1

γd − γs(γdεs − γsεd) ,

p =1

γd − γs(X sβs − X dβd) +

1

γd − γs(εs − εd)

Notese que el precio p esta correlacionado con εd y εs ,

Cov(p, εd) =−σ2

d

γd − γsCov(p, εs) =

σ2s

γd − γs.

Endogeneidad V

X Errores en las variables: algunas variables son medidas con error.

Considerese el modelo

yi = β1 + β2xi + εi , εi ∼ i.i.d.(0, σ2ε)

xi = xi + υi , υi ∼ i.i.d.(0, σ2υ), E(εiυi ) = 0

Por lo tanto,

yi = β1 + β2xi + εi + β2υi

= β1 + β2xi + ξi , ξi = εi + β2υi ,

obteniendo que Var(ξi ) = σ2ε + β2

2σ2υ, y

E(ξi |xi ) = E(ξi |υi ) = E(εi + β2υi |υi )= E(εi |υi ) + β2E(υi |υi )= β2υi 6= 0.

Endogeneidad VI

Por lo tanto,

Cov(xi , ξi ) = E(xiξi ) = E [E(xiξi |xi )]

= E [xiE(ξi |xi )]

= E(xi · β2υi )

= E [(xi − υi ) · β2υi )]

= β2xiE(υi )− β2E(υ2i )

= −β2σ2υ

{> 0, si β2 < 0

< 0, si β2 > 0.

Variable instrumental I

2.4.2 Variable instrumental

• Considere el modelo de regresion lineal

yi = x>i β + εi ,

donde cada componente de x i es visto como un regresor exogenosi este esta incorrelacionado con el error εi , i.e. E (x iεi ) = 0.

• Si todos los regresores son exogenos entonces el estimadorβ =

(X>X

)−1X>y , puede usarse.

• En particular, se sabe que β es consistente para β,

β = β +

(1

n

n∑i=1

x ix>i

)−11

n

n∑i=1

x iεi

P−→ β + Σ−1x ,x0 = β,

Variable instrumental II

si n−1∑n

i=1 x iεiP−→ 0 (dado que E (x iεi ) = 0), y

n−1∑n

i=1 x ix>iP−→ Σx ,x .

• Ası, si cualquiera de los componentes en x i son endogenos,E (x iεi ) 6= 0, entonces β es inconsistente para β.

• Un metodo de solucion al problema de obtencion de estimadoresinconsistentes es por medio del metodo de variable instrumental.

• El supuesto clave del metodo es la existencia de un vector r × 1de instrumentos z cumpliendo que:

X z este incorrelacionado con el error ε. Esto es

E (ε|z) = 0 restriccion de momentos condicional.

X z este correlacionado con x .

• La restriccion de momentos condicional implica (por ley deexpectativas iteradas) que

E (z iεi ) = E [E (z iεi |z i )] = E [z iE (εi |z i )] = 0

Variable instrumental III

• Si algunos elementos de x no estan correlacionados con ε,entonces estos pueden tambien aparecer en z .

• Dado que εi = yi − x>i β, la restriccion de momentos poblacional

E (z iεi ) = E[z i

(yi − x>i β

)]= 0,

o matricialmente,

E(Z>ε

)= E

[Z> (y − Xβ)

]= 0,

constituye un sistema de r ecuaciones simultaneas.

Variable instrumental IV

Condiciones de identificacion:

• Condicion de rango para identificacion: Existe una unica soluciondel sistema de ecuaciones sı

Rango[E(z ix>i

)]= Rango

[E(Z>X

)]= p.

Esto es, asegura que z es suficientemente correlacionada con x ,y que la solucion del sistema es factible.

• Condicion de orden para identificacion: Sı r < p, entoncesRango

[E(z ix>i

)]< p. Por lo tanto, una condicion necesaria

para la identificacion es que

r ≥ p.

Variable instrumental V

• Por lo tanto, el sistema es:

X Sobre-identificado si Rango[E(z ix>i

)]= p y r > p.

X Exactamente identificado si Rango[E(z ix>i

)]= p y r = p.

X Sub-identificado (no identificado) sı r < p.

• Hallar instrumentos apropiados puede ser facil en algunos casos,pero extremadamente difıcil en otros. Muchas controversiasempıricas se dan sobre si ciertos instrumentos son validos.

• Malos instrumentos implican mala informacion y, por lo tanto,baja eficiencia.

Variable instrumental VI

Ejemplo: Sistema exactamente identificado

• Asumiendo que el sistema es exactamente identificado, lasolucion unica esta dada por el estimador de variableinstrumental

βIV =(Z>X

)−1Z>y

=

(n∑

i=1

z ix>i

)−1 n∑i=1

z iyi .

• βIV es consistente y asintoticamente normal.

• Si Z = X , entonces βIV = βMCO

Variable instrumental VII

Ejemplo: Sistema sobreidentificado

• Sı r > p, el sistema puede no tener una unica solucion. En estecaso el metodo de los momentos generalizado es usado.

• El estimador GMM en su lugar elige β de modo que el vector

1

n

n∑i=1

z i

(yi − x>i β

),

sea tan pequeno como sea posible, usando una funcion dedistancia cuadratica tal que βGMM minimice

Qn(β) =

{1

n

n∑i=1

z i

(yi − x>i β

)}>W n

{1

n

n∑i=1

z i

(yi − x>i β

)},

donde W n es una matriz r × r simetrica y definida positiva.

Aplicacion I

En particular, se tiene que:

• la ecuacion de momentos es

h (w i ,θ) = z i (yi − x>i β),

por lo tanto

Qn(β) =

{1

n

n∑i=1

z i

(yi − x>i β

)}>W n

{1

n

n∑i=1

z i

(yi − x>i β

)}

=

{1

nZ>(y − Xβ)

}>W n

{1

nZ>(y − Xβ)

}.

Aplicacion II

• Ahora, por la proposicion anterior, y dado que

∂h(w i ,θ)

∂θ=∂Z>(y − Xβ)

∂β= −Z>X ,

se tiene que

∂Qn(β)

∂β= −2

{1

nZ>X

}>W n

{1

nZ>(y − Xβ)

}= −2

{1

nX>Z

}W n

{1

nZ>(y − Xβ)

}= 0.

• De modo que(X>ZW nZ>X

)β = X>ZW nZ>y .

Aplicacion III

• Por lo tanto, si X>ZW nZ>X es invertible, el estimador GMMes

βGMM =(X>ZW nZ>X

)−1X>ZW nZ>y ,

con matriz de covarianza

Cov(βGMM

)= σ2

(X>ZW nZ>X

)−1X>ZW nZ>ZW nZ>X

×(X>ZW nZ>X

)−1.

• Si r = p, Z>X =∑n

i=1 z ix>i es cuadrada e invertible, entonces,

βGMM =(Z>X

)−1Z>y

=

(n∑

i=1

z ix>i

)−1 n∑i=1

z iyi = βIV = βMM

GMM Eficiente I

El estimador GMM optimo o eficiente puede obtenerse usando unprocedimiento de dos etapas (estimador GMM en dos etapas).

1. Obtener un estimador GMM θ usando una eleccion suboptimade W n, por ejemplo W n = I por simplicidad, y estimar S ,

S =1

n

n∑i=1

h(w i , θ)h>(w i , θ).

2. Hallar el estimador GMM optimo usando W n = S−1

. Esto es, elestimador θOGMM que minimize

Qn(θ) =

{1

n

n∑i=1

h (w i ,θ)

}>S−1

{1

n

n∑i=1

h (w i ,θ)

}.

GMM principio unificador de estimacion I

2.4.3 GMM como un principio unificador de estimacion

• Multiples estimadores son obtenidos por medio de la optimizacion(estimadores M) de una funcion escalar de la forma

n∑i=1

Ni (θ), θ ∈ Θ ∈ Rp.

• Sı Ni (θ) es diferenciable, entonces θ resuelve las c.p.o.

n∑i=1

∂Ni

(θ)

∂θ= 0.

• Esta ecuacion implica que θ es equivalente al estimador de momentosbasado en la condicion de momentos poblacional

E

[∂Ni (θ)

∂θ

]= 0.

GMM principio unificador de estimacion II

Casos particulares:

X Estimador MCO del modelo de regresion lineal.

Se sabe que el estimador de β esta dado por

βMCO = arg minβ∈Rp

n∑i=1

(yi − x>i β

)2−→ Ni (β) =

(yi − x>i β

)2.

Por lo tanto,

n∑i=1

∂Ni

(β)

∂β=

1

n

n∑i=1

x i

(yi − x>i β

)= 0.

De modo que la respectiva condicion de momentos poblacionales

E[x i

(yi − x>i β

)]= E (x iεi ) = 0.

Ası, βMCO puede interpretarse como un estimador GMM.

GMM principio unificador de estimacion III

X Estimador de maxima verosimilitud

Asumiendo que la f.d.p del vector w i i.i.d. es f (w i ,θ), elestimador de MV de θ esta dado por

θMV = arg maxθ∈Θ

n∑i=1

log [f (w i ,θ)] −→ Ni (θ) = log [f (w i ,θ)] .

Por lo tanto,

n∑i=1

∂ log [f (w i ,θ)]

∂θ= 0 −→

∂Ni

(β)

∂θ=∂ log [f (w i ,θ)]

∂θ.

De modo que la respectiva condicion de momentos poblacionales

E{∂ log [f (w i ,θ)]

∂θ

}= 0.

Ası, θMV tiene una interpretacion como un estimador GMM.

Documents

T opicos de Econometr a: Microeconometr a · 2019-09-25 · El problema de la regresi onI Asuma que se dispone de un vector de p variables predictoras X 2Rp y una variable de respuesta