Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Topicos de Econometrıa: Microeconometrıa
Karoll [email protected]
http://karollgomez.wordpress.com
Segundo semestre 2019
II. Metodos de estimacion eneconometrıa
El problema de la regresion I
• Asuma que se dispone de un vector de p variables predictorasX ∈ Rp y una variable de respuesta Y ∈ R.
• Supongase (X ,Y ) distribuyen conjuntamente acorde conP(X ,Y ) con medias E(X ) = µX y E(Y ) = µY , y covarianzasΣXX , ΣYY = σ2
Y , y ΣXY .
• Considerese ahora el problema de predecir a la variable Y pormedio de una funcion de X , f (X ).
• La precision de la prediccion es medida por medio de una funcionde valor real funcion de perdida
L(Y , f (X )).
• La calidad de f como predictor es medida por medio de laperdida esperada (conocida como funcion de riesgo),
R(f ) = E [L(Y , f (X ))] =
∫L(Y , f (X ))dP(X ,Y ).
El problema de la regresion II
• Para una funcion de riesgo L(Y , f (X )) = (Y − f (X ))2 (errorcuadratico medio),
R(f ) = E[(Y − f (X ))2
]=
∫(y − f (x))2dP(x , y)
=
∫(y − f (x))2dP(y |x)dP(x)
= EX[EY |X
[(Y − f (X ))2|X
]].
• R(f ) puede minimizarse en cada punto x ,
m(x) = arg minf : Rp→R
EY |X[(Y − f (X ))2|X = x
]
El problema de la regresion III
Cuya solucion es la media condicional (o funcion de regresion),
m(x) = E(Y |X = x) =
∫ydP(y |x)
En efecto
E[(Y − f (X ))2
]= E
[(Y −m(X )− (f (X )−m(X ))2
]= E
[(Y −m(X ))2
]+ E
[(f (X )−m(X ))2
]− 2E [(Y −m(X )(f (X )−m(X ))]
= E[(Y −m(X ))2
]+ E
[(f (X )−m(X ))2
],
El problema de la regresion IV
teniendo en cuenta que
E [(Y −m(X )(f (X )−m(X ))]
= E {E [(Y −m(X ))(f (X )−m(X ))|X = x ]}= E {E [(Y −m(X ))|X = x ] (f (X )−m(X ))}= E {(E [Y |X = x ]−m(X ))(f (X )−m(X ))}= E {(m(X )−m(X ))(f (X )−m(X ))}= 0
Ası, el primer termino en
E[(Y − f (X ))2
]= E
[(Y −m(X ))2
]+ E
[(f (X )−m(X ))2
]no depende de f (X ), por lo tanto minimizar el riesgo equivale aminimizar E
[(f (X )−m(X ))2
], que es cero si f (X ) = m(X ).
El problema de la regresion V
Ejemplo:
• Si Y es linealmente relacionada con X = (X1, . . . ,Xp)>
entonces,
Y = f (X ,β) + ε
= X>β + ε
=
p∑j=1
βjXj + ε,
donde ε es una variable aleatoria no observada (componente deerror) con media 0 y varianza σ2 > 0, e independiente de X .
El problema de la regresion VI
• Otro modelo lineal es cuando las variablesX = (Yt − 1, . . . ,Yt − p)> son p rezagos de la variabledependiente
Y = f (X ,β) + ε
= X>β + ε
=
p∑j=1
βjYt − j + ε,
Este modelo se comoce como autoregresivo de orden p, AR(p).
Estimation methods
Estimation methods
Ordinary Least SquaredIdentification and estimation
2.1 Least squared estimation:
Estimation methods
Estimation methods
Example: cross-section iid data
yi = x>i β + εi , i = 1, . . . , (n > p)
Then,
SCE(β) =n∑
i=1
ε2i
=n∑
i=1
(yi − x>i β)2
= (y − Xβ)>(y − Xβ)
=(y> − β>X>
)(y − Xβ)
= y>y − β>X>y − y>Xβ + β>X>Xβ
= y>y − 2y>Xβ + β>X>Xβ.
• Knowing that
∂(a>z)
∂z= a y
∂(z>Az)
∂z= 2Az para A simetrica,
then, taking difference w.r.t. β we have
∂SCE(β)
∂β= −2X>y + 2X>Xβ.
Making equal to 0 ew obtaint a set of p normal equations
X>Xβ = X>y .
Asumiming Rango(X ) = p, the unique solution is given by
b = β =(X>X
)−1X>y
=
(n∑
i=1
x ix>i
)−1 n∑i=1
x iyi .
Estimation methods
Estimation methods
Remarks:
I The strict exogeneity assumption cannot hold, since that would requirethat εt is independent of all values of the regressor, past, present andfuture.
I However, we can guarantie weak dependence: in general E [ε′X ] = 0must be hold, and here Xt−1 is not correlated with εt .
I For weak dependence to hold, the stability condition | φ |< 1 must besatisfied.
I The ”first order”nature of the AR(1) model: once the first lag of X isincluded, no additional lags of X affect the expected value of X in thislinear relationship.
Estimation methods
Remarks:
I To use standard inference procedures, we must impose assumptions ofhomoskedasticity and no serial correlation on the error process. Herewe include contemporaneous homoskedasticity and serial independence.
I This implies that the usual OLS standard errors, t statistics and Fstatistics are asymptotically valid.
Maximum Likelihood
2.2 Maximun Likelihood estimation:
Estimation methods
Estimation methods
Example: Linear model
Estimation methods
Estimation methods I
Another way to write the problem:
� The likelihood function
L(y | x ,β, σ2) =n∏
i=1
1
(2πσ2)1/2exp
{− 1
2σ2ε2i
}
=1
(2πσ2)n/2exp
{− 1
2σ2
n∑i=1
ε2i
}
=1
(2πσ2)n/2exp
{− 1
2σ2ε>ε
}.
Estimation methods II
� The log-likelihhod function
L(y | x ,β, σ2) =n∑
i=1
log
(1
(2πσ2)1/2exp
{− 1
2σ2ε2i
})= −n
2log(2π)− n
2log(σ2)− 1
2σ2(y − Xβ)>(y − Xβ)
= −n
2log(2π)− n
2log(σ2)− 1
2σ2SCEn(β).
� Given that log L(β, σ2) is a function of β throught the sum ofthe sum of the squared errors SCEn(β); maximize the likelihoodfunction is identical to minimize the sum of the squared errorsSCEn
βMV = βMCO.
Estimation methods III
� The FOC:
∂ log L(y | x ,β, σ2)
∂β=
n
σ2X>(y − Xβ) = 0
and
∂ log L(y | x ,β, σ2)
∂σ2= − n
2σ2+
1
2σ4(y − Xβ)>(y − Xβ) = 0.
� Assuming thatl Rango(X ) = p, the unique solution is gven by
βMV =(X>X
)−1X>y = β
σ2 =1
ne>e =
(n − p)
nS2.
Estimation methods IV
� The second order conditions
H =
∂2 log L
∂β∂β>∂2 log L∂β∂σ2
∂2 log L
∂σ2β>∂2 log L∂(σ2)2
=
(− 1σ2 X>X − 1
σ4 X>ε− 1σ4ε>X n
2σ4 − 1σ6ε>ε
).
negative semidefine.
� The asymptotic covariance (Cramer-Rao quote or informationmatrix)
{I(β, σ2)
}−1=[−E(H(β, σ2))
]−1=
σ2(X>X
)−10
0> 2σ4
n
.
Estimation methods
Estimation methods
Estimation methods
Estimation methods
Method of Moments
2.3 Method of Moments:
Metodo de los momentos I
Definicion:Para un entero positivo k, el k-esimo momento poblacional de unavariable aleatoria U con f.p.m. o f.d.p. f (u,θ), θ ∈ Θ ⊂ Rp, es
µk = E(Uk)
=
{∑u u
k f (u,θ), U discreta∫u u
k f (u,θ), U continua.
Con base en una muestra aleatoria U1, . . . ,Un, el respectivo k-esimomomento muestral esta dado por
mk =1
n
n∑i=1
Uki .
Ejemplos:
X Para k = 1, µ1 = E(U), y m1 = n−1∑n
i=1 Ui = U.
X Para k = 2, µ2 = E(U2) = µ2 − µ21, y m2 = n−1
∑ni=1 U
2i .
Metodo de los momentos II
Definicion:Sea U1, . . . ,Un una m.a. con f.p.m. o f.d.p. f (u,θ), conθ ∈ Θ ⊂ Rp desconocido.
El estimador de momentos θMM se obtiene igualando los primeros pmomentos poblacionales con los respectivos momentos muestrales, yluego resolver para θ. Esto es, resolver
µ1 = E(U) =1
n
∑n
i=1Ui = m1
µ2 = E(U2) =1
n
∑n
i=1U2i = m2
......
......
µp = E(Up) =1
n
∑n
i=1Upi = mp,
donde los momentos poblacionales son funciones de θ, µk(θ).
Metodo de los momentos III
Ejemplo 1: Media poblacional
• Estimacion de la media poblacional de una v.a. i.i.d. Y conmedia µ.
E(Y ) = µ −→ E(Y − µ) = 0.
Reemplazando el operador E(·) por el promedio n−1∑n
i=1 parala muestra Y1, . . . ,Yn, se tiene que
1
n
n∑i=1
(Yi − µ) = 0.
Resolviendo para µ, el estimador de momentos es
µMM =1
n
n∑i=1
Yi = Y .
Metodo de los momentos IV
Ejemplo 2: Estimacion del modelo de regresion lineal multiple.
Dado que E (ε|x) = 0, la condicion de momentos incondicional es
E(x>ε
)= E
[x>(y − x>β
)]= 0.
El estimador es la solucion a la condicion de momentos muestral
1
n
n∑i=1
x i
(yi − x>i β
)= 0.
Resolviendo para β se tiene que
βMM =
(n∑
i=1
x ix>i
)−1 n∑i=1
x iyi .
Ası, βMCO es una caso particular del metodo de los momentos.
Estimation methods
In the time-series context:
Estimation methods
Estimador GMM I
2.4 Generalized Method of Moments:
Definicion: Sea θ un vector p × 1 desconocido, w i un vector dev.a.’s, y h(·) un vector r × 1 de funciones, r ≥ p. La condicion demomentos poblacional toma la forma
E [h (w i ,θ)] = 0, para todo i = 1, . . . , n,
donde el respectivo momento muestral esta dado por
1
n
n∑i=1
h (w i ,θ) .
• La forma funcional de h(·) depende del modelo especificado.X Media poblacional: h (w, θ) = Y − µ, donde w = Y y θ = µ.
X MCO: h (w, θ) = x(y − x>β), donde w = (y, x) y θ = β.X MV: h (w, θ) = ∂ log f (w, θ) /∂θ, donde f (·) es la f.d.p.
X IV: h (w, θ) = z(y − x>β), donde w = (y, x, z) y θ = β.
Estimador GMM II
Definicion: El estimador del metodo de momentos generalizadobasado en E [h (w i ,θ)] = 0 es el valor de θ que minimiza
Qn(θ) =
{1
n
n∑i=1
h (w i ,θ)
}>W n
{1
n
n∑i=1
h (w i ,θ)
},
donde W n es una matriz r × r simetrica y definida positiva.
Esto es,
θGMM = arg minθ∈Θ
Qn(θ),
• Diferentes elecciones de W n conllevan a diferentes estimadoresque, aunque consistentes, tienen diferente varianza si r > p.
Estimador GMM III
• Si r = p, entonces E [h (w i ,θ)] = 0 es reemplazada por
1
n
n∑i=1
h (w i ,θ) = 0.
Por lo tanto, el estimador de momentos θMM es la solucion a
1
n
n∑i=1
h(w i , θMM
)= 0,
que equivalente a minimizar Qn(θ) con W n = I n.
Estimador GMM IV
• Si r > p, el sistema n−1∑n
i=1 h (w i ,θ) = 0 essobre-identificado, y tiene multiples soluciones.
En su lugar, θ es elegido tal que la forma cuadratica den−1
∑ni=1 h(w i , θ) sea suficientemente cercana a 0. Esto es,
θGMM = arg minθ∈Θ
Qn(θ),
Diferenciando Qn(θ) con respecto a θ rinde las c.p.o.
∂Qn(θ)
∂θ=
{1
n
n∑i=1
∂h(w i , θ)
∂θ
}>W n
{1
n
n∑i=1
h(w i , θ)
}= 0.
Estimador GMM V
La formula anterior de ∂Qn(θ)/∂θ es resultado de la proposicion:
Proposicion. Sea la forma cuadratica Q = p>Wp, donde p es unvector r × 1 funcion de un vector p × 1, θ, y W una matrizsimetrica. Entonces,
∂Q
∂θ= 2
(∂p∂θ
)>Wp.
Estimation methods
Estimation methods
Estimation methods
Endogeneidad I
2.4.1 El problema de la endogeneidad
• Una complicacion, comun en aplicaciones microeconomicas, es laposibilidad de tener estimadores inconsistentes debido a lapresencia de regresores endogenos.
• Los regresores endogenos se dan cuando algunos de los regresoresen x estan correlacionados con el error ε. Esto es, cuando
E (εi |x i ) 6= 0,
implicando que
E (x iεi ) = E [E (x iεi |x i )] = E [x iE(εi |x i )] 6= 0.
Endogeneidad II
• Algunos ejemplos que generan este problema son:
X Omision de variablesX SimultaneidadX Errores de medicion en los regresoresX Sesgos de seleccion muestral.
Veamos algunos de ellos:
X Simultaneidad: ocurre cuando dos o mas variables endogenasestan conjuntamente determinadas por un sistema de ecuacionessimultaneas.
Considerese el modelo de demanda-oferta
qd = γdp + X dβd + εd , E(εd) = 0, Var(εd) = σ2d
qs = γsp + X sβs + εs , E(εs) = 0, Var(εs) = σ2s
q = qd = qs , Cov(εd , εs) = 0,
Endogeneidad III
donde qd , qs y p son las cantidades demandada y ofrecida, y elprecio, respectivamente; y X d y X s son matrices de variablesexogenas que afectan la demanda y oferta, respectivamente.
Matricialmente, el modelo se expresa como(1 −γd1 −γs
)(qp
)=
(X dβd
X sβs
)+
(εdεs
).
La solucion, si el det
(1 −γd1 −γs
)= γd − γs 6= 0, esta dada por
(qp
)=
(1 −γd1 −γs
)−1 [(X dβd
X sβs
)+
(εdεs
)]=
1
γd − γs
(−γs γd−1 1
)[(X dβd
X sβs
)+
(εdεs
)].
Endogeneidad IV
Esto es:
q =1
γd − γs(γd · X sβs − γs · X dβd) +
1
γd − γs(γdεs − γsεd) ,
p =1
γd − γs(X sβs − X dβd) +
1
γd − γs(εs − εd)
Notese que el precio p esta correlacionado con εd y εs ,
Cov(p, εd) =−σ2
d
γd − γsCov(p, εs) =
σ2s
γd − γs.
Endogeneidad V
X Errores en las variables: algunas variables son medidas con error.
Considerese el modelo
yi = β1 + β2xi + εi , εi ∼ i.i.d.(0, σ2ε)
xi = xi + υi , υi ∼ i.i.d.(0, σ2υ), E(εiυi ) = 0
Por lo tanto,
yi = β1 + β2xi + εi + β2υi
= β1 + β2xi + ξi , ξi = εi + β2υi ,
obteniendo que Var(ξi ) = σ2ε + β2
2σ2υ, y
E(ξi |xi ) = E(ξi |υi ) = E(εi + β2υi |υi )= E(εi |υi ) + β2E(υi |υi )= β2υi 6= 0.
Endogeneidad VI
Por lo tanto,
Cov(xi , ξi ) = E(xiξi ) = E [E(xiξi |xi )]
= E [xiE(ξi |xi )]
= E(xi · β2υi )
= E [(xi − υi ) · β2υi )]
= β2xiE(υi )− β2E(υ2i )
= −β2σ2υ
{> 0, si β2 < 0
< 0, si β2 > 0.
Variable instrumental I
2.4.2 Variable instrumental
• Considere el modelo de regresion lineal
yi = x>i β + εi ,
donde cada componente de x i es visto como un regresor exogenosi este esta incorrelacionado con el error εi , i.e. E (x iεi ) = 0.
• Si todos los regresores son exogenos entonces el estimadorβ =
(X>X
)−1X>y , puede usarse.
• En particular, se sabe que β es consistente para β,
β = β +
(1
n
n∑i=1
x ix>i
)−11
n
n∑i=1
x iεi
P−→ β + Σ−1x ,x0 = β,
Variable instrumental II
si n−1∑n
i=1 x iεiP−→ 0 (dado que E (x iεi ) = 0), y
n−1∑n
i=1 x ix>iP−→ Σx ,x .
• Ası, si cualquiera de los componentes en x i son endogenos,E (x iεi ) 6= 0, entonces β es inconsistente para β.
• Un metodo de solucion al problema de obtencion de estimadoresinconsistentes es por medio del metodo de variable instrumental.
• El supuesto clave del metodo es la existencia de un vector r × 1de instrumentos z cumpliendo que:
X z este incorrelacionado con el error ε. Esto es
E (ε|z) = 0 restriccion de momentos condicional.
X z este correlacionado con x .
• La restriccion de momentos condicional implica (por ley deexpectativas iteradas) que
E (z iεi ) = E [E (z iεi |z i )] = E [z iE (εi |z i )] = 0
Variable instrumental III
• Si algunos elementos de x no estan correlacionados con ε,entonces estos pueden tambien aparecer en z .
• Dado que εi = yi − x>i β, la restriccion de momentos poblacional
E (z iεi ) = E[z i
(yi − x>i β
)]= 0,
o matricialmente,
E(Z>ε
)= E
[Z> (y − Xβ)
]= 0,
constituye un sistema de r ecuaciones simultaneas.
Variable instrumental IV
Condiciones de identificacion:
• Condicion de rango para identificacion: Existe una unica soluciondel sistema de ecuaciones sı
Rango[E(z ix>i
)]= Rango
[E(Z>X
)]= p.
Esto es, asegura que z es suficientemente correlacionada con x ,y que la solucion del sistema es factible.
• Condicion de orden para identificacion: Sı r < p, entoncesRango
[E(z ix>i
)]< p. Por lo tanto, una condicion necesaria
para la identificacion es que
r ≥ p.
Variable instrumental V
• Por lo tanto, el sistema es:
X Sobre-identificado si Rango[E(z ix>i
)]= p y r > p.
X Exactamente identificado si Rango[E(z ix>i
)]= p y r = p.
X Sub-identificado (no identificado) sı r < p.
• Hallar instrumentos apropiados puede ser facil en algunos casos,pero extremadamente difıcil en otros. Muchas controversiasempıricas se dan sobre si ciertos instrumentos son validos.
• Malos instrumentos implican mala informacion y, por lo tanto,baja eficiencia.
Variable instrumental VI
Ejemplo: Sistema exactamente identificado
• Asumiendo que el sistema es exactamente identificado, lasolucion unica esta dada por el estimador de variableinstrumental
βIV =(Z>X
)−1Z>y
=
(n∑
i=1
z ix>i
)−1 n∑i=1
z iyi .
• βIV es consistente y asintoticamente normal.
• Si Z = X , entonces βIV = βMCO
Variable instrumental VII
Ejemplo: Sistema sobreidentificado
• Sı r > p, el sistema puede no tener una unica solucion. En estecaso el metodo de los momentos generalizado es usado.
• El estimador GMM en su lugar elige β de modo que el vector
1
n
n∑i=1
z i
(yi − x>i β
),
sea tan pequeno como sea posible, usando una funcion dedistancia cuadratica tal que βGMM minimice
Qn(β) =
{1
n
n∑i=1
z i
(yi − x>i β
)}>W n
{1
n
n∑i=1
z i
(yi − x>i β
)},
donde W n es una matriz r × r simetrica y definida positiva.
Aplicacion I
En particular, se tiene que:
• la ecuacion de momentos es
h (w i ,θ) = z i (yi − x>i β),
por lo tanto
Qn(β) =
{1
n
n∑i=1
z i
(yi − x>i β
)}>W n
{1
n
n∑i=1
z i
(yi − x>i β
)}
=
{1
nZ>(y − Xβ)
}>W n
{1
nZ>(y − Xβ)
}.
Aplicacion II
• Ahora, por la proposicion anterior, y dado que
∂h(w i ,θ)
∂θ=∂Z>(y − Xβ)
∂β= −Z>X ,
se tiene que
∂Qn(β)
∂β= −2
{1
nZ>X
}>W n
{1
nZ>(y − Xβ)
}= −2
{1
nX>Z
}W n
{1
nZ>(y − Xβ)
}= 0.
• De modo que(X>ZW nZ>X
)β = X>ZW nZ>y .
Aplicacion III
• Por lo tanto, si X>ZW nZ>X es invertible, el estimador GMMes
βGMM =(X>ZW nZ>X
)−1X>ZW nZ>y ,
con matriz de covarianza
Cov(βGMM
)= σ2
(X>ZW nZ>X
)−1X>ZW nZ>ZW nZ>X
×(X>ZW nZ>X
)−1.
• Si r = p, Z>X =∑n
i=1 z ix>i es cuadrada e invertible, entonces,
βGMM =(Z>X
)−1Z>y
=
(n∑
i=1
z ix>i
)−1 n∑i=1
z iyi = βIV = βMM
GMM Eficiente I
El estimador GMM optimo o eficiente puede obtenerse usando unprocedimiento de dos etapas (estimador GMM en dos etapas).
1. Obtener un estimador GMM θ usando una eleccion suboptimade W n, por ejemplo W n = I por simplicidad, y estimar S ,
S =1
n
n∑i=1
h(w i , θ)h>(w i , θ).
2. Hallar el estimador GMM optimo usando W n = S−1
. Esto es, elestimador θOGMM que minimize
Qn(θ) =
{1
n
n∑i=1
h (w i ,θ)
}>S−1
{1
n
n∑i=1
h (w i ,θ)
}.
GMM principio unificador de estimacion I
2.4.3 GMM como un principio unificador de estimacion
• Multiples estimadores son obtenidos por medio de la optimizacion(estimadores M) de una funcion escalar de la forma
n∑i=1
Ni (θ), θ ∈ Θ ∈ Rp.
• Sı Ni (θ) es diferenciable, entonces θ resuelve las c.p.o.
n∑i=1
∂Ni
(θ)
∂θ= 0.
• Esta ecuacion implica que θ es equivalente al estimador de momentosbasado en la condicion de momentos poblacional
E
[∂Ni (θ)
∂θ
]= 0.
GMM principio unificador de estimacion II
Casos particulares:
X Estimador MCO del modelo de regresion lineal.
Se sabe que el estimador de β esta dado por
βMCO = arg minβ∈Rp
n∑i=1
(yi − x>i β
)2−→ Ni (β) =
(yi − x>i β
)2.
Por lo tanto,
n∑i=1
∂Ni
(β)
∂β=
1
n
n∑i=1
x i
(yi − x>i β
)= 0.
De modo que la respectiva condicion de momentos poblacionales
E[x i
(yi − x>i β
)]= E (x iεi ) = 0.
Ası, βMCO puede interpretarse como un estimador GMM.
GMM principio unificador de estimacion III
X Estimador de maxima verosimilitud
Asumiendo que la f.d.p del vector w i i.i.d. es f (w i ,θ), elestimador de MV de θ esta dado por
θMV = arg maxθ∈Θ
n∑i=1
log [f (w i ,θ)] −→ Ni (θ) = log [f (w i ,θ)] .
Por lo tanto,
n∑i=1
∂ log [f (w i ,θ)]
∂θ= 0 −→
∂Ni
(β)
∂θ=∂ log [f (w i ,θ)]
∂θ.
De modo que la respectiva condicion de momentos poblacionales
E{∂ log [f (w i ,θ)]
∂θ
}= 0.
Ası, θMV tiene una interpretacion como un estimador GMM.