Upload
others
View
2
Download
0
Embed Size (px)
Citation preview
Prof. Paula Fariña.
CII2752- ECONOMETRÍA.
SOLEMNE N�1.
6 de mayo de 2014.
1. Se quiere estudiar la relación exitente entre el puntaje de la pueba SIM-
CE de matemática para alumnos de 8vo básico1, Y ; el nivel educativo
de sus padres, medido en años de educación formal, y la dependencia del
establecimiento educacional que asiste el alumno, (Particular, Subvencio-
nado o Municipalizado). Para esto se plantea el siguiente modelo lineal
múltiple escrito en forma matricial:
Y = X� + ✏
a) Teniendo en cuenta que este modelo incluye una constante global,
que la variable dependencia es categórica y que se considera a Muni-
cipalizado como la categoría de referencia. ¿Cuántas columnas debe
tener la matriz X?. Describa cada una de estas columnas
La matriz X de be tener 4 columnas.
La primer columna con todos unos. X1 = (1, 1, ......, 1)T
La segunda columna con los valores del nivel educativo de los padres de
cada alumnos de la muestra X2 = (X21, ...X2n)T
La tercer columna con valor 1 si el alumno asiste a un colegio particular y
cero si no.1Los datos presentados en este ejercicio no son datos reales sin simulaciones.
1
La cuarta columna con valor 1 si el alumno asiste a un colegio subvencio-
nado y cero si no.
b) A continuación se presentan tablas de resultados para estos datos.
Comente el ajuste del modelo y analice el test de significatividad
conjunta.
El modelo arrojó un R2 ajustado de 0.395 lo que está indicando que el ajuste
no es tan bueno. Sin embargo el test F arroja un estadístico observado de
109.740 con un p valor muy bajo. Se rechaza la hipótesis nula de que todos
los coeficientes son cero. Se concluye de al menos un0 de los coeficientes de
pendiente es distinto de cero.
2
Std. Error of the Estimate
Adjusted R SquareR SquareR
1 54,353,395,399,632aModelModel
Model Summaryb
a. Predictors: (Constant), Subvencionado, edupadres, Particularb. Dependent Variable: pje.simce
Sig.FMean SquaredfSum of
SquaresRegressionResidualTotal
1
4992437902,4222954,2494961465307,508
,000a109,740324198,3053972594,914ModelModel
ANOVAb
a. Predictors: (Constant), Subvencionado, edupadres, Particularb. Dependent Variable: pje.simce
Std. ErrorB Beta Sig.t
Standardized CoefficientsUnstandardized Coefficients
(Constant)edupadresParticularSubvencionado
1
,0009,539,3705,42351,731,0008,059,36310,47484,406,0007,065,301,7795,501,00032,4686,997227,186
ModelModel
Coefficientsa
a. Dependent Variable: pje.simce
ParticularedupadresSubvencionad
oSubvencionadoedupadresParticularSubvencionadoedupadresParticular
Correlations
Covariances
1
109,704-4,66224,831-4,662,606-1,30824,831-1,30829,411
1,000-,572,437-,5721,000-,310,437-,3101,000
ModelModel
Coefficient Correlationsa
a. Dependent Variable: pje.simce
Page 1
c) Interprete los parámetros significativos del modelo. Justificando por
qué los considera significativos.
Los cuatro parámetros del modelo han resultado significativos porque el test t
arroja valores p muy pequeños (<0.0005).
�contante: es el puntaje hipotético de un individuo cuyos padres tienen un
nivel educativo igual a cero que asiste a colegio municipalizado. En caso el
puntaje simce en este escenario hipotético sería 227,186.
3
�subv: Mide la diferencia entre el puntaje simce de un estudiante de colegio
subvencionados y un estudiante de colegio municipalizado. Concretamente,
a un mismo nivel educativo de los padres, los alumnos de colegios parti-
culares tienen 51,731 puntos más en el simce que los alumnos de colegios
municipalizados.
�part: Mide la diferencia entre el puntaje simce de un estudiante de cole-
gio particular y un estudiante de colegio municipalizado. Concretamente,
a un mismo nivel educativo de los padres, los alumnos de colegios parti-
culares tienen 84,406 puntos más en el simce que los alumnos de colegios
municipalizados.
�edupadres: El signo positivo indica que a mayor nivel educativo de los pa-
dres, mayor puntaje SIMCE del alumno. Un valor de 5.501 indica que el
puntaje simce de un alumno aumentaría 5.501 puntos si el nivel educativo
de los padres aumentara en una unidad.
d) Una persona afirma que para un mismo nivel educativo de los padres,
el puntaje en SIMCE matemática de alumnos de colegios Particulares
no difiere del de alumnos de colegios Subvencionados. Realice un test
para contrastar esta hipótesis.
La dócima de test es:
H0 : �part � �subv = 0
HA : �part � �subv 6= 0
El estadístico observado se calcula como:
T =�part � �subv
V (�part � �subv)
V (�part � �subv) = �2[V (�part) + V (�subv)� 2Cov(�part, �subv)]
= 109.704 + 29.411� 2(24.831) = 89.453
4
Tobs =84.406� 51.731
9.458= 3.455
La región de rechazo está dada por
RR = (�1, t(496)0.025) [ (�t(496)0.025,+1) = (�1,�1.965) [ (1.965,+1)
Como Tobs pertenece a la región de rechazo, se rechaza H0. La afirmación de la
persona no es correcta en vista de los datos.
e) Construya un intervalo de confianza al 95% para el coeficiente aso-
ciado al nivel educativo de los padres.
IC = �edupadres ± t(496)0.025
qV (�edupadres)
IC = 5.501± (1.965)(0.779) = (3.970; 7.032)
f ) Indique los supuestos implícitos del modelo lineal y verifique si es-
tos se cumplen o no a partir del análisis de los siguientes gráficos.
Justifique sus respuestas.
5
Standarized Residual t+14,000002,00000,00000-2,00000-4,00000
Stan
dard
ized
Res
idua
l t
4,00000
2,00000
,00000
-2,00000
-4,00000
Page 1
Observed Cum Prob1,00,80,60,40,20,0
Expe
cted
Cum
Pro
b
1,0
0,8
0,6
0,4
0,2
0,0
Normal P-P Plot of Regression Standardized Residual
Dependent Variable: pje.simce
Page 1
Regression Standardized Predicted Value3210-1-2
Reg
ress
ion
Stud
entiz
ed R
esid
ual
4
2
0
-2
-4
Scatterplot
Dependent Variable: pje.simce
Page 1
E(✏i) = 0 para todo i. Al tener constante este supuesto se cumple. Se
puede verificar en el último gráfico (residuos estandarizados vs. valores
ajustados) que muestra que la nube de puntos está centrada en el cero.
V (✏i) = �2 para todo i HOMOCEDASTICIDAD. También se puede verifi-
car este supuesto mirando el gráfico de residuos estandarizados vs. valores
ajustados. Lo última parte de la nube de puntos presenta una variabilidad
menor por lo que podría ponerse en cuestionamiento este supuesto.
6
✏1, ✏2, ..., ✏n independientes. Esto supuesto se puede observar en el primer
gráfico (residuos estandarizados en el momento t vs. residuos estandariza-
dos en el momento t+1). Se observa una nube de punto por lo que no hay
evidencia gráfica de autocorrelación.
✏ es normal. Se verifica la normalidad de los residuos mediante el p-p plot.
Los punto se encuentra muy cercanos a la recta por o que las probabilidades
acumuladas estimadas son muy similares a las probabilidades teóricas de la
distribución normal. Se concluyen que el supuesto de normalidad también
se cumple.
rango(X) = 3 Esto ocurre ya que fue posible invertir la matriz XTX
7
2. El departamento de recursos humanos de una empresa de consultoría ha
llevado a cabo un estudio sobre la relación entre la remuneración de sus
empleados (Yi), los años de estudios que poseen (X1i) y su experiencia la-
boral (X2i). Los resultados del estudio para una muestra de 30 empleados
han sido los siguientes.
yi = 73.034 + 0.178X1i + 4.983X2i, , �2 = 47.7481,30X
i=1
(Yi � Y )2 = 5387.53
(XTX)�1 =
0
BBB@
0.604 �0.025 �0.0306
�0.025 0.00018 �0.0018
�0.0306 �0.0018 0.0087
1
CCCA
a) Interprete económicamente los 3 coeficientes del modelo.
�0: La remuneración de un empleado con 0 años de estudio y 0 años de
experiencia laboral es 73.034.
�1: La remuneración de un empleado aumenta en 0.178 ante un aumento
en un año de estudio, dejando el nivel de experiencia constante.
�2: La remuneración de un empleado aumenta en 4.983 ante un aumen-
to en una unidad del nivel de experiencia, dejando los años de estudios
constantes.
b) Calcule el R2
y el R2
e interpréte el segundo.
R2 =
SCE
SCT
SCT = 5387.53
SCE = SCT � SCR = SCT � �2(n�K) = 4098.331
R2 = 0.761
R2 = 1� (1�R
2)n� 1
n�K
8
R2 = 0.743
R2 es una medida del ajuste del modelo que tiene en cuenta la cantidad de
variables explicativas que estamos introduciendo. Cuánto mayor es su valor,
mejor el ajuste del modelo.
c) Calcule es estadístico F para realizar un test de significatividad con-
junta. Indique cuáles son las hipótesis Nula y Alternativa en este
test. Concluya acerca del test considerando un nivel de significancia
de 5%.
F =SCE/(K � 1)
SCR/(n�K)= 42.916
H0 : �1 = �2 = 0
HA : �1 = 0 y/o �2 = 0
RR = (F(2,27)0.95; +1) = (3.354;+1)
Como el estadístico del test cae en la región de rechazo se rechaza la hipótesis
nula. Al menos uno de los �i, i = 1, 2 es distinto de cero.
d) Si alguien afirma que por cada año de experiencia laboral la re-
muneración debiera aumentar en 6, ¿qué diría usted? Justifique su
respuesta mediante un test de hipótesis.
H0 : �2 = 6
HA : �2 6= 6
T =�2 � 6qV (�2)
=4.986� 6p
(47.7481)(0.0087)= �1.573259
RR = (�1; t(n�K)0.025) [ (�t(n�K)0.025; +1) = (�1� 2.052) [ (2.052,+1)
9
Como T no cae en la región de rechazo, no se rechaza H0. La afirmación tiene
sustento estadístico ya que el test muestra que el coeficiente es no significati-
vamente distinto de 6 a un nivel de 5 %.
e) Construya un intervalo de confianza al 99% para �0
IC = �0 ± t(n�K)0.005
qV (�0)
IC = 73.034± (2.47266)(7.37) = (59.756; 86.312)
f ) Es sabido que los estimadores mínimo cuadráticos de � son insesga-
dos y consistentes. Explique que significa cada una de estas propie-
dades.
Insesgado: la distribución del estimador del parámetro está centrada en el
parámetro verdadero:
E(�) = �
Consistente: cuando aumenta el tamaño de la muestra el estimador � se
acerca cada vez más al valor verdadero del parámetro �:
�nP! �
Datos adicionales:
t(496)0.05 = �1.647932
t(496)0.025 = �1.964758
t(500)0.025 = �1.96472
t(27)0.001 = �3.421034
t(28)0.025 = �2.048407
t(28)0.05 = �1.701131
t(27)0.025 = �2.051831
F(27,2)0.95 = 19.45871
10
F(2,27)0.95 = 3.354131
F(3,30)0.95 = 2.922277
F(27,2)0.975 = 39.46086
11
�
�j �2 n
�2 n var[�j ] =�2
n�11
(1�R2j )
1cvar[xj ]
var[�II1 ] � var[�I
1 ]
X y
y = X� + u
R2 R2
R2 R2 R2
y
R2 = 1�Pn
i=1 u2iPn
i=1(yi � y)2(n� 1)
(n� k)
R2
�1 = (X 01M2X1)�1X 0
1M2y M2 = I �X2(X 02X2)�1X 0
2
y = X1�1 +X2�2 + u
�2 �2 = (X 02M1X2)�1X 0
2M1y M1 = I �X1(X 01X1)�1X 0
1
y = X1�1 +X2�2 + u
y M1
M1y = (I �X1(X01X1)
�1X 01)X1�1 +M1X2�2 +M1u
y⇤ = X⇤�2 + u⇤
�2 �2y = X1�1 +X2�2 + u
�2(X⇤0X⇤)�1 = �2(X 02M
01M1X2)�1
= �2(X 02M1X2)�1
2
2
⇤⇤ ⇤⇤ ⇤⇤ ⇤⇤
� � � � �
⇤⇤ ⇤⇤ ⇤⇤ ⇤⇤ ⇤⇤
⇤ � ⇤⇤ � ⇤⇤
� ⇤⇤ � ⇤⇤ � ⇤⇤
⇤⇤ ⇤⇤
nR2
` � � � � � � �
� �
� ��
u0un�k (X
0X)�1
u0un�k (X
0X)�1
X0 = [1 1,5 500 15000 2000] u0un�k (X
0(X 0X)�1X00 + In0) =6172,4
y0
y = 281� 15,9 ⇤ 1,5 + 0,186 ⇤ 500� 0,0210 ⇤ 15000 + 0,0168 ⇤ 2000 = 68,75p6172,4 = [�88,38; 225,88]
R2 DensiPob = �1 + �2Pasaje + �3Pob + �4Ingreso + � R2
u2 = �1 + �2Pasaje +
�3Pob+ �4Pasaje2+ �5Pob2+ �6Pasaje ·Pob+ �