Prof. Paula Fariña. CII2752- ECONOMETRÍA. SOLEMNE N1

Prof. Paula Fariña.

CII2752- ECONOMETRÍA.

SOLEMNE N�1.

6 de mayo de 2014.

1. Se quiere estudiar la relación exitente entre el puntaje de la pueba SIM-

CE de matemática para alumnos de 8vo básico1, Y ; el nivel educativo

de sus padres, medido en años de educación formal, y la dependencia del

establecimiento educacional que asiste el alumno, (Particular, Subvencio-

nado o Municipalizado). Para esto se plantea el siguiente modelo lineal

múltiple escrito en forma matricial:

Y = X� + ✏

a) Teniendo en cuenta que este modelo incluye una constante global,

que la variable dependencia es categórica y que se considera a Muni-

cipalizado como la categoría de referencia. ¿Cuántas columnas debe

tener la matriz X?. Describa cada una de estas columnas

La matriz X de be tener 4 columnas.

La primer columna con todos unos. X1 = (1, 1, ......, 1)T

La segunda columna con los valores del nivel educativo de los padres de

cada alumnos de la muestra X2 = (X21, ...X2n)T

La tercer columna con valor 1 si el alumno asiste a un colegio particular y

cero si no.1Los datos presentados en este ejercicio no son datos reales sin simulaciones.

1

La cuarta columna con valor 1 si el alumno asiste a un colegio subvencio-

nado y cero si no.

b) A continuación se presentan tablas de resultados para estos datos.

Comente el ajuste del modelo y analice el test de significatividad

conjunta.

El modelo arrojó un R2 ajustado de 0.395 lo que está indicando que el ajuste

no es tan bueno. Sin embargo el test F arroja un estadístico observado de

109.740 con un p valor muy bajo. Se rechaza la hipótesis nula de que todos

los coeficientes son cero. Se concluye de al menos un0 de los coeficientes de

pendiente es distinto de cero.

2

Std. Error of the Estimate

Adjusted R SquareR SquareR

1 54,353,395,399,632aModelModel

Model Summaryb

a. Predictors: (Constant), Subvencionado, edupadres, Particularb. Dependent Variable: pje.simce

Sig.FMean SquaredfSum of

SquaresRegressionResidualTotal

1

4992437902,4222954,2494961465307,508

,000a109,740324198,3053972594,914ModelModel

ANOVAb

a. Predictors: (Constant), Subvencionado, edupadres, Particularb. Dependent Variable: pje.simce

Std. ErrorB Beta Sig.t

Standardized CoefficientsUnstandardized Coefficients

(Constant)edupadresParticularSubvencionado

1

,0009,539,3705,42351,731,0008,059,36310,47484,406,0007,065,301,7795,501,00032,4686,997227,186

ModelModel

Coefficientsa

a. Dependent Variable: pje.simce

ParticularedupadresSubvencionad

oSubvencionadoedupadresParticularSubvencionadoedupadresParticular

Correlations

Covariances

1

109,704-4,66224,831-4,662,606-1,30824,831-1,30829,411

1,000-,572,437-,5721,000-,310,437-,3101,000

ModelModel

Coefficient Correlationsa

a. Dependent Variable: pje.simce

Page 1

c) Interprete los parámetros significativos del modelo. Justificando por

qué los considera significativos.

Los cuatro parámetros del modelo han resultado significativos porque el test t

arroja valores p muy pequeños (<0.0005).

�contante: es el puntaje hipotético de un individuo cuyos padres tienen un

nivel educativo igual a cero que asiste a colegio municipalizado. En caso el

puntaje simce en este escenario hipotético sería 227,186.

3

�subv: Mide la diferencia entre el puntaje simce de un estudiante de colegio

subvencionados y un estudiante de colegio municipalizado. Concretamente,

a un mismo nivel educativo de los padres, los alumnos de colegios parti-

culares tienen 51,731 puntos más en el simce que los alumnos de colegios

municipalizados.

�part: Mide la diferencia entre el puntaje simce de un estudiante de cole-

gio particular y un estudiante de colegio municipalizado. Concretamente,

a un mismo nivel educativo de los padres, los alumnos de colegios parti-

culares tienen 84,406 puntos más en el simce que los alumnos de colegios

municipalizados.

�edupadres: El signo positivo indica que a mayor nivel educativo de los pa-

dres, mayor puntaje SIMCE del alumno. Un valor de 5.501 indica que el

puntaje simce de un alumno aumentaría 5.501 puntos si el nivel educativo

de los padres aumentara en una unidad.

d) Una persona afirma que para un mismo nivel educativo de los padres,

el puntaje en SIMCE matemática de alumnos de colegios Particulares

no difiere del de alumnos de colegios Subvencionados. Realice un test

para contrastar esta hipótesis.

La dócima de test es:

H0 : �part � �subv = 0

HA : �part � �subv 6= 0

El estadístico observado se calcula como:

T =�part � �subv

V (�part � �subv)

V (�part � �subv) = �2[V (�part) + V (�subv)� 2Cov(�part, �subv)]

= 109.704 + 29.411� 2(24.831) = 89.453

4

Tobs =84.406� 51.731

9.458= 3.455

La región de rechazo está dada por

RR = (�1, t(496)0.025) [ (�t(496)0.025,+1) = (�1,�1.965) [ (1.965,+1)

Como Tobs pertenece a la región de rechazo, se rechaza H0. La afirmación de la

persona no es correcta en vista de los datos.

e) Construya un intervalo de confianza al 95% para el coeficiente aso-

ciado al nivel educativo de los padres.

IC = �edupadres ± t(496)0.025

qV (�edupadres)

IC = 5.501± (1.965)(0.779) = (3.970; 7.032)

f ) Indique los supuestos implícitos del modelo lineal y verifique si es-

tos se cumplen o no a partir del análisis de los siguientes gráficos.

Justifique sus respuestas.

5

Standarized Residual t+14,000002,00000,00000-2,00000-4,00000

Stan

dard

ized

Res

idua

l t

4,00000

2,00000

,00000

-2,00000

-4,00000

Page 1

Observed Cum Prob1,00,80,60,40,20,0

Expe

cted

Cum

Pro

b

1,0

0,8

0,6

0,4

0,2

0,0

Normal P-P Plot of Regression Standardized Residual

Dependent Variable: pje.simce

Page 1

Regression Standardized Predicted Value3210-1-2

Reg

ress

ion

Stud

entiz

ed R

esid

ual

4

2

0

-2

-4

Scatterplot

Dependent Variable: pje.simce

Page 1

E(✏i) = 0 para todo i. Al tener constante este supuesto se cumple. Se

puede verificar en el último gráfico (residuos estandarizados vs. valores

ajustados) que muestra que la nube de puntos está centrada en el cero.

V (✏i) = �2 para todo i HOMOCEDASTICIDAD. También se puede verifi-

car este supuesto mirando el gráfico de residuos estandarizados vs. valores

ajustados. Lo última parte de la nube de puntos presenta una variabilidad

menor por lo que podría ponerse en cuestionamiento este supuesto.

6

✏1, ✏2, ..., ✏n independientes. Esto supuesto se puede observar en el primer

gráfico (residuos estandarizados en el momento t vs. residuos estandariza-

dos en el momento t+1). Se observa una nube de punto por lo que no hay

evidencia gráfica de autocorrelación.

✏ es normal. Se verifica la normalidad de los residuos mediante el p-p plot.

Los punto se encuentra muy cercanos a la recta por o que las probabilidades

acumuladas estimadas son muy similares a las probabilidades teóricas de la

distribución normal. Se concluyen que el supuesto de normalidad también

se cumple.

rango(X) = 3 Esto ocurre ya que fue posible invertir la matriz XTX

7

2. El departamento de recursos humanos de una empresa de consultoría ha

llevado a cabo un estudio sobre la relación entre la remuneración de sus

empleados (Yi), los años de estudios que poseen (X1i) y su experiencia la-

boral (X2i). Los resultados del estudio para una muestra de 30 empleados

han sido los siguientes.

yi = 73.034 + 0.178X1i + 4.983X2i, , �2 = 47.7481,30X

i=1

(Yi � Y )2 = 5387.53

(XTX)�1 =

0

BBB@

0.604 �0.025 �0.0306

�0.025 0.00018 �0.0018

�0.0306 �0.0018 0.0087

1

CCCA

a) Interprete económicamente los 3 coeficientes del modelo.

�0: La remuneración de un empleado con 0 años de estudio y 0 años de

experiencia laboral es 73.034.

�1: La remuneración de un empleado aumenta en 0.178 ante un aumento

en un año de estudio, dejando el nivel de experiencia constante.

�2: La remuneración de un empleado aumenta en 4.983 ante un aumen-

to en una unidad del nivel de experiencia, dejando los años de estudios

constantes.

b) Calcule el R2

y el R2

e interpréte el segundo.

R2 =

SCE

SCT

SCT = 5387.53

SCE = SCT � SCR = SCT � �2(n�K) = 4098.331

R2 = 0.761

R2 = 1� (1�R

2)n� 1

n�K

8

R2 = 0.743

R2 es una medida del ajuste del modelo que tiene en cuenta la cantidad de

variables explicativas que estamos introduciendo. Cuánto mayor es su valor,

mejor el ajuste del modelo.

c) Calcule es estadístico F para realizar un test de significatividad con-

junta. Indique cuáles son las hipótesis Nula y Alternativa en este

test. Concluya acerca del test considerando un nivel de significancia

de 5%.

F =SCE/(K � 1)

SCR/(n�K)= 42.916

H0 : �1 = �2 = 0

HA : �1 = 0 y/o �2 = 0

RR = (F(2,27)0.95; +1) = (3.354;+1)

Como el estadístico del test cae en la región de rechazo se rechaza la hipótesis

nula. Al menos uno de los �i, i = 1, 2 es distinto de cero.

d) Si alguien afirma que por cada año de experiencia laboral la re-

muneración debiera aumentar en 6, ¿qué diría usted? Justifique su

respuesta mediante un test de hipótesis.

H0 : �2 = 6

HA : �2 6= 6

T =�2 � 6qV (�2)

=4.986� 6p

(47.7481)(0.0087)= �1.573259

RR = (�1; t(n�K)0.025) [ (�t(n�K)0.025; +1) = (�1� 2.052) [ (2.052,+1)

9

Como T no cae en la región de rechazo, no se rechaza H0. La afirmación tiene

sustento estadístico ya que el test muestra que el coeficiente es no significati-

vamente distinto de 6 a un nivel de 5 %.

e) Construya un intervalo de confianza al 99% para �0

IC = �0 ± t(n�K)0.005

qV (�0)

IC = 73.034± (2.47266)(7.37) = (59.756; 86.312)

f ) Es sabido que los estimadores mínimo cuadráticos de � son insesga-

dos y consistentes. Explique que significa cada una de estas propie-

dades.

Insesgado: la distribución del estimador del parámetro está centrada en el

parámetro verdadero:

E(�) = �

Consistente: cuando aumenta el tamaño de la muestra el estimador � se

acerca cada vez más al valor verdadero del parámetro �:

�nP! �

Datos adicionales:

t(496)0.05 = �1.647932

t(496)0.025 = �1.964758

t(500)0.025 = �1.96472

t(27)0.001 = �3.421034

t(28)0.025 = �2.048407

t(28)0.05 = �1.701131

t(27)0.025 = �2.051831

F(27,2)0.95 = 19.45871

10

F(2,27)0.95 = 3.354131

F(3,30)0.95 = 2.922277

F(27,2)0.975 = 39.46086

11

�

�j �2 n

�2 n var[�j ] =�2

n�11

(1�R2j )

1cvar[xj ]

var[�II1 ] � var[�I

1 ]

X y

y = X� + u

R2 R2

R2 R2 R2

y

R2 = 1�Pn

i=1 u2iPn

i=1(yi � y)2(n� 1)

(n� k)

R2

�1 = (X 01M2X1)�1X 0

1M2y M2 = I �X2(X 02X2)�1X 0

2

y = X1�1 +X2�2 + u

�2 �2 = (X 02M1X2)�1X 0

2M1y M1 = I �X1(X 01X1)�1X 0

1

y = X1�1 +X2�2 + u

y M1

M1y = (I �X1(X01X1)

�1X 01)X1�1 +M1X2�2 +M1u

y⇤ = X⇤�2 + u⇤

�2 �2y = X1�1 +X2�2 + u

�2(X⇤0X⇤)�1 = �2(X 02M

01M1X2)�1

= �2(X 02M1X2)�1

2

2

⇤⇤ ⇤⇤ ⇤⇤ ⇤⇤

� � � � �

⇤⇤ ⇤⇤ ⇤⇤ ⇤⇤ ⇤⇤

⇤ � ⇤⇤ � ⇤⇤

� ⇤⇤ � ⇤⇤ � ⇤⇤

⇤⇤ ⇤⇤

nR2

` � � � � � � �

� �

� ��

u0un�k (X

0X)�1

u0un�k (X

0X)�1

X0 = [1 1,5 500 15000 2000] u0un�k (X

0(X 0X)�1X00 + In0) =6172,4

y0

y = 281� 15,9 ⇤ 1,5 + 0,186 ⇤ 500� 0,0210 ⇤ 15000 + 0,0168 ⇤ 2000 = 68,75p6172,4 = [�88,38; 225,88]

R2 DensiPob = �1 + �2Pasaje + �3Pob + �4Ingreso + � R2

u2 = �1 + �2Pasaje +

�3Pob+ �4Pasaje2+ �5Pob2+ �6Pasaje ·Pob+ �

Documents

Prof. Paula Fariña. CII2752- ECONOMETRÍA. SOLEMNE N1