Download pdf - Ejercicios resueltos de econometría con gretlotrodestino.org/wp-content/uploads/2016/09/ejemplo-pr...R. Badillo, Tena, S y Munuera, R EJERCICIOS RESUELTOS DE ECONOMETRÍA CON GRETL

R. Badillo, Tena, S y Munuera, R

EJERCICIOS RESUELTOS DE ECONOMETRÍA CON GRETL

EJERCICIOS RESUELTOS DE

ECONOMETRÍA CON GRETL

PRÁCTICA 2

Rosa Badillo Amador

Susana Tena Nebot

Rocío Munuera Navarro



PRÁCTICA 2

Se pretende analizar de qué factores depende el salario mensual de las familias de

una región. Para ello, obtenemos una muestra formada por información correspondiente

a 7 familias correspondiente al año 2014 y se plantea el modelo (2.1).

Yi=

i +2 2iX +

3 X3i

+ui (2.1),

siendo: Yi el salario del cabeza de familia mensual, medido en €/mes

2iX los años de formación académica del cabeza de familia

X3i

los años de experiencia laboral en el puesto de trabajo

ui el término de perturbación aleatoria

Considere un nivel de significación del 5%, se pide:

a) Calcule los parámetros estimados del modelo con los datos muestrales siguientes

e interprete su valor

Tabla 2.1 Datos sobre el salario mensual

b) Calcule el valor estimado de Y ( Y )

c) Calcule el vector de residuos ( u )

d) Calcule la varianza insesgada del término de perturbación aleatoria.

e) Calcule la matriz de varianzas-covarianzas estimada insesgada de .

f) Determine el coeficiente de determinación múltiple y el ajustado e interprete el

valor del primero.

g) Contraste si2 puede ser inferior a 53.

h) Contraste si3 puede ser superior a 102.

i) Contraste la significatividad individual de las variables del modelo y del

parámetro constante al 5% y 1% de niveles de significación.

Yi X

2i X

3i

769 13 11

808 15 11

825 17 11

650 10 13

562 5 14

1400 20 14

600 7 13



j) Contraste la significatividad global del modelo.

k) Contraste la hipótesis nula siguiente: 0 2 3: 2H , para ello tenga en cuenta que

el 2R del modelo construido bajo la0H es 0,8274. ¿Se podrían haber aplicado los

valores críticos de la tabla estadística de la t-Student para rechazar o no la

hipótesis nula?

l) A la vista de los resultados obtenidos en apartados anteriores ¿Podría obtener una

predicción fiable del valor individual de tY , al 95% de confianza, para unos

valores de 20 309 y X 12 X ? Calcule su intervalo de confianza, así como la

predicción puntual.

SOLUCIÓN PRÁCTICA 2

a)

769

808

825

650

562

1.400

600

Y

1 13 11

1 15 11

1 17 11

1 10 13

1 5 14

1 20 14

1 7 13

X

1 13 11

1 15 11

1 1 1 1 1 1 1 1 17 11

13 15 17 10 5 20 7 1 10 13

11 11 11 13 14 14 13 1 5 14

1 20 14

1 7 13

X X

2

3

2 3

2

2 2 3

2

3 2 3

7 87 87

87 1257 1066

87 1066 1093i

i

i i

i i i

i i i

n X X

X X X X X X

X X X X



2

3

769

808

1 1 1 1 1 1 1 5.614825

13 15 17 10 5 20 7 77.652650

11 11 11 13 14 14 13 70.140562

1.400

600

i

i i

i i

Y

X Y Y X

Y X

1

1257 1066 87 1066 87 1257

1066 1093 87 1093 87 1066

87 87 7 87 7 871 1' ( ' ) '

1066 1093 87 1093 87 1066det( ' ) 12.773

87 87 7 87 7 87

1257 1066 87 1066 87 1257

237.545 2349 16.6171

2.349 82 10712.773

16.61

X X Adj X XX X

18,5974 0,1839 1,3009

0,1839 0,0064 0,0084

7 107 1.230 1,3009 0,0083 0,0963

1

1.122,9358

ˆ ( ) 53,6411

101,2390

X X X Y

1 -1.122,9358. Es la constante del modelo. Informa del salario mensual promedio del

cabeza de familia cuando el resto de variables son nulas. Dado que no tiene sentido que

sea negativo, desde el punto de vista económico, se interpretará como cero. Es decir, el

salario mensual promedio del cabeza de familia independiente de los años de formación

y la experiencia laboral es de cero €/mes. Más adelante se verá que la constante del

modelo no es significativa y de ahí que tenga sentido esta interpretación.

2 53,6411. Manteniendo constantes los años de experiencia laboral del cabeza de

familia, si aumenta en un año el periodo de formación del cabeza de familia, en promedio,

el salario medio aumentará en 53,64 €/mes y viceversa.



3 101,2390. Manteniendo constantes los años de formación del cabeza de familia, si

aumenta en un año su periodo de experiencia laboral, en promedio, el salario medio

aumentará en 101,23 €/mes y viceversa.

b)

1 13 11 688,0248

1 15 11 795,3071

1.122,93581 17 11 902,5894

ˆˆ 53,64111 10 13 729,5796

101,23901 5 14 562,6130

1 20 14 1.367,2298

1 7 13 568,6562

Y X

c)

769 688,0248 80,9751

808 795,3071 12,6929

825 902,5894 77,5894

ˆˆ 650 729,5796 79,5796

562 562,6130 0,6130

1.400 1.367,2298 32,7702

600 568,6562 31,3438

u Y Y

d) 2

2ˆˆ ˆ

ˆ7 3

iuu u

n k

2ˆ ˆ ˆiu u u

80,9751

12,6929

77,5894

80,9751 12,6929 77,5894 79,5796 0,6130 32,7702 31,3438 79,5796

0,6130

32,7702

31,3438

21.127,79

=

2 21.127,79ˆ 5.281,9475

4



e) var-covar ( )= 2 2 1

ˆˆ ˆ ( )X X

=5.281,9475

18,5974 0,1839 1,3009 98230,7 -971,369 -6871,54

0,1839 0,0064 0,0084 -971,369 33,909 44,247

1,3009 0,0083 0,0963 -6871,54 44,2471 508,635

=

f) 2

2

2

ˆ X Y nYR

Y Y nY

ˆ ' 1.122,9358 53,6411 101,2390X Y

5.614

77.652

70.140

=4.962.066,2087

2 27 (802) 4.502.428nY

769

808

825

769 808 825 650 562 1.400 600 650

562

1.400

600

Y Y

4.983.194

2 4.962.066,2087 4.502.428 459.638,20800,9560

4.983.194 4.502.428 480.766R

Otra forma de obtenerlo:

2

2

ˆ ˆ 21.127,791 1 1 0,0439 0,9560

' 480.766

u uR

Y Y nY

El modelo de regresión tiene buena bondad de ajuste ya que el 95,60% de la variabilidad

de Y con respecto a su media (o su varianza) viene explicada por el mismo.

2 2( 1) (7 1) 61 (1 ) 1 (1 0,9560) 1 (0,0439) 0,9341

( ) (7 3) 4

nR R

n K

g)

0 2

1 2

: 54

: 54

H

H

Pasos:

1) 5%



2)

2

*

2 2

ˆ

ˆ 53,6411 52 1,64110,2818

ˆ 5,823133,909t

3) Regla de decisión: Como ( ) (5%)

7 30,2818 2,13n kt t t

. No rechazo la0H

al nivel de significación del 5% por lo que2 no puede ser inferior a 52.

h)

0 3

1 3

: 102

: 102

H

H

Pasos:

1) 5%

2)

3

*

3 3

ˆ

ˆ 101,2390-102 0,76100,0337

ˆ 22,5529508,635t

3) Regla de decisión: Como es un contraste de cola de la derecha, (5%)

7 3 2,13t t

No rechazo la 0H y por consiguiente,

3 no puede ser superior a 102.

i)

0

1

: 0 para j=1,2 y 3

: 0

j

j

H

H

Pasos:

1) Establecemos el nivel de significación:

2)

*

ˆ

ˆ

ˆj

j jt

3) Para =5%:

Si 7 3( / 2) 2,77t t Rechazo la H0

Si 7 3( / 2) 2,77t t No rechazo la H0.

Para =1%:

Si 7 3( / 2) 4,60t t Rechazo la H0

Si 7 3( / 2) 4,60t t No rechazo la H0.

Prueba-t para1 :



1

*

1 1

ˆ

ˆ -1.122,9358 03,583

ˆ 98.230,7t

Regla de decisión: No rechazo la0H al nivel de significación del 1%, pero sí la

rechazo al 5%. Por tanto, la constante del modelo no es significativa al nivel de

significación del 1%, pero sí al 5%.

Prueba-t para2 :

2

*

2 2

ˆ

ˆ 53,6411 09,212

ˆ 33,909t

Regla de decisión: Rechazamos la0H al nivel de significación del 5% y del 1%,

la variable X2 sí es significativa para los niveles del 5% y 1%.

Prueba-t para3 :

3

*

3 3

ˆ

ˆ 101,2390 04,489

ˆ 508,635t

Regla de decisión: No rechazo la0H al nivel de significación del 1%, pero sí la

rechazo al 5%, por tanto, la variable X3 sí es significativa para el nivel del 5%,

pero no al 1%.

Conclusión: Todas las variables explicativas del modelo y la constante son

individualmente significativas al nivel del 5%, pero al nivel de significación del 1% sólo

X2 es significativa, mientras que la constante no lo es.

j)

0 2 3

1 0

: 0

: No se cumple la

H

H H

Pasos:

1) Fijar 5%

2) 2

2

/( 1) 0,9560 /(3 1) 0,47843,4545

(1 ) /( ) (1 0,9560) /(7 3) 0,0110

R kF

R n k



3) Regla de decisión: Como (5%)

2,4 6,94F F rechazamos la0H , por lo que el

modelo en su conjunto sí es significativo al nivel de significación del 5%.

k)

0 2 3

1 2 3

: 2

: 2

H

H

M.R1 3 2 3 3 4 4(2 ) i i i i iY X X X u

2

1 3 2 3 4 4(2 ) 0,8274i i i i iY X X X u R

Como la variable endógena es la misma en el M.R que en el no restringido

(1 2 2 3 3 4 4: ) t i i i iMNR Y X X X u puedo construir el estadístico F a partir del

2R de ambos modelos.

Pasos:

1) Fijar 5%

2) 2 2

2

/ (0,9560 0,8274) /1 0,128611,69

(1 ) / . . (1 0,9560) /(7 3) 0,0110

MNR MR

MNR

R R rF

R g l MNR

3) Regla de decisión: Como (5%)

1,411,69 7,71F F rechazamos la0H , por lo

que no es posible que 2 32 .

Sí que se podría haber utilizado las tablas de la t-Student, ya que cuando el número

de grados de libertad del estadístico F del numerador es 1 se cumple que 2

1,s sF t , por

tanto, podríamos haber comparado el estadístico F=11,69 con

22

4 (2,5%) 2,77645 7,71t al ser F> 2

4 (2,5%)t rechazamos la0H .

l) Como el modelo es significativo en su conjunto, el salario individual mensual puntual

que se predice para un trabajador con 9 años de formación académica y 12 de experiencia

laboral es el siguiente:

0ˆ 1.122,9358 53,6411(9) 101,239(12) 574,7€/mesY

Vamos a calcular el Intervalo de Confianza para la predicción individual del salario del

cabeza de familia, dados los valores de X20=9 y X30=12.



(2,5%) (2,5%)

0 (7 3) 0 0 (7 3)

2 1 2

0 0

0

1

0

1

0 0

ˆ ˆˆ ˆ( ) 95%

ˆ ˆ ˆ(1 ( ) ) (1 0,25) 5.281,9475 (1,25) 6.602,43 81,25

1 9 12

( ) 1,3315 0,0267 0,0697

( ) 0,25

o o

o

r e e

e

P Y t Y Y t

X X X X

X

X X X

X X X X

0

0

(574,7 81,25(2,77) 574,7 81,25(2,77)) 95%

(349,63 799,76) 95%

r

r

P Y

P Y

En el largo plazo o en muestreos repetidos, intervalos de confianza como el

anterior contendrá el verdadero valor de 0Y con una probabilidad del 95%.

SOLUCIÓN PRÁCTICA 2 CON GRETL

a)

1. En primer lugar creamos un nuevo fichero de trabajo Archivo/Nuevo

Conjunto de Datos (Ctrl+N). Y vamos completando la información que

solicita el programa:

Número de observaciones: 7

Estructura del conjunto de datos: Sección Cruzada.

Empezar a introducir los valores de los datos

Nombre de la primera variable: Y

Recordad que para nombrar a las variables no se puede utilizar la letra ñ, ni acentos ni

más de 15 caracteres.

Tras señalar a Aceptar, se abre una hoja de cálculo, como la siguiente pantalla:



Figura 2.1. Añadir datos: hoja de cálculo de Gretl

Fuente: Elaboración propia a partir Gretl

Introducimos los datos como en la Figura 2.1. Una vez introducidos los datos de la

variable Y, añadimos los datos de la variable X2 pulsando el botón + Añadir

variable, así introducimos también los datos de la variables X3.

2. Estimamos los parámetros de la función planteada seleccionando

Modelo/Mínimos Cuadrados Ordinarios (MCO). En el cuadro de diálogo

que aparece a continuación introducimos la especificación de nuestra función de

regresión:

Variable Dependiente:Y

Variables Independientes: const, X2, X3

Los resultados de la regresión se presentan en la Tabla 2.2.



Tabla 2.2. Estimación por MCO

Modelo 1: MCO, usando las observaciones 1-7

Variable dependiente: Y

Coeficiente Desv. Típica Estadístico t Valor p

const −1122,94 313,418 -3,5829 0,02311 **

X2 53,6411 5,82314 9,2117 0,00077 ***

X3 101,239 22,5529 4,4890 0,01091 **

Media de la vble. dep. 802,0000 D.T. de la vble. dep. 283,0683

Suma de cuad. residuos 21127,79 D.T. de la regresión 72,67701

R-cuadrado 0,956054 R-cuadrado corregido 0,934081

F(2, 4) 43,51029 Valor p (de F) 0,001931

Log-verosimilitud −37,97609 Criterio de Akaike 81,95218

Criterio de Schwarz 81,78991 Crit. de Hannan-Quinn 79,94656 Fuente: Elaboración propia a partir Gretl

3. A partir de la tabla anterior se puede observar el valor de los coeficientes de

regresión estimados en la columna Coeficiente:

1ˆ -1.122,94, 2

ˆ 53,6411 y 3 101,239

1 -1.122,94. Es la constante del modelo. Informa del salario mensual promedio del

cabeza de familia cuando el resto de variables son nulas. Dado que no tiene sentido que

sea negativo, desde el punto de vista económico, se interpretará como cero. Es decir, el

salario mensual promedio del cabeza de familia independiente de los años de formación

y la experiencia laboral es de cero €/mes. Más adelante se verá que la constante del

modelo no es significativa y de ahí que tenga sentido esta interpretación.

2 53,6411. Manteniendo constantes los años de experiencia laboral del cabeza de

familia, si aumenta en un año el periodo de formación del cabeza de familia, en promedio,

el salario medio aumentará en 53,64 €/mes y viceversa.

3 101,239. Manteniendo constantes los años de formación del cabeza de familia, si

aumenta en un año su periodo de experiencia laboral, en promedio, el salario medio

aumentará en 101,23 €/mes y viceversa.



b y c)

Para obtener el valor estimado de la variable dependiente y de los residuos,

seleccionamos en la pantalla del Modelo 1 estimado (ver Tabla 2.2):

Análisis/Mostrar variable observada, estimada, residuos. El

resultado que se obtiene es el de la Tabla 2.3:

Tabla 2.3. Residuos de la regresión MCO Rango de estimación del modelo: 1 - 7

Desviación típica de los residuos = 72,677

Y estimada residuo

1 769,000 688,025 80,9751

2 808,000 795,307 12,6929

3 825,000 902,589 -77,5894

4 650,000 729,580 -79,5796

5 562,000 562,613 -0,613012

6 1400,00 1367,23 32,7702

7 600,000 568,656 31,3438 Fuente: Elaboración propia a partir Gretl

En la columna estimada y residuo, se exponen los datos de la variable iY y

iu , respectivamente.

Para almacenar Y hay que elegir Guardar/Valores estimados, Gretl

llama a la nueva variable, por defecto, yhat1, apareciendo en la descripción

valores estimados mediante el modelo1.

También, se pueden guardar los residuos en Guardar/Residuos, a los que

les da el nombre de uhat1 y los describe como residuos del modelo1. Una

vez guardadas las dos series, las encontramos en la ventana principal junto a la variable

dependiente Y y las explicativas X2 y X3.

Nota: Si se realiza otra regresión diferente, tanto la nueva variable estimada como los

nuevos residuos se recogerán como yhat2 o uhat2, respectivamente.



d) La varianza insesgada del término de perturbación aleatoria se obtiene elevando al

cuadrado la desviación típica de los residuos que aparece en la Tabla 2.2. En particular,

habría que elevar al cuadrado el estadístico D.T. de la regresión: que es la

desviación típica ( ) o error estándar de los residuos de la regresión:

2

matricialmente

ˆ ˆ'ˆ

iu u u

n k n k

σ

donde tu

son los residuos de la regresión. Con los datos que nos da dicha Tabla

obtenemos:

72,677012 =5.281,94. También podríamos haber obtenido este estadístico a partir de la

información de la Tabla 2.2, calculándolo a través de la Suma al Cuadrado de los Residuos

(SCR): Suma de cuad. residuos: 2tu

= 21.127,79 así:

2 21.127,79ˆ 5.281,94

7 3

e) Para obtener la matriz de varianzas-covarianzas estimada insesgada de los coeficientes

de regresión, dentro de la barra de herramientas del modelo 1 se señala:

Análisis/Matriz Covarianzas de los Coeficientes, obteniendo la

matriz siguiente:

Tabla 2.4. Matriz de Covarianzas de los Coeficientes

const X2 X3

98230,7 -971,369 -6871,54 const

33,9090 44,2471 X2

508,635 X3 Fuente: Elaboración propia a partir Gretl

Los elementos de la diagonal principal se corresponden con las varianzas de los

coeficientes 1β , 2β y 3 , respectivamente, es decir, 98.230,7 es la varianza estimada de

1β , 33,9090 es la varianza estimada de 2β y 508,635 es la de 3 , etc. Los elementos

fuera de la misma son las covarianzas estimadas entre los coeficientes. Así -971,369 es la

covarianza estimada entre 1β y 2β y -6.871,54 es la covarianza estimada entre 2β y 3 .



f) Gretl calcula automáticamente al hacer la regresión el coeficiente de determinación

múltiple y el ajustado. Así, en la Tabla 2.2., los estadísticos que nos dan dicha información

son:

R-cuadrado: es el coeficiente de determinación que permite medir la bondad

de ajuste del modelo. En nuestro ejemplo el ajuste de la línea de regresión a los datos es

bueno, puesto que toma el valor 0,956054, próximo a su valor máximo que es 1. Este dato

significaría que el 95,60% de las variaciones de Y con respecto a su media (o de su

varianza) vienen explicadas por la regresión.

También se puede calcular a partir de la Suma al Cuadrado Total (SCT) que, a su

vez, se puede extraer de la cuasi-desviación típica de la variable dependiente D.T. de

la vble. dep. ya que:

2

2

0

2

1 1 1

283,0683 7 1 480.765,9748

σ

( )'

ˆ

( )

n

i

i

Ymatricialmente

Y YSCT Y Y nY

cuasin n n

SCT .

De aquí se deduce la Suma al Cuadrado Explicada (SCE) así: SCE=SCT-

SCR=480.765,9748-21.127,79=459.638,1848 y el R2 así:

2 459.638,1848 0 9560

459.638,1848 +21.127,79

,

SCE SCER

SCT SCE SCR

R-cuadrado corregido (2R ): este coeficiente penaliza la inclusión de

nuevas variables explicativas en el modelo, ya que el R2 siempre aumenta al añadir

regresores al modelo, aunque estos no sean significativos. El 2R puede disminuir si al

incluir una nueva variable explicativa no compensa la pérdida de grados de libertad al

tener que estimar un nuevo parámetro con el mismo número de observaciones. El 2R no

tomará valores mayores que el R2, pero sí puede tomar valores negativos, lo que hace que

sea difícil de interpretar y que no pueda utilizarse como medida de bondad de ajuste. Este

coeficiente permite seleccionar modelos con el mismo regresando y tamaño muestral

aunque con diferente número de regresores. Se seleccionará como mejor modelo aquél



que presente un mayor valor de dicho coeficiente de determinación corregido. Su valor

es máximo cuando toma valor unitario y si es cero o negativo indica que el modelo no

describe adecuadamente el proceso que ha generado los datos. En la Tabla 2.2 toma valor

0,934081. También puede obtenerse a partir del R2:

2 21 (7 1) 61 1 (1 ) 1 (1 0,9560) 1 (0,0439) 0,9341

(7 3) 4

1

SCRnn kR R

SCT n k

n

g) Los contrastes de una cola no los realiza Gretl automáticamente, pero nos proporciona

la información que necesitamos para realizarlo.

Así, a partir de nuestro Modelo 1 (ver Tabla 2.2), se puede llevar a cabo el

siguiente contraste:

0 2

1 2

: 54

: 54

H

H

Para ello, hay que seguir los siguientes pasos:

1) Fijar 5%

2) El estadístico t se puede calcular con la información que aparece en la Tabla 2.2.

Así en la columna de coeficiente, aparece 2 =53,6411 y en la columna de

Desv.Típica se expone la información correspondiente a 2

ˆˆ

=5,8231 en la fila 2.

A partir de estos dos datos y teniendo en cuenta la hipótesis planteada, así como el

hecho de que se trata de un contraste de una cola de la izquierda, se plantea el

estadístico t:

2

*

2 2

ˆ

ˆ 53,6411 52 1,64110,2818

ˆ 5,823133,909t



Podemos hacer el cálculo utilizando la consola de Gretl, en

Herramientas/Consola de Gretl y tenemos que escribir la función genr

testadistico=(53.6411-52)/5.8231 y a continuación nos aparece el

resultado, al que le ha llamado testadistico porque es el nombre que le hemos

asignado, aunque podríamos ponerle otro diferente. También se puede acceder a la

misma Consola de Gretl utilizando la barra de herramientas situada en la parte inferior

de la pantalla. Otra opción es utilizar la calculadora que aparece en la barra de

herramientas también situada en la parte de inferior de la pantalla.

3) Regla de decisión: Como Como ( ) (5%)

7 30,2818 2,13n kt t t

. No rechazo la0H

al nivel de significación del 5% por lo que2 no puede ser inferior a 52. Para obtener el

valor de (5%)

4t a través de Gretl, vamos a Herramientas/Tablas

estadísticas/en la pestaña de t incluimos gl: 4 y probabilidad en

cola derecha: 0,95, dándonos el valor de -2,13.

h) Tampoco realiza Gretl automáticamente este contraste de una cola:

0 3

1 3

: 102

: 102

H

H

Por tanto, los pasos a seguir serían los siguientes:

1) 5%

2) El estadístico t se puede calcular con la información que aparece en la Tabla 2.2.

Así en la fila 3 de la columna coeficiente, aparece 3 =101,2390 y en la

columna Desv. Típica de la misma fila se expone la información

correspondiente a 3

ˆˆ

= 22,5529 . A partir de estos dos datos y teniendo en cuenta la

hipótesis planteada así como el hecho de que se trata de un contraste de una cola de

la derecha, se plantea el estadístico t:

3

*

3 3

ˆ

ˆ 101,2390-102 0,76100,0337

ˆ 22,5529508,635t



3) Regla de decisión Como es un contraste de cola de la derecha (5%)

7 3 2,13t t No

rechazo la 0H y por consiguiente,

3 no puede ser superior a 102. Para obtener el valor

de (5%)

4t a través de Gretl, vamos a Herramientas/Tablas estadísticas/en

la pestaña de t incluimos gl:4 y probabilidad en cola derecha:

0,05, dándonos el valor de 2,13.

i) En el caso de los contrastes de significatividad, Gretl lo calcula automáticamente el

estadístico t y el p-valor asociado al mismo. El resultado se muestra en negrita en la Tabla

2.5.

Tabla 2.5. Prueba-t de significatividad individual

Modelo 1: MCO, usando las observaciones 1-7

Variable dependiente: Y


const −1122,94 313,418 -3,5829 0,02311 **

X2 53,6411 5,82314 9,2117 0,00077 ***

X3 101,239 22,5529 4,4890 0,01091 ** Fuente: Elaboración propia a partir Gretl

Atendiendo a los valores críticos de la t para los niveles de significación del 5% y

1% y para 4 g.l, que son 2,77 y 4,60, respectivamente, se concluye que las variable

explicativas X2 es significativa para ambos niveles de significación, mientras que

la constante y X3 sólo son significativas al nivel del 5%, pero no al 1%. Si nos

fijamos en el p-valor (columna Valor p), se observa que todos son inferiores a

0,05, lo que muestra la significatividad al nivel del 5% de todas las variables

explcativas y la constante, pero tanto la constante como X3 presentan un Valor p

superior a 0,01, lo que indica que no se rechaza la H0 de no significatividad al

nivel del 1%, por lo que no serían significativas a este nivel de significación.

Nótese como Gretl indica con asteriscos, al lado del Valor p, la significatividad

individual. Así, si señala 3 asteriscos, indica que la variable es significativa para

el 1%, 5% y 10%. Si sólo aparecen 2 asteriscos, indica que es significativa al nivel

del 5% y 10% y si sólo se muestra 1 asterisco, sería significativa únicamente al

10%.



j) En la Tabla 2.2. también aparece el estadístico que nos permite contrastar la

significatividad global del modelo, es decir:

0 2 3

1 0

: 0

: No se cumple la

H

H H

que es el estadístico: F(2, 4). En nuestro caso, da un valor de 43,5102. El valor crítico

del estadístico F(2,4)(5%) se obtiene en herramientas/tablas

estadísticas/F/ gln=2, gld=4 (Nota: gln son los grados de libertad del

numerador, que se corresponde con el número de restricciones bajo la hipótesis nula, y

gld los grados de libertad del denominador), probabilidad en la cola

derecha:0,05, obteniendo 6.94427. Puesto que el valor del estadístico F es

superior al valor crítico, se rechaza la hipótesis nula al nivel de significación del 5%, por

lo que el modelo en su conjunto sí es significativo. Si no se quiere emplear las tablas para

determinar el rechazo o no de la hipótesis nula, se puede utilizar el nivel de significación

exacto o p-value que aparece en la Tabla 2.2 como Valor p (de F). En dicha tabla

toma el valor 0,001931, lo que indica que sólo se rechaza la hipótesis nula para niveles

de significación por encima del 0,19%, por lo que si consideramos como error de tipo I o

niveles de significación los estándar 1%, 5% o 10% se rechazaría dicha hipótesis nula

para todos ellos, por lo que el modelo en su conjunto sí sería significativo para cualquiera

de los niveles estándar de significación.

k) En Gretl podemos realizar este contraste en la pantalla de la ecuación de regresión

señalando en su barra de herramientas: Contrastes/Restricciones Lineales.

En el cuadro de diálogo que se abre a continuación debemos de introducir la hipótesis que

queremos contrastar. En nuestro caso introducimos: b[2]-2*b[3]=0, siendo b[2] y

b[3], como identifica Gretl a 2β y 3 , respectivamente. Los resultados del contraste se

recogen en la Tabla 2.6.

El valor del estadístico muestral F es el que aparece en la línea F(1,4)=11,7118

de la Tabla 2.6., ya que bajo los supuesto de que el término de error está independiente,



idéntica y normalmente distribuido nos permite utilizarlo en muestras finitas. También

ahora disponemos del nivel exacto de significación de este contraste (Valor p: p =

0,0267249). De acuerdo con él es posible rechazar la hipótesis nula H0 para niveles de

significación superiores al 2,67%, por lo que sí la rechazamos para el nivel de

significación del 5%, aunque no lo haríamos para el nivel del 1%.

Tabla 2.6. Contraste de restricción lineal

Restricción:

b[X2] - 2*b[X3] = 0

Estadístico de contraste: F(1, 4) = 11,7118, con valor p = 0,0267249

Estimaciones restringidas:


---------------------------------------------------------------

const −117,948 194,124 −0,6076 0,5700

X2 49,3459 10,0799 4,895 0,0045 ***

X3 24,6729 5,03995 4,895 0,0045 ***

Desviación típica de la regresión = 128,832


Sí que se podría haber utilizado las tablas de la t-Student, ya que cuando el número de

grados de libertad del estadístico F del numerador es 1 se cumple que 2

1,s sF t , por tanto,

podríamos haber comparado el estadístico F=11,71 con 22

4 (2,5%) 2,77645 7,71t al

ser F> 2

4 (2,5%)t rechazamos la0H .

l) Como el modelo es significativo en su conjunto, el salario individual mensual puntual

que se predice para un trabajador con 9 años de formación académica y 12 de experiencia

laboral se calcula con Gretl automáticamente. Para ello, es necesario ampliar la muestra.

Así,, debemos incorporar los nuevos datos a la base de datos. En el menú principal de

Gretl elegimos Datos/Seleccionar todas las variable/Datos/Añadir

Observaciones (indicando el número de observaciones que queremos incluir en

nuestro caso 1). Se puede volver a ir a Datos/Seleccionar todas las



variables/Datos/Editar Valores/ y se introduce en la casilla 8 de X2 y de X3

los nuevos datos de la observación 8: 9 y 12, respectivamente. Se selecciona el icono

Aplicar. Nota: No se deben introducir valores para la variable dependiente, puesto que

es la que queremos predecir, por lo que Gretl nos mostrará un aviso (Atención: había

observaciones perdidas), que podemos ignorarlo dándole a Aceptar.

A continuación, se vuelve a estimar el modelo por mínimos cuadrados ordinarios

y una vez en la pantalla del modelo de regresión estimado se pincha en

Análisis/Predicciones donde fijamos el dominio de predicción: inicio 21

final 8 y escogemos las opciones por defecto que aparecen en la pantalla. Nota: Si no

se desea que el gráfico aparezca ordenado por la variable dependiente (como en la Figura

2.2) hay que deshabilitar la opción: Mostrar los valores ajustados para

el rango de la predicción.

Los resultados que muestra Gretl son los siguientes:

Tabla 2.7. Predicción individual de la variable dependiente (puntual y por intervalo)

Para intervalos de confianza 95%, t(4, 0.025) = 2.776

Obs. SALARIO predicción Desv.

Típica

Intervalo de 95%

2 808 795.31 83.509 (563.45 - 1027.16)

3 825 902.59 84.884 (666.91 - 1138.26)

4 650 729.58 79.245 (509.56 - 949.60)

5 562 562.61 90.170 (312.26 - 812.97)

6 1400 1367.23 101.436 (1085.60 - 1648.86)

7 600 568.66 83.231 (337.57 - 799.74)

8 --- 574.70 81.600 (348.14 - 801.26) Fuente: Elaboración propia a partir Gretl

1 Gretl no calcula correctamente la Descomposición del Error Cuadrático Medio si se considera la

observación inicial, por eso se comienza en la observación 2.



La predicción por punto del salario para la observación 8 es de 574,7 €/mes,

mientras que la predicción por intervalo con un nivel de confianza del 95% para la misma

observación es (348,14 , 801,26). Su interpretación es la siguiente: en muestreos

repetidos o en el largo plazo, en 95 de cada 100 intervalos como el anterior estará incluido

el verdadero valor individual del salario. La mejor estimación puntual del verdadero valor

individual es 574,7 €/mes.

Gretl también informa sobre los estadísticos más habituales para evaluar la

predicción (ver Tabla 2.8). Los cuatro primeros estadísticos dependen de la escala de los

datos, por lo que no facilitan las comparaciones entre diferentes series temporales y para

diferentes intervalos de tiempo, ya que serán elevados si la unidad de medida de la

variable es elevada y viceversa. Estos estadísticos deberían ser utilizados como medidas

relativas para comparar predicciones para las mismas series entre diferentes modelos.

Según estos estadísticos, cuanto más pequeño sea el error, mejor será la predicción del

modelo. Además, el primero de ellos (Error medio) no transmite mucha información, ya

que por su propia construcción tiende a compensar errores positivos con negativos, y

viceversa, por lo que sólo sirve para detectar si hay una sobrepredicción o infrapredicción

de tipo sistemático, pero no proporciona información del tamaño de los errores. El error

absoluto medio sólo tiene en cuenta los valores del error (no su signo), por lo que es algo

más interpretable. El error cuadrático medio penaliza los errores más grandes, al

elevarlos al cuadrado. La raíz del error cuadrático medio es la raíz cuadrada del error

cuadrático medio. El resto de estadísticos no dependen de las escalas de los datos. Así,

por ejemplo, el porcentaje de error medio, también será habitualmente pequeño, al

compensar errores positivos y negativos, por lo que se utiliza más el porcentaje de error

absoluto medio para poder interpretar la precisión de la predicción. En este ejemplo es

del 5,1487%.



Tabla 2.8. Estadísticos de evaluación de la predicción

Error medio -13,496

Error cuadrático medio 2428,5

Raíz del Error cuadrático medio 49,28

Error absoluto medio 39,098

Porcentaje de error medio -2,1035

Porcentaje de error absoluto medio 5,1487

U de Theil 0,092633

Proporción de sesgo, UM 0,075001

Proporción de regresión, UR 0,017901

Proporción de perturbación, UD 0,9071


Un estadístico especialmente relevante a la hora de analizar la capacidad predictiva

del modelo es la U de Theil. Esta medida puede ser interpretada como el ratio de la raíz

cuadrada del porcentaje del error cuadrático medio del modelo de predicción utilizado

respecto de la raíz cuadrada del porcentaje del error cuadrático medio de un “modelo

ingenuo” en el que simplemente se predice que 1t tY Y . Por tanto, si 1U nuestro

modelo predeciría igual de bien que un “modelo ingenuo”, si 1U nuestro modelo

predeciría peor que el “modelo ingenuo” y si 0 1U nuestro modelo predeciría mejor

que el “modelo ingenuo”. En este último caso, cuanto más cercana a cero esté la U de

Theil, más precisa será la predicción. Una predicción perfecta ( 1 1ˆt tY Y ) implicaría

que U=0. En nuestro ejemplo, U=0.0926 por lo que nuestro modelo predice mejor que

el “modelo ingenuo” con una razonable precisión.

Theil (1996) propuso una descomposición del error cuadrático medio (ECM) que

consideró muy útil para evaluar diferentes predicciones. Theil denominó a los tres

términos la proporción del sesgo (UM), proporción de la regresión (UR) y proporción de

la perturbación o de la covarianza (UD), respectivamente.

La proporción del sesgo (UM) nos dice la distancia que hay entre la media de los

valores de predicción y la media de los valores reales. Es un indicio de error

sistemático.

La proporción de la regresión (UR) nos dice la distancia entre la pendiente de la

regresión simple de los valores reales y los de la predicción. También es un indicio

de error sistemático.



La proporción de la perturbación (UD) mide el resto, es decir, los errores de

predicción no sistemáticos. Dado que no es razonable esperar que las predicciones

se correlacionen a la perfección con los resultados reales, este componente del

error es menos inquietante que los otros dos. En efecto, para cualquier valor de

U>0, la distribución ideal de la desigualdad sobre las tres fuentes es: UM=UR=0

y UD=1.

Cabe señalar que las tres proporciones suman 1. Si la predicción es “buena”, la

proporción del sesgo y de la regresión deberían ser lo más pequeñas posibles, por lo que

la mayor parte del sesgo debería concentrarse en la proporción de la perturbación. Si la

proporción del sesgo supera el valor 0,1 o 0,2 significaría que está presente un sesgo

sistemático, por lo que sería necesaria la revisión del modelo. En nuestro ejemplo se

puede observar que la predicción es buena.

Gretl también proporciona el gráfico que aparece en la Figura 2.2. Esta Figura

muestra en una línea continua gris la serie Y observada para las observaciones de 2 a 8,

y en negro la predicción de Y para las observaciones 2 a 8. Las líneas verticales del gráfico

representan los intervalos de confianza para cada observación. Si unimos los límites

inferiores y superiores de todos los intervalos obtendríamos las bandas de confianza de la

predicción.

Figura 2.2. Evolución del Salario (Y) y su Predicción individual

Fuente: Elaboración propia a partir Gretl.