00-Apuntes-ICT-2950 (1er Sem 2013)

Embed Size (px)

Citation preview

  • PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERA DEPARTAMENTO DE INGENIERA DE TRANSPORTE Y LOGSTICA ICT-2950 Tpicos de Econometra Profesor: Louis de Grange C.

    APUNTES DE CLASES

    ICT-2950 TPICOS DE ECONOMETRA (VERSIN 1er SEMESTRE 2013)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    ii

    NDICE

    Pg.

    1 REPASO DE MATRICES Y ANLISIS DE DATOS ..................... 1-1

    1.1 Operaciones con Matrices ....................................................1-1

    1.1.1 Matrices Especiales ......................................................................... 1-1

    1.1.2 Suma ................................................................................................. 1-2

    1.1.3 Multiplicacin .................................................................................. 1-2

    1.1.4 Operador de Kronecker ................................................................. 1-2

    1.1.5 Matrices Particionadas .................................................................... 1-3

    1.1.6 Matriz Inversa .................................................................................. 1-3

    1.1.7 Matriz Traspuesta ............................................................................ 1-3

    1.1.8 Traza de una Matriz........................................................................ 1-4

    1.1.9 Matrices Ortogonales ..................................................................... 1-5

    1.1.10 Vectores Caractersticos y Valores Propios ................................... 1-5

    1.1.11 Rango de una Matriz ...................................................................... 1-7

    1.1.12 Formas Cuadrticas de una Matriz ............................................... 1-7

    1.1.13 Diferenciacin de Matrices ............................................................. 1-8

    1.1.14 Series de Taylor ............................................................................... 1-9

    1.2 Anlisis de Datos ....................................................................1-9

    1.2.1 Tipos de Variables ........................................................................ 1-10

    1.2.2 Media, Varianza, Covarianza y Correlacin ............................ 1-10

    1.2.3 Medidas de Dependencia Lineal de los Datos .......................... 1-12

    1.2.4 Datos Atpicos (Outliers) .............................................................. 1-12

    2 REGRESIN LINEAL MLTIPLE ......................................... 2-15

    2.1 Supuestos del Modelo ........................................................ 2-17

    2.1.1 Supuestos Sobre la Perturbacin ................................................ 2-17

    2.1.2 Supuestos sobre las Variables Explicativas ................................ 2-18

    2.1.3 Supuestos sobre los Parmetros del Modelo ............................. 2-18

    2.2 Estimacin por Mnimos Cuadrados Ordinarios (MCO) . 2-18

    2.2.1 Vector de Parmetros ................................................................... 2-21

    2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras

    Finitas y Muestras Grandes) ........................................................ 2-23

    2.2.3 Teorema Central del Lmite .......................................................... 2-28

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    iii

    2.2.4 Indicadores de Bondad de Ajuste ............................................... 2-30

    2.2.5 MCO vs Mxima Verosimilitud ................................................... 2-33

    2.2.6 Interpretacin Econmica ............................................................ 2-35

    2.2.7 Diagrama de Venn ....................................................................... 2-36

    2.2.8 Interpretacin Geomtrica de los MCO .................................... 2-38

    3 INFERENCIA Y PRECICCIN ............................................. 3-43

    3.1 Contraste de Restricciones .................................................. 3-43

    3.1.1 Contraste de una Restriccin Lineal ............................................ 3-43

    3.1.2 Contraste de Restricciones Lineales Conjuntas .......................... 3-44

    3.1.3 Contraste Basado en una Regin de Confianza ....................... 3-45

    3.1.4 Mnimos Cuadrados Restringidos................................................ 3-48

    3.1.5 Contraste de Restricciones No Lineales ...................................... 3-49

    3.2 Prediccin ............................................................................. 3-50

    3.3 Estimacin por Mnimos Cuadrados Generales (MCG) .. 3-53

    4 ESPECIFICACIN ........................................................... 4-56

    4.1 Variables Ficticias ................................................................ 4-56

    4.1.1 Cambio Estructural en el Intercepto ............................................ 4-58

    4.1.2 Cambio Estructural en la Pendiente ............................................ 4-59

    4.1.3 Cambio Estructural en el Intercepto y la Pendiente ................... 4-59

    4.2 Variables No Lineales ......................................................... 4-60

    4.2.1 Transformaciones Generales ....................................................... 4-60

    4.2.2 Transformacin Box - Tidwell ....................................................... 4-61

    4.2.3 Transformacin Box - Cox ............................................................ 4-62

    4.3 Modelos No Lineales .......................................................... 4-65

    4.3.1 Modelo de Regresin Linealizado en Parmetros ..................... 4-66

    4.3.2 Modelo de Regresin Linealizado en Variables ........................ 4-67

    4.4 Especificacin de Variables ................................................ 4-68

    4.4.1 Seleccin de Variables................................................................. 4-68

    4.4.2 Variables Omitidas ....................................................................... 4-69

    4.4.3 Variables Superfluas ..................................................................... 4-71

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    iv

    4.5 Contraste de Subespecificacin de Modelos (Test J) ....... 4-72

    5 TEMAS ESPECFICOS ...................................................... 5-74

    5.1 Ortogonalidad ..................................................................... 5-74

    5.2 Multicolinealidad ................................................................. 5-76

    5.2.1 Definicin de Multicolinealidad .................................................. 5-76

    5.2.2 Causas de la Multicolinealidad................................................... 5-77

    5.2.3 Efectos de la Multicolinealidad ................................................... 5-77

    5.2.4 Deteccin de la Multicolinealidad y su Magnitud ..................... 5-84

    5.2.5 Correccin de la Multicolinealidad ............................................ 5-87

    5.2.6 Mtodo de Componentes Principales ......................................... 5-88

    5.2.7 Regresin Crestra (Ridge Regression)......................................... 5-94

    5.3 Heterocedasticidad ............................................................. 5-97

    5.3.1 Definicin de Heterocedasticidad ............................................... 5-97

    5.3.2 Causas de la Heterocedasticidad ............................................... 5-99

    5.3.3 Efectos de la Heterocedasticidad .............................................. 5-101

    5.3.4 Deteccin de la Heterocedasticidad......................................... 5-104

    5.3.5 Correccin de la Heterocedasticidad ....................................... 5-111

    5.4 Autocorrelacin ................................................................. 5-114

    5.4.1 Definicin de Autocorrelacin ................................................... 5-114

    5.4.2 Causas de la Autocorrelacin ................................................... 5-115

    5.4.3 Efectos de la Autocorrelacin .................................................... 5-116

    5.4.4 Deteccin de la Autocorrelacin ............................................... 5-118

    5.4.5 Estimacin bajo Autocorrelacin ............................................... 5-122

    5.5 Asimetra, Curtosis y Normalidad .................................... 5-124

    5.5.1 Asimetra ...................................................................................... 5-124

    5.5.2 Curtosis ........................................................................................ 5-125

    5.5.3 Estadstico Jarque-Bera de Normalidad ................................... 5-125

    5.6 Contrastes de Datos Atpicos ............................................ 5-126

    6 INTRODUCCIN A LAS SERIES DE TIEMPO ............... 6-128

    6.1 Extrapolacin de Series de Tiempo ................................. 6-128

    6.1.1 Modelos de Extrapolacin Simple ............................................ 6-128

    6.1.2 Modelos de Promedio Mvil ..................................................... 6-129

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    v

    6.2 Suavizamiento de Series de Tiempo ................................ 6-130

    6.3 Estimacin y Pronstico de Modelos de Tendencia ....... 6-131

    6.4 Procesos Estocsticos ........................................................ 6-131

    6.5 Estacionariedad ................................................................. 6-132

    6.5.1 Estacionariedad Estricta ............................................................. 6-132

    6.5.2 Estacionariedad Dbil ................................................................ 6-133

    6.5.3 Funcin de Autocorrelacin Simple (FAS) ................................ 6-134

    6.5.4 Funcin de Autocorrelacin Parcial (FAP) ................................ 6-136

    6.5.5 Proceso Ruido Blanco ................................................................ 6-137

    6.6 Ergodicidad ........................................................................ 6-139

    6.7 Teorema de Wold ............................................................. 6-140

    6.8 Retardos y Diferencias....................................................... 6-141

    6.8.1 Operador de Retardos ............................................................... 6-141

    6.8.2 Operador de Diferencias ........................................................... 6-142

    6.9 Ecuaciones de Diferencias ................................................ 6-142

    6.9.1 Definicin .................................................................................... 6-142

    6.9.2 Solucin Recursiva ...................................................................... 6-143

    6.9.3 Solucin Analtica ....................................................................... 6-143

    6.10 Crculo Unitario .................................................................. 6-150

    7 PROCESOS MEDIA MVIL ............................................ 7-153

    7.1 Procesos MA(1) ................................................................. 7-153

    7.2 Procesos MA(2) ................................................................. 7-156

    7.3 Procesos MA(q) ................................................................. 7-157

    7.4 Invertibilidad de los Procesos MA(q) ............................... 7-158

    7.5 Estimacin de Procesos MA(q) ......................................... 7-159

    7.6 Pronsticos con Procesos MA(q) ...................................... 7-162

    8 PROCESOS AUTORREGRESIVOS ..................................... 8-166

    8.1 Procesos AR(1) .................................................................. 8-166

    8.1.1 Media .......................................................................................... 8-166

    8.1.2 Varianza ...................................................................................... 8-167

    8.1.3 Autocovarianza .......................................................................... 8-167

    8.1.4 Autocorrelacin .......................................................................... 8-168

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    vi

    8.2 Procesos AR(2) .................................................................. 8-171

    8.2.1 Media .......................................................................................... 8-171

    8.2.2 Varianza ...................................................................................... 8-171

    8.2.3 Autocovarianza .......................................................................... 8-172

    8.2.4 Autocorrelacin .......................................................................... 8-172

    8.3 Procesos AR(p) ................................................................... 8-174

    8.4 Estimacin de Procesos AR(p) .......................................... 8-177

    8.5 Pronsticos con Procesos AR(p) ....................................... 8-177

    8.6 Regla de la Cadena Para Pronosticar AR(p) ................... 8-179

    8.7 Dualidad entre Procesos AR y MA ................................... 8-180

    8.8 Procesos ARMA(p,q) ......................................................... 8-181

    8.9 Pronsticos de Modelos ARMA(p,q) ............................... 8-183

    8.10 Procesos ARIMA(p,i,q) ...................................................... 8-185 8.11 Procesos Estacionales ........................................................ 8-186

    8.11.1 Estacionalidad Mediante Variables Dicotmicas .................... 8-187

    8.11.2 Procesos Autorregresivos Estacionales ..................................... 8-188

    8.11.3 Estacionariedad del AR(p) Estacional ....................................... 8-188

    8.11.4 Procesos Medias Mviles Estacionales .................................... 8-189

    8.11.5 Identificacin de s....................................................................... 8-190

    9 PROCESOS ESTOCSTICOS NO ESTACIONARIOS ............... 9-191

    9.1 Paseo Aleatorio ................................................................. 9-191

    9.2 Procesos ARIMA ................................................................ 9-195

    9.2.1 Identificacin de Procesos ARIMA ............................................ 9-196

    9.2.2 Estimacin de Procesos ARIMA ................................................. 9-200

    9.2.3 Inicializacin de la Serie ............................................................ 9-201

    9.2.4 Validacin de Procesos ARIMA ................................................ 9-203

    9.2.5 Prediccin con Procesos ARIMA ............................................... 9-209

    9.3 Orden de Integracin de una Serie: Mtodos No Paramtricos ....................................................................... 9-213

    9.3.1 Anlisis de la Funcin de Autocorrelacin ............................... 9-213

    9.3.2 Sobrediferenciacin ................................................................... 9-215

    9.3.3 Anlisis de la Varianza .............................................................. 9-216

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    vii

    10 RACES UNITARIAS Y COINTEGRACIN ................. 10-217

    10.1 Tendencias Determinsticas y Estocsticas .................... 10-218

    10.1.1 Tendencia Determinstica ........................................................ 10-218

    10.1.2 Tendencia Estocstica ............................................................. 10-219

    10.2 Regresin Espuria ........................................................... 10-222

    10.3 Deteccin de Races Unitarias ....................................... 10-224

    10.3.1 Anlisis Grfico de la Serie .................................................... 10-224

    10.3.2 Anlisis del Correlograma Simple de la Serie ...................... 10-225

    10.3.3 Utilizacin del Estadstico de Durbin - Watson ..................... 10-227

    10.4 Contraste de Estacionariedad y de Raz Unitaria ........ 10-228

    10.4.1 Contraste de Dickey Fuller (DF) .......................................... 10-228

    10.4.2 Contraste de Dickey Fuller Aumentado (DFA) ................... 10-234

    10.4.3 Contraste de Phillips Perron (PP) ......................................... 10-235

    10.5 Cointegracin ................................................................. 10-236

    10.6 Deteccin de Cointegracin .......................................... 10-238

    10.6.1 Engle y Granger ...................................................................... 10-238

    10.6.2 Durbin y Watson ...................................................................... 10-239

    10.6.3 Modelo de Correccin de Errores (MCE) ............................. 10-239

    10.7 Causalidad ...................................................................... 10-241

    11 ANLISIS FACTORIAL ................................................ 11-242

    11.1 Comparacin Entre FA y MCP ...................................... 11-246

    11.2 El Modelo de Anlisis Factorial ..................................... 11-246

    11.2.1 Hiptesis del FA ....................................................................... 11-246

    11.2.2 Forma Matricial del FA ........................................................... 11-247

    11.3 Ecuaciones del FA .......................................................... 11-248

    11.3.1 No Unicidad de los Factores .................................................. 11-249

    11.3.2 Normalizacin del Modelo Factorial .................................... 11-249

    11.4 Resolucin de las Ecuaciones del FA ............................ 11-250

    11.4.1 Nmero de Factores ................................................................ 11-250

    11.4.2 Mtodo del Factor Principal ................................................... 11-251

    11.5 Determinacin de la Cantidad Apropiada de Factores ......11-256

    11.5.1 Criterios Subjetivos .................................................................. 11-257

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    viii

    11.5.2 Criterios Objetivos ................................................................... 11-257

    11.6 Rotacin de Factores ...................................................... 11-258

    11.6.1 Rotacin VARIMAX ................................................................. 11-260

    11.6.2 Rotacin Oblicua ..................................................................... 11-261

    11.7 Cuantificacin de Factores ............................................ 11-262

    11.7.1 Mtodo de Barlett ................................................................... 11-263

    11.7.2 Mtodo de Thompson ............................................................. 11-263

    11.7.3 Otros Mtodos ......................................................................... 11-264

    12 ANLISIS DE CONGLOMERADOS (CLUSTER) ................. 12-265

    12.1 Medidas de Semejanza y Desemejanza ...................... 12-265

    12.1.1 Distancia Mtrica ..................................................................... 12-265

    12.1.2 Distancia de Mahalanobis ...................................................... 12-265

    12.2 Anlisis Grficos ............................................................. 12-266

    12.2.1 Grficos de Dispersin (Bidimensionales) ............................. 12-266

    12.2.2 Grficos de Dispersin (Tridimensionales) ............................ 12-267

    12.2.3 Grficos de Andrews .............................................................. 12-268

    12.2.4 Grficos de Estrellas ................................................................ 12-270

    12.2.5 Grficos de Caras de Chernoff .............................................. 12-273

    12.3 Mtodos de Agrupacin ................................................ 12-274

    12.3.1 Mtodo del Vecino Ms Cercano ......................................... 12-274

    12.3.2 Diagrama de rbol ................................................................. 12-277

    12.3.3 Estadstico F de Beale ............................................................. 12-280

    12.4 Reduccin de la Escala Multidimensional .................... 12-281

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-1

    1 REPASO DE MATRICES Y ANLISIS DE DATOS

    1.1 Operaciones con Matrices

    Sea la matriz

    11 12 1

    21 22 2

    1 2

    ....

    .... ....

    ....

    n

    n

    m m mn

    a a a

    a a aA

    a a a

    =

    donde

    11 21 1

    12 22 2

    1 2

    ....

    .... ....

    ....

    m

    mT

    n n mn

    a a a

    a a aA

    a a a

    =

    .

    1.1.1 Matrices Especiales

    D = diag(A) es la diagonal de la matriz A de dimensin n x n:

    11

    22

    0 .... 00 0.... ....

    0 0 ....

    T

    nn

    a

    aD D

    a

    = =

    (1.1)

    T se denomina triangular superior de la matriz A:

    11 12 1

    22 2

    ....

    0.... ....

    0 0 ....

    n

    n

    mn

    a a a

    a aT

    a

    =

    (1.2)

    In se denomina matriz identidad de dimensin n x n:

    1 0 .... 00 1 0.... ....

    0 0 .... 1

    I

    =

    (1.3)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-2

    1.1.2 Suma

    C A B= es definido como ij ij ijc a b= dado que A y B tienen el mismo nmero de filas y de columnas. Es fcil demostrar que: ( ) ( )A B C A B C = y tambin que A B B A+ = + .

    1.1.3 Multiplicacin

    C A B= es definido como ( )1

    n

    ij ik kjk

    c a b=

    = dado que A y B son matrices

    conformables, es decir, A es de r x n y B e de n x p. Debe notarse que:

    A B y B A no son necesariamente iguales.

    Se cumple que ( )A B C A B A C =

    En general, A B B A

    Dos vectores a A y b B son ortogonales ( )a b si ( )1

    0n

    Ti i

    ia b a b

    =

    = =

    ( )1 2 21

    nT

    ii

    a a a a=

    = =

    Si A A A = se dice que A es idempotente, y en general ( ) , 1pA A p= > .

    1.1.4 Operador de Kronecker

    Si A es de m x n y B e de s x t, el operador de Kronecker de A y B, denotado por A B , es una matriz de ms x nt dada por:

    11 12 1

    21 22 2

    1 2

    ....

    .... ....

    ....

    n

    n

    n n mn

    a B a B a Ba B a B a B

    A B

    a B a B a B

    =

    (1.4)

    Se cumplen las siguientes propiedades:

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-3

    ( ) ( ) ( )A B C D AC BD = ( ) ( ) ( ) ( ) ( ) ( )A B C D A C A D B C B D+ + = + + + ( ) ( )A B C A B C =

    1.1.5 Matrices Particionadas

    La matriz A de m x n puede ser particionada en 4 sub-matrices de la forma:

    11 12

    21 22

    A AA

    A A

    =

    (1.5)

    Luego, si B es tambin particionada se puede obtener la siguiente expresin:

    11 12 11 12 11 11 12 21 11 12 12 22

    21 22 21 22 21 11 22 21 21 12 22 22

    A A B B A B A B A B A BA B

    A A B B A B A B A B A B+ +

    = = + + (1.6)

    1.1.6 Matriz Inversa

    Dada la matriz A de n x n, si existe una matriz B que satisface AB = BA = In, esta matriz B se denomina inversa de A, y se denota 1B A= . Se cumplen las siguientes propiedades:

    ( ) 1 1 1AB B A =

    ( ) ( ) 11 1 1 1 1A B A A B B + = +

    1.1.7 Matriz Traspuesta

    Se cumplen las siguientes propiedades:

    ( )TTA A= ( )T T TA B A B =

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-4

    ( )T T TA B B A =

    ( ) ( ) 11 T TA A = Si TA A= se dice que A es simtrica

    TA A y TA A son simtricas

    ( ) ( )T T TA B A B =

    1.1.8 Traza de una Matriz

    La traza de una matriz cuadrada conformable A de n x n se define como la

    suma de los elementos de su diagonal: ( )1

    n

    iii

    tr A a=

    = . Debe notarse que:

    ( ) ( )Ttr A tr A= ( ) ( ) ( )tr A B tr A tr B = ( ) ( )tr A B tr B A = ( ) ( )tr k A k tr A = ( ) ( ) ( )tr A B tr A tr B =

    Debe notarse que para un producto de matrices cuyo resultado

    es un escalar, dicho valor tambin corresponde a la traza del producto

    original de las matrices. Es decir, el valor de un escalar es igual a su traza.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-5

    1.1.9 Matrices Ortogonales

    Las matrices ortogonales son matrices cuadradas que pueden representar un

    giro en el espacio respecto a un plano (o hiperplano). Para caracterizar estas matrices,

    supongamos que, dado un vector X, lo ponderamos por una matriz no singular C, y obtenemos un nuevo vector Y:

    Y C X= (1.7)

    Si la operacin realizada es slo un giro, entonces el mdulo o norma de Y debe ser idntica a la de X, y por lo tanto se cumple:

    T T T TY Y X C CX X X= = (1.8)

    Por lo tanto, debe cumplirse que:

    TC C I= (1.9)

    La condicin de ortogonalidad es la que se obtiene de (1.9), de donde se

    deduce que la matriza traspuesta debe ser igual a su inversa:

    1TC C= (1.10)

    Luego, una matriz ortogonal debe tener filas (o columnas) que

    son ortogonales entre s, y de longitud igual a la unidad.

    1.1.10 Vectores Caractersticos y Valores Propios

    Dada una matriz cuadrada, existen determinadas propiedades de dicha

    matriz que son invariantes ante transformaciones lineales de dicha matriz de tal forma que

    se mantiene la informacin existente en la matriz. Algunos ejemplos pueden ser trasponer la

    matriz o girarla.

    Los valores propios son las medidas bsicas de tamao de una matriz. Dichas

    medidas bsicas, como la traza o el determinante, son funcin de los valores propios, y

    sern por lo tanto invariantes ante transformaciones lineales que preserven los valores

    propios.

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-6

    Llamaremos vectores propios de una matriz cuadrada de orden n a aquellos

    vectores cuya direccin no se modifica al aplicar una transformacin lineal a la matriz. Sea

    A una matriz de n x n. Existe entonces un vector propio c que satisface:

    A c c = (1.11)

    para determinados valores constantes de , que es un escalar, y que se denomina valor propio.

    Si c es un vector propio de A, y si multiplicamos (1.11) por cualquier 0 ,

    entonces c tambin ser un vector propio de A. Para evitar esta indeterminacin,

    supondremos que 1c = .

    Luego, existe una solucin no nula (para 0c ) que verifica:

    det 0A I = (1.12)

    La expresin (1.12) es un sistema de ecuaciones lineal homogneo que tiene una solucin no nula slo si la matriz ( )A I es no singular. El polinomio que se obtiene de (1.12) en funcin de se denomina ecuacin caracterstica.

    Las soluciones de (1.11) son los vectores caractersticos, y los distintos valores

    de en (1.12) son las races caractersticas, que son nmero reales si la matriz es simtrica. En general, una matriz tiene h n valores propios. A cada valor propio de la matriz podemos asignarle un nico vector propio que satisface (1.11).

    Debe destacarse que:

    Si es un valor propio de A, entonces r es un valor propio de rA

    Los valores propios de una matriz y su traspuesta son los mismos

    ( )1

    n

    ii

    tr A =

    =

    ( )1

    nr r

    ii

    tr A =

    =

    ( )1 11

    n

    ii

    tr A =

    =

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-7

    1

    n

    ii

    A =

    = Los vectores caractersticos de una matriz simtrica son ortogonales

    Las matrices A y (A + I) tienen los mismos vectores propios, y si es un valor propio de A, + 1 es un valor propio de (A + I)

    Las matrices ABC, ACB y CAB tienen los mismos valores propios no nulos

    Si A es triangular, los valores propios son los elementos de la diagonal

    En una matriz simtrica, los valores propios son nmeros reales y los vectores son

    ortogonales

    1.1.11 Rango de una Matriz

    Supongamos una matriz A de m x n con m filas ( )1 2, ,...., ma a a . El rango de la matriz A corresponde al nmero de filas linealmente independientes. Si el rango es m, se dice que la matriz es de rango completo.

    ( ) ( ) ( )T Trango A rango A rango A A= = ( ) ( ) ( ){ }min ;rango A B rango A rango B El rango tambin corresponde al nmero de races caractersticas distintas de cero

    en ( )TA A . Si la matriz es simtrica, corresponde al nmero de races caractersticas distintas de cero en A.

    1.1.12 Formas Cuadrticas de una Matriz

    Sea una matriz A de n x n simtrica, y ( )1 2, ,...., nx x x x= un vector. Entonces la expresin ( )

    1 1

    n nT

    i j iji j

    q x Ax x x a= =

    = = se denomina forma cuadrtica, que es un

    polinomio de segundo grado en x.

    Si 0Tx Ax > entonces A es definida positiva.

    Si 0Tx Ax < entonces A es definida negativa.

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-8

    Si 0Tx Ax entonces A es semi-definida positiva.

    Si 0Tx Ax entonces A es semi-definida negativa.

    1.1.13 Diferenciacin de Matrices

    Sea una matriz X de n x m con elementos ijx , y ( )f f X= una funcin que depende de los elementos de X. Entonces:

    ij

    df dfdX dx

    =

    (1.13)

    Como ejemplo, supongamos que 1 2 35 2 3f X X X= + + . Luego:

    523

    dfdX

    =

    (1.14)

    Adems, es fcil obtener los siguientes resultados:

    ( )Td X

    Xd

    = , ( )Td XdX =

    Si X simtrica entonces ( )

    2Td X

    Xd

    =

    Si ( ) Tf X a Xb= entonces Tdf b adX

    =

    Si ( ) ( )f X A X B= entonces T Tdf A BdX

    =

    Si X es de n x n y ( ) ( )f X X= entonces ndf IdX =

    Si X es de n x n y ( ) ( )Tf X X AX= entonces ( )Tdf A A XdX = + Definiendo ( ) ( ) ( )( )1 2; ;.......;T nY f X f X f X= , entonces:

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-9

    1 2

    1 1 1

    1 21 2

    2 2 2

    1 2

    .....

    .....

    ; ;......;

    .....

    n

    n

    n

    n

    n n n

    dfdf dfdx dx dx

    dfdf dfdfdf dfdY dx dx dx

    dX dX dX dX

    dfdf dfdx dx dx

    = =

    Si Y AX= entonces TdY AdX

    =

    1.1.14 Series de Taylor

    Para una funcin vectorial ( )f f x= la expansin en series de Taylor es la siguiente:

    ( ) ( ) ( ) ( ) ( ) ( ) ( )2

    0 0 00 0 0 ....2

    Tf x x x x xf x f x f x x x + + +

    (1.15)

    ( ) 0 1 2 ......Tf x x x x + + + (1.16)

    1.2 Anlisis de Datos

    En general, consideraremos un total de n datos u observaciones o unidades

    experimentales, y un total de p variables. Es decir, cada una de las n observaciones considera p variables. Esta informacin puede ser representada como una matriz de p x n.

    11 12 1

    21 22 2

    1 2

    ....

    .... ....

    ....

    p

    p

    n n np

    x x x

    x x xX

    x x x

    =

    (1.17)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-10

    1.2.1 Tipos de Variables

    Las variables pueden ser bsicamente de dos tipos: cuantitativas o

    cualitativas. Las cuantitativas se caracterizan porque su valor puede ser expresado

    numricamente, como por ejemplo la edad de una persona, su peso, la poblacin de un

    pas, el ingreso monetario de un individuo, etc. Las variables cualitativas se caracterizan

    porque su valor corresponde a un atributo o categora, como por ejemplo el sexo, su pas

    de nacimiento, temporada del ao, etc.

    Las variables cuantitativas pueden a su vez en continuas o discretas. Las

    variables cualitativas por su parte pueden clasificarse en binarias (slo 2 valores) o

    mltiples (muchos valores).

    1.2.2 Media, Varianza, Covarianza y Correlacin

    Estas variables representan un resumen de la informacin existente en los

    datos. En trminos probabilsticos, estas variables estn asociadas a los momentos de la

    funcin de densidad.

    Para una determinada variable k en particular, su media se representa como:

    1

    1 nk ik

    ix x

    n=

    = (1.18)

    La varianza de esta variable k est relacionada conceptualmente con la distorsin promedio de cada observacin de la variable respecto a la media de dicha

    variable, y se expresa de la siguiente forma:

    ( ) ( )21

    11

    n

    k ik ki

    V x x xn

    =

    =

    (1.19)

    Por otra parte, el grado de relacin lineal entre dos variables se mide por la covarianza. La covarianza entre las variables kx y jx se calcula como:

    ( ) ( ) ( )1

    1cov ,

    1

    n

    k j ik k ij ji

    x x x x x xn

    =

    =

    (1.20)

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-11

    Notar que la covarianza puede ser positiva o negativa. El signo de la covarianza indica el signo de la variancin conjunta de las variables kx y jx . Su magnitud,

    sin embargo, depende de la escala en que fueron medidas las variables.

    A partir de las expresiones obtenidas de (1.20), se puede generar la matriz de

    varianzas y covarianzas del conjunto de datos X. En la diagonal irn los trminos asociados a la varianza de cada una de las p variables, y fuera de la diagonal irn los trminos asociados a la covarianza entre las distintas variables. Luego, la matriz de

    varianzas y covarianzas es de (p x p).

    Una caracterstica importante de la matriz de varianzas y covarianzas es que

    es siempre simtrica y positiva-definida (excepto que existan filas columnas

    dependientes).

    La simetra se debe a que ( ) ( )cov , cov ,k j j kx x x x= ; lo de positiva definida es una extensin del hecho que la varianza es siempre positiva por definicin, ya que es una

    suma de elementos al cuadrado.

    Adicionalmente, la traza, el determinante y los valores propios

    de la matriz de varianzas y covarianzas son siempre no negativos.

    Como se mencion anteriormente, la magnitud de las varianzas y covarianzas depende de la escala en que se han medido las variables kx y jx . Ello implica que valores

    altos de la covarianza no implica necesariamente altos grados de relacin lineal entre las

    variables. Anlogamente, valores bajos no implica ausencia de relacin entre ellas.

    Una alternativa que mitiga este problema es la matriz de correlaciones, que se

    obtiene de la siguiente expresin:

    ( )( ) ( )cov ,k j

    kjk j

    x xr

    V x V x=

    (1.21)

    Las propiedades de la metriz de correlaciones son las mismas que las de la

    matriz de varianzas y covarianzas: simtrica, semidefinida positiva, y con traza,

    determinante y valores propios no nulos. Sin embargo, los valores de la matriz de

    correlaciones van entre 1 y 1, y los elementos de la diagonal son siempre 1.

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-12

    1.2.3 Medidas de Dependencia Lineal de los Datos

    Interesa analizar la estructura de dependencia entre las variables. Estas

    dependencias pueden estudiarse como:

    Dependencia entre pares de variables (correlacin)

    Dependencia entre pares de variables pero eliminando el efecto del resto

    (correlacin parcial)

    Dependencia entre una variable y un conjunto de variables (regresin

    lineal mltiple)

    1.2.4 Datos Atpicos (Outliers)

    a) Definicin

    Datos atpicos o Outliers son aquellas observaciones que al parecer han sido

    generados de manera distinta al resto de los datos. Pueden ser causados por ejemplo por

    errores de medicin o digitacin de los datos, cambios en los instrumentos de medicin o

    simplemente representan una heterogeneidad intrnseca de los elementos observados.

    La caracterizacin de un nico dato atpico es simple, ya que por definicin

    debe estar alejado del resto. Luego, la distancia entre dicha observacin y el resto debe ser

    alta. Alternativamente, podemos definir como dato atpico aquella observacin que se

    encuentra alejada del centro o de la media de los datos.

    Una observacin puede considerarse atpica si la distancia mtrica entre dicha

    observacin y la media de los datos es grande:

    ( ) ( ) ( ) 1 2, Ti i id x x x x x x = (1.22)

    Para identificar las observaciones atpicas, podramos construir un histograma

    de estas distancias y determinar si existen puntos muy alejados respecto a los dems.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-13

    Sin embargo, esta medida de distancia no es correcta cuando existe

    dependencia entre observaciones (relacin lineal). Ello se debe a que la distancia

    euclidiana no considera la estructura de correlaciones entre los datos; una alternativa es

    estandarizar previamente los datos en forma multivariante. La estandarizacin tpicamente

    utilizada es la siguiente:

    ( )ki k

    kik

    x xz

    V x

    = (1.23)

    Luego, se puede construir la distancia euclidiana pero con las variables

    estandarizadas:

    ( ) ( ) ( ) 1 2, Ti i id z z z z z z = (1.24)

    b) Efectos de los Datos Atpicos

    Las consecuencias incluso de una nica observacin atpica pueden ser

    graves: distorsionar las medias y desviaciones tpicas de las variables y destruir eventuales

    relaciones existentes entre ellas.

    Consideremos que tenemos una muestra de tamao n con observaciones de

    un vector p-dimensional x. Supongamos ahora que introducimos una observacin atpica a, que corresponde tambin a un vector de p variables. Sea x el vector de medias de las p variables y V la matriz de varianzas y covarianzas sin el dato atpico; sea ax el vector de

    medias de las p variables y Va la matriz de varianzas y covarianzas con el dato atpico. Se comprueba fcilmente que:

    1aa x

    x xn

    = + +

    (1.25)

    ( )( )1 1 1

    T

    a

    a x a xn nV Vn n n

    = + + + + (1.26)

    Las expresiones anteriores indican que un solo dato atpico puede afectar de

    manera importante el vector de medias y la matriz de varianzas y covarianzas.

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    1-14

    El efecto del dato atpico depende, adems de su magnitud, de su ubicacin,

    particularmente la matriz de varianzas y covarianzas.

    c) Identificacin de Datos Atpicos

    Una regla simple y automtica para detectar datos atpicos es la siguiente:

    ( )( ) 4,5 1,2,....,

    ki k

    k

    x mediana x k p

    MEDA x

    > = (1.27)

    MEDA (xk) es la mediana de las desviaciones absolutas ( )ki kx mediana x , que es una medida robusta de las dispersin.

    Por otra parte, si el nmero de datos no es muy grande, los diagramas de

    dispersin pueden ayudar a detectar datos atpicos.

    Otra alternativa corresponde a escoger el intervalo que albergue a un

    88,88% de las observaciones. El intervalo ser el siguiente:

    ( ) ( )( ); 1,2,....,k k k kx V x x V x k p + = (1.28) Se suele considerar = 3. Esta expresin proviene de la desigualdad de

    Chebychev, ya que en el intervalo definido se encuentra una proporcin 211 de las

    observaciones. Si = 4, se albergan el 93,5% de las observaciones.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-15

    2 REGRESIN LINEAL MLTIPLE

    La econometra es la aplicacin de mtodos estadsticos y matemticos al

    anlisis de datos, generalmente econmicos, biolgicos y sociolgicos, a fin de otorgar un

    contenido emprico sobre diferentes teoras, y as verificarlas o refutarlas.

    El modelo de regresin lineal es el nico escenario en econometra en el que

    es factible contrastar fehacientemente la capacidad de prediccin de los modelos

    ajustados, mediante la aplicacin de diversos test especficos. Otros modelos

    economtricos, como por ejemplo modelos de eleccin discreta (Logit, Probit) o de variable

    dependiente limitada (Tobit, Seleccin Muestral), si bien pueden estimarse mediante

    tcnicas economtricas, no existe un indicador de bondad de ajuste tan preciso como en el

    caso de la regresin lineal.

    Mediante un modelo de regresin lineal mltiple (RLM) tratamos de explicar el

    comportamiento de una determinada variable, que denominaremos variable a explicar,

    variable endgena o variable dependiente, (y representaremos con la letra Y) en funcin de un conjunto de k variables explicativas 1 2, ,...., kx x x mediante una relacin de

    dependencia.

    ( );Y f X = + (2.1)

    En el caso del modelo de RLM, la forma funcional es la siguiente:

    Y X = + (2.2)

    1

    2

    ....

    n

    yy

    Y

    y

    =

    ,

    0

    1

    ....

    k

    =

    ,

    11 12 1

    21 22 2

    1 2

    1 ....1 ........

    1 ....

    k

    k

    n n nk

    x x x

    x x xX

    x x x

    =

    ,

    1

    2

    ....

    n

    =

    Y es el vector de variables dependientes (n x 1)

    es el vector de parmetros o coeficientes de calibracin (k + 1 x 1). Normalmente, se considera que hay k variables explicativas ms un tmino constante o intercepto (representado por la columna de unos en la matriz X).

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-16

    X es la matriz de variables independientes o explicativas; observaciones conocidas que incluye una columna con unos (n x k +1). Tambin se les denomina regresores.

    es el vector de errores o residuos no observados (n x 1); tambin se le denomina

    perturbacin, trmino aleatorio o estocstico (para el caso de series de tiempo).

    Los parmetros miden la intensidad media de los efectos de las variables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de

    la variable a explicar respecto a cada una de as variables explicativas: jj

    Yx

    =

    .

    El error , por su parte, aparece por varias razones. Las tres principales

    razones son las siguientes:

    i. Muchas veces no es posible captar la totalidad de variables que explican un

    determinado fenmeno. Es decir, se omiten algunas variables que pueden ser

    ms o menos relevantes en la especificacin del modelo. Esto implica que la

    naturaleza de la relacin econmica no est correctamente especificada.

    Evidentemente se espera que en un modelo se especifiquen todas las

    variables relevantes. Sin embargo, muchas de las variables omitidas pueden

    incluso tener una influencia suave o irregular, por lo que la perturbacin

    busca representar la influencia neta de la suma de un gran nmero de

    variables de tamaos y efectos independientes.

    ii. Mediciones con Error de las variables explicativas o en la variable explicada.

    Muchas veces no es posible obtener un valor preciso para las variables que

    se desea estudiar o incorporar en los modelos. Por ejemplo, cuando se miden

    tiempos de viaje en transporte pblico o consumo de combustible de los

    automviles. Sin embargo, y como veremos ms adelante, si las variables

    explicativas son medidas con error, se obtienen estimaciones sesgadas en la

    regresin lineal, y si la variable explicada es medida con error, se produce

    ineficiencia en la estimacin (aumento de la varianza).

    iii. Indeterminacin humana, es decir, las personas o individuos se comportan de

    manera diferente frente a los mismos estmulos. Elerror busca por lo tanto

    representar esta aleatoriedad inherente al comportamiento humano.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-17

    2.1 Supuestos del Modelo

    Trataremos de estimar el modelo de manera que, los valores ajustados de la

    variable endgena o explicada, resulten tan prximos a los valores realmente observados

    como sea posible. Debe notarse que el modelo corresponde a una esperanza

    condicionada:

    ( )/E Y X X = (2.3)

    A fin de poder determinar las propiedades de los estimadores obtenidos al

    aplicar distintos mtodos de estimacin y realizar diferentes contrastes, hemos de

    especificar un conjunto de supuestos sobre la RLM que hemos formulado. Existen tres

    grupos de supuestos: los supuestos sobre el trmino de perturbacin, los supuestos

    sobre las variables explicativas, y los supuestos sobre los parmetros del modelo.

    2.1.1 Supuestos Sobre la Perturbacin

    Valor esperado de la perturbacin es cero: ( ) 0jE , j = . Homocedasticidad: todos los trminos de perturbacin tienen la misma varianza

    (varianza constante): ( ) ( ) 2i jV V = , i j = . Por tanto, todos los trminos de la diagonal principal de la matriz de varianzas y covarianzas sern iguales.

    No Autocorrelacin: los errores son independientes unos de otros, por lo que la

    matriz de varianzas y covarianzas es una matriz diagonal (fuera de la diagonal

    principal todo son ceros): ( ), 0i jE , i j = . Luego, considerando las hiptesis de homocedasticidad y ausencia de autocorrelacin, la matriz de varianzas y

    covarianzas tiene la siguiente estructura:

    ( )2

    22

    2

    00 0 ....00 0 ............

    0 0 0 ....

    V I

    = =

    (2.4)

    La perturbacin o error presenta una distribucin normal: ( )0; 2N I .

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-18

    En sntesis, en un modelo bueno el error es impronosticable.

    2.1.2 Supuestos sobre las Variables Explicativas

    Las variables explicativas son fijas o determinsticas.

    Las variables explicativas no estn correlacionadas con el trmino de error o perturbacin: ( ), 0i iE x , i = .

    Las variables explicativas no presentan relacin lineal exacta entre si (no existe

    multicolinelidad perfecta).

    Las variables explicativas son medidas sin error.

    En el modelo no se excluyen las variables relevantes y tampoco se incluyen las

    variables irrelevantes, a la hora de explicar el comportamiento de la variable

    endgena.

    2.1.3 Supuestos sobre los Parmetros del Modelo

    La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis de permanencia estructural, lo que significa que los parmetros poblacionales j j se mantienen constantes a lo largo de toda la muestra.

    2.2 Estimacin por Mnimos Cuadrados Ordinarios (MCO)

    Esl mtodo de estimacin de modelos de regresin lineal ms famoso en el

    mundo entero para efectuar investigacin emprica es el de mnimos cuadrados ordinarios

    (MCO). Este mtodo intenta obtener estimadores de los parmetros de tal forma que la

    variable predicha Y se parezca lo ms posible a la variable observada (Y), es decir, se musca minimizar la diferencia ( )Y Y . Sin embargo, no basta slo con minimizar esta diferencia, como se observa en la siguiente Figura:

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-19

    Figura 2.1

    Ajuste Segn Minimizacin del Error

    En la Figura 2.1 se observa claramente que si el criterio de ajuste fuera

    simplemente minimizar los la diferencia entre los valores observados de las Y (puntos) y los

    valores modelados (lnea recta azul), los dos conjuntos de datos representados por los

    puntos negros y rojos tendran el mismo ajuste. Evidentemente, es mejor el ajuste de los

    puntos rojos. Por lo tanto, minimizar las diferencias entre valores observados y modelados

    no es un buen criterio.

    Una segunda alternativa podra se minimizar el valor absoluto de las

    diferencias entre los valores observados y modelados, mitigando el problema expuesto en

    el prrafo anterior. Sin embargo, este segundo criterio tambin tiene sus detractores, como

    se observa en la siguiente Figura:

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-20

    Figura 2.2

    Ajuste Segn Minimizacin del Valor Absoluto del Error

    En la Figura 2.2 se observa los puntos negros presentan tres casos en que el

    ajuste es exacto y otros tres casos en que el ajuste es malo. En el caso de los puntos rojos,

    se observa que el ajuste en todos los casos es relativamente bueno. Para muchos

    modeladores, el ajuste de los puntos rojos es preferible al de los puntos negros. Sin

    embargo, la opinin en este segundo caso es dividida, ya que en determinadas situaciones

    puede ser preferible predecir exactamente un nmero pequeo de casos a cambio de fallar

    groseramente en otros, en lugar de estar cerca en todos, pero sin apuntar exactamente a

    ninguno. Suponga por ejemplo que usted tiene un modelo que predice los nmeros del

    Loto; qu preferira usted si jugara 6 veces, apuntarle al total de los nmeros 3 veces y a

    ningn nmero las otras tres veces, o fallar por poco las 6 veces. Evidentemente, en este

    ejemplo es preferible el primer modelo.

    Una tercera alternativa de criterio es minimizar el cuadrado de las diferencias

    entre los valores observados y los modeloados. Esto permite, por una parte, penalizar los

    errores y, por otra parte, castigar a aquellos puntos que se alejen mucho del valor

    observado. Por lo tanto, este criterio penaliza ms fuertemente a aquellos errores grandes

    en magnitud que aquellos errores pequeos. A este criterio se le denomina Mnimos

    Cuadrados Ordinarios o simplemente MCO (los mnimos cuadrados generales, que es un

    criterio adicional que otorga un peso relativo a cada observacn, se presenta en los

    prximos Captulos).

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-21

    Sin embargo, la principal razn del xito de la estimacin por MCO no se

    debe a la minimizacin de la suma de errores al cuadrado, ya que ello poco nos dice

    respecto de la real capacidad explicativa de las variables. La razn de su xito se debe a

    que sus resultados superan al de otros criterios (como los dos anteriores), y adems a su

    gran simplicidad en trminos computacionales.

    2.2.1 Vector de Parmetros

    La estimacin de MCO se realiza con el criterio de minimizar los cuadrados

    de los errores inducidos por el modelo poblacional. Luego, debe resolverse el siguiente

    problema de optimizacin:

    { } ( ) ( )minT

    T Q= Y X Y X

    (2.5)

    { }min 0T T T T T T

    Q Y Y X Y Y X X X = + = (2.6)

    y dado que ( )T T TX X = se obtiene:

    { }min 2T T T T T

    Q Y Y X Y X X = + (2.7)

    2 2 0T T T TQ X Y X X X Y X X

    = + = =

    (2.8)

    Si X tiene rango (k + 1) de la ecuacin normal (2.8) se obtiene entonces la siguiente solucin nica:

    ( ) 1 T TX X X Y = (2.9) Debe notarse que la expresin (2.9) corresponde a la razn entre la

    covarianza de X e Y y la varianza de X. Si X tiene rango menor que (k + 1), es decir, existe dependencia lineal en las observaciones, de la ecuacin normal (2.8) deja de

    obtenerse una nica solucin. Por otra parte, si X tiene rango mayor que (k + 1), el problema queda indeterminado (ms parmetros que ecuaciones).

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-22

    Por otra parte, la estimacin de la varianza de se obtiene de la siguiente manera:

    ( ) ( ) ( ) TV E = (2.10)

    ( )( ) ( ) ( ) ( ) ( )1 1 TT T T T TE E X X X X X X = (2.11) ( ) ( ) ( )( )1 1 T T T TV E X X X X X X = (2.12) ( ) ( ) ( )1 1 T T T TV X X E X X X X = (2.13) ( ) ( ) ( )1 1 T T T TV X X X E X X X = (2.14) ( ) ( ) ( ) ( )1 12 T T TV X X X I X X X = (2.15) ( ) ( ) 12 TV X X = (2.16) Sin embargo, es necesario un estimador de 2 . Es directo demostrar a partir

    de (2.9) y (2.2) que:

    ( ) MY M X MX M M = = + = + = (2.17)

    donde ( )( )1T TM I X X X X= es una matriz de n x n simtrica ( )TM M= e idempotente ( )TM M M= . Luego, de (2.17) se obtiene:

    T T M = (2.18)

    ( ) ( ) / /T TE X E M X = (2.19) ( ) ( ) / /T TE tr X E tr M X = (2.20)

    ( ) ( )2 2/Ttr ME X tr M I tr M = = (2.21)

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-23

    ( ) ( )( ) ( ) ( )( )1 12 2 2T T T Tntr M tr I X X X X tr I tr X X X X = = (2.22) ( ) ( ) ( )2 2n ktr I tr I n k = (2.23)

    Por lo tanto se obtiene:

    ( ) ( )2 /TE X n k = (2.24)

    ( )2

    T

    n k

    =

    (2.25)

    Finalmente, de (2.16) y de (2.25) resulta:

    ( ) ( ) ( )1

    TTV X X

    n k =

    (2.26)

    2.2.2 Aspectos Algebraicos y Propiedades de los Estimadores (Muestras Finitas y

    Muestras Grandes)

    i. El estimador MCO es insesgado y eficiente:

    ( ) ( )( )1 T TX X X X = + (2.27) ( ) ( ) ( ) ( )1 1 T T T TX X X X X X X = + (2.28)

    ( ) ( ) ( ) ( ) ( )1 1 T T T TX X X X X X = + = (2.29) ( ) ( ) ( )1 T TE E X X X = + (2.30) ( ) ( ) ( ) ( ) ( )1 1 T T T TE E X X X X X E X = + = + (2.31) ( ) ( ) ( ) ( )1 T TE X X E X E = + (2.32) ( )E = (2.33)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-24

    Figura 2.3

    Ilustracin del Sesgo en la Estimacin MCO de

    SESGO

    ( )E = ( )E

    Densidad

    Estimador de

    Para demostrar que presenta la mnima varianza:

    ( )( )1 T Tb X X X C Y CY= + = + (2.34) ( ) ( )( ) ( )1T TE b X X X C X I CX = + = + = (2.35) ( ) ( )( ) ( )( )1 1 TT T T T TV b E X X X C X X X C = + +

    (2.36)

    ( ) ( )( ) ( ) ( )( )1 1 TT T T T TV b X X X C E X X X C = + + (2.37) ( ) ( )( ) ( )( )1 12 TT T T TV b X X X C I X X X C = + + (2.38) ( ) ( )( ) ( ) ( ) ( )12 2 T T TV b X X CC V CC V = + = + > (2.39)

    ( ) 12 ; TN X X (2.40)

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-25

    Figura 2.4

    Ilustracin de la Eficiencia en la Estimacin MCO de

    ( )E =

    Densidad

    Estimador de

    N = 300

    N = 100

    N = 30

    N = 800

    A partir de las dos Figuras anteriores surge la siguiente pregunta: qu es

    preferible, un estimador insesgado o uno eficiente? Surge entonces el concepto de Error

    Cuadrtico Medio (ECM):

    ( ) ( ) ( )2 ECM sesgo V = + (2.41) Tambin es posible dar un peso relativo al cuadrado del sesgo y a la

    varianza, dependiendo lo que el modelador valore ms:

    ( ) ( ) ( ) ( )2 1ECMP sesgo V = + (2.42) La varianza mide la dispersin en torno a la media del parmetro estimado,

    mientras que el ECM mide la dispersin en torno al verdadero parmetro poblacional. Si el

    estimador es insesgado, ambos coiniciden. El concepto del ECM se aprecia en la siguiente

    Figura:

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-26

    Figura 2.5

    Ilustracin del Error Cuadrtico Medio (ECM) de

    SESGO

    ( )E = ( )E

    Densidad

    Estimador de

    ii. El estimador MCO es consistente: n

    plim

    = (sin sesgo ni varianza)

    Figura 2.6

    Ilustracin de la Consistencia en la Estimacin MCO de

    ( )E =

    Densidad

    Estimador de

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-27

    iii. Otras Propiedades:

    El valor medio de los residuos es nulo, lo cual implica que la suma de los

    residuos es igual a cero. Esta caracterstica es bastante trivial pues se deduce de la

    misma metodologa de los mnimos cuadrados, la cual impone a travs de su primera

    ecuacin normal que esta suma sea cero (columna de unos en matriz X).

    Si el modelo de regresin posee una constante entonces la primera derivada parcial

    del lagrangeano (ver (2.8)), o primera expresin de ecuacin normal, indicar que

    la suma de los residuos muestrales es cero.

    Sin embargo, si el modelo no posee una constante en su formulacin, esta condicin

    no necesariamente se cumplir pues nunca surge como condicin necesaria de

    primer orden al no tener nunca que derivar con respecto a este parmetro.

    Puede sin embargo darse el caso que la representacin de los datos haga que este

    parmetro sea efectivamente cero, por ejemplo si las series Y, X se entregan en forma de desviacin de sus propias medias, lo cual implicara que la suma de estos residuos

    tambin lo ser (por construccin el intercepto es cero). De (2.8) se obtiene:

    ( )2 2 0 0T T T TX Y X X X Y X X + = = = (2.43) Los datos muestrales y modelados de Y tienen igual media. Esta

    caracterstica se deduce de la nocin que el valor actual de la variable dependiente

    se puede descomponer en lo que estima el modelo y el residuo. Una implicancia de

    esta condicin es que la metodologa de los mnimos cuadrados hace que la recta de

    regresin que pasa a travs de la nube de puntos pase justo por el punto que

    representa a la media de X y la media de Y. Es decir, el hiperplano de la regresin pasa por el punto de las medias de los datos, puesto que la primera ecuacin normal implica Y X = .

    La media de los valores estimados por la regresin es igual a la media de los valores actuales; ello se deduce de (2.8) ya que Y X = .

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-28

    Figura 2.7

    Hiperplano de la Regresin y Medias de las Variables

    Y

    X

    Y X =

    Y

    X

    Los residuos no se correlacionan con la variable independiente (ver (2.43)).

    Los residuos no se correlacionan con la variable dependiente estimada.

    Todos los resultados anteriores requieren que la regresin tenga un trmino

    constante.

    2.2.3 Teorema Central del Lmite

    Caso univariante: una sola muestra de tamao n con media y varianza 2 .

    ( ) 20;dnn x N (2.44)

    Caso univariante con desigualdad de varianzas: varias muestra con medias i. y varianzas 2i .

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-29

    ( ) 20;dn nn x N (2.45)

    donde: ( )2 2 2 21 21 .... nn

    = + + + y ( )1 21 ....n nn

    = + + +

    Caso multivariante: un vector de muestras de tamao n con media y matriz de varianzas y covarianzas Q.

    ( ) [ ]0;dnn X N Q (2.46) Caso multivariante con desigualdad de varianzas: varias muestra con

    media i y matriz de varianzas y covarianzas iQ .

    ( ) [ ]0;dn nn X N Q (2.47) donde: ( )1 21lim .... n

    nQ Q Q Q

    n= + + + y ( )1 21 ....n n

    n = + + +

    .

    Distribucin de una funcin ( )ng x :

    ( ) ( )( ) ( )2

    20;d

    n

    gn g x g N

    x

    (2.48)

    Lo anterior se obtiene de estimar la media y la varianza de las extensiones en Series de Taylor de la funcin ( )ng x :

    ( ) ( ) ( ) ( )n ngg x g xx

    +

    (2.49)

    Para un conjunto de funciones, el resultados es:

    ( ) ( )( ) 0;d Tnn g x g N g Q g (2.50)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-30

    2.2.4 Indicadores de Bondad de Ajuste

    Lo qu se intenta es determinar objetivamente cun bueno es el modelo que se

    ha ajustado:

    porcion no explicadaporcion explicada

    Y X = + (2.51)

    ( ) ( ) TTY Y X X = + + (2.52)

    T T T TY Y X X = + (2.53)

    1 1T T T T T T

    T T T T

    X X X XY Y Y Y Y Y Y Y

    = + = (2.54)

    2 1T

    TR Y Y

    = (2.55)

    Una expresin anloga para R2 pero ms general es la siguiente:

    ( )( )

    2

    22

    1i

    i

    ii

    RY Y

    =

    (2.56)

    Las expresiones (2.55) y (2.56) son idnticas entre s slo si la variable Y tiene media cero. La expresin (2.56) es la correlacin al cuadrado entre los valores observados

    de Y y las predicciones calculadas por la ecuacin de regresin estimada Y . El valor de R2 indica el porcentaje de la varianza de Y que es explicada por las variables X. Dicho de otra forma, R2 mide el xito de la ecuacin de regresin, dentro de la muestra, para predecir Y.

    Notar que el valor de R2 no guarda relacin con la calidad del estimador de , ya que uno puede tener una buen estimador de y un bajo R2 producto simplemente de una alta varianza del error. Por ora parte, es interesante notar que, en presencia del

    intercepto (trmino constante de la regresin), el valor del R2 se ubica siempre entre 0 y 1.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-31

    El uso del R2 debe ser cuidadoso, ya que depender de la escala de las variables explicativas y de la variable explicada; por ejemplo usar valores en niveles, en

    logaritmos o en porcentajes para el mismo fenmeno entrega normalmente diferentes

    valores de R2. tampoco es razonable comparar R2 entre distintas muestras.

    Sin embargo, la utilizacin de (2.56) como indicador general de bondad de

    ajuste, si bien es tericamente robusta, presenta algunos problemas, razn por la cual

    muchos econometristas no le dan una gran importancia. El principal de ellos hace

    referencia al nmero de grados de libertad utilizados en la estimacin de los parmetros.

    De hecho, R2 nunca decrecer si se aaden nuevas variables a la ecuacin de regresin. Es relativamente trivial demostrar que al agregar una variable adicional (y su

    respectivo parmetro) al modelo de regresin, se obtiene un nuevo R2 mayor o al menos igual que el original, incluso si la variable adicional es superflua (no aporta informacin).

    No obstante, adicionar variables tiene un costo en trminos de grados de

    libertad, lo que se traduce en una reduccin en la significancia de los parmetros de las

    variables originales. Es por ello que se considera un valor ajustado como el siguiente:

    ( ) ( )( )( ) ( )

    ( ) ( )( )( )

    2

    2 2

    2

    11

    1 1 1 11

    1

    ii

    ii

    n n k V R R

    n k V YY Yn

    = = =

    (2.57)

    La expresin (2.57) tiene la ventaja de que podra reducirse si se aade una

    variable poco importante dentro del conjunto de variables explicativas. Incluso, este valor

    ajustado podra ser negativo en algunos casos extremos, particularmente cuando el ajuste

    es deficiente. En el lmite, si Y y X tienen un ajuste cercano a cero ( )2 0R , se tendra un valor de 2

    1kRn k +

    . Por otra parte, si hay ms de una variable explicativa, 2 2R R< .

    Finalmente, un contraste de significancia de la regresin como un todo,

    corresponde a analizar si la totalidad de los coeficientes, a excepcin del intercepto, son

    distintos de cero. Si todas las pendientes son cero, el coeficiente de correlacin mltiple 2R tambin lo ser; luego, es posible basarse en el valor de 2R para contrastar esta hiptesis. El contraste es el siguiente:

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-32

    ( ) ( )( )( )

    2

    1; 2 11k n kn kR

    FkR

    =

    (2.58)

    Valores grandes para la expresin (2.58) dan evidencia en contra de la

    hiptesis nula (parmetros iguales a cero).

    Debe considerarse que cualquier muestra que presente la misma

    media y misma varianza, presentar por lo tanto los mismos valores

    estimados para los parmetros (ver el cuarteto de Anscombe).

    Figura 2.8

    Cuarteto de Anscombe

    0,00

    2,00

    4,00

    6,00

    8,00

    10,00

    12,00

    0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0

    Variable X

    Varia

    ble

    Y

    0,00

    1,00

    2,00

    3,00

    4,00

    5,00

    6,00

    7,00

    8,00

    9,00

    10,00

    0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0

    Variable X

    Varia

    ble

    Y

    0

    2

    4

    6

    8

    10

    12

    14

    0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0

    Variable X

    Varia

    ble

    Y

    0,00

    2,00

    4,00

    6,00

    8,00

    10,00

    12,00

    14,00

    0,0 2,0 4,0 6,0 8,0 10,0 12,0 14,0 16,0 18,0 20,0

    Variable X

    Varia

    ble

    Y

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-33

    Figura 2.9

    Estimacin del Cuarteto de Anscombe

    1 0 0,50 3,00

    se() 0,12 1,12R2-se(y) 0,67 1,24

    F(k; n-k+1); (n-k) 17,99 9,00Var Mod; Var Error 27,51 13,76

    t-student 4,24 2,67

    2.2.5 MCO vs Mxima Verosimilitud

    El mtodo de estimacin por MCO consiste en asignar valores numricos a los

    parmetros desconocidos de manera que la suma cuadrtica de errores sea mnima y slo

    requiere que la matriz TX X sea invertible. A continuacin veremos un mtodo de estimacin alternativo, el mtodo de mxima verosimilitud.

    El mtodo de mxima verosimilitud (MV), un mtodo de estimacin alternativo,

    propone en cambio como un estimador el valor que maximiza la probabilidad de obtener

    la muestra ya disponible. El mtodo MV se basa, principalmente, en la distribucin que

    sigue el trmino de error. A tales efectos, se suele suponer que las perturbaciones aleatorias

    se distribuyen con una distribucin Normal que, adems de cumplir las propiedades de una

    muestra grande, es una aproximacin cmoda y fcil de tratar.

    Suponiendo que el trmino de error sigue una distribucin normal, y dado que

    la media del error cero, se tiene que:

    ( )2

    21

    exp22

    iif

    pi

    =

    , 1,...., i n = (2.59)

    Maximizar la probabilidad de obtener la muestra ya disponible equivale

    maximizar la funcin de densidad conjunta del vector aleatorio . Para ello, hemos de

    suponer homoscedasticidad y ausencia de autocorrelacin. Luego, la expresin de la

    funcin de densidad conjunta es la siguiente:

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-34

    ( )( )2

    21

    1exp

    22

    n ini

    ii

    f

    pi=

    =

    (2.60)

    Dado que sigue una distribucin Normal Multivariante de orden k, la variable Y, al ser una combinacin lineal de las perturbaciones aleatorias, tambin se distribuir con una distribucin Normal Multivariante. As, para que la funcin de densidad

    conjunta sea una funcin de verosimilitud, el vector aleatorio ha de expresarse en funcin

    del vector Y, es decir:

    ( ) ( ) ( )2 21; , exp 22Tn Y X Y X

    L Y

    pi

    = (2.61)

    Maximizar la funcin de verosimilitud (2.61) equivale a maximizar la

    probabilidad que los datos (X) provengan de la distribucin considerada. Luego, el estimador de mxima verosimilitud maximiza por lo tanto dicha probabilidad.

    Dado que (2.61) es una funcin estricta creciente y montona, maximizarla

    equivale a maximizar una transformacin montona, como por ejemplo logaritmo natural:

    ( ) ( ) ( ) ( )2 21ln ln 2 ln 22 2 2Tn nL Y X Y Xpi

    = (2.62)

    Derivando (2.62) respecto a y a 2 , se obtienen los siguientes resultados:

    ( ) 1 T TMV MCOX X X Y = = (2.63) ( ) ( )2 2

    T T

    MV MCOn n k

    = < =

    (2.64)

    Observamos que el estimador de MV de coincide con el MCO, con lo que tendr las mismas propiedades: ser lineal, insesgado, ptimo y consistente. Es fcil ver que

    el estimador de MV de 2 , en cambio, resulta diferente del MCO y es sesgado a la baja

    aunque asintticamente insesgado (cuando n ).

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-35

    El estimador de MV es consistente, asintticamente normal, asintticamente

    eficiente e invariante. La matriz de varianzas y covarianzas asinttica del estimador de MV corresponde al negativo de la inversa de la matriz informacional ( )I :

    ( )2 ln

    T

    LI E

    =

    (2.65)

    ( )12

    1 lnT

    LI E

    = (2.66)

    Notar que en el caso de la distribucin normal, ( )2, = . 2.2.6 Interpretacin Econmica

    La interpretacin econmica nos permite comprobar si las estimaciones

    obtenidas son coherentes con la teora econmica. Segn la especificacin del modelo, la

    interpretacin y significacin de los parmetros puede variar. Si el modelo est

    especificado en niveles, el parmetro refleja el efecto medio que tiene una variacin

    unitaria de la variable explicativa sobre la variable endgena:

    jj

    Yx

    =

    (2.67)

    En cambio, si el modelo est especificado en logaritmos, los parmetros

    pueden interpretarse como una elasticidad, como es el caso de la funcin de produccin

    de Cobb-Douglas:

    lnlnj j

    Yx

    =

    (2.68)

    Recordar que la elasticidad precio-demanda es lnln

    Q P QP Q P

    = =

    .

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-36

    2.2.7 Diagrama de Venn

    Considere una variable Y que la deseamos regresionar con una variable X, obteniendo un trmino de error . La variabilidad de la variable dependiente Y est

    representada por el crculo amarillo de la Figura 2.10. La variabilidad de la variable

    independiente X est representada por el crculo blanco. La superposicin de ambos

    crculos, representada por el rea azul, representa la variacin que tienen en comn ambas

    variables. Mientras mayor sea el rea azul, mayor ser la correlacin entre ambas

    variables, por lo que la informacin utilizada para estimar el parmetro x es mayor. La parte del crculo amarillo que no se superpone al crculo blanco corresponde a la variacin

    en Y que no es explicada por X, y por lo tanto se traspasa al error . El R2 puede en este caso interpretarse como la razn entre el area azul y el crculo amarillo.

    Figura 2.10

    Diagrama de Venn Para Una Variable Explicativa

    X

    Y

    Consideremos ahora la Figura 2.11 siguiente, que representa un diagrama de

    Venn para 2 variables explicativas:

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-37

    Figura 2.11

    Diagrama de Venn Para Dos Variables Explicativas

    X

    Y

    Z

    El rea naranja ms el rea roja representa la correlacin conjunta (grado de

    colinealidad) que tienen las variables X y Z.

    Si regresionamos Y slo sobre X, se utilizara el rea azl ms la roja. SI regresionamos Y slo sobre Z, usaramos el rea verde ms la roja. Luego, el rea roja representa aquela variacin en Y que es explicada tanto por X como por Z, debido a que estas dos variables explicativas estn correlacionadas.

    Por lo tanto, se observa claramente que regresionar Y sobre X y Z simultneamente, genera resultados diferentes que regresionar Y sobre X o Y sobre Z separadamente. Pero, qu pasara si X y Z estn incorrelacionadas?

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-38

    Figura 2.12

    Diagrama de Venn Para Dos Variables Explicativas Incorrelacionadas

    X

    Y

    Z

    Si X y Z estn incorrelacionadas, estimar separademente Y sobre cada regresor X y Z entregar los mismos resultados que regresionar Y sobre los dos regresores. Sin embargo, se observa claramente que incluir ambas variables aumenta la proporcin

    explicada de la variacin de Y (excepto que el rea azul o el rea verde fueran cero, es decir, que no haya interceccin entre Y y X o entre Y y Z). El R2 en este caso puede interpretarse como la razn entre la suma de las reas azul ms la verde y el crculo

    amarillo.

    2.2.8 Interpretacin Geomtrica de los MCO

    Considere el modelo Y = 1X1 y 2X2 + . Considerando las variables como vectores, se puede generar la siguiente Figura:

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-39

    A

    X2

    X1

    Y

    O

    C

    B

    La regresin de Y sobre X1 y X2 corresponde a la proyeccin de dicho vector sobre el hiperplano generado por las variables independientes, en este caso el plano

    formado por X1 y X2:

    X2

    X1

    Y

    A C

    B

    F1

    F2 Y

    O D

    Luego, el valor de los parmetros estimados es necesario descomponer el

    vector proyectado Y sobre las distintas variables X, obteniendo en este caso los trazos definidos por OF1 y OF2, por lo que se obtiene las siguientes estimaciones MCO:

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-40

    11

    OFOB

    = , 22 OFOC = (2.69)

    Es interesante notar que los estimadores de los parmetros

    pueden ser mayor o menor que uno, y tambin positivos o negativos,

    dependiendo de la estructura de los vectores considerados.

    Notar tambin que Y Y AD = = .

    X2

    X1

    Y

    A C

    B

    Y

    O D

    2

    1

    Por otra parte, teniendo en cuenta que las variables estn medidas en

    desviaciones respecto a sus medias (estandarizadas), el coeficiente de determinacin

    puede escribirse como:

    T

    T

    Y YRY Y

    = (2.70)

    Dado que ( ) T T T T TY Y Y Y Y Y Y Y Y = = = se obtiene:

    2

    T T T T T

    T T T T T T

    Y Y Y Y Y Y Y Y Y YR RY Y Y Y Y Y Y Y Y Y Y Y

    = = =

    (2.71)

    La expresin anterior es el coeficiente de correlacin simple entre Y e Y.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-41

    Por otra parte, se tiene que:

    cos

    T T

    T T T

    OD Y Y Y YOA Y Y Y Y Y Y

    = = =

    (2.72)

    X2

    Y F2

    X1

    Y

    A C

    B

    F1 O

    D

    Por lo tanto, el coeficiente de correlacin mltiple o R2 es igual al coseno del ngulo que forma el vector Y con el plan formado por X1 y X2.

    El coeficiente de correlacin parcial entre Y y X2, dado X1, corresponde al coeficiente de correlacin simple entre los residuos de la regresin de Y y X2 ambas sobre X2 por separado. Luego, este coeficiente ser igual al coseno del ngulo (1 ) que forman ambos vectores de residuos:

    11

    2

    cosAGCG

    = (2.73)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    2-42

    Y

    F2

    F1

    1

    G2 G1

    X2

    X1

    Y

    A C

    B

    O

    El contraste F en este caso se forma a partir de un cuociente. En el numerador es la diferencia de la suma de los cuadrados de los residuos con y sin restricciones; en el

    denominador la suma de los cuadrados de los residuos sin restricciones.

    ( )( ) [ ];

    T TR R

    p n kT

    p F

    n k

    (2.74)

    Luego, si se desea contrastar la hiptesis 2 0 = (por lo que no existira correlacin entre Y y la variable X2), el vector de residuos con restricciones ( )R ser la diferencia entre el vector Y y el vector que resulta de proyectar Y sobre X1, al que denominaremos 1Y , y se tendr que 1 1Y OG= . En consecuencia: 1 1R Y Y AG = = .

    Anlogamente, el vector de errores sin restriccin es Y Y AD = =

    Finalmente, se tendr la siguiente expresin:

    ( ) ( )( )( ) ( ) [ ]

    2 21

    1; 22

    1

    2 nAG AD

    FAD n

    (2.75)

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-43

    3 INFERENCIA Y PRECICCIN

    3.1 Contraste de Restricciones

    3.1.1 Contraste de una Restriccin Lineal

    Dado que la distribucin de los coeficientes de regresin pueden ser

    caracterizados a partir de ( ) 12 ; TN X X , y dado que se ha supuesto independencia estadstica entre los parmetros y el vector de residuos, entonces el

    estadstico:

    ( )( ) ( )

    i i

    n ki

    tse

    (3.1)

    sigue una distribucin t con (n - k) grados de libertad. Notar que al ser un anlisis asinttico (n grande), la distribucin t converge a una distribucin normal. Notar adems que el

    trmino ( ) 2 iiise S = , donde Sii es el i-simo elemento de la diagonal de ( ) 1TX X . Para llevar a cabo hiptesis sobre el valor de un coeficiente puede emplearse

    un estadstico de la t tradicional. Si el valor del parmetro calibrado difiere significativamente del verdadero valor de , deducimos entonces que los datos muestrales no son consistentes con la hiptesis nula.

    Un contraste comn consiste en si un parmetro es significativamente distinto de cero. En tal caso, el estadstico es:

    ( )

    i

    i

    tse

    = (3.2)

    En general, si ( ) / 2 i i ise t > , donde /2 define el grado de confiabilidad exigido de la distribucin t con (n - k) grados de libertad, entonces la hiptesis se rechaza y se dice que el coeficiente es estadsticamente significativo; es decir,

    la variable asociada a dicho componente ayuda a describir el fenmeno estudiado.

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-44

    En otras palabras, t es una medida de la diferencia entre la funcin hipottica

    de los verdaderos coeficientes y la misma funcin de las estimaciones de dichos

    coeficientes. Si la hiptesis es verdadera, las estimaciones deberan reflejarlo al menos

    dentro de los rangos de variabilidad muestral. El valor t = 1,96 (correspondiente a un

    grado de significatividad del 95% en muestras grandes) normalmente es el utilizado como

    valor de referencia.

    Un intervalo de confianza para i estara dado por:

    ( ) ( )( )2 2 1i i i i it se t se < < + =

    (3.3)

    3.1.2 Contraste de Restricciones Lineales Conjuntas

    Consideremos las siguientes restricciones lineales del modelo de RLM:

    11 1 12 2 1 1

    21 1 22 2 2 2

    1 1 2 2

    ....

    ....

    ....

    ....

    k k

    k k

    p p pk k p

    R R R qR R R q

    R q

    R R R q

    + + + = + + + =

    =+ + + =

    (3.4)

    La matriz R tiene k columnas y p filas (restricciones); con las restricciones hay por lo tanto slo k - p parmetros libres.

    La hiptesis nula corresponde en este caso a R = q. A partir del valor numrico que tome el estadstico de contraste es posible determinar si la diferencia entre

    R y q es estadsticamente significativa o no lo es. La regla de decisin es la siguiente:

    ( ) ( ) ( )( ) [ ]

    11

    ;

    TT T

    p n kT

    R q R X X R R q p F

    n k

    (3.5)

    donde ( )2 2 T

    Tn k

    n k

    = =

    .

    Si [ ];p n kF F el estadstico de contraste se encuentra fuera de la regin de

    aceptacin, lo cual nos lleva a rechazar la hiptesis nula. Por tanto, las restricciones

    lineales no son ciertas en el mbito de la poblacin.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-45

    Si [ ];p n kF F < el estadstico de contraste cae dentro de la regin de aceptacin,

    con lo cual no podemos rechazar la hiptesis nula. En consecuencia, podemos

    afirmar que las restricciones son ciertas en el mbito de la poblacin.

    En el caso particular que se desee testear que todos los k parmetros de la regresin, excepto la constante o intercepto, son significativamente distintos de cero, se

    tendr que R = Ik-1 y q = (0, 0, , 0). Luego, de (3.5) se obtiene:

    ( ) ( )( ) [ ]1;

    1

    T T

    k n kT

    X X k F

    n k

    (3.6)

    y dado que ( ) 1 T TX X X Y = se obtiene finalmente:

    ( )( )( ) [ ]

    2

    1;2 11 k n kn kR

    FkR

    (3.7)

    Esta ltima expresin (3.7) nos indica que aquellas regresiones que tienen

    bajo coeficiente de ajuste, es decir un bajo R2, tienen a su vez un test F tambin muy bajo, lo cual permitira decir que la probabilidad de rechazar la hiptesis es muy baja.

    3.1.3 Contraste Basado en una Regin de Confianza

    En el modelo de RLM, una regin de confianza para un conjunto de

    coeficientes sera el conjunto de valores para los cuales la hiptesis de que el conjunto de

    coeficientes verdaderos iguala a estos valores no sera rechazada. El contraste en este caso

    es:

    ( ) ( ) ( ) [ ]1

    1

    ;

    1

    2

    TTT T

    p n k- R X X R - Fn k

    (3.8)

    En el caso de 2 parmetros ( )1 2 , , cuyos estimadores presenten distintas varianzas, la regin de confianza est dada por una elipse en el plano ( )1 2 , . Para entender este contraste, consideremos la siguiente Figura:

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-46

    Figura 3.1

    Regin de Confianza Para Variables Incorrelacionadas

    1

    2

    1

    2

    A

    B

    Considerando una significancia del 95% para cada parmetro en forma

    independiente, el rea del rectngulo de la Figura 3.1 sera 0,95x0,95 = 0,9025. Por lo

    tanto, el rectngulo no es lo suficientemente grande, y un contraste de cada parmetro por

    separado podra no se adecuado. La elipse representa un corte de la campana de Gauss a

    una altura que representa el 95%. Luego, si se exigierea un 99%, el rea de la elipse

    crecera, y si se exigiera un 90%, el rea sera menor.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-47

    Por qu se produce esta diferencia entre el rectngulo y la elipse?. La

    respuesta es simple: las reas en las cuatro puntas del rectngulo, que estn fuera de la

    elipse, son muy poco probables, es decir, es muy difcil que en una distribucin conjunta los

    2 parmetros estimados tengan valores que caigan en dichas reas. Por otra parte, las

    reas de la elipse que caen fuera del rectangulo pasan a ser ms probables, ya que

    representan probabilidades condicionales. Es decir, dado que existe una distribucin

    divariada en el ejemplo de la Figura 3.1, es ms probable obtener dos estimadores de 1 y 2 representados en el punto A que en el punto B.

    Considerando que existe correlacin (colinealidad) entre las variables

    explicativas, el anlisis es similar. Sin embargo, y como se aprecia en la Figura 3.2, los

    errores que se pueden cometer son mucho mayores.

    Figura 3.2

    Regin de Confianza Para Variables Correlacionadas

    1

    2

    1

    2

    A

    B

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-48

    3.1.4 Mnimos Cuadrados Restringidos

    De manera anloga al estimador de MCO, en el caso restringido se resuelve

    el siguiente problema de optimizacin:

    { } ( ) ( )minT

    T Q= Y X Y X

    (3.9)

    s.a.: R =q (2) (3.10)

    Sin prdida de generalidad, el lagrangeano del problema anterior es:

    ( ) ( ) ( ) ( ), 2TL = Y X Y X R q + (3.11)

    ( )2 2 0T TRL X Y X R = + = (3.12)

    ( )2 0T RL R q = = (3.13) Dividiendo por 2 y desarrollando se obtiene la siguiente matriz particionada:

    0

    T T TRX X R X Y

    R q

    =

    (3.14)

    Si TX X es no singular, se obtiene entonces:

    ( ) ( ) ( )11 1 T T T TR X X R R X X R R q = + (3.15) ( ) ( )11 T TR X X R R q = (3.16)

    De la expresin (2.9) se observa que, si la restriccin es correcta, es decir,

    efectivamente ( )R q , el estimador restringido corresponde al estimador de MCO ( ) R = . Del mismo modo, el parmetro valdra cero.

  • ICT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-49

    Adicionalmente, se tiene que:

    ( ) ( ) ( ) ( ) ( )1 1 1 12 2 T T T T T TRMatriz Positiva Definida

    V X X X X R R X X R R X X = (3.17)

    Luego, el estimador restringido presenta menor varianza que el estimador

    MCO. Ello se explica por el valor de la informacin contenida en las restricciones, lo que

    reduce la incertidumbre en la estimacin (ms grados de libertad).

    3.1.5 Contraste de Restricciones No Lineales

    El problema general consiste en el contraste de la hiptesis que implica una

    funcin no lineal de los coeficiente de la regresin:

    ( )g q = (3.18)

    Analizando el caso de una nica restriccin resulta:

    ( )( )( ) ( )

    n k

    g qt

    se g

    (3.19)

    La aproximacin lineal en series de Taylor para ( )ig implica lo siguiente:

    ( ) ( ) ( ) ( ) T

    gg g

    + (3.20)

    ( ) ( ) ( ) ( ) T

    g gV g V

    (3.21)

    ( ) ( ) ( ) ( )1 T T

    Tg gV g X Xn k

    (3.22)

    De la expresin (3.21) se obtiene el valor requerido:

    ( ) ( )( )1 2 se g V g = (3.23)

  • (CT-2950 Tpicos de Econometra

    Pontificia Universidad Catlica de Chile

    3-50

    3.2 Prediccin

    Junto con la estimacin de parmetros y la inferencia, el uso ms habitual de

    la regresin es la prediccin.

    La prediccin del conjunto de regresores X0 es la siguiente:

    0 0 0Y X = + (3.24)

    Sin embargo, usando el modelo estimado tendramos:

    0 0 Y X = (3.25)

    que corresponde al estimador de E(Y0). Luego, e