El Problema de La Multicolinealidad

Embed Size (px)

DESCRIPTION

El problema de la multicolinealidad en matematicas y fisicas aplicadas

Citation preview

  • Elkin Castao V

    1

    1

    El problema de la Multicolinealidad

    Debido a que el anlisis de regresin:

    no siempre usa datos generados por diseos experimentales,

    en muchos casos el nmero de observaciones es limitado,

    las variables explicativas pueden no variar sobre un rango muy amplio,

    pueden existir interrelaciones entre las variables explicativas

    la muestra puede no proporcionar suficiente informacin para soportar la

    investigacin sobre los parmetros de una relacin.

    Esta falta de informacin y la correspondiente prdida de precisin de los

    resultados estadsticos debido a la existencia de interrelaciones entre las

    variables explicativas del modelo es denominada el problema de la

    Multicolinealidad.

    Precisin de los estimadores de mnimos cuadrados: Se puede probar que

    Var( j ) = 2

    n2 2j ij

    i=1

    (1-R ) (x ) jx

    donde Rj2 es el coeficiente de determinacin de la regresin de xj sobre las

    dems variables explicativas. La ecuacin anterior muestra que mientras ms

    fuerte sea la relacin entre xj y las dems variables explicativas menos precisin

    tienen los estimadores de mnimos cuadrados, j . Tambin seala que mientras

    ms pequea sea la variacin total de la variable xj, ms imprecisin habr en la

    estimacin de j .

    El teorema de Gauss Markov asegura que el estimador de mnimos cuadrados

    , es el estimador lineal insesgado de mnima varianza y es el mejor entre todos

  • Elkin Castao V

    2

    2

    los insesgados, si hay normalidad en los errores. En caso de multicolinealidad

    esta propiedad puede no ser de utilidad.

    Consecuencias de la multicolinealidad

    i) Puede llegar a ser muy difcil separar los efectos relativos de cada variable

    independiente. La falta de precisin se manifiesta en la existencia de

    grandes varianzas para los estimadores, y

    grandes correlaciones entre las variables afectadas por la

    multicolinealidad.

    ii) Las estimaciones de los parmetros desconocidos pueden parecer

    estadsticamente no significativas, conduciendo a su eliminacin equivocada del

    modelo y a intervalos de confianza excesivamente amplios. Este resultado puede

    obtenerse a pesar de valores altos del R2 o de grandes valores F.

    iii) Los coeficientes pueden tener signos incorrectos o magnitudes imposibles.

    iv) La estimacin puede ser muy sensible a la adicin o eliminacin de unas

    pocas observaciones, o a la eliminacin de una variable aparentemente no

    significativa.

    v) Si el patrn de interrelaciones de la muestra se sigue dando en el perodo de

    prediccin, se pueden obtener predicciones precisas a pesar de la existencia de

    la multicolinealidad.

    Ejemplo: Multicolinealidad en los datos de Longley

    Los datos que producen los resultados de la siguiente tabla fueron reunidos por

    Longley (1967) con el propsito de confirmar la precisin de los clculos de

    mnimos cuadrados en los programas de computador. Estos datos son notables

    por su severa multicolinealidad. Por ejemplo, la ltima observacin no parece ser

    atpica, sin embargo su eliminacin en la estimacin tiene efectos dramticos,

    como lo muestra la siguiente tabla.

  • Elkin Castao V

    3

    3

    Variable dependiente: Empleo

    1947-1961 1947-1962 -------------------------------------------------------------------------- Constante 1459.4150000 1169.0870000 Ao -721.7560000 -576.4640000 Deflactor del PIB -181.1230000 -19.7681000 PIB 0.0910678 0.0643940 Fuerzas Armadas -0.0749370 -0.0101453 --------------------------------------------------------------------------

    La eliminacin de la ltima observacin hace que el ltimo coeficiente crezca

    alrededor de 600 veces y el que tercero crezca alrededor de 800 veces!

    Deteccin de la multicolinealidad

    El proceso de deteccin de la multicolinealidad considera tres aspectos:

    Determinar su presencia

    Determinar su severidad

    Determinar su forma o naturaleza (Cuntas relaciones hay y cules son

    las variables que entran en cada relacin de multicolinealidad)

    La mayora de las reglas para medir la multicolinealidad requieren que los datos

    estn transformados como:

    a) xij

    n = xij/( Xj Xj)1/2 (normalizacin)

    o como,

    b) xijc = (xij- jx ) /std(xj) (estandarizacin)

    donde Xj es la j-sima columna de la matriz X, la cual contiene los datos de la j-

    sima variable. jx y std(Xj) son el promedio y la desviacin estndar de dichos

    datos.

  • Elkin Castao V

    4

    4

    Medidas comunes de deteccin:

    Correlaciones simples entre regresores: Correlaciones simples mayores que

    0.8 o 0.9 pueden ser un serio problema.

    Determinante de XX usando los datos estandarizados. Si se usa la

    estandarizacin, XX es la matriz de correlaciones muestrales y entonces el

    det(XX) est en [0,1].

    Si det(XX)=0, entonces existen una o ms relaciones entre las columnas de

    X. Mientras ms cerca de cero est, ms severo es el problema.

    Si det(XX)=1, las columnas de X son ortogonales y no hay multicolinealidad.

    Factores de inflacin de varianza (VIF): El VIFj para la j-sima variable

    explicativa est definido como VIFj = 1/ [(1- Rj2). Si una variable es ortogonal

    a las dems entonces su VIF es 1. Valores mayores que 1 implican que la

    variable no es ortogonal y por lo tanto hay multicolinealidad en algn grado.

    Como regla general se usa el valor de 5 o ms como indicativo de

    multicolinealidad severa. Los VIF tambin se pueden calcular como los

    elementos de la diagonal de la matriz de correlaciones inversa, (XX)-1.

    Regresiones auxiliares: Regrese cada variable xj explicativa sobre las dems.

    Si el Rj2 de esta regresin es alto, habr relaciones de dependencia cercana

    entre la j-sima variable y las dems. Klein (1962) sugiere que si algn Rj2

    excede el R2 de la regresin completa, la multicolinealidad es severa.

    Los procedimientos anteriores son tiles, pero no dan informacin clara sobre la

    forma de la multicolinealidad. El siguiente procedimiento permite considerar los 3

    aspectos mencionados para el anlisis de la Multicolinealidad (Presencia,

    severidad y forma o naturaleza). El procedimiento est basado en la

    diagonalizacin de una matriz simtrica: Si A es una matriz simtrica de nxn,

    entonces existe una matriz ortogonal C de nxn tal que CAC= , donde es una

    matriz diagonal. Los elementos de la diagonal de son los valores propios i (o

  • Elkin Castao V

    5

    5

    races caractersticas) de A, y la i-sima columna de C es el vector propio pi (o

    vector caracterstico) asociado al valor propio i .

    Descomposicin de la matriz XX, donde los datos estn normalizados.

    Si la matriz X est normalizada usando la transformacin a), el anlisis de los

    valores y vectores propios de XX, puede revelar la presencia, severidad y

    naturaleza de la multicolinealidad. Este anlisis fue introducido por Besley,

    Kuh y Welsch (1980). Sea i el i-simo vector propio de XX asociado al

    vector propio pi. entonces:

    El nmero de condicin de XX se define como

    min

    )(

    mxX =

    Cuando la matriz XX es ortogonal, su nmero de condicin es 1. Valores del

    nmero de condicin mayores que 20 son indicativos de la existencia del

    problema.

    Se definen tambin los ndices de condicin

    j

    mxj

    =

    El nmero de j mayores que 20 (o de j cercanos a cero), indican el

    nmero de dependencias cercanas entre las columnas de las xs.

    Dado que si i 0 entonces Xpi O, entonces la dependencia lineal cercana

    puede ser identificada usando el vector propio pi.

    Si el modelo lineal contiene K parmetros, para medir cul es la proporcin

    de la varianza del estimador que est asociada con cada raz

    caracterstica (valor propio), se puede probar que (ver Judge et al):

  • Elkin Castao V

    6

    6

    Var( j ) = 2

    =

    K

    i 1

    pji2/ i

    Donde pji es la j-sima componente del vector propio pi. Esa expresin muestra

    que la varianza de j depende, en general, de todos los valores propios i y

    de las magnitudes de los elementos en los vectores propios.

    La proporcin de varianza de j asociada con i es (ver Judge et al):

    (pji2/ i)/(

    =

    K

    i 1

    pji2/ i)

    Si los valores propios pequeos contribuyen en gran medida a la varianza

    de j , entonces la multicolinealidad es perjudicial.

    Ejemplo: Consideremos la funcin de consumo de EU para los datos de Klein y

    Goldberger para los aos 1928-1950, donde se han omitido los aos 1942-1944

    correspondientes a la guerra. El modelo considerado es el consumo domstico

    de EU (CONS) como funcin del ingreso salarial (W), del ingreso no salarial y no

    agrcola (P) y el ingreso agrcola (A). Los resultados de la estimacin del modelo

    por mnimos cuadrados es el siguiente:

  • Elkin Castao V

    7

    7

    Los resultados de la multicolinealidad son rpidamente observables. En primer

    lugar, la estimacin del efecto marginal del ingreso salarial sobre el consumo,

    1.059, es demasiado grande y mayor que uno. Esto implica que si el ingreso

    salarial aumenta en un dlar, el consumo aumentar en ms de un dlar.

    En segundo lugar, los efectos del ingreso no salarial y no agrcola y del ingreso

    salarial agrcola no parecen ser individualmente estadsticamente diferentes de

    cero, aunque tericamente son variables importantes para explicar el

    comportamiento del consumo. La falta de la significancia de los coeficientes

    individuales ocurre a pesar de la significancia global de la ecuacin de regresin.

    Medidas de deteccin:

    Matriz de correlacin de los regresores:

    Determinante de la matriz de correlacin:

  • Elkin Castao V

    8

    8

    Los resultados anteriores parecen indicar la presencia de multicolinealidad, ya

    que las correlaciones simples son grandes y el determinante de la matriz de

    correlacin est cerca de cero.

    Factores de inflacin de varianza (VIF): Son los elementos de la diagonal

    de la inversa de la matriz de correlacin siguiente:

  • Elkin Castao V

    9

    9

    Los VIF de W, P y A son 7.73, 2.09 y 6.21, respectivamente. Dos de ellos son

    mayores de 5, indicando multicolinealidad seria.

    Regresiones auxiliares:

    De estos resultados, parece que el ingreso salarial y el ingreso agrcola tienen

    una fuerte relacin lineal. Esa asociacin lineal en la regresin auxiliar para el

    ingreso no salarial no agrcola P, hace que los coeficientes sean poco confiables,

    de manera que poco puede ser inferido de la asociaciones de W y A con P.

    Descomposicin de XX cuando la transformacin usada es la dada en a)

  • Elkin Castao V

    10

    10

    Los resultados muestran que hay dos valores propios relativamente cercanos a

    cero, y los ndices de condicin (la raz cuadrada de NUMCOND) son

    moderadamente grandes (29.25482 y 20.55347). Los vectores propios

    correspondientes a esos valores propios podran sugerir cuales variables entran

    en las relaciones de colinealidad.

    Xp1 0 implica que -0.51constante-0.37W+0.77P+.11A 0

    Xp2 0 implica que 0.381constante-0.731W-0.174P+.535A 0

  • Elkin Castao V

    11

    11

    Como todos los elementos de los vectores propios son diferentes de cero, los

    resultados indican que las tres variables W, P y A estn involucradas en

    asociaciones lineales y que las relaciones separadas no son fcilmente

    detectables. Para clarificar lo que est pasando, son tiles las proporciones de

    varianza de los estimadores asociadas con cada valor propio.

    Proporcin de la varianza de las estimaciones asociada con los valores propios.

    La siguiente tabla contiene la proporcin de la varianza de las estimaciones

    debido a cada valor propio. Las columnas contienen las proporciones para cada

    estimacin (el orden de los coeficientes estimados est dado por el orden de las

    variables en el modelo). Las filas corresponden al valor propio asociado.

    Observe que los dos valores propios ms pequeos contribuyen en forma

    diferente a formar las varianzas de los coeficientes.

    La singularidad cercana asociada con 1 (primera fila) afecta severamente las

    varianzas de la estimacin del intercepto y del coeficiente de P (primera fila). El

    valor del nmero de condicin es cercano a 30 (grande) y las varianzas del

    coeficiente de P y del intercepto son explicadas en gran parte por esta

    dependencia lineal. Este resultado est de acuerdo con los resultados de las

    regresiones auxiliares. La imprecisin en la estimacin de dichos coeficientes

  • Elkin Castao V

    12

    12

    puede ser atribuido a la falta de variacin de P en la muestra (El coeficiente de

    variacin de P es de slo 0.13, comparado con 0.32 y 0.45 de W y A).

    Por otro lado, la singularidad cercana asociada con 2 (segunda fila), la cual es

    moderadamente fuerte, pues su nmero de condicin es de 20.55, contribuye en

    proporciones sustanciales en las varianzas de los coeficientes estimados de W y

    A. Este resultado tambin concuerda con lo obtenido en las regresiones

    auxiliares.

    Medidas remediales:

    Obtenga, si es posible, ms y mejores datos.

    Imponer restricciones lineales exactas sobre los coeficientes del modelo.

    Por ejemplo, en el modelo de produccin de Coob-Douglas,

    Ln Q = 1 + 2 lnL + 3 lnK +

    Frecuentemente se encuentra que existe una relacin de dependencia

    cercana entre los factores de trabajo (L) y capital (K). Si los retornos a

    escala son constantes entonces se debe cumplir que 2 + 3 = 1.

    Podemos imponer la restriccin 2 = 1 3 en el proceso de estimacin.

    Esto produce

    Ln Q = 1 + 2 lnL +(1 2) lnK +

    Ln Q lnK = 1 + 2 (lnL lnK) +

    Z = 1 + 2 W +

    donde Z= Ln Q lnK y W = lnL lnK.

  • Elkin Castao V

    13

    13

    En este nuevo modelo se estiman 1 y 2 y el estimador para 3 se

    obtiene como 3 = 1- 2 . Su error estndar es igual al de 2 .

    Regresin Ridge: En muchos casos es difcil incorporar nueva informacin

    muestral o a priori en forma de restricciones lineales. En estos casos el OLS, ,

    sera el mejor estimador lineal insesgado que podemos obtener. Por tanto si

    queremos obtener un estimador mejor (con error cuadrtico medio menor que el

    de los OLS) debemos buscar en la clase de estimadores sesgados. Uno de ellos

    es el llamado estimador Ridge (Hoerl y Kennard (1970 a,b)).

    En su versin ms simple, el estimador es realmente una familia de estimadores

    dada por:

    R

    (k) = (XX+kI)-1Xy

    donde k>0 es llamado el parmetro de contraccin o sesgamiento.

    Para hacer operacional la regresin Ridge, hay elegir el valor de k. Si k=0,

    obtenemos el estimador OLS. Si k>0, entonces R

    (k) es sesgado y

    cov( R

    (k)) = 2(XX +kI)-1 XX(XX +kI)-1

    Es posible mostrar que existe un k>0 para el cual el error cuadrtico medio

    del estimador de Ridge es menor que el error cuadrtico medio del

    estimador OLS.

    Problema: se puede probar que k depende de y 2. Se acostumbra usar

    estimadores de y 2 para la determinacin de k, pero se pueden perder las

    propiedades originales del estimador.

  • Elkin Castao V

    14

    14

    Procedimiento para el clculo del estimador Ridge:

    i) Estandarice cada variable independiente como:

    (xtk - x k)/std(xk)

    Sea Xc la matriz que contiene los datos de las variables independientes

    estandarizados.

    ii) Centre la variable dependiente restndole su media aritmtica. El modelo a

    ajustar es:

    Yc = Xc c + vc

    iii) Estime k usando:

    k = (M-1) 2/( c c)

    donde M es el nmero de variables del modelo, incluyendo el intercepto, y

    c y 2 son los estimadores OLS de c y

    2 en el modelo

    estandarizado de ii).

    iv) El estimador Ridge del modelo estandarizado est dado por:

    R

    c( k )= (X cX c + k I)-1X cy c

    y su matriz de covarianzas estimada est dada por:

    covEST( R c( k ))= 2 (X cX c + k I)

    -1 X cX c (X cX c + k I)-1

    v) Para obtener los coeficientes originales, calcule

    R

    ( k ) = W-1 R

    c( k )

    donde W=diag(std(x1), std(x2), , std(xM))

  • Elkin Castao V

    15

    15

    La matriz de covarianza es:

    cov( R

    ( k )) = W-1cov( R

    c( k ))W-1

    Observacin:

    Hoerl y Kennard (1976) sugieren modificar iterativamente el valor de k

    modificando el denominador en la expresin de k por el estimador Ridge basado

    en la ms reciente estimacin de k y continuando las iteraciones hasta que k

    converja a algn valor.

    Regresin de Componentes Principales: Ver Judge et al., ejercicio 21.5, pgina

    883.

    Ejemplo: La funcin de consumo de Klein y Goldberger. Los siguientes

    resultados muestran el estimador Ridge para el ejemplo anterior. Los estimadores

    Ridge, su matriz de covarianza y valores t para las pendientes del modelo, son

    denominados borig, covorig y t, respectivamente.

  • Elkin Castao V

    16

    16

    Sintaxis en R library(car) library(perturb) library(ridge) # lectura de datos (datos1=read.table("E:/UNal/Regresion_01_2014/klein_goldberger.txt", header=TRUE)) # Asignacin de los nombres de las variables a las columnas attach(datos1) # Formulacin del modelo lineal modelo1=lm(CONS~W+P+A) summary(modelo1) # Matriz de correlacin de loas regresoras X=cbind(W,P,A) mat_corr=cor(X) # Determinante de la matriz de correlacin det(mat_corr) # Factores de inflacin de varianza vif(modelo1) # Indices de condicin y proporciones de varianza cd=colldiag(modelo1) cd # regresin Ridge modelo2 = linearRidge(CONS~W+P+A,lambda="automatic", scale="corrform") summary(modelo2)