3.- ANÁLISIS DE REGRESION LINEAL Y CORRELACIÓN · PDF file1 3.- ANÁLISIS DE REGRESION LINEAL Y CORRELACIÓN BIVARIANTES • Dos procedimientos del SAS: REG GLM • Ejemplo de regresión

  • Upload
    lammien

  • View
    227

  • Download
    1

Embed Size (px)

Citation preview

  • 1

    3.- ANLISIS DE REGRESION LINEAL Y CORRELACIN BIVARIANTES

    Dos procedimientos del SAS: REG GLM

    Ejemplo de regresin lineal entre dos variables Variable Independiente x Variable Dependiente y

    Se quiere encontrar la relacin entre x e y, de forma que:

    1) Se puedan predecir los valores de y dados los valores de x

    DondeXbay

    xxbyy

    yx

    yx

    ;^

    __^

    +=

    +=

    __

    xbya yx=

    .Re. gcoefbyx =

    == 2_

    __

    xx

    yyxxb

    xy

    2) Se pueda saber que proporcin de la varianza de los valores de y viene explicada por la

    varianza de los valores de x. A esta proporcin se la denomina coeficiente de determinacin.

    ( )xy SCSCxySC

    xxyy

    yyxxr /2_2_

    2__

    2 =

    =

    3) Se puedan estimar los valores de y ajustados para x es decir, los valores de y a los que se les ha restado la contribucin de la regresin.

    =

    _

    xxbyyAjustado

    Estos son los valores que tendra y, en el caso de estar todos referidos aun valor medio de x

  • 2

    En el siguiente grafico se puede ver la relacin entre las distintas magnitudes relacionadas anteriormente

    Y (x,y) y -----------------------------------------------

    ^yyd yx = Recta:

    )(^

    += xxbay

    x (^

    , yx )

    (__

    , yx ) x b

    a x X

    Valoresy ^

    Predichos por la reg. Valoresd yx Residuales Importante para entender el punto 2): La descomposicin de la suma de cuadrados

    +

    =

    ^^_

    yyyyyy

    2

    ^2

    ^2

    +

    =

    yyyyyy

    += yxdYY 22^2

    = 2y S.C. total de y (ajustada a la media) = SCy

    =2^

    y S.C. de los valores predichos = S.C. explicada por la regresin = SC(y/x)

    = yxd 2 S.C. de los residuos = S.C. no explicada por la regresin = S.C. error

  • 3

    La comparacin de los cuadrados medios correspondientes a esta S.C. nos permite comprobar la significacin de la regresin.

    Origen Variacin g.l. S.C. CM F

    Explicada por 1 ^ySC

    1

    ^ySC

    CMcyCM^

    = F

    la regresion

    Residual (Error) N-2 yxd 2 2NSCe

    Si F. no es significativo, los puntos (x,y) estn distribuidos aleatoriamente y muy esparcidos en el plano XY.

    Si F es significativo, los puntos (x, y) estn distribuidos alrededor y prximos a la lnea de regresin.

    Ejemplo (Reg 1) Relacin entre los pesos medios corporales x y los consumos y de alimentos de

    gallinas White Leghorn. (Los datos son medias de 10 estirpes diferentes)

    Pesos (lb) Consumos (lb)

    4.6 87.1 5.1 93.1 4.8 89.8 4.4 91.4 5.9 99.5 4.7 92.1 5.1 95.5 5.2 99.3 4.9 93.4 5.1 94.4

  • 4

    Fuentes de la variacin S.C. C.M. Modelo = Regresion = 90.84 90.84 Error = Residual = 44.77 5.60 C. Total = Total Corregido = 135.604

    **22.1660.584.90

    ==F (Es mayor que el valor de F para 1 y 8 g. de l. y para una

    =0.01)

    Interpretacin de la salida del SAS (Prob >F) = 0.0038 Significa que la probabilidad de encontrar un valor de F igual o mayor que el obtenido (16.232) por azar y no porque se trata de un valor significativo es de 0.0038. Dicho de otro modo, la probabilidad de equivocarse rechazando la hiptesis nula (que la regresin entre estas dos variables es nula) es de 0.0038. Otros resultados de la salida SAS:

    Root MSE = Raz del cuadrado medio del error = Desviacin tpica de los valores de los residuos dy.x Dep. Mean = Media de la variable dependiente, y C.V. = Coeficiente de variacin R-Square = R-Cuadrado = Coeficiente de determinacin Adj. R-Square= R-Cuadrado ajustado: Es un coeficiente de determinacin ajustado para

    el nmero de parmetros en el modelo (til para regresiones multivariantes con varias variables independientes.

    En la seccin Parameter estimates se dan los valores de estimaciones Intercept = Interseccin = a X = Coeficiente de regresin = b Los Standard Error son los errores tpicos de estas estimaciones t FOR H = 0: Parameter = 0 Es el valor de t en la comparacin de estas estimaciones con ceero Prob >[t] Es la probabilidad de encontrar por azar un valor mayor que el valor absoluto de t cuando rechazamos la hiptesis nula.

  • 5

    Hay dos tipos de regresiones:

    1) Modelo Fijo: Y Variable aleatoria; X Variable fija 2) Modelo aleatorio: Ambas variables aleatorias.

    En el primer caso, solo tiene sentido la regresin de Y e X En el segundo caso, pueden tener sentido ambas regresiones, Y en X o X en Y, pero las dos ecuaciones de regresin pueden ser distintas, si bien el coeficiente de determinacin r2 ser el mismo.

    Otro concepto ligado a la relacin entre dos variables es la correlacin. sta estima la variacin conjunta de dos variables.

    xy SCSC

    SCyxr = Grficamente expresa lo prximas

    que estn las observaciones a la recta de regresin. Un aspecto importante del anlisis de regresin es la observacin de los

    residuos. En la corriente de control:Model = y = s/P CLI CLM;

    =P Es una opcin que permite obtener los valores predichos de y

    ^y

    =CLI Es una opcin que da los valores superior e inferior del intervalo de confianza de cada

    valor de y predicho.

    =CLM Es otra opcin para predecir el valor medio de los valores de y predichos por la

    regresin para cada valor de x. Si existe un solo valor de y por cada valor de x, estas dos opciones coinciden. Todas estas opciones proporcionan tambin los residuos.

    Diagramas (Plots)

    Se puede tener una representacin grafica del diagrama de observaciones y del de residuos.

  • 6

    - La primera se logra con la siguiente lnea en la corriente de control (despus del modelo): Plot y*x;

    - La de los residuos requiere crear primero un Ouput data set. Esto se logra aadiendo una lnea a la corriente de control:

    - Model y-x; Output out = diagram P= predi r = resis; Proc plot data = diagrama; Plot resi * predi; Plot resi * y

    Regresin con varios valores de y por cada valor de x: Se resuelve igual que en el caso de un solo valor de y para cada valor de x,

    excepto que es necesario introducir los datos tal y como estn en la siguiente pgina; es decir, por cada valor de y hay que introducir su correspondiente x, de forma que cada valor de x se repite tantas veces como valores de y le corresponden. Las estimaciones de los parmetros, a y byx que se obtienen en este caso son las mismas que en el caso anterior (porque los valores medios de los valores de y correspondientes a cada valor de x coinciden con los valores de y del primer ejemplo). Sin embargo, los errores tpicos de estas estimas son ms pequeos (sobre todo el de byx) Por haberse obtenido con ms datos. El nivel de significacin de la regresin es tambin mayor.

    En este caso, los valores de los intervalos de los valores predichos proporcionados por las opciones CLI Y CLM son diferentes: - La opcin CLM da el intervalo de confianza de la prediccin correspondiente a la media de los valores de y. - La opcin CLI da el intervalo de confianza de la prediccin correspondiente a un valor elegido al alzar entre los valores de y correspondientes a un determinado x (este intervalo de confianza es siempre mayor que el de la opcin CLM. Las formulas de clculo son:

    CLM

    +

    ^

    2

    ^^

    2

    ^;, yStyySty

    CLI

    +

    ^2

    2

    ^^2

    2

    ^, yytyyyty ss

    Como se han estimado los parmetros de una recta de regresin)

  • 7

    Por medio de un mtodo de estimacin que se denomina: estimacin por mnimos cuadrados consiste en hacer mnima la suma de los cuadrados de los residuos:

    xxd2

    Mnima

    Es decir: 0

    2^

    =

    a

    yy Esto da lugar al siguiente sistema de

    ecuaciones:

    0

    2^

    =

    b

    yy

    =

    =

    2_

    ^

    xxbyyxx

    yn

    y

    Sistemas de ecuaciones normales

    __xbya =

    = 2_

    __

    xx

    yyxxb

    De que otra forma se puede resolver esto? Matricialmente! -----Se ver ms adelante al explicar el Modelo Lneal General MODELOS DE REGRESION NO LINEALES Todos los modelos que no son lineales o no se pueden linearizar con una transformacin Por ejemplo: +teY La ventaja de estos modelos es que sus parmetros admiten una interpretacin ms clara en trminos del proceso descrito que los modelos polinmicos.

  • 8

    Las soluciones de las ecuaciones normales de las estimaciones mnimo cuadrticas de los parmetros de un modelo no lineal se obtienen mediante procedimientos interactivos. Procedimiento del SAS: PROC NLIN Ejemplo: Ajuste del modelo exponencial de desintegracin atmica

    += teY Variables: Nivel radioactivo (nivel) y tiempo Archivo de datos: nolineal.txt PROGRAMA options ls-65 ps-60; data no lineal; infile no lineal txt; imput tiempo nivel; proc nlin; params b = 380 c = -0.0026; model nivel = B *exp (c*tiempo) rum; Es necesario especificar tanto el modelo como los valores aproximados de los parmetros, que van a servir como valores de partida para las iteraciones INTERPRETACIN DE LA SALIDA

    1) La parte superior de la salida resume el proceso iterativo para lograr la solucin en relacin con el aumento o disminucin de la SC residual (inicialization)

    2) En la segunda parte (iterative phase) se ve la convergencia de la S.C. residual hacia un invariable. La opcin converge de NLIN, permite establecer el mnimo cambio de una iteracin a otra para considerar el valor de la SC res. Invariable.

    3) Anova del modelo de regresin y del re