Tema 4.1.4 Regresion Lineal Por Minimos Cuadrados

Embed Size (px)

Citation preview

  • Regresin Lineal por Mnimos Cuadrados

    Anlisis NumricoTema 4. Ajuste de curvas I: Regresin Lineal

    M. P. Vassileva, J. G. Maim

    Instituto Tecnolgico de Santo Domingo (INTEC),Repblica Dominicana

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos Cuadrados

    Contenido:

    ObjetivosIntroduccinRepaso de la estadsticaRegresin lineal por mnimos cuadradosLinealizacin de relaciones no linealesMnimos cuadrados lineales en general

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Introduccin

    En caso de que se asocia un error sustancial con los datos, la mejor estrategia parael ajuste de curva es derivar una funcin de aproximacin que se adapte a la formao la tendencia general de los datos sin que necesariamente coincida con todos lospuntos individuales. Una forma de hacer esto es inspeccionar visualmente y los datosrepresentados a continuacin para trazar la mejor lnea a travs de los puntos.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Introduccin

    El ejemplo ms simple es el acondicionamiento de una lnea recta a un conjuntode pares de observaciones: (x1, y1), (x2, y2), ..., (xn, yn). Estamos interesados endeterminar la recta que mejor se ajusta a los datos

    y = mx+ b (1)

    donde m y b son coeficientes que representan la pendiente y el origen, respectiva-mente. Si los puntos (x1, y1), (x2, y2), ..., (xn, yn) estuvieran exactamente sobre larecta tendramos:

    yi = mxi + b (2)

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Introduccin

    Como algunos de estos puntos no estn necesariamente sobre la recta, tenemos

    yi = mxi + b+ di (3)

    donde di es la desviacin vertical del punto (xi, yi) a la recta deseada (error resi-dual). La cantidad di puede ser positiva, negativa o cero.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Introduccin

    El error residual entre el modelo y las observaciones puede ser representado por lareordenacin de la ecuacin (3) como

    di = yi mxi b (4)

    Por lo tanto, el valor residual es la diferencia entre el valor real de y, y el valoraproximado, mx+ b, predicho por la ecuacin lineal.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Criterios para un ajuste "mejor"

    Una de las estrategias para la obtencin de la mejor lnea a travs de los datos seraminimizar la suma de los errores residuales para todos los datos disponibles, comoen

    ni=1

    di =ni=1

    (yi mxi b) (5)

    donde n = nmero total de puntos.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Criterios para un ajuste "mejor"

    Sin embargo, este es un criterio inadecuado, como se ilustra en la figura (a), querepresenta la forma de una lnea recta a dos puntos. Obviamente, la mejor opcines la lnea que une los puntos. Sin embargo, cualquier recta que pasa por el puntomedio de la lnea de conexin (a excepcin de una lnea perfectamente vertical) dalugar a un valor mnimo de la ecuacin (5) igual a cero, ya que los errores positivosy negativos se cancelan.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Criterios para un ajuste "mejor"

    Una forma de eliminar el efecto de los signos podra ser reducir al mnimo la sumade los valores absolutos de las divergencias, como en

    ni=1

    |di| =ni=1

    |yi mxi b| (6)

    La figura (b) demuestra por qu este criterio producir un ajuste no nico: cualquierlnea recta que cae dentro de las lneas discontinuas reducir al mnimo la suma delos valores absolutos de los residuos.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Criterios para un ajuste "mejor"

    La tercer estrategia para obtencin de la mejor lnea es el criteriominimax. En estatcnica, se elige la lnea que minimiza la distancia mxima que un punto concretoest de la lnea. Como se representa en la figura (c), esta estrategia es poco adecuadopara la regresin, ya que da la influencia indebida a un valor atpico, es decir, unsolo punto con un gran error.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Criterios para un ajuste "mejor"

    Una estrategia que supera las deficiencias de los enfoques mencionados anterior-mente es reducir al mnimo la suma de los cuadrados de los residuos:

    Sr =ni=1

    d2i =ni=1

    (yi mxi b)2 (7)

    Este criterio, que se denomina mnimos cuadrados, tiene varias de ventajas, inclu-yendo que produce una lnea nica para un conjunto dado de datos. Antes de hablarde estas propiedades, vamos a presentar una tcnica para determinar los valores dem y b que minimizan la ecuacin (7).

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Para determinar los valores de los coeficientes m y b, derivamos la ecuacin (7) conrespecto a cada coeficiente:

    Sr

    b= 2

    ni=1

    (yi mxi b)

    Sr

    m= 2

    ni=1

    [(yi mxi b)xi]

    Si igualamos estas derivadas a cero obtendremos el mnimo de Sr. Si hacemos esto,las ecuaciones pueden expresarse como

    ni=1

    yi ni=1

    mxi ni=1

    b = 0

    ni=1

    yixi ni=1

    mx2i ni=1

    bxi = 0

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Ahora, al darse cuenta de que

    b = nb, podemos expresar las ecuaciones comoun sistema de dos ecuaciones lineales simultneas con dos incgnitas (m y b):

    ni=1

    yi =

    (ni=1

    xi

    )m+ nb

    ni=1

    yixi =

    (ni=1

    x2i

    )m+

    (ni=1

    xi

    )b

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Estos se llaman las ecuaciones normales. Ellos pueden resolverse simultneamentepara

    m =nni=1 xiyi

    ni=1 xi

    ni=1 yi

    nni=1 x

    2i

    (ni=1 xi

    )2 (8)Utilizado este resultado obtenemos:

    b = y mx (9)

    donde x y y son los medios de x y y, respectivamente.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Problema 1:

    En la fabricacin del producto XXX, la cantidad de compuesto presente escontrolada por la cantidad del ingrediente utilizada en el proceso. Al fabricar ungaln de XXX, se registraron la cantidad de usada y la cantidad de presente,obtenindose los siguientes datos:

    3 4 5 6 7 8 9 10 11 12 4.5 5.4 5.7 6.6 7.0 7.7 8.5 8.7 9.5 9.7

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Problema 1:

    La figura muestra la grfica de los puntos de la tabla

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Problema 1:

    i xi yi x2i xiyi

    1 3 4.5 9 13.52 4 5.5 16 223 5 5.7 25 28.54 6 6.6 36 39.65 7 7.0 49 496 8 7.7 64 61.47 9 8.5 81 76.58 10 8.7 100 879 11 9.5 121 104.510 12 9.7 144 116.4

    75 73.4 645 598.6

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Problema 1:

    Las medias se pueden calcular como x = 75/10 = 7.5 y y = 73.4/10 = 7.34. Lapendiente m y la interseccin b se pueden calcular con las ecuaciones (8) y (9)como

    m =nni=1 xiyi

    ni=1 xi

    ni=1 yi

    nni=1 x

    2i

    (ni=1 xi

    )2 = 10(598.6) 75(73.4)10(645) 752 = 0.583b = y mx = 7.34 0.583(7.5) = 2.967

    La ecuacin de la lnea recta que mejor se ajusta a los datos es

    y = mx+ b = 0.583x+ 2.967

    Utilizando esta ecuacin podemos estimar el valor de presente en el productoXXX. Por ejemplo, si la utilizada es 30 onzas/galn, entonces la presente enel producto XXX ser 0.583(30) + 2.967 = 20.457 onzas/galn.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Ajuste por mnimos cuadrados de una lnea recta

    Problema 1:

    La figura muestra la grfica de los puntos de la tabla y la mejor lnea obtenida

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    Recordemos que la suma de los cuadrados se define segn la ecuacin (7) como

    Sr =ni=1

    (yi mxi b)2 (10)

    Ntamos la similitud entre esta ecuacin y la ecuacin

    St =ni=1

    (yi y)2 (11)

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    En la ecuacin (8), el cuadrado de el residual representa el cuadrado de la diferenciaentre los datos y una estimacin de la medida de tendencia central - la media. En laecuacin (7), el cuadrado del residual representa el cuadrado de la distancia verticalentre los datos y otra medida de la tendencia central de la lnea recta que estamostrado en la siguiente figura.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    La analoga se puede ampliar an ms los casos en quea) la difusin de los puntos alrededor de la lnea es de magnitud similar a lo

    largo de toda la gama de los datos yb) la distribucin de estos puntos sobre la lnea es normal.

    Se puede demostrar que si se cumplen estos criterios, de regresin de mnimos cua-drados proporcionar la mejor estimacin dem y b. Esto se conoce como el principiode mxima verosimilitud en las estadsticas. Adems, si se cumplen estos criterios,la desviacin estndar de la lnea de regresin se puede determinar como

    sy/x =

    Sr

    n 2 (12)

    donde sy/x se denomina el error estndar de la estimacin.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    El subndice de la notacin de sy/x indica que el error es un valor predicho de ycorrespondiente a un valor particular de x. Tambin, observamos que ahora dividi-mos por n 2, ya que se utilizaron dos estimaciones de derivadas para calcular Sr,por lo que hemos perdido dos grados de libertad.As como fue el caso con la desviacin estndar, el error estndar de la estimacincuantifica la propagacin de los datos. Sin embargo, sy/x cuantifica la extensinalrededor de la lnea de regresin en contraste con la desviacin estndar sy quecuantifica la propagacin alrededor de la media.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    Estos conceptos se pueden utilizar para cuantificar la bondad de nuestro ajuste.Esto es particularmente til para la comparacin de varias regresiones (vase lafigura).

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    Para ello, volvemos a los datos originales y determinamos la suma total de loscuadrados alrededor de la media de la variable dependiente (en nuestro caso, ) Stque representa la magnitud del error residual asociado con la variable dependienteantes del ajuste. Despus de realizar el ajuste, podemos calcular Sr, la suma delos cuadrados de los residuos alrededor de la lnea de regresin que caracteriza elerror residual que queda despus del ajuste. La diferencia entre las dos cantidades,St Sr, cuantifica la reduccin de error.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    Debido a que la magnitud de esta cantidad es dependiente de la escala, la diferenciase normaliza respecto a St para producir

    r2 =St SrSt

    (13)

    donde r2 se llama coeficiente de determinacin y r es el coeficiente de correlacin.Para un ajuste perfecto, Sr = 0 y r2 = 1, lo que significa que todos los datos (100%se encuentran sobre la lnea. En caso de que St = Sr y r2 = 0 significa que el ajusteno representa ninguna mejora.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    Continuacin del Problema 1:

    Calcule la desviacin total estndar, el error estndar de la estimacin, y elcoeficiente de correlacin para el ajuste.

    i xi yi (y y)2 (yi mxi b)21 3 4.5 8.0656 0.0466562 4 5.5 3.3856 0.0404013 5 5.7 2.6896 0.0331244 6 6.6 0.5476 0.0182255 7 7.0 0.1156 0.0023046 8 7.7 0.1296 0.0047617 9 8.5 1.3456 0.0817968 10 8.7 1.8496 0.094099 11 9.5 4.6656 0.0144010 12 9.7 5.5696 0.069169

    75 73.4 St = 28.364 Sr = 0.404926

    M. P. Vassileva, J. G. Maim Anlisis Numrico

  • Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal

    Cuantificacin del error de regresin lineal

    Continuacin del Problema 1:

    Calculamos la desvisin estndar sy

    sy =

    St

    n 1 =

    28.364

    10= 2.8364 (14)

    y el error estndar de la estimacin

    sy/x =

    Sr

    n 2 =

    0.404926

    10= 0.0404926 (15)

    Por lo tanto, debido sy/x < sy , el modelo de regresin lineal tiene mrito. Lamedida de la mejora se cuantifica por

    r2 =28.364 0.404926

    28.364= 0.985723945 (16)

    o r =

    0.985723945 = 0.992836313. Estos resultados indican que 98.57% de laincertidumbre original ha sido explicada por el modelo lineal.

    M. P. Vassileva, J. G. Maim Anlisis Numrico

    Regresin Lineal por Mnimos CuadradosIntroduccinAjuste por mnimos cuadrados de una lnea rectaProblemaCuantificacin del error de regresin lineal