Clase5 - Regresión polinomial

Preview:

DESCRIPTION

Estadística

Citation preview

RegresiRegresióónn PolinomialPolinomial

En la clase anterior vimos que se puede efectuar un análisis de regresión múltiple cuando nuestra variable dependiente o explicada depende de dos o más variables independientes.

Vamos a considerar otro ejemplo práctico.

La siguiente tabla nos muestra el contenido de algunos cereales,vamos a ver cuál es la correlación entre estos contenidos y la cantidad de calorías. Efectuaremos una regresión entre las Calorías, como variable explicada (prediccción, respuesta o dependiente) y las Grasas, Fibra, Carbohidratos y Azúcares como variables explicatorias (predictoras o independientes).

Para ello podemos usar la liga del ejercicio interactivo 8 o bien algún software como minitab o matlab.

NombreNombrecalorcaloríías as YY

Grasas Grasas X1X1

Fibra Fibra X2X2

Carbo Carbo X3X3

AzAzúúcarescaresX4X4

100%_100%_BranBran 70 1 10 5 6

100%_100%_Natural_BranNatural_Bran 120 5 2 8 8

AllAll--BranBran 70 1 9 7 5

AllAll--Bran_with_Extra_FiberBran_with_Extra_Fiber 50 0 14 8 0

Almond_DelightAlmond_Delight 110 2 1 14 8

Apple_Cinnamon_CheeriosApple_Cinnamon_Cheerios 110 2 1.5 10.5 10

Apple_JacksApple_Jacks 110 0 1 11 14

Basic_4Basic_4 130 2 2 18 8

Bran_ChexBran_Chex 90 1 4 15 6

Bran_FlakesBran_Flakes 90 0 5 13 5

Cap'n'CrunchCap'n'Crunch 120 2 0 12 12

CheeriosCheerios 110 2 2 17 1

Cinnamon_Toast_CrunchCinnamon_Toast_Crunch 120 3 0 13 9

ClustersClusters 110 2 2 13 7

Cocoa_PuffsCocoa_Puffs 110 1 0 12 13

Corn_ChexCorn_Chex 110 0 0 22 3

Corn_FlakesCorn_Flakes 100 0 1 21 2

Corn_PopsCorn_Pops 110 0 1 13 12

Count_ChoculaCount_Chocula 110 1 0 12 13

CracklinCracklin'_'_Oat_BranOat_Bran 110 3 4 10 7

Cream_of_WheatCream_of_Wheat_(_(QuickQuick)) 100 0 1 21 0

CrispixCrispix 110 0 1 21 3

Crispy_WheatCrispy_Wheat_&__&_RaisinsRaisins 100 1 2 11 10

Double_ChexDouble_Chex 100 0 1 18 5

Froot_LoopsFroot_Loops 110 1 1 11 13

Resultado del análisis de regresión múltiple usando Minitab

Regression Analysis: Calorías versus Grasas, Fibra, Carbos, Azúcares

The regression equation isCalorías = 42.1 + 7.80 Grasas - 0.954 Fibra + 2.77 Carbos + 2.36 Azúcares

Predictor Coef SE Coef T PConstant 42.10 15.73 2.68 0.015Grasas 7.799 1.077 7.24 0.000Fibra -0.9542 0.8282 -1.15 0.263Carbos 2.7676 0.6573 4.21 0.000Azúcares 2.3590 0.5709 4.13 0.001

S = 4.43471 R-Sq = 94.8% R-Sq(adj) = 93.7%

Analysis of Variance

Source DF SS MS F PRegression 4 7150.7 1787.7 90.90 0.000Residual Error 20 393.3 19.7Total 24 7544.0

La ecuación obtenida:

Calorías = 42.1 + 7.80 Grasas - 0.954 Fibra + 2.77 Carbos + 2.36 Azúcares

Y = 42.1 + 7.80 X1 - 0.954 X2 + 2.77 X3 + 2.36 X4

Nos dice que el efecto de la fibra, siendo una correlación negativa, es el de reducir reducir la cantidad de calorías (como era de esperarse) mientras que las otras variables tienen una correlación positiva. De esta últimas, las grasas son las que tienen la mayor influencia en el contenido de calorías.

El R2 (coeficiente de determinación o R-Sq) de 94.8% implica que más del 98% de la varianza de los datos es explicada por la regresión, lo cual indica una buena regresión.

TiposTipos de de modelosmodelos de de regresiregresióónn

RegressionModels

Linear Non-Linear

2+ ExplanatoryVariables

Simple

Non-Linear

Multiple

Linear

1 ExplanatoryVariable

RegressionModels

Linear Non-Linear

2+ ExplanatoryVariables

Simple

Non-Linear

Multiple

Linear

1 ExplanatoryVariable

1 variable 1 variable explicatoriaexplicatoria

2 o + variables 2 o + variables explicatoriasexplicatorias

Modelos deModelos deregresiregresióónn

SimpleSimple MMúúltipleltiple

LinealLineal NoNo--LinealLineal LinealLineal NoNo--LinealLineal

010

2030

40

0

10

20

30

20

22

24

26

Tem

pera

ture

0 10 200

20

40

Dados

Predecir Para un punto nuevo

Una variable independiente Dos variables independientes

RegresiRegresióón Lineal Simple y Mn Lineal Simple y Múúltipleltiple

0 200

20

40

010

2030

40

0

10

20

30

20

22

24

26

Tem

pera

ture

Predicción Predicción

RegresiRegresióón Lineal Simple y Mn Lineal Simple y Múúltipleltiple

i iy a bx= + 1 1 2 2i i iy a b x b x= + +

RegresiRegresióónn de 2de 2ºº ordenorden con con 1 variable 1 variable independienteindependiente

1.1. La La relacirelacióónn entre la variable entre la variable dependientedependiente y la y la independienteindependiente no no eses lineal, lineal, empleamosempleamos unauna ecuaciecuacióónncuadrcuadrááticatica ((polinomiopolinomio de de segundosegundo ordenorden) ) comocomoprimeraprimera aproximaciaproximacióónn..

2.2. Es Es úútiltil cuandocuando no no funcionafunciona unauna regresiregresióónn lineal lineal (se (se observaobserva queque hay hay unauna relacirelacióónn ““curvacurva””))

Necesitamos una relación no lineal como:

0 10 200

20

40

MMááss allalláá de de llííneasneas rectasrectas y y planosplanos

Si nuestros datos siguen una tendencia que no se parece a una línea recta

21 2y a b x b x= + +

EfectoEfecto LinealLineal

EfectoEfectoCurvilCurvilííneoneo

RegresiRegresióónn de 2de 2ºº ordenorden con con 1 variable 1 variable independienteindependiente

21 2y a b x b x= + +

Y

X1

Y

X1

RegresionesRegresiones de 2de 2ºº ordenorden

Y

X1

Y

X1

Y

X1

Y

X1

Y

X1

Y

X1

b2 > 0b2 > 0

b2 < 0b2 < 0

Ejercicio Interactivo 9:

Regresión polinomial a pares de datos.Escoge un grado del polinomio a ajustar (del 1 al 9) y usando elratón vas a poner puntos en el diagrama cartesiano simulando tus datos u observaciones. Después selecciona Regression Poly para ver la curva polinomial ajustada a los datos. Puedes poner hasta 100 datos. También puedes añadir más datos y volver a seleccionar Regression Poly, o bien iniciar nuevamente con Reset.

Todo esto está muy bien, pero ¿cómo se encuentra la ecuación del polinomio que mejor se ajusta a los datos?

Para efectuar un análisis de regresión polinomial podemos hacer algosemejante a lo que hicimos en el caso de regresión lineal, es decir, suponemos una ecuación polinomial como modelo inicial y usamos el método de mínimos cuadrados para obtener los parámetros (coeficientes) de la ecuación. Esto nos llevará a una serie de ecuaciones que podemosusar para encontrar los coeficientes de regresión.

Alternativamente, podemos considerar los términos elevados a algúnexponente como variables variables independientesindependientes y usar un ananáálisislisis de de regresiregresióónn mmúúltipleltiple .

Pero, ¿para efectuar la regresión tenemos que haceralgo diferente a lo que ya hicimos?

¿Qué pasaría si consideramos a xx22 como otra variable dependiente diferente a xx ?

InterpretaciInterpretacióónn GeomGeoméétricatrica

010

20 0

100

200

300

400

-10

0

10

20

21 2y a b x b x= + +

EjemploEjemplo de de HojaHoja de de ccáálculolculo parapara regresiregresióónn de 2de 2ººordenorden, , usandousando regresiregresióónn mmúúltipleltiple

Caso, i Yi X1i X1i2

1 1 1 1 2 4 8 64 3 1 3 9 4 3 5 25 : : : :

Caso, i Yi X1i X1i2

1 1 1 1 2 4 8 64 3 1 3 9 4 3 5 25 : : : :

1.1. CrearCrear columnacolumna con con XX1122 ((elevarelevar al al cuadradocuadrado a a XX11).).

2.2. CorrerCorrer la la regresiregresióónn con con Y (variable Y (variable explicadaexplicada)), y , y XX11, , XX11

2 2 (variables (variables explicatoriasexplicatorias)), ,

1.1. La La relacirelacióónn entre la variable entre la variable dependientedependiente y la y la independienteindependiente pareceparece unauna ““olaola””

2.2. Se Se usausa cuandocuando hay 1 hay 1 ““reversireversióónn”” en la en la curvaturacurvatura((empleamosempleamos un un polinomiopolinomio de 3er de 3er ordenorden).).

RegresiRegresióónn de 3er de 3er ordenorden con con 1 variable 1 variable independienteindependiente

EfectoEfecto lineallineal EfectoEfectocurvilcurvilííneoneo

RegresiRegresióónn de 3er de 3er ordenorden con con 1 variable 1 variable independienteindependiente

2 31 2 3y a b x b x b x= + + +

Y

X1

Y

X1

Y

X1

Y

X1

b3 < 0b3 > 0

RegresiRegresióónn de 3er de 3er ordenorden con con 1 variable 1 variable independienteindependiente

2 31 2 3y a b x b x b x= + + +

Caso, i Yi X1i X1i2 X1i

3 1 1 1 1 1 2 4 8 64 512 3 1 3 9 27 4 3 5 25 125 : : : : :

Caso, i Yi X1i X1i2 X1i

3 1 1 1 1 1 2 4 8 64 512 3 1 3 9 27 4 3 5 25 125 : : : : :

EjemploEjemplo de de HojaHoja de de ccáálculolculo parapara regresiregresióónnde 3de 3erer ordenorden, , usandousando regresiregresióónn mmúúltipleltiple

1.1. CrearCrear columnacolumna con con XX1122 ((elevarelevar al al cuadradocuadrado a a XX11).).

2.2. CrearCrear columnacolumna con con XX113 3 ((elevarelevar al al cubocubo a a XX11).).

3.3. CorrerCorrer la la regresiregresióónn con con Y (variable Y (variable explicadaexplicada)), y , y XX11, , XX11

22 , , XX113 3 (variables (variables explicatoriasexplicatorias)), ,

Supongamos que queremosanalizar la resistencia (Y ) de varios componentes del mismotipo (X ). Los datos medidos son los de la tabla.

EjemploEjemplo de de regresiregresióónn polinomialpolinomial con con datosdatos

X X2 Y1.00E+00 1.00E+00 9.61E-01

2.00E+00 4.00E+00 8.03E-01

3.00E+00 9.00E+00 8.01E-01

4.00E+00 1.60E+01 1.03E+00

5.00E+00 2.50E+01 9.18E-01

6.00E+00 3.60E+01 9.71E-01

7.00E+00 4.90E+01 1.26E+00

8.00E+00 6.40E+01 1.14E+00

9.00E+00 8.10E+01 1.09E+00

1.00E+01 1.00E+02 1.21E+00

1.10E+01 1.21E+02 1.37E+00

1.20E+01 1.44E+02 1.69E+00

1.30E+01 1.69E+02 1.71E+00

1.40E+01 1.96E+02 1.74E+00

1.50E+01 2.25E+02 1.98E+00

1.60E+01 2.56E+02 2.46E+00

1.70E+01 2.89E+02 2.81E+00

1.80E+01 3.24E+02 3.12E+00

1.90E+01 3.61E+02 3.78E+00

2.00E+01 4.00E+02 5.12E+00

Estos datos los podemos graficar:

La gráfica muestra el resultado de dos ajustes, así como las ecuaciones obtenidas. Es claro que si escogemos entre estos dos tipos de regresión, lineal y polinomial, tendremos mejores resultados con el segundo.

y = 0.046 + 0.17 x

y = 1.3 -0.18x +0.017x2

Los resultados del ajuste anterior fueron obtenidos por medio demínimos cuadrados suponiendo un polinomio de primer y segundo grados.

Pero como explicamos podemos también usar la técnica del análisis de regresión múltiple.

Veamos los resultados.

¿Se parece la ecuación de regresión obtenida por los dos métodos?

Como efectuar una regresiComo efectuar una regresióón en n en MatlabMatlab

Supongamos que medimos dos variables, Q y t, y queremos ver la correlación de una con la otra:

>> Usar la función regressregress para estimar los parámetros del modelo toestimate the model y efectuar las pruebas estadísticas.

>>La función regressregress requiere que los datos incluyan una columna de unos para que devuelva el término constante.

Ahora corremos la función regress de la siguiente forma:

Y obtenemos:

Los resultados del ajuste indican que los intervalos de confianza de 95% son

• para b1 CI es de -3.6760 a 1.2094, como contiene al cero entonces no es estadísticamente significativo y puede ser excluído.

•Para b2 CI es de 1.7906 a 2.5779, no contiene a cero y concluímos que hay evidencia estadísticamente significativa de una relación lineal entre Q y t

Como el término constante b1 no es estadísticamente significativo podemos llevar a cabo una regresión suponiendo que b1 =0, de la siguiente forma en matlab

De esa forma el modelo que podemosusar para predecir es entonces