31
Regresi Regresi ó ó n n Polinomial Polinomial

Clase5 - Regresión polinomial

Embed Size (px)

DESCRIPTION

Estadística

Citation preview

Page 1: Clase5 - Regresión polinomial

RegresiRegresióónn PolinomialPolinomial

Page 2: Clase5 - Regresión polinomial

En la clase anterior vimos que se puede efectuar un análisis de regresión múltiple cuando nuestra variable dependiente o explicada depende de dos o más variables independientes.

Vamos a considerar otro ejemplo práctico.

La siguiente tabla nos muestra el contenido de algunos cereales,vamos a ver cuál es la correlación entre estos contenidos y la cantidad de calorías. Efectuaremos una regresión entre las Calorías, como variable explicada (prediccción, respuesta o dependiente) y las Grasas, Fibra, Carbohidratos y Azúcares como variables explicatorias (predictoras o independientes).

Para ello podemos usar la liga del ejercicio interactivo 8 o bien algún software como minitab o matlab.

Page 3: Clase5 - Regresión polinomial

NombreNombrecalorcaloríías as YY

Grasas Grasas X1X1

Fibra Fibra X2X2

Carbo Carbo X3X3

AzAzúúcarescaresX4X4

100%_100%_BranBran 70 1 10 5 6

100%_100%_Natural_BranNatural_Bran 120 5 2 8 8

AllAll--BranBran 70 1 9 7 5

AllAll--Bran_with_Extra_FiberBran_with_Extra_Fiber 50 0 14 8 0

Almond_DelightAlmond_Delight 110 2 1 14 8

Apple_Cinnamon_CheeriosApple_Cinnamon_Cheerios 110 2 1.5 10.5 10

Apple_JacksApple_Jacks 110 0 1 11 14

Basic_4Basic_4 130 2 2 18 8

Bran_ChexBran_Chex 90 1 4 15 6

Bran_FlakesBran_Flakes 90 0 5 13 5

Cap'n'CrunchCap'n'Crunch 120 2 0 12 12

CheeriosCheerios 110 2 2 17 1

Cinnamon_Toast_CrunchCinnamon_Toast_Crunch 120 3 0 13 9

ClustersClusters 110 2 2 13 7

Cocoa_PuffsCocoa_Puffs 110 1 0 12 13

Corn_ChexCorn_Chex 110 0 0 22 3

Corn_FlakesCorn_Flakes 100 0 1 21 2

Corn_PopsCorn_Pops 110 0 1 13 12

Count_ChoculaCount_Chocula 110 1 0 12 13

CracklinCracklin'_'_Oat_BranOat_Bran 110 3 4 10 7

Cream_of_WheatCream_of_Wheat_(_(QuickQuick)) 100 0 1 21 0

CrispixCrispix 110 0 1 21 3

Crispy_WheatCrispy_Wheat_&__&_RaisinsRaisins 100 1 2 11 10

Double_ChexDouble_Chex 100 0 1 18 5

Froot_LoopsFroot_Loops 110 1 1 11 13

Page 4: Clase5 - Regresión polinomial

Resultado del análisis de regresión múltiple usando Minitab

Regression Analysis: Calorías versus Grasas, Fibra, Carbos, Azúcares

The regression equation isCalorías = 42.1 + 7.80 Grasas - 0.954 Fibra + 2.77 Carbos + 2.36 Azúcares

Predictor Coef SE Coef T PConstant 42.10 15.73 2.68 0.015Grasas 7.799 1.077 7.24 0.000Fibra -0.9542 0.8282 -1.15 0.263Carbos 2.7676 0.6573 4.21 0.000Azúcares 2.3590 0.5709 4.13 0.001

S = 4.43471 R-Sq = 94.8% R-Sq(adj) = 93.7%

Page 5: Clase5 - Regresión polinomial

Analysis of Variance

Source DF SS MS F PRegression 4 7150.7 1787.7 90.90 0.000Residual Error 20 393.3 19.7Total 24 7544.0

La ecuación obtenida:

Calorías = 42.1 + 7.80 Grasas - 0.954 Fibra + 2.77 Carbos + 2.36 Azúcares

Y = 42.1 + 7.80 X1 - 0.954 X2 + 2.77 X3 + 2.36 X4

Nos dice que el efecto de la fibra, siendo una correlación negativa, es el de reducir reducir la cantidad de calorías (como era de esperarse) mientras que las otras variables tienen una correlación positiva. De esta últimas, las grasas son las que tienen la mayor influencia en el contenido de calorías.

El R2 (coeficiente de determinación o R-Sq) de 94.8% implica que más del 98% de la varianza de los datos es explicada por la regresión, lo cual indica una buena regresión.

Page 6: Clase5 - Regresión polinomial

TiposTipos de de modelosmodelos de de regresiregresióónn

RegressionModels

Linear Non-Linear

2+ ExplanatoryVariables

Simple

Non-Linear

Multiple

Linear

1 ExplanatoryVariable

RegressionModels

Linear Non-Linear

2+ ExplanatoryVariables

Simple

Non-Linear

Multiple

Linear

1 ExplanatoryVariable

1 variable 1 variable explicatoriaexplicatoria

2 o + variables 2 o + variables explicatoriasexplicatorias

Modelos deModelos deregresiregresióónn

SimpleSimple MMúúltipleltiple

LinealLineal NoNo--LinealLineal LinealLineal NoNo--LinealLineal

Page 7: Clase5 - Regresión polinomial

010

2030

40

0

10

20

30

20

22

24

26

Tem

pera

ture

0 10 200

20

40

Dados

Predecir Para un punto nuevo

Una variable independiente Dos variables independientes

RegresiRegresióón Lineal Simple y Mn Lineal Simple y Múúltipleltiple

Page 8: Clase5 - Regresión polinomial

0 200

20

40

010

2030

40

0

10

20

30

20

22

24

26

Tem

pera

ture

Predicción Predicción

RegresiRegresióón Lineal Simple y Mn Lineal Simple y Múúltipleltiple

i iy a bx= + 1 1 2 2i i iy a b x b x= + +

Page 9: Clase5 - Regresión polinomial

RegresiRegresióónn de 2de 2ºº ordenorden con con 1 variable 1 variable independienteindependiente

1.1. La La relacirelacióónn entre la variable entre la variable dependientedependiente y la y la independienteindependiente no no eses lineal, lineal, empleamosempleamos unauna ecuaciecuacióónncuadrcuadrááticatica ((polinomiopolinomio de de segundosegundo ordenorden) ) comocomoprimeraprimera aproximaciaproximacióónn..

2.2. Es Es úútiltil cuandocuando no no funcionafunciona unauna regresiregresióónn lineal lineal (se (se observaobserva queque hay hay unauna relacirelacióónn ““curvacurva””))

Page 10: Clase5 - Regresión polinomial

Necesitamos una relación no lineal como:

0 10 200

20

40

MMááss allalláá de de llííneasneas rectasrectas y y planosplanos

Si nuestros datos siguen una tendencia que no se parece a una línea recta

21 2y a b x b x= + +

Page 11: Clase5 - Regresión polinomial

EfectoEfecto LinealLineal

EfectoEfectoCurvilCurvilííneoneo

RegresiRegresióónn de 2de 2ºº ordenorden con con 1 variable 1 variable independienteindependiente

21 2y a b x b x= + +

Page 12: Clase5 - Regresión polinomial

Y

X1

Y

X1

RegresionesRegresiones de 2de 2ºº ordenorden

Y

X1

Y

X1

Y

X1

Y

X1

Y

X1

Y

X1

b2 > 0b2 > 0

b2 < 0b2 < 0

Page 13: Clase5 - Regresión polinomial

Ejercicio Interactivo 9:

Regresión polinomial a pares de datos.Escoge un grado del polinomio a ajustar (del 1 al 9) y usando elratón vas a poner puntos en el diagrama cartesiano simulando tus datos u observaciones. Después selecciona Regression Poly para ver la curva polinomial ajustada a los datos. Puedes poner hasta 100 datos. También puedes añadir más datos y volver a seleccionar Regression Poly, o bien iniciar nuevamente con Reset.

Page 14: Clase5 - Regresión polinomial

Todo esto está muy bien, pero ¿cómo se encuentra la ecuación del polinomio que mejor se ajusta a los datos?

Para efectuar un análisis de regresión polinomial podemos hacer algosemejante a lo que hicimos en el caso de regresión lineal, es decir, suponemos una ecuación polinomial como modelo inicial y usamos el método de mínimos cuadrados para obtener los parámetros (coeficientes) de la ecuación. Esto nos llevará a una serie de ecuaciones que podemosusar para encontrar los coeficientes de regresión.

Page 15: Clase5 - Regresión polinomial

Alternativamente, podemos considerar los términos elevados a algúnexponente como variables variables independientesindependientes y usar un ananáálisislisis de de regresiregresióónn mmúúltipleltiple .

Pero, ¿para efectuar la regresión tenemos que haceralgo diferente a lo que ya hicimos?

¿Qué pasaría si consideramos a xx22 como otra variable dependiente diferente a xx ?

Page 16: Clase5 - Regresión polinomial

InterpretaciInterpretacióónn GeomGeoméétricatrica

010

20 0

100

200

300

400

-10

0

10

20

21 2y a b x b x= + +

Page 17: Clase5 - Regresión polinomial

EjemploEjemplo de de HojaHoja de de ccáálculolculo parapara regresiregresióónn de 2de 2ººordenorden, , usandousando regresiregresióónn mmúúltipleltiple

Caso, i Yi X1i X1i2

1 1 1 1 2 4 8 64 3 1 3 9 4 3 5 25 : : : :

Caso, i Yi X1i X1i2

1 1 1 1 2 4 8 64 3 1 3 9 4 3 5 25 : : : :

1.1. CrearCrear columnacolumna con con XX1122 ((elevarelevar al al cuadradocuadrado a a XX11).).

2.2. CorrerCorrer la la regresiregresióónn con con Y (variable Y (variable explicadaexplicada)), y , y XX11, , XX11

2 2 (variables (variables explicatoriasexplicatorias)), ,

Page 18: Clase5 - Regresión polinomial

1.1. La La relacirelacióónn entre la variable entre la variable dependientedependiente y la y la independienteindependiente pareceparece unauna ““olaola””

2.2. Se Se usausa cuandocuando hay 1 hay 1 ““reversireversióónn”” en la en la curvaturacurvatura((empleamosempleamos un un polinomiopolinomio de 3er de 3er ordenorden).).

RegresiRegresióónn de 3er de 3er ordenorden con con 1 variable 1 variable independienteindependiente

Page 19: Clase5 - Regresión polinomial

EfectoEfecto lineallineal EfectoEfectocurvilcurvilííneoneo

RegresiRegresióónn de 3er de 3er ordenorden con con 1 variable 1 variable independienteindependiente

2 31 2 3y a b x b x b x= + + +

Page 20: Clase5 - Regresión polinomial

Y

X1

Y

X1

Y

X1

Y

X1

b3 < 0b3 > 0

RegresiRegresióónn de 3er de 3er ordenorden con con 1 variable 1 variable independienteindependiente

2 31 2 3y a b x b x b x= + + +

Page 21: Clase5 - Regresión polinomial

Caso, i Yi X1i X1i2 X1i

3 1 1 1 1 1 2 4 8 64 512 3 1 3 9 27 4 3 5 25 125 : : : : :

Caso, i Yi X1i X1i2 X1i

3 1 1 1 1 1 2 4 8 64 512 3 1 3 9 27 4 3 5 25 125 : : : : :

EjemploEjemplo de de HojaHoja de de ccáálculolculo parapara regresiregresióónnde 3de 3erer ordenorden, , usandousando regresiregresióónn mmúúltipleltiple

1.1. CrearCrear columnacolumna con con XX1122 ((elevarelevar al al cuadradocuadrado a a XX11).).

2.2. CrearCrear columnacolumna con con XX113 3 ((elevarelevar al al cubocubo a a XX11).).

3.3. CorrerCorrer la la regresiregresióónn con con Y (variable Y (variable explicadaexplicada)), y , y XX11, , XX11

22 , , XX113 3 (variables (variables explicatoriasexplicatorias)), ,

Page 22: Clase5 - Regresión polinomial

Supongamos que queremosanalizar la resistencia (Y ) de varios componentes del mismotipo (X ). Los datos medidos son los de la tabla.

EjemploEjemplo de de regresiregresióónn polinomialpolinomial con con datosdatos

X X2 Y1.00E+00 1.00E+00 9.61E-01

2.00E+00 4.00E+00 8.03E-01

3.00E+00 9.00E+00 8.01E-01

4.00E+00 1.60E+01 1.03E+00

5.00E+00 2.50E+01 9.18E-01

6.00E+00 3.60E+01 9.71E-01

7.00E+00 4.90E+01 1.26E+00

8.00E+00 6.40E+01 1.14E+00

9.00E+00 8.10E+01 1.09E+00

1.00E+01 1.00E+02 1.21E+00

1.10E+01 1.21E+02 1.37E+00

1.20E+01 1.44E+02 1.69E+00

1.30E+01 1.69E+02 1.71E+00

1.40E+01 1.96E+02 1.74E+00

1.50E+01 2.25E+02 1.98E+00

1.60E+01 2.56E+02 2.46E+00

1.70E+01 2.89E+02 2.81E+00

1.80E+01 3.24E+02 3.12E+00

1.90E+01 3.61E+02 3.78E+00

2.00E+01 4.00E+02 5.12E+00

Page 23: Clase5 - Regresión polinomial

Estos datos los podemos graficar:

La gráfica muestra el resultado de dos ajustes, así como las ecuaciones obtenidas. Es claro que si escogemos entre estos dos tipos de regresión, lineal y polinomial, tendremos mejores resultados con el segundo.

y = 0.046 + 0.17 x

y = 1.3 -0.18x +0.017x2

Page 24: Clase5 - Regresión polinomial

Los resultados del ajuste anterior fueron obtenidos por medio demínimos cuadrados suponiendo un polinomio de primer y segundo grados.

Pero como explicamos podemos también usar la técnica del análisis de regresión múltiple.

Veamos los resultados.

¿Se parece la ecuación de regresión obtenida por los dos métodos?

Page 25: Clase5 - Regresión polinomial

Como efectuar una regresiComo efectuar una regresióón en n en MatlabMatlab

Supongamos que medimos dos variables, Q y t, y queremos ver la correlación de una con la otra:

Page 26: Clase5 - Regresión polinomial
Page 27: Clase5 - Regresión polinomial
Page 28: Clase5 - Regresión polinomial

>> Usar la función regressregress para estimar los parámetros del modelo toestimate the model y efectuar las pruebas estadísticas.

>>La función regressregress requiere que los datos incluyan una columna de unos para que devuelva el término constante.

Page 29: Clase5 - Regresión polinomial

Ahora corremos la función regress de la siguiente forma:

Y obtenemos:

Page 30: Clase5 - Regresión polinomial

Los resultados del ajuste indican que los intervalos de confianza de 95% son

• para b1 CI es de -3.6760 a 1.2094, como contiene al cero entonces no es estadísticamente significativo y puede ser excluído.

•Para b2 CI es de 1.7906 a 2.5779, no contiene a cero y concluímos que hay evidencia estadísticamente significativa de una relación lineal entre Q y t

Como el término constante b1 no es estadísticamente significativo podemos llevar a cabo una regresión suponiendo que b1 =0, de la siguiente forma en matlab

De esa forma el modelo que podemosusar para predecir es entonces

Page 31: Clase5 - Regresión polinomial