23
REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver.

REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

Embed Size (px)

Citation preview

Page 1: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

REGRESIÓN LINEAL MÚLTIPLE

Bibliografía:Introducción a la probabilidad y estadística -

William Mendenhall, Robert J. Beaver y Barbara M. Beaver.

Page 2: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

REGRESIÓN LINEAL MÚLTIPLE

• La regresión lineal múltiple es una extensión de regresión lineal simple para tomar en cuenta más de una variable independiente.

Busca predecir una variable dependiente a través de 2 o más variables independientes.

• Con el uso de más de una variable independiente, se debe hacer un mejor trabajo de explicar la variación en y y en consecuencia hacer predicciones más precisas.

Page 3: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

REGRESIÓN LINEAL MÚLTIPLE

• EJEMPLO:¿Con qué variables se podría predecir la estatura de una persona?¿Con qué variables se podría predecir el tiempo de llenado de una piscina?¿Con qué variables se podría predecir el tiempo de construcción de un edificio?

Page 4: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

REGRESIÓN LINEAL MÚLTIPLE

• Las ventas regionales y del producto de una compañía podrían estar relacionadas con tres factores:

• x1: la cantidad gastada en publicidad en televisión.

• x2: la cantidad gastada en publicidad en periódicos.

• x3: el número de vendedores asignados a la región.

Page 5: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

REGRESIÓN LINEAL MÚLTIPLE

En la regresión lineal múltiple aparecen varias preguntas, muy similares al caso de regresión lineal simple:• ¿Qué tan bien se ajusta el modelo?• ¿Qué tan fuerte es la relación entre y y las

variables predictoras?• ¿Se han violado suposiciones importantes?• ¿Qué tan buenas son las estimaciones y

predicciones?

Page 6: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

EJEMPLO

Observación Precio de lista y Área de vivienda x1 Pisos x2 Recámaras x3 Baños x4

1 169 6 1 2 1

2 218,5 10 1 2 2

3 216,5 10 1 3 2

4 225 11 1 3 2

5 229,9 13 1 3 1,7

6 235 13 2 3 2,5

7 239,9 13 1 3 2

8 247,9 17 2 3 2,5

9 260 19 2 3 2

10 269,9 18 1 3 2

11 234,9 13 1 4 2

12 255 18 1 4 2

13 269,9 17 2 4 3

14 294,5 20 2 4 3

15 309,9 21 2 4 3

¿En qué forma los vendedores de bienes raíces determinan el precio de venta para un condominio recién inscrito en lista? La base de datos de una computadora en una pequeña comunidad contiene el precio de venta de lista y (en miles de dólares), la cantidad de área de vivienda x1 (en cientos de pies cuadrados), así como los números de pisos x2,recámaras x3 y baños x4, para n 15 condominios seleccionados al azar actualmente en el mercado.

Page 7: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

UNA RECOMENDACIÓN

Mantenga el número de variables predictoras lo suficientemente pequeño para que sea efectivo pero manejable. Es necesario estar conscientes que el número de observaciones del conjunto de datos debe exceder el número de términos del modelo; cuanto mayor el exceso, mejor.

Page 8: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

PRUEBA DE UTILIDAD DEL MODELO DE REGRESIÓN MÚLTIPLE

Para determinar la utilidad del modelo de regresión múltiple se pueden usar las siguientes pruebas:

• El coeficiente de determinación R2.• Prueba de significancia de los coeficientes de

regresión parcial.• El análisis de varianza de la Prueba F

Page 9: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

PRUEBA DE UTILIDAD DEL MODELO DE REGRESIÓN MÚLTIPLE

• El análisis de varianza de la Prueba FSe realiza para resolver la interrogante: ¿Al menos una de las variables predictoras está aportando información significativa para la predicción de la variable y?

Se realiza a través de una prueba de hipótesis del análisis de varianza.

Page 10: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

PRUEBA DE UTILIDAD DEL MODELO DE REGRESIÓN MÚLTIPLE

• El análisis de varianza de la Prueba F

El estadístico de prueba se encuentra en la tabla ANOVA.

Page 11: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MULTICOLINEALIDAD

La multicolinealidad es un fenómeno que se da cuando, dos o más variables tienen «mucho de lo mismo» o información compartida.

La multicolinealidad se presenta cuando dos o más de las variables predictoras están altamente correlacionadas entre sí.

Page 12: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MULTICOLINEALIDAD

¿Cómo saber si un análisis de regresión exhibe multicolinealidad?

• El valor de R2 es grande, lo cual indica un buen ajuste, pero las pruebas t individuales no son significativas.

• Los signos de los coeficientes de regresión son contrarios a lo que intuitivamente se esperaría fueran las contribuciones de esas variables.

• Una matriz de correlaciones, generada por computadora, muestra cuáles variables predictoras están altamente correlacionadas entre sí y con la respuesta y.

Page 13: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MULTICOLINEALIDAD

En el análisis de regresión múltiple, ni el tamaño del coeficiente de regresión, ni su valor t indican la importancia de la variable como contribuyente de información.

Como existe multicolinealidad en alguna medida en todos los problemas de regresión, debemos considerar los términos individuales como aportadores de información, en lugar de tratar de medir la importancia práctica de cada término.

Page 14: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MULTICOLINEALIDAD

• EJEMPLO:Observación Precio de lista y Área de vivienda Pisos Recámaras Baños

1 169 6 1 2 1

2 218,5 10 1 2 2

3 216,5 10 1 3 2

4 225 11 1 3 2

5 229,9 13 1 3 1,7

6 235 13 2 3 2,5

7 239,9 13 1 3 2

8 247,9 17 2 3 2,5

9 260 19 2 3 2

10 269,9 18 1 3 2

11 234,9 13 1 4 2

12 255 18 1 4 2

13 269,9 17 2 4 3

14 294,5 20 2 4 3

15 309,9 21 2 4 3

Page 15: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

INTERPRETACIÓN DE GRÁFICAS DE RESIDUALES

Se pueden usar gráficas residuales para descubrir posibles violaciones en las suposiciones requeridas para un análisis de regresión. Hay varios patrones comunes que se deben reconocer porque se presentan con frecuencia en aplicaciones prácticas.

Page 16: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

INTERPRETACIÓN DE GRÁFICAS DE RESIDUALES

Si el rango de los residuales aumenta cuando aumenta, se puede estabilizar la varianza de la respuesta al correr el análisis de regresión en

la gráfica residual de la figura mostraría que la variación no explicada exhibe un patrón curvado, que sugiere que hay un efecto cuadrático que no se ha incluido en el modelo.

Se puede ajustar el modelo ajustando una ecuación de segundo orden.

Page 17: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

INTERPRETACIÓN DE GRÁFICAS DE RESIDUALES

Para los datos del ejemplo, mostraría un conjunto distinto de residuales positivos correspondientes a dos comportamientos. Este patrón señala que una «variable cualitativa» no estaba incluida en el modelo.

Desafortunadamente, no todas las gráficas residuales dan una indicación tan clara del problema. Con todo cuidado deben examinarse las gráficas residuales, buscando que no haya aleatoriedad en el modelo de residuales. Si se puede hallar una explicación para el comportamiento de los residuales, se puede modificar el modelo para eliminar el problema.

Page 18: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MODELO DE REGRESIÓN POLINOMIAL

• El modelo cuadrático es un ejemplo de un modelo de segundo orden porque contiene un término cuyos exponentes suman 2 (en este caso, x2). También es un ejemplo de un modelo polinomial, un modelo que toma la forma

Page 19: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MODELO DE REGRESIÓN CO VARIABLES CUALITATIVAS

Page 20: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MODELO DE REGRESIÓN CO VARIABLES CUALITATIVAS

Una primera posibilidad para estudiar este problema consiste en dividir la muestra en grupos, según la variable atributo, y estudiar la regresión en cada caso. Esta solución no es eficiente y en algunas ocasiones, imposible de realizar si se dispone de muy pocos datos en alguno de los grupos.

Un método mejor y más eficiente consiste en introducir una variable de clasificación. Para ello, si se quiere dividir la muestra en dos grupos (A y B) al ajustar un modelo de regresión lineal simple.

Page 21: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MODELO DE REGRESIÓN CO VARIABLES CUALITATIVAS

• Ejemplo: Se realizó un estudio para examinar la relación entre salario en una universidad, y, el número de años de experiencia del miembro del profesorado y el género del miembro del profesorado. Si se espera que haya una relación de línea recta entre salario medio y años de experiencia para caballeros y mujeres, escriba el modelo que relacione salario medio con las dos variables predictoras: años de experiencia (cuantitativa) y género del profesor (cualitativa).

Page 22: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MODELO DE REGRESIÓN CO VARIABLES CUALITATIVAS

La variable cualitativa “género” contiene k = 2 categorías, caballeros y mujeres. Por lo tanto, se necesita (k - 1) = 1 variable ficticia, x2, definida como:

Page 23: REGRESIÓN LINEAL MÚLTIPLE Bibliografía: Introducción a la probabilidad y estadística - William Mendenhall, Robert J. Beaver y Barbara M. Beaver

MODELO DE REGRESIÓN CO VARIABLES CUALITATIVAS

El hecho de que las pendientes de las dos rectas puedan diferir significa que las dos variables predictoras interactúan; esto es, el cambio en E(y) correspondiente a un cambio en x1 depende de si el profesor es hombre o mujer. Para tomar en cuenta esta interacción (diferencia en pendientes), el término de interacción x1x2 se introduce en el modelo.