11
I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  Página 7 de 90 ING. JOSÉ TÉLLEZ ESTRADA.      UNIDAD I. Regresión lineal simple y múltiple. Competencia específica a desarrollar: Identificar y aplicar los conceptos básicos del modelo de regresión lineal simple. Establecer las condiciones para distinguir entre una regresión y una correlación. Identificar y aplicar los conceptos básicos del modelo de regresión múltiple. Identificar y aplicar los conceptos básicos del modelo de regresión no lineal.

regresion lineal

Embed Size (px)

Citation preview

Page 1: regresion lineal

I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  

Página 7 de 90 

ING. JOSÉ TÉLLEZ ESTRADA.  

 

 

 

 

UNIDAD I.

Regresión lineal simple y múltiple.

Competencia específica a desarrollar:

Identificar y aplicar los conceptos básicos del modelo de regresión lineal simple. Establecer las condiciones para distinguir entre una regresión y una correlación.

Identificar y aplicar los conceptos básicos del modelo de regresión múltiple. Identificar y aplicar los conceptos básicos del modelo de regresión no lineal.

Page 2: regresion lineal

AEF-1025. 

Página 8 de 90 

MANUAL DE PRÁCTICAS PARA ESTADÍSTICA INFERENCIAL II.

Page 3: regresion lineal

I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  

Página 9 de 90 

ING. JOSÉ TÉLLEZ ESTRADA.  

Práctica 1: Regresión lineal simple.

Objetivo: Identificar y aplicar los conceptos básicos del modelo de regresión lineal simple. Introducir al alumno a la formulación en Excel aplicado a Estadística.

Instrucciones: Práctica individual. Ejercicios para realizarse con Software Minitab. Entregar reporte de práctica.

1.1 Los datos adjuntos se tomaron de una gráfica que apareció en el artículo “Reactions on Painted Steel Under the Influence of Sodium Chloride, and Combinations Thereof” (Ind. Engr. Chem. Prod. Res. Dev. 1985: 375-378). La variable independiente es la tasa de deposición de SO2 (mg/m²/d) y la variable independiente es pérdida de peso de acero (g/m²).

x  14  18  40  43  45  112 

y  280  350  470  500  560  1,200 

a) Encuentre la ecuación de la recta de regresión. b) Estime la pérdida de peso de acero cuando la tasa de deposición de SO2 sea de 50. c) Calcule el valor de R² (coeficiente de determinación) e interprete el resultado. d) Encuentre un intervalo de confianza de 95 % para la respuesta media de μy|x cuando la tasa

de deposición de SO2 sea de 50. e) Construya un intervalo de predicción de 95% cuando la tasa de deposición de SO2 sea de 50. f) Establezca y pruebe la hipótesis de regresión lineal.

1.2 Al gerente de una agencia de alquiler de limosinas que opera en un suburbio, le gustaría determinar la cantidad de tiempo que llevaría transportar pasajeros, desde varios lugares a un aeropuerto metropolitano durante las horas no pico; con esta información y los costos por hora de la operación de las limosinas podría calcular las tarifas más convenientes. Se seleccionó una muestra aleatoria de 12 viajes durante un día en particular en las horas no pico con los siguientes resultados, en millas y minutos:

Distancia  10  12  12.1  14.3  15.7  16.1  18.4  20.2  21.8  24.3  25.4  26.7 

Tiempo  20  18  21.88  24.21  27.08  22.96  29.38  37.24  36.84  40.59  41.21  38.19 

a) Estime la recta de regresión. b) Prediga el tiempo en minutos que tomará llevar a una persona en limusina desde 21 mi de

distancia. c) Calcule el coeficiente de determinación e interprete el resultado. d) Encuentre un intervalo de confianza de 96 % para la respuesta media de μy|x cuando la

distancia sea de 21 mi. e) Construya un intervalo de predicción de confianza de 96% para el tiempo de recorrido medio

en minutos cuando la distancia sea de 21 mi. f) Establezca y pruebe la hipótesis de regresión lineal.

Page 4: regresion lineal

AEF-1025. 

Página 10 de 90 

MANUAL DE PRÁCTICAS PARA ESTADÍSTICA INFERENCIAL II.

1.3 Se piensa que el número de libras de vapor consumidas mensualmente por una planta química se relaciona con la temperatura ambiente promedio (en ºF) de ese mes. Este dato es importante porque se desea proyectar el costo de producción de vapor. En la tabla siguiente se muestran la temperatura y el consumo anual:

Mes:  Temperatura  Consumo 

Enero  21  185.79 

Febrero  24  214.47 

Marzo  32  288.03 

Abril  47  424.84 

Mayo  50  454.58 

Junio  59  539.03 

Julio  68  651.55 

Agosto  74  675.06 

Septiembre 62  562.03 

Octubre  50  452.93 

Noviembre  41  369.95 

Diciembre  30  273.98 

a) Elabore el diagrama de dispersión. b) Estime la recta de regresión lineal. c) ¿Cuál es la estimación del consumo esperado de vapor cuando la temperatura promedio sea

de 55 ºF? d) Calcule R² e interprete el resultado. e) Encuentre un intervalo de confianza de 98 % para la respuesta media de μy|x cuando la

temperatura ambiente promedio sea de 55 ºF. f) Construya un intervalo de predicción con 98% de confianza para el consumo de vapor medio

cuando la temperatura ambiente promedio sea de 55 ºF. g) Establezca y pruebe la hipótesis de regresión lineal.

Page 5: regresion lineal

I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  

Página 11 de 90 

ING. JOSÉ TÉLLEZ ESTRADA.  

1.4 Uno de los problemas más desafiantes que se enfrenta en el área de control de la contaminación del agua lo representa la Industria de la peletería. Los desechos de ésta tienen una complejidad química. Se caracterizan por valores elevados de demanda de oxígeno bioquímico, sólidos volátiles y otras medidas de contaminación. Considere los datos experimentales de la tabla anexa obtenida de 33 muestras (está dividida la tabla) de desechos tratados químicamente. Se registraron los valores X de reducción porcentual de sólidos, y de Y porcentaje de disminución de demanda de oxigeno químico. a) Elabore el diagrama de dispersión. b) Encuentre la recta de regresión. c) Calcule el valor de R² e interprete el resultado. d) Estime la demanda de oxígeno cuando la reducción de sólidos sea de 20% e) Encuentre un intervalo de confianza de 95 % para la respuesta media de μy|x cuando la

reducción de sólidos sea de 20%. f) Construya un intervalo de predicción de 95% para la respuesta media de la demanda de

oxígeno cuando la reducción de sólidos sea de 20%. g) Establezca y pruebe la hipótesis de regresión lineal.

Red_Sólidos  Demanda_O   Red_Sólidos Demanda_O 

3  5    36  34 

7  11    37  36 

11  21    38  38 

15  16    39  37 

18  16    39  36 

27  28    39  45 

29  27    40  39 

30  25    41  41 

30  35    42  40 

31  30    42  44 

31  40    43  37 

32  32    44  44 

33  34    45  46 

33  32    46  46 

34  34    47  49 

36  37    50  51 

36  38       

Page 6: regresion lineal

AEF-1025. 

Página 12 de 90 

MANUAL DE PRÁCTICAS PARA ESTADÍSTICA INFERENCIAL II.

1.5 El Turbine Oil Oxidation Test (TOST) y el Rotating Bomb Oxidation Test (RBOT) son dos procedimientos diferentes de evaluar la estabilidad ante la oxidación de aceites para turbina de vapor. El artículo “Dependence of Oxidation Stability of Steam Turbine Oil on Base Oil Composition” (J. of the Society of Tribologists and Lubrication Engrs., octubre de 1997: 19-24) reportó las observaciones adjuntas sobre x= tiempo para realizar TOST (h) y y= tiempo para realizar RBOT (min) con 12 especímenes de aceite.

TOST  4,200  3,600  3,750  3,675  4,050  2,770 

RBOT  370  340  375  310  350  200 

  TOST  4,870  4,500  3,450  2,700  3,750  3,300 

RBOT  400  375  285  225  345  285  a) Calcule e interprete el valor del coeficiente de correlación muestral. b) ¿Cómo se vería afectado el valor de r si se hubiera hecho x= tiempo para realizar RBOT y

y= tiempo para realizar TOST? c) ¿Cómo se vería afectado el valor de r si el tiempo para realizar RBOT estuviera expresado

en horas? d) Construya gráficas de probabilidad normal y comente. e) Realice una prueba de hipótesis para decidir si el tiempo para realizar RBOT y el tiempo

para realizar TOST están linealmente relacionados.

Page 7: regresion lineal

I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  

Página 13 de 90 

ING. JOSÉ TÉLLEZ ESTRADA.  

Práctica 2: Regresión lineal múltiple.

Objetivo: Identificar y aplicar los conceptos básicos del modelo de regresión lineal múltiple.

Instrucciones: Práctica individual. Ejercicios para realizarse con Software Minitab. Entregar reporte de práctica.

2.1 Se efectuó un conjunto de ensayos experimentales para determinar una forma de predecir el tiempo de cocción Y a diferentes niveles del ancho del horno X₁ y temperaturas de la chimenea X₂. Los siguientes son los datos registrados:

Tiempo_cocción Ancho_horno Temp_chimenea

6.40  1.32  1.15 

15.05  2.69  3.40 

18.75  3.56  4.10 

30.25  4.41  8.75 

44.85  5.35  14.82 

48.94  6.20  15.15 

51.55  7.12  15.32 

61.50  8.87  18.18 

100.44  9.80  35.19 

111.42  10.65  40.40 

a) Estime la ecuación de regresión. b) Haga un ANOVA estableciendo las hipótesis necesarias que sirvan para determinar si el

modelo explica una cantidad significativa de variación. c) Encuentre el valor de R² e interprete el resultado. d) Prediga el tiempo de cocción para un ancho de horno de 7.75 y una temperatura de 17 grados. e) Construya un intervalo de predicción con una confianza de 95% para el inciso d); Construya

límites de confianza de 95 % para la respuesta media de la predicción del inciso e).

Page 8: regresion lineal

AEF-1025. 

Página 14 de 90 

MANUAL DE PRÁCTICAS PARA ESTADÍSTICA INFERENCIAL II.

2.2 Un profesor de Estadística del ITSSLP, C, recabó datos durante un semestre escolar (Enero-Junio 2012) para determinar si existe relación entre la calificación final obtenida por sus alumnos y las faltas totales que tuvieron en el curso, las tareas entregadas y las prácticas realizadas. Tomó los datos de un grupo de 34 alumnos y en la tabla anexa se muestran los resultados:

Faltas Tareas Practicas Calificación

6 12.6 10.0 90 0 13.3 10.0 94 8 5.0 8.0 33 2 9.8 10.0 90 0 12.7 10.0 94 1 10.9 10.0 76 0 11.7 10.0 79 9 3.7 3.0 19 1 10.1 10.0 87 2 11.7 10.0 84 9 4.0 3.0 14 4 8.5 10.0 66 2 7.0 10.0 73 4 8.2 8.5 67 3 12.6 10.0 85 8 3.7 2.0 31 10 3.9 7.0 28 8 9.6 7.0 62 1 13.6 10.0 90 3 8.5 10.0 82 1 13.7 10.0 90 1 11.9 10.0 76 0 6.0 10.0 73 0 12.0 8.0 75 0 12.7 10.0 92 0 13.6 10.0 80 2 13.3 10.0 87 6 9.5 9.0 75 3 12.8 10.0 88 2 9.8 10.0 87 0 11.0 9.5 79 1 13.4 10.0 75 0 13.6 10.0 83 0 12.8 10.0 86

a) Estime la ecuación de regresión. b) Haga un ANOVA estableciendo las hipótesis necesarias que sirvan para determinar si el

modelo explica una cantidad significativa de variación. c) Encuentre el valor de R² e interprete el resultado. d) Prediga la calificación de un alumno si no falta y entrega 15 tareas y 11 prácticas. e) Construya un intervalo de predicción con una confianza de 96% y límites de confianza de 96

% para la respuesta media de esta predicción.

Page 9: regresion lineal

I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  

Página 15 de 90 

ING. JOSÉ TÉLLEZ ESTRADA.  

2.3 Se cree que la energía eléctrica consumida cada mes por una planta química, está relacionada con la temperatura ambiental promedio x₁, el número de días del mes x₂, la pureza promedio del producto x₃, y las toneladas fabricadas del producto x₄. Se dispone de datos históricos que se presentan en la siguiente tabla:

Consumo ºF Días % Ton

y x1 x2 x3 x4 240 25 24 91 100

236 31 21 90 95

290 45 24 88 110

274 60 25 87 88

301 65 25 91 94

316 72 26 94 99

300 80 25 87 97

296 84 25 86 96

267 75 24 88 110

276 60 25 91 105

288 50 25 90 100

261 38 23 89 98

a) Estime la ecuación de regresión. b) Haga un ANOVA estableciendo las hipótesis necesarias que sirvan para determinar si el

modelo explica una cantidad significativa de variación. c) Encuentre el valor de R² e interprete el resultado. d) Prediga el consumo de energía para un mes en que se tiene 75 ºF, 24 días trabajados, 90%

de pureza del producto y 98 toneladas fabricadas. e) Construya un intervalo de predicción de 97% para las condiciones del inciso d); Construya un

intervalo de confianza de 97% para las condiciones del inciso d).

Page 10: regresion lineal

AEF-1025. 

Página 16 de 90 

MANUAL DE PRÁCTICAS PARA ESTADÍSTICA INFERENCIAL II.

2.4 La blancura del rayón es un factor importante para los científicos que estudian la calidad de las telas. La blancura se ve afectada por la calidad de la pulpa y otras variables de procesamiento. Algunas de las variables son la temperatura del baño con ácido, °C (x1); la concentración del ácido en cascada, % (x2); la temperatura del agua, °C (x3); la concentración del sulfuro, % (x4); la cantidad del blanqueador de cloro, lb/min (x5) y la temperatura de terminado de la tela, °C (x6). A continuación se proporciona un conjunto de datos de especímenes de rayón. La respuesta, y, es la medida de la blancura.

Blancura T_acido %_acido T_agua %_sulfuro cloro T_term

88.7 43 0.211 85 0.243 0.606 48 89.3 42 0.604 89 0.237 0.600 55 75.5 47 0.450 87 0.198 0.527 61 92.1 46 0.641 90 0.194 0.500 65 83.4 52 0.370 93 0.198 0.485 54 44.8 50 0.526 85 0.221 0.533 60 50.9 43 0.486 83 0.203 0.510 57 78.0 49 0.504 93 0.279 0.489 49 86.8 51 0.609 90 0.220 0.462 64 47.3 51 0.702 86 0.198 0.478 63 53.7 48 0.397 92 0.231 0.411 61 92.0 46 0.488 88 0.211 0.387 88 87.9 43 0.525 85 0.199 0.437 63 90.3 45 0.486 84 0.189 0.499 58 94.2 53 0.527 87 0.245 0.530 65 89.5 47 0.601 95 0.208 0.500 67

a) Determine a través de un análisis de regresión lineal si existe correlación entre las variables y

si se puede establecer un modelo predictor, argumente su respuesta.

Page 11: regresion lineal

I.T.S.S.L.P., C. INGENIERÍA: INDUSTRIAL/ EN LOGÍSTICA.  

Página 17 de 90 

ING. JOSÉ TÉLLEZ ESTRADA.  

Práctica 3: Regresión no lineal.

Objetivo: Identificar y aplicar los conceptos básicos del modelo de regresión no lineal utilizando la regresión logística.

Instrucciones: Práctica individual. Ejercicios para realizarse con Software Minitab. Entregar reporte de práctica.

3.1. El conjunto de datos de la tabla anexa se utilizará para analizar un ensayo biológico cuantal de agente único en un experimento de toxicidad con el uso de la regresión logística. Los resultados muestran el efecto de diferentes dosis de nicotina en la mosca común de la fruta:

X  n i  Y    

Concentración (gr/100 cc) 

Número de insectos 

Número de muertes 

Porcentaje de muertes 

0.1  47  8  17 

0.15  53  14  26.4 

0.2  55  24  43.6 

0.3  52  32  61.5 

0.5  46  38  82.6 

0.7  54  50  92.6 

0.95  52  50  96.2 

Determine la denominada “dosis eficaz (DE50)”, es decir, la concentración de nicotina que da como resultado cierta probabilidad. La DE50 es la concentración que produce una probabilidad de 0.5 de que el “insecto muera”.

3.2. A partir de un conjunto de datos de respuestas a la dosis de estreptomicina un investigador

desea desarrollar una relación entre la proporción de linfoblastos muestreados que contienen aberraciones y la dosis del medicamento. Se aplicaron cinco niveles de dosis a los conejos que se emplearon para el experimento. Los datos son los siguientes:

Dosis (mg/kg) Número de linfoblastos 

Número de aberraciones 

0  600  15 

30  500  96 

60  600  187 

75  300  100 

90  300  145 

a) Ajuste una regresión logística al conjunto de datos, y así estime β0 y β1 en el modelo:

donde n es el número de linfoblastos, x es la dosis y p la probabilidad de una aberración. b) Muestre los resultados de pruebas χ² que revelen la significancia de los coeficientes de

regresión β0 y β1. c) Estime la DE50 e interprétela.