Ejercicio de análisis de regresión

Embed Size (px)

Citation preview

  • 8/10/2019 Ejercicio de anlisis de regresin

    1/15

    MATERIA: DISEO DE EXPERIMENTOS

  • 8/10/2019 Ejercicio de anlisis de regresin

    2/15

    Preguntas y ejercicios

    1. Cul es el propsito general del anlisis de regresin?

    El propsito general del anlisis de regresin es de investigar la relacin funcional existente

    entre dos o ms variables, ajustando algn modelo matemtico.

    2. En el anlisis de regresin intervienen 2 tipos de variables: las independientes y las

    dependientes. Explique con sus palabras y a travs de ejemplos, las caractersticas

    de estos dos tipos de variables.

    La variable independiente es aquella cualidad o caracterstica de una funcin o proceso, la

    cual tiene la capacidad de influir o afectar a otras variables, y recibe este nombre ya que nodepende de otros factores.

    La variable dependiente es tambin llamada variable de respuesta, y es el objeto deestudio sobre la cual se centra la investigacin y como su nombre lo indica depender de

    otros factores.

    Ejemplo: Condiciones higinicas del hbitat de mascotas como riesgo potencial de contagio

    de enfermedades parasitarias.

    Donde la variable dependiente es el riesgo potencial de contagio de enfermedades

    parasitarias y la variable independiente las condiciones higinicas.

    Otros ejemplos: las variables independientes pueden ser el sexo, la raza, la edad, etc.,

    siendo factores que afectan a otras variables y de las dependientes tasa de mortalidad, tasa

    de natalidad, etc.

  • 8/10/2019 Ejercicio de anlisis de regresin

    3/15

    Ejercicios:

    6. En una etapa inicial del procesamiento mecnico de piezas de acero, se sabe que unaherramienta sufre un deterioro gradual que se refleja en cierto dimetro de las piezas

    manufacturadas. Para predecir el tiempo de vida til de la herramienta se tomaron datos dehoras de uso y el dimetro promedio de cinco piezas producidas al final de la jornada. Los

    datos obtenidos para una herramienta se muestran a continuacin:

    a) En este problema cul variable se considera independiente y cul dependiente?

    b) Mediante un diagrama de dispersin analice la relacin entre estas dos variables.

    Qu tipo de relacin observa y cules son algunos hechos especiales?

    c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos, aplique pruebas

    de hiptesis y verifique residuos).

    d) La calidad del ajuste es satisfactoria? Argumente.

    e) Si el dimetro mximo tolerado es de 45, cuntas horas de uso estima que tiene esa

    herramienta?

    f) Seale el valor de la pendiente de la recta e interprtelo en trminos prcticos.

    g) Obtenga el error estndar de estimacin y comente qu relacin tiene ste con la

    calidad del ajuste.

    a) La variable independiente son las horas de uso y la variable dependiente es el dimetrode las piezas.

  • 8/10/2019 Ejercicio de anlisis de regresin

    4/15

    Grfico de Dimetro vs Horas de uso

    0 100 200 300 400Horas de uso

    25

    28

    31

    34

    37

    40

    D i m e t r o

    Grfico del Modelo AjustadoDimetro = 24.8632 + 0.0464098*Horas de uso

    0 100 200 300 400Horas de uso

    25

    28

    31

    34

    37

    40

    D i m e t r o

    b) Diagrama de dispersin: se puede observar que existe una correlacin lineal positiva

    entre las horas de uso y el dimetro, ya que conforme aumentan las horas de uso aumenta el

    dimetro.

    c) Anlisis de regresin, como podemos observar la lnea recta que mejor explica larelacin entre las horas de uso y el dimetro est dada por:

    Dimetro = 24.8632 + 0.0464098*Horas de uso

    La cual se puede observar en el grafico del modelo ajustado:

  • 8/10/2019 Ejercicio de anlisis de regresin

    5/15

    Grfico de ResiduosDimetro = 24.8632 + 0.0464098*Horas de uso

    25 28 31 34 37 40predicho Dimetro

    -1.2

    -0.8

    -0.4

    0

    0.4

    0.8

    1.2

    r e s

    i d u o

    Prueba de Hiptesis:

    H0: 1= 0 o H 0: El modelo no se ajusta

    H0: 1 0 o H 0: El modelo si se ajusta

    De acuerdo a la tabla de coeficientes podemos ver que si existe una pendiente, lo cualsignifica que entre las variables horas de uso y dimetro si existe una relacin.

    Coeficientes Mnimos Cuadrados Estndar Estadstico

    Parmetro Estimado Error T Valor-P Intercepto 24.8632 0.323206 76.9267 0.0000Pendiente 0.0464098 0.00168629 27.5218 0.0000

    Para poder rechazar o aceptar la hiptesis nula tenemos que tomar en cuenta el anlisis de

    varianza del modelo, el cual se presenta a continuacin:

    Anlisis de Varianza Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P Modelo 366.674 1 366.674 757.45 0.0000 Residuo 8.71365 18 0.484092Total (Corr.) 375.388 19

    Analizando esta tabla podemos concluir que el modelo si se ajusta ya que el valor-P es

    menor al nivel de confianza de 0.05, por ello podemos decir que con un nivel de confianza

    del 95% se rechaza la hiptesis nula.

    Verificacin de supuestos:

    El supuesto de varianza constante si se cumple ya que al graficar los residuos contra los predichos, los puntos caen aleatoriamente dentro de la banda horizontal sin que sigan algn

    patrn definido.

  • 8/10/2019 Ejercicio de anlisis de regresin

    6/15

    Grfico de ResiduosDimetro = 24.8632 + 0.0464098*Horas de uso

    0 4 8 12 16 20

    nmero de fila

    -1.2

    -0.8

    -0.4

    0

    0.4

    0.8

    1.2

    r e s

    i d u o

    El supuesto de independencia si se cumple ya que los puntos o residuos se encuentran

    dispersos de forma arbitraria dentro del grafico de residuos vs nmero de corrida, sin

    cumplir ninguna tendencia.

    d) el coeficiente de determinacin R 2ajustado es de 97.6788% lo cual indica que nuestro

    modelo tiene una calidad de ajuste satisfactoria, ya que explica el 97.6% de la variabilidad

    en Dimetro.

    e) El valor sera de 433.89 horas a un dimetro de 45 mm, sin embargo realizar unaextrapolacin la cual est ms all de la regin que contiene a las observaciones originales

    est mal ya que probablemente el modelo ya no se ajuste adecuadamente fuera de la regin,

    ya que nuestra regin de estudio va de 25.7 a 39.2 mm de dimetro.

    f) el valor de la pendiente es de 0.0464098,esto nos indica la razn de cambio en el

    dimetro (y) con respecto al cambio de las horas de uso (x), es decir cunto va a variar el

    dimetro cuando se varen las horas de uso.

    g) El error estndar de la estimacin fue de 0.695767, lo cual indica que la calidad de ajuste

    de nuestro modelo es buena, ya que si el error estndar de estimacin es menor la calidad

    del ajuste ser mayor.

  • 8/10/2019 Ejercicio de anlisis de regresin

    7/15

    7. En un proceso de extraccin se estudia la relacin entre tiempo de extraccin y

    rendimiento. Los datos obtenidos se muestran en la siguiente tabla.

    a) En este problema cul variable se considera independiente y cul dependiente?

    b) Mediante un diagrama de dispersin analice la relacin entre estas dos variables.

    Qu tipo de relacin observa y cules son algunos hechos especiales?

    c) Haga un anlisis de regresin (ajuste una lnea recta a estos datos, aplique pruebas

    de hiptesis y verifique residuos).

    d) La calidad del ajuste es satisfactoria? Argumente.e) Destaque el valor de la pendiente de la recta e interprtelo en trminos prcticos.

    f) Estime el rendimiento promedio que se espera a un tiempo de extraccin de 2

    minutos y obtenga un intervalo de confianza para esta estimacin.

    a) La variable dependiente es el % rendimiento y la variable independiente es el tiempo

    dado en minutos.

    b) Diagrama de dispersin: se puede visualizar que no existe una relacin ya que los puntos son muy dispersos, algunos incrementan y otros decrecen sin importar el tiempo, sin

    embargo se tendra que verificar los supuestos y comprobar si en verdad existe una relacin

    entre el rendimiento y el tiempo, si no es asi los datos que miden la calidad de ajuste nos lo

    indicaran.

  • 8/10/2019 Ejercicio de anlisis de regresin

    8/15

    Grfico del Modelo AjustadoRendimiento = 57.9578 + 1.19492*Tiempo

    8 10 12 14 16 18 20Tiempo

    64

    68

    72

    76

    80

    84

    88

    R e n d i m i e n t o

    Grfico de Rendimiento vs Tiempo

    8 10 12 14 16 18 20Tiempo

    64

    68

    72

    76

    80

    84

    88

    R e n d i m i e n t o

    c) Anlisis de regresin, como podemos observar la lnea recta que mejor explica larelacin entre el tiempo y el porcentaje de rendimiento est dada por:

    Rendimiento = 57.9578 + 1.19492*Tiempo

    La cual se puede observar en el grafico del modelo ajustado:

    Prueba de Hiptesis:

    H0: 1= 0 o H 0: El modelo no se ajusta

    H0: 1 0 o H 0: El modelo si se ajusta

    De acuerdo a la tabla de coeficientes podemos ver que si existe una pendiente, lo cualsignifica que entre las variables tiempo y porcentaje de rendimiento si existe una relacin.

    Coeficientes Mnimos Cuadrados Estndar Estadstico

    Parmetro Estimado Error T Valor-P Intercepto 57.9578 6.28403 9.22303 0.0000Pendiente 1.19492 0.414959 2.87962 0.0164

  • 8/10/2019 Ejercicio de anlisis de regresin

    9/15

    Grfico de ResiduosRendimiento = 57.9578 + 1.1949 2*Tiempo

    67 70 73 76 79 82predicho Rendimiento

    -7.5

    -4.5

    -1.5

    1.5

    4.5

    7.5

    r e s i d u o

    Grfico de ResiduosRendimiento = 57.9578 + 1.19492*Tiempo

    0 2 4 6 8 10 12nmero de fila

    -7.5

    -4.5

    -1.5

    1.5

    4.5

    7.5

    r e s i d u o

    Para poder rechazar o aceptar la hiptesis nula tenemos que tomar en cuenta el anlisis de

    varianza del modelo, el cual se presenta a continuacin:

    Anlisis de Varianza Fuente Suma de Cuadrados Gl Cuadrado Medio Razn-F Valor-P Modelo 243.684 1 243.684 8.29 0.0164 Residuo 293.872 10 29.3872Total (Corr.) 537.557 11

    Analizando esta tabla podemos concluir que el modelo si se ajusta ya que el valor-P es

    menor al nivel de confianza de 0.05, por ello podemos decir que con un nivel de confianza

    del 95% se rechaza la hiptesis nula.

    Verificacin de supuestos:

    El supuesto de varianza constante si se cumple ya que los puntos se encuentran dispersosde forma aleatoria por toda la grfica a lo largo de la banda horizontal.

    El supuesto de independencia si se cumple ya que los puntos o residuos se encuentran

    dispersos de forma arbitraria dentro del grfico de residuos vs nmero de corrida, sin

    cumplir ninguna tendencia.

  • 8/10/2019 Ejercicio de anlisis de regresin

    10/15

    d) el coeficiente de determinacin R 2ajustado es de .3986 lo cual indica que nuestro modelo

    no tiene una buena calidad de ajuste, ya que solo nos explica el 39.865% de la variabilidad

    en Rendimiento. Adems en general, para fines de prediccin se recomienda un R 2ajustado de

    al menos 0.7 o 70% de explicacin del modelo.

    e) el valor de la pendiente es de 1.19492, esto nos indica la razn de cambio en el

    %Rendimiento (y) con respecto al cambio de Tiempo(x), es decir cunto va a variar el

    Rendimiento cuando se vare el tiempo.

    f) Se podra calcular el valor que piden con respecto a los 2 min, sin embargo realizar una

    extrapolacin la cual est ms all de la regin que contiene a las observaciones originales

    est mal ya que probablemente el modelo ya no se ajuste adecuadamente fuera de la regin,

    ya que nuestra regin de estudio va de 8 a 20 min de Tiempo.

    9. En una industria se desea investigar cmo influye la temperatura (C) en la presin delvapor de B-trimetilboro, los datos obtenidos para tal propsito se muestran en la siguiente

    tabla.

    a) Construya un diagrama de dispersin e interprtelo.

    b) Ajuste una lnea recta y observe la calidad de ajuste.

    c) Seale el valor de la pendiente de la recta e interprtelo en trminos prcticos.

    d) Observe la grfica de residuales contra predichos, nota algo relevante?

    e) Est satisfecho con el modelo ajustado? Argumente.

    f) Hay algn otro modelo que puede funcionar mejor? Proponga uno de los que se

    explicaron al inicio del captulo.

  • 8/10/2019 Ejercicio de anlisis de regresin

    11/15

    Grfico del Modelo AjustadoPresin = -47.9351 + 2. 21299*Temperatura

    0 20 40 60 80 100Temperatura

    0

    30

    60

    90

    120

    150

    180

    P r e s i n

    Grfico de Presin vs Temperatura

    0 20 40 60 80 100Temperatura

    0

    30

    60

    90

    120

    150

    180

    P r e s i n

    a) Diagrama de dispersin si existe una fuerte relacin entre la temperatura y la presin,

    pero no se puede decir que siguen una relacin lineal, ya que claramente podemos observar

    una curva exponencial.

    b) Anlisis de regresin, como podemos observar la lnea recta que mejor explica larelacin entre el tiempo y el porcentaje de rendimiento est dada por:

    Presin = -47.9351 + 2.21299*TemperaturaLa cual se puede observar en el grafico del modelo ajustado:

    c) el valor de la pendiente es de 2.21299,esto nos indica la razn de cambio en la Presin

    (y) con respecto al cambio de la Temperatura (C), es decir cunto va a variar el

    Rendimiento cuando se vare el tiempo.

    d) En el grfico de residuos vs predichosse observa que los puntos siguen una tendencia

    formando una curva cncava, lo cual indica que no se cumple el supuesto de varianza

    constante.

  • 8/10/2019 Ejercicio de anlisis de regresin

    12/15

  • 8/10/2019 Ejercicio de anlisis de regresin

    13/15

    11. A partir de la siguiente tabla de datos realice los clculos necesarios y complete una

    tabla similar a la 11.2.

    a) Realice los clculos indicados en la tabla.

    b) Con base en lo anterior, construya la tabla de anlisis de regresin para la recta de

    regresin (tabla 11.4) y el anlisis de varianza (tabla 11.5).c) A partir de lo anterior obtenga conclusiones.

    d) Obtenga el coeficiente de determinacin y valore la calidad del ajuste.

  • 8/10/2019 Ejercicio de anlisis de regresin

    14/15

    14. En una fbrica de pintura se quiere reducir el tiempo de secado del barniz. Los

    siguientes datos corresponden al tiempo de secado del barniz (en horas) y a la cantidad de

    aditivo con el que se intenta lograr tal reduccin.

    a) Mediante un diagrama de dispersin investigue la relacin entre el tiempo de secado

    y la cantidad de aditivo.

    b) Con base en la relacin, qu cantidad de aditivo recomendara para reducir el

    tiempo de secado?

    c) Obtenga el coeficiente de correlacin entre ambas variables e interprtelo.

    d) Al parecer, el coeficiente de correlacin lineal es muy bajo, esto significa que el

    tiempo de secado no est relacionado con la cantidad de aditivo?

    e) Usted cree que sea correcto ajustar una lnea recta?

    f) Proponga el modelo que crea adecuado, ajstelo y haga un anlisis de regresin

    completo para tal modelo.

    a) Diagrama de dispersin no muestra ninguna relacin ya que al parecer el tiempo desecado no muestra un incremento o decremento cuando se le vara la cantidad de

    aditivo. De hecho este grafico presenta cierta similitud a los modelos de las funciones

    de una parbola.

  • 8/10/2019 Ejercicio de anlisis de regresin

    15/15

    Grfico de Tiempo de s ecado vs Cantidad de a ditivo

    0 2 4 6 8 10Cantidad de aditivo

    7.5

    9.5

    11.5

    13.5

    15.5

    T i e m p o

    d e s e c a

    d o

    b) con base a la grfica de dispersin y a los datos obtenidos la cantidad de aditivo que

    recomendara para bajar la concentracin del tiempo de secado sera de 4.

    c) el coeficiente de correlacin es igual a 0.334001, indica una relacin relativamente

    dbil entre las variables.d) el coeficiente de correlacin es muy bajo, lo cual indica que la relacin entre las

    variables no es significativa.

    e) No es correcto ajustar el modelo a una lnea recta, ya que podemos ver claramente

    que los puntos no se alinean y se encuentran muy dispersos, adems la forma del

    grafico es como una funcin de una parbola.

    f) El modelo cuadrtico fue el que obtuvo el mayor ajuste en el modelo sin embargo

    solo fue de un 22.56% por debajo del 70% para qu el modelo sea adecuado.

    Tiempo de secado = 9.616 + 0.0382442*Cantidad de aditivo^2

    Grfico del Modelo AjustadoTiempo de secado = 9.616 + 0.0382442*Cantidad de aditivo^2

    0 2 4 6 8 10Cantidad de aditivo

    7.5

    9.5

    11.5

    13.5

    15.5

    T i e m p o

    d e s e c a

    d o