28
Modelos de regresión - Máster en Técnicas Estadísticas 2021-2022 Tema 2. Validación de un modelo de regresión Área de Estatística e I.O., USC Índice 1. Introducción 1 2. El coeficiente de determinación R 2 1 2.1. Cálculo e interpretación .................................. 1 2.2. R 2 ajustado ........................................ 7 3. Diagnosis del modelo 9 3.1. Hipótesis de linealidad .................................. 9 3.2. Hipótesis de homocedasticidad .............................. 10 3.3. Hipótesis de normalidad ................................. 11 3.4. Hipótesis de independencia ................................ 12 4. Transformaciones previas a la regresión 15 4.1. La transformación logarítmica .............................. 15 4.2. La transformación raíz cuadrada ............................. 18 4.3. Búsqueda de la transformación: regresión inversa y transformaciones Box-Cox .... 20 I

Tema 2. Validación de un modelo de regresión

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Tema 2. Validación de un modelo de regresión

Modelos de regresión - Máster en Técnicas Estadísticas 2021-2022

Tema 2. Validación de un modelo de regresión

Área de Estatística e I.O., USC

Índice

1. Introducción 1

2. El coeficiente de determinación R2 1

2.1. Cálculo e interpretación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.2. R2 ajustado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3. Diagnosis del modelo 9

3.1. Hipótesis de linealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

3.2. Hipótesis de homocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.3. Hipótesis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3.4. Hipótesis de independencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

4. Transformaciones previas a la regresión 15

4.1. La transformación logarítmica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4.2. La transformación raíz cuadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.3. Búsqueda de la transformación: regresión inversa y transformaciones Box-Cox . . . . 20

I

Page 2: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

1. Introducción

Cuando se trata de estudiar la dependencia de una variable respuesta Y respecto de una varia-ble explicativa X a través de un modelo de regresión, el modelo elegido surge tras un procesode búsqueda entre varios modelos alternativos. En esta búsqueda, el modelo seleccionado debesatisfacer los objetivos del estudio y gozar de buenas propiedades como la sencillez, el buen ajustea los datos observados y la eficiencia de las estimaciones y predicciones. Además, se debe teneren cuenta que al adoptar un modelo se están dando por ciertas algunas suposiciones básicas que,en algunos casos, pueden ser cuestionables o directamente no corresponderse con la realidad. Así,en el modelo de regresión lineal simple estudiado en el tema anterior, se suponen las hipótesis delinealidad de la función de regresión, homocedasticidad, normalidad e independencia de los errores.

Las hipótesis antes mecionadas deben ser comprobadas en la práctica, ya que las técnicas de infe-rencia sobre los parámetros del modelo que hemos introducido en el tema anterior, tienen sentidosuponiendo que los datos proceden de un modelo de regresión lineal simple, tal y como se ha for-mulado, con sus hipótesis básicas. Muchos de los argumentos utilizados para derivar los resultadossobre las propiedades de los estimadores y las técnicas de inferencia dependen del cumplimien-to de las hipótesis de linealidad, homocedasticidad, normalidad e independencia. Es más, si lashipótesis no se corresponden con la realidad, se pueden estar cometiendo graves errores en lasconclusiones obtenidas de la inferencia basada en el modelo. Por ejemplo, los parámetros y su in-terpretación carecen de sentido si en realidad los datos no proceden de un modelo lineal, situaciónen la que además las predicciones pueden ser completamente equivocadas ya que la verdaderaregresión no se parece a la recta estimada. Asimismo, los intervalos de confianza no son fiables sino se cumplen las hipótesis de homocedasticidad, normalidad e independencia de los errores.

En este tema comenzaremos viendo cómo podemos medir el ajuste de un modelo de regresión através del coeficiente de determinación (Sección 2). En la Sección 3 pasaremos a describir procedi-mientos sencillos para la diagnosis de un modelo de regresión lineal en base a la representación delos residuos. En caso de que se detecte un incumplimiento de las suposiciones básicas del modelo,veremos cómo se pueden transformar los datos originales para poder aplicar un modelo sencillo alos datos transformados (Sección 4).

2. El coeficiente de determinación R2

2.1. Cálculo e interpretación

Consideremos un modelo de regresión lineal simple Y = β0 + β1X + ε, del que observamos unamuestra bajo diseño fijo {(xi, Yi)}ni=1. Consideremos β0 y β1 las estimaciones de los parámetrosde la regresión obtenidas mediante el método de mínimos cuadrados. Recordemos la tabla de

Modelos de regresión. Área de Estatística e I.O., USC 1

Page 3: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

descomposición de la variabilidad (tabla de análisis de la varianza) introducida en el Tema 1, dondese representaba la suma total de cuadrados de la variable respuesta (desviaciones respecto a lamedia) y se descomponía en dos sumandos: un sumando atribuido a la regresión y otro al error.

Fuente de variación Suma de cuadrados Grados de libertad

Debida a la regresión TSS −RSS =

n∑i=1

(β0 + β1xi − Y

)21

Debida al error RSS =

n∑i=1

(Yi − (β0 + β1xi)

)2n− 2

Total TSS =n∑

i=1

(Yi − Y

)2n− 1

El coeficiente de determinación de un modelo de regresión es la proporción de varianza explicada.A la suma de cuadrados debida al error la llamaremos suma residual de cuadrados (RSS, ResidualSum of Squares), y la denotamos con sus siglas en inglés,

RSS =n∑

i=1

(Yi − Yi

)2

siendo Yi las predicciones en base al modelo. En el caso del modelo lineal simple, sería Yi =

β0 + β1xi. La suma total de cuadrados (TSS, Total Sum of Squares) sería

TSS =n∑

i=1

(Yi − Y

)2.

El coeficiente de determinación se puede calcular mediante la siguiente expresión:

R2 = 1− RSS

TSS.

El coeficiente de determinación es un valor entre cero y uno, y cuanto más próximo a uno máscerca estarán las observaciones de la recta ajustada. Recordemos también que en el caso de unmodelo lineal simple, el coeficiente de determinación coincide con el cuadrado del coeficiente decorrelación entre la variable explicativa y la variable respuesta.

Dado que refleja la proximidad de las observaciones al modelo, el coeficiente de determinación sepuede interpretar como una medida del ajuste de la regresión. Por este motivo, en muchos contextosaplicados se suele asociar un coeficiente de determinación alto con una buena regresión. Esto escorrecto, aunque con alguna puntualización. En efecto, un coeficiente de determinación alto reflejaun modelo de regresión que ajusta bien los datos y que es muy útil para efectuar predicciones, puesse ha encontrado una variable explicativa (y el consiguiente modelo) que está muy relacionada conla variable de interés y que deja muy poco error.

Aún así, puede ser correcto un modelo de regresión, en el sentido de cumplir las suposiciones delmodelo, a pesar de presentar un bajo coeficiente de determinación, simplemente porque la variable

Modelos de regresión. Área de Estatística e I.O., USC 2

Page 4: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

de error tiene mucha varianza. También es cierto que dicho modelo, que cumple las condiciones,no sería tan útil como otro que tuviera mayor coeficiente de determinación. Aclaramos estas ideasmediante el ejemplo siguiente.

Ejemplo 1. Vamos a tomar una muestra simulada del modelo de regresión lineal simple

Y = β0 + β1X + ε

con β0 = 1, β1 = 2 y ε ∼ N(0, σ2). Consideramos tres posibilidades para la desviación típica delerror: σ = 0.1, σ = 0.5 y σ = 1. En la Figura 1 se muestran los diagramas de dispersión junto conla recta verdadera (rojo) y la recta ajustada por mínimos cuadrados (azul). Además, se han añadidolos intervalos de predicción para x = 0.4

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

23

45

x

y1

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

23

45

x

y2

0.0 0.2 0.4 0.6 0.8 1.0

−1

01

23

45

x

y3

Figura 1: Diagramas de dispersión para datos de un modelo de regresión lineal simple con distintavarianza para el error. Izquierda: σ = 0.1. Centro: σ = 0.5. Derecha: σ = 1. Línea roja: recta real.Línea azul: recta ajustada por mínimos cuadrados. Segmento verde: intervalo para la predicción.

Modelos de regresión. Área de Estatística e I.O., USC 3

Page 5: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

A continuación se muestra un extracto de los resultados que obtenemos aplicando la función lm dea cada una de las tres muestras. Podemos ver en los resultados numéricos que constan debajo,

que a medida que aumenta la varianza, la estimación de los parámetros resulta más imprecisa,pues los valores estimados son peores aproximaciones de los reales, y además los errores típicosya revelan esta peor calidad de estimación. Esto se refleja también en la Figura 1, donde la rectaazul (estimada) se aproxima peor a la roja (verdadera) en los diagramas más a la derecha.

Observamos también que los parámetros son menos significativos (niveles críticos más grandes)cuando la desviación típica del error es más grande.

Por otro lado, el coeficiente de determinación es diferente para las tres rectas ajustadas, siendomenor cuanto mayor es la varianza del error. Así, para el primer modelo R2 = 0.97, para el segundomodelo tenemos R2 = 0.6941 mientras que para el tercer modelo, el coeficiente de determinaciónes tan sólo R2 = 0.3184.

En consecuencia, cuando el coeficiente de determinación es más pequeño, se tienen datos másalejados de la recta de regresión, lo cual hace que estos datos sean menos eficaces para estimarla recta de regresión.

Aún así, esto no impide que se cumplan las hipótesis de linealidad, normalidad, homocedasticidade independencia, pues de hecho todas ellas se cumplen en los tres modelos del ejemplo.

> summary(lm(y1~x)) #sd=0.1

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.06719 0.02781 38.37 <2e-16 ***

x 1.88910 0.04793 39.42 <2e-16 ***

---

Multiple R-squared: 0.97, Adjusted R-squared: 0.9694

> summary(lm(y2~x)) #sd=0.5

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.7915 0.1298 6.10 1.76e-07 ***

x 2.3333 0.2236 10.44 6.17e-14 ***

---

Multiple R-squared: 0.6941, Adjusted R-squared: 0.6877

> summary(lm(y3~x)) #sd=1

Modelos de regresión. Área de Estatística e I.O., USC 4

Page 6: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.7664 0.2808 2.729 0.00885 **

x 2.2917 0.4839 4.736 1.97e-05 ***

---

Multiple R-squared: 0.3184, Adjusted R-squared: 0.3042

Veamos también la consecuencia del coeficiente de determinación sobre las predicciones. En laFigura 1 se representaron en verde los intervalos de predicción para x = 0.4 en cada una de lastres situaciones.

Observamos que los intervalos son mucho más grandes para varianzas del error grandes. Nóteseque intervalos más grandes son una respuesta menos precisa al problema de predicción.

El caso de la predicción es todavía más grave que la imprecisión de la estimación de la recta, puesrecordamos del tema anterior que aumentando el número de datos, podemos mejorar la estimaciónde la recta, mientras que el intervalo de predicción no se podrá seguir reduciendo más allá de unlímite, determinado por la desviación típica del error.

Como conclusión de este ejemplo, hemos aprendido que el coeficiente de determinación permitedistinguir, entre modelos lineales correctos, aquellos que son más útiles de los que son menosútiles.

Por otra parte, un modelo con alto coeficiente de determinación puede incumplir las suposicionesbásicas, en cuyo caso convendría modificar el modelo para que los resultados de inferencia fueranfiables. Por decirlo de manera más directa, con un alto coeficiente de determinación se puedenobtener intervalos de predicción más pequeños, que por ello son más útiles, pero la veracidadde los argumentos que conducen al intervalo dependen del cumplimiento de las suposiciones delmodelo. Lo ilustramos de nuevo con un ejemplo de datos simulados.

Ejemplo 2. Supongamos que disponemos de una muestra de datos {(xi, Yi)}ni=1 que provienen deun modelo de regresión pero que no cumple las hipótesis de linealidad y homocedasticidad. En laFigura 2 se muestra el diagrama de dispersión y la verdadera función de regresión (en rojo) juntocon la recta ajustada (en azul). Además, se presenta en verde un intervalo de confianza para lapredicción de la media condicionada.

Al aplicar la función lm obtenemos el valor del coeficiente de determinación R2 = 0.6845, junto conla estimación de la recta ajustada, aunque se puede ver en el diagrama de dispersión que este nosería el modelo adecuado. Se observa claramente que la función de regresión subyacente no eslineal. Además, la variabilidad en los errores aumenta a medida que crece el valor de la variableexplicativa, con lo que el modelo tampoco se puede considerar homocedástico.

Modelos de regresión. Área de Estatística e I.O., USC 5

Page 7: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

0.2 0.4 0.6 0.8 1.0

−0.

3−

0.2

−0.

10.

00.

10.

2

x

y

Figura 2: Diagrama de dispersión para datos de un modelo de regresión que no cumple las hipótesisde linealidad y homocedasticidad. Curva roja: verdadera función de regresión. Línea azul: recta deregresión ajustada por mínimos cuadrados. Segmento verde: intervalo de confianza para la mediacondicionada.

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 0.27259 0.02144 12.71 <2e-16 ***

x -0.49935 0.03425 -14.58 <2e-16 ***

---

Residual standard error: 0.08487 on 98 degrees of freedom

Multiple R-squared: 0.6845, Adjusted R-squared: 0.6813

F-statistic: 212.6 on 1 and 98 DF, p-value: < 2.2e-16

Observamos que aunque el coeficiente de determinación, es aceptable, incluso mejor que algúncaso del ejemplo anterior, el modelo no es correcto, y una consecuencia clara se puede ver en elintervalo de confianza para la estimación de la media condicionada, que se representa en verde enla Figura 2. Este intervalo debía contener a la verdadera media condicionada, que no es más quela regresión en trazo rojo. No es así porque el intervalo se ha concebido entorno a una regresiónrectilínea que es errónea.

En resumen, el coeficiente de determinación es una medida de la utilidad del modelo de regresión,supuesto que éste sea correcto, pero no indica por sí solo si tal modelo es correcto.

Modelos de regresión. Área de Estatística e I.O., USC 6

Page 8: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

2.2. R2 ajustado

Además de lo anterior, se puede argumentar que un modelo más complejo, con más variablesexplicativas y con más parámetros obtendrá un mejor coeficiente de determinación, pero surge laduda de si compensa el esfuerzo adicional y la pérdida de sencillez e interpretabilidad del modelo.Por ello, se calcula también el coeficiente de determinación ajustado, que se define como:

R2 ajustado = 1− RSS/(n− p)

TSS/(n− 1)

siendo n− p los grados de libertad de RSS, en donde p coincide con el número de parámetros deregresión estimados (en el caso del modelo lineal simple, p = 2).

Al dividir por los grados de libertad se obtiene una comparación más justa, que compensa el hechode que unos modelos sean más complejos y requieran la estimación de más parámetros. Por ello,para comparar modelos con distinto número de variables explicativas, se debe utilizar el coeficientede determinación ajustado.

Ejemplo 3. En el ejemplo de los tiempos de producción (tratados en el tema anterior) hemos ajus-tado un modelo de regresión lineal simple, con los siguientes resultados para el coeficiente dedeterminación y el coeficiente de determinación ajustado: R2 = 0.7302 y R2 ajustado = 0.7152.

50 100 150 200 250 300 350

160

180

200

220

240

Run Size

Run

Tim

e

Figura 3: Diagrama de dispersión para los datos de producción con ajuste lineal (línea negra) yajuste cúbico (línea roja).

Si recordamos parte de la salida de para la función lm teníamos:

Modelos de regresión. Área de Estatística e I.O., USC 7

Page 9: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

> m1<-lm(y~x)

> summary(m1)

Call:

lm(formula = y ~ x)

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 149.74770 8.32815 17.98 6.00e-13 ***

x 0.25924 0.03714 6.98 1.61e-06 ***

---

Residual standard error: 16.25 on 18 degrees of freedom

Multiple R-squared: 0.7302, Adjusted R-squared: 0.7152

Si consideramos un modelo cúbico de la forma: Y = β0 + β1X + β2X2 + β3X

3 + ε, podemosajustarlo también utilizando la función lm.

> m3<-lm(y~x+I(x^2)+I(x^3))

> summary(m3)

Call:

lm(formula = y ~ x + I(x^2) + I(x^3))

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) 1.420e+02 3.730e+01 3.807 0.00155 **

x 2.748e-01 7.134e-01 0.385 0.70512

I(x^2) 6.516e-04 3.941e-03 0.165 0.87076

I(x^3) -2.002e-06 6.503e-06 -0.308 0.76213

---

Residual standard error: 16.56 on 16 degrees of freedom

Multiple R-squared: 0.7511, Adjusted R-squared: 0.7044

En este caso, podemos ver que sólo el intercepto es significativo, para un nivel de significación del0.1%. El valor de R2 es 0.7511, ligeramente superior al que obtuvimos con el ajuste lineal. Sin em-bargo, para determinar si compensa la introducción de un modelo más complejo, debemos fijarnosen los valores de los coeficientes de determinación ajustados. Para este modelo, R2 ajustado es0.7044, menor que el del modelo lineal.

Ambos ajustes pueden verse en la Figura 3. Hay muy poca diferencia entre las dos funciones deregresión ajustadas. Considerando que el ajuste cúbico incluye la posibilidad de la recta, pareceno haber motivos para complicar el modelo. Además, los coeficientes dejan de ser significativos alpasar al modelo cúbico, lo cual es coherente con el exceso de coeficientes.

Modelos de regresión. Área de Estatística e I.O., USC 8

Page 10: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

3. Diagnosis del modelo

La diagnosis del modelo lineal se puede llevar a cabo con un análisis de los residuos de la regresión.En esta sección veremos cómo podemos ver si se cumplen las hipótesis de homocedasticidad,normalidad e independencia.

Realmente, las hipótesis de homocedasticidad, normalidad e independencia se refieren a los erro-res de la regresión, pero como no observamos los errores, debemos aproximarlos a través de losresiduos. Aunque los residuos no coincidan uno a uno con los correspondientes errores, el compor-tamiento global que muestra el conjunto de los residuos seguirá reflejando el comportamiento quesiguen los errores, y en definitiva el posible incumplimiento de las hipótesis. En cualquier caso, siel tamaño muestral es muy grande, entonces la recta de regresión estimada estará muy próximaa la verdadera recta de regresión, y de ese modo los residuos serán muy similares a los errores.Además de lo anterior, los residuos también permiten detectar el quebrantamiento de la hipótesisde linealidad, aún cuando esta hipótesis no está relacionada con los errores.

3.1. Hipótesis de linealidad

En el gráfico siguiente se muestra, a la izquierda, un diagrama de dispersión de una muestra dedatos obtenidos de un modelo lineal simple, junto con la recta de regresión estimada, y a la derechaun gráfico de dispersión de los residuos de la regresión frente a los valores de la variable explicativaX. En el diagrama de dispersión situado a la izquierda, vemos que los datos siguen con bastantefidelidad una evolución lineal creciente.

xi

yi

������

������

���

rr r

rrr r r r

r r rrr r

xi

εi

rr r

rr

r r rrr

r rr

r r

Así, en otro conjunto de datos que no proceden de un modelo lineal, hemos construido el mismotipo de gráficos, y podemos apreciar en ellos el incumplimiento de la hipótesis de linealidad. Enconcreto, el gráfico de dispersión, a la izquierda, muestra que los valores de Y crecen rápidamenteen el primer tramo de los valores de X, mientras que este crecimiento no se mantiene al mismoritmo conforme avanzamos en los valores de X, sino que incluso en los valores más grandes de X

se transforma en decrecimiento.

Modelos de regresión. Área de Estatística e I.O., USC 9

Page 11: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Así, al ajustar una recta, para valores muy pequeños o muy grandes de X, los datos quedan pordebajo de la recta mientras que los valores centrales quedan por encima. Esto produce un efectode tendencia en los residuos que no debía estar presente si el modelo fuera correcto. Parece quelos residuos mantienen una relación de regresión sobre la variable X, lo cual es inaceptable en unmodelo de regresión, por definición del mismo.

En estas circunstancias, parece más adecuado buscar otro modelo de regresión de Y sobre X,por ejemplo un modelo cuadrático. En este caso, la tendencia adicional tomada como ejemplo hasido la cuadrática, pero en otros casos puede adoptar otra forma. Lo importante es que para quese cumpla la linealidad, los residuos no deben presentar una tendencia (regresión) respecto de X.

xi

yi

�����

������

����

r rrr r

r r r rr r r

r r rxi

εi

r r rr r

r r r rr r r

r r r

3.2. Hipótesis de homocedasticidad

En el primer ejemplo de la subsección anterior, observamos que las desviaciones respecto de larecta creciente, que se reflejan con más claridad en el dibujo de la derecha, no son más acusadasen unas zonas que en otras, lo cual es indicativo de que el modelo es homocedástico.

Los gráficos siguientes muestran una situación en la que se infringe la hipótesis de homocedastici-dad, pues aunque los datos se mantienen en una evolución lineal creciente (se respeta la linealidad),la desviación respecto de la recta de regresión es mucho mayor en los valores grandes de X.

xi

yi

����

������

�����

r r rr

rr r r

r

rr r

r

rr

xi

εi

r r rr

rr r r

r

rr r

r

rr

Modelos de regresión. Área de Estatística e I.O., USC 10

Page 12: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Ejemplo 4. Para los datos de los tiempos de producción, estudiados en el tema anterior, podemosconstruir el diagrama de dispersión de los residuos frente a los valores de la variable explicativa (verFigura 4.

50 100 150 200 250 300 350

160

180

200

220

240

Run Size

Run

Tim

e

50 100 150 200 250 300 350

−30

−20

−10

010

2030

Run Size

Res

iduo

s

Figura 4: Diagrama de dispersión para los datos de producción, con recta ajustada por mínimoscuadrados. Diagrama de dispersión de los residuos frente a los valores de RunSize.

A la vista del diagrama de dispersión, y como ya se ha argumentado en el tema anterior, pareceque se cumple la hipótesis de linealidad. Por otra parte, al observar el diagrama de dispersión delos residuos frente a los valores de la variable explicativa, parece que la variabilidad se mantiene,indicando homocedasticidad.

3.3. Hipótesis de normalidad

Para analizar el cumplimiento de la hipótesis de normalidad, no emplearemos los gráficos anterioressino que efectuaremos un test de bondad de ajuste a la distribución normal sobre los residuos. Paraello, podemos emplear un test de tipo Kolmogorov-Smirnov, el test de Shapiro-Wilk o un test ji-cuadrado. Nos decantaremos por el test de Shapiro-Wilk, que está especialmente diseñado para elcontraste de normalidad. Aunque aquí utilizaremos directamente los residuos, veremos en temasposteriores que estos análisis conviene realizarlos con los residuos estandarizados, ya que no todostienen la misma varianza.

Modelos de regresión. Área de Estatística e I.O., USC 11

Page 13: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Ejemplo 5. Con los datos de los tiempos de producción:

> m1<-lm(y~x)

> res<-m1$residuals

> shapiro.test(res)

Shapiro-Wilk normality test

data: res

W = 0.9771, p-value = 0.8917

La función shapiro.test devuelve el valor del estadístico de contraste W = 0.9771 y su p-valorasociado, 0.8917. En consecuencia, se acepta la hipótesis de normalidad de los residuos. De ma-nera gráfica, también se podría explorar esta hipótesis utilizando un histograma o un gráfico decuantiles, aunque estos se suelen construir para los residuos estandarizados, como veremos másadelante.

Se puede objetar que los residuos no son realmente una muestra aleatoria simple de los errores,sino que son obtenidos tras un proceso de ajuste por mínimos cuadrados. Sin embargo, cuandoel tamaño de la muestra es suficientemente grande ("mayor de 30" puede servir como criterio), laimpureza que supone emplear los residuos en lugar de los errores es despreciable.

3.4. Hipótesis de independencia

Respecto de esta hipótesis, hay muchas situaciones en las cuales es natural suponer que los erro-res son independientes, simplemente porque las observaciones se han tomado en individuos dife-rentes, sin que haya indicios de posible correlación entre ellos.

En otras ocasiones sí puede haber razones que hagan pensar en una posible correlación. En todocaso, las posibles formas de correlación o dependencia en un conjunto de n observaciones sonmuy variadas, por lo que es necesario precisar la forma en que se presupone la correlación.

La forma más habitual de correlación sería la correlación secuencial (o serial), que surge cuandose toman observaciones en instantes temporales consecutivos, sobre un misma misma situación,empresa, individuo, o sistema físico o natural. Por ejemplo, datos del tiempo atmosférico, o datosmacroeconómicos, como inflación o tipos de interés. Si el día anterior hubo cierto resultado, esprevisible que al día siguiente haya un resultado similar.

En estos caso los datos tendrían un orden natural: (x1, Y1) se observa primero, (x2, Y2) después,y así sucesivamente; y la correlación se produce entre datos consecutivos, en concreto, entre suserrores de regresión.

Modelos de regresión. Área de Estatística e I.O., USC 12

Page 14: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Se puede detectar una correlación secuencial mediante los gráficos anteriores, y se puede efectuarun test de hipótesis específico para confirmar de manera inferencial tal correlación.

Existen dos tests clásicos para contrastar la correlación secuencial. Para correlación secuencial deorden uno, podemos considerar el test de Durbin-Watson. Para contrastar la correlación secuencialdesde el orden uno hasta cierto orden establecido en la hipótesis, se emplea el test de Ljung-Box.

Test de Durbin-Watson

El estadístico de Durbin-Watson se formula como:

DW =

∑ni=2(εi − εi−1)

2∑ni=1 ε

2i

.

Se puede comprobar que el estadístico DW es, aproximadamente, 2(1 − r), donde r denota laautocorrelación muestral de orden uno de los residuos:

r =

∑n−1i=1 εiεi+1∑n

i=1 ε2i

por lo que, bajo la hipótesis nula de que la correlación entre los residuos sea nula, el estadístico de-be valer aproximadamente 2. Si existe una correlación positiva fuerte, esto implicará que εi ≈ εi−1,y el valor del estadístico de contraste será próximo a cero. En el caso de correlación negativa fuer-te, εi ≈ −εi−1, y el valor del estadístico de contraste será próximo a 4. Además, si los errores sonnormales, la distribución del estadístico de Durbin-Watson es una combinación lineal de variablesji-cuadrado y está tabulada.

Test de Ljung-Box

El coeficiente de correlación de orden k entre los residuos, que se suponen ordenados según unasecuencia temporal, se define como:

r(k) =

∑n−ki=1 εiεi+k∑n

i=1 ε2i

,

donde la suma en el numerador viene determinada por los productos de residuos a distancia k quepodamos considerar en la muestra. Bajo la hipótesis de independencia los coeficientes de correla-ción teóricos serían iguales a cero. Entonces, el estadístico de contraste, que se suele denotar porQ, se calcula como:

Q = n(n+ 2)

m∑k=1

r2(k)

n− k.

Este estadístico sigue una distribución ji-cuadrado con (m− 2) grados de libertad, donde m denotael número de saltos para los que construimos los coeficientes de correlación. La hipótesis nulade independencia se rechaza cuando el valor observado del estadístico excede el cuantil de ladistribución, para un determinado nivel de significación. Este tipo de contrastes, que involucran

Modelos de regresión. Área de Estatística e I.O., USC 13

Page 15: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

coeficientes de correlación secuencial (autocorrelación) de distintos órdenes, se denominan testsde Portmanteau, y son habituales en los estudios de series de tiempo.

Ejemplo 6. Para los datos de tiempos de producción, aplicamos las funciones Box.test (test deLjung-Box) y dwtest (test de Durbin-Watson) para autocorrelación de orden 1. Esta segunda funciónse encuentra en la librería lmtest, por lo que debemos cargarla previamente.

En este ejemplo el contraste de correlación secuencial se realiza pensando en una posible corre-lación entre pedidos consecutivos. Podemos observar que, para ambos tests, la hipótesis nula deindependencia se acepta con una significación del 1 % o del 5 %. Sin embargo, si fijamos un nivelde significación del 10 % no podemos aceptarla.

> Box.test(res,lag=1,type="Ljung-Box")

Box-Ljung test

data: res

X-squared = 3.3905, df = 1, p-value = 0.06557

> library(lmtest)

> dwtest(y~x,alternative="two.sided")

Durbin-Watson test

data: y ~ x

DW = 2.7608, p-value = 0.06625

alternative hypothesis: true autocorelation is not 0

Si consideramos el test de Ljung-Box para autocorrelación hasta el orden m = 2, vemos que el p-valor obtenido es mayor que los niveles de significación usuales, con lo que no tenemos evidenciaspara rechazar la hipótesis nula de independencia. Es curioso que se acepte con mayor holgura laausencia simultánea de las autocorrelaciones de órdenes uno o dos, que la sola autocorrelación deorden uno. Es natural que ésto ocurra, pues las autocorrelaciones de orden dos son más debiles quelas que pueda haber de orden uno, de modo que al mezclarlas en el mismo estadístico disminuyenla significación (el p-valor).

> Box.test(res,lag=2,type="Ljung-Box")

Box-Ljung test

data: res

X-squared = 3.3917, df = 2, p-value = 0.1834

Modelos de regresión. Área de Estatística e I.O., USC 14

Page 16: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

4. Transformaciones previas a la regresión

Una vez realizada la diagnosis del modelo, podemos observar si se cumplen o no las hipótesis departida. En caso de que alguna de ellas no se verifique, podemos buscar un modelo alternativo queno requiera de las hipótesis que no se cumplen, o bien, efectuar una transformación de los datosde manera que se satisfagan las hipótesis requeridas.

La causa más común para el incumplimiento de las hipótesis de linealidad, homocedasticidad ynormalidad, se encuentra en que las variables explicativa y/o respuesta sean positivas (por su propiaconstrucción) y presenten un comportamiento asimétrico.

De hecho las transformaciones que emplearemos aquí, ya se aplican en un contexto más sencillopara convertir en normales las observaciones de una sola variable, que sea asimétrica.

En el caso de la regresión, la asimetría, además de afectar a la normalidad, afecta primeramentea la propia función de regresión, poniendo en peligro la linealidad, y a la función de varianza con-dicional, comprometiendo la homocedasticidad. A su vez, una misma transformación puede servirpara corregir simultáneamente varios de estos problemas.

4.1. La transformación logarítmica

Recordemos que el logaritmo en base a de un número, x, es el exponente k tal que x = ak. Porejemplo, si el logaritmo es en base 10, entonces log10(100) = 2 y log10(1000) = 3, mientras quelog10(400) = 2.699. Asimismo, log10(0.1) = −1, log10(0.001) = −3 y log10(0.02) = −1.699.

Los logaritmos en base 10 son muy fáciles de interpretar, porque el sistema de numeración es enbase 10, y así el logaritmo es el número de cifras de un número mayor que uno, y el número deceros antes de la primera cifra distinta de cero, si el número está entre cero y uno. A pesar de esto,en Matemáticas es más usado el logaritmo neperiano o logaritmo natural, cuya base es el númeroe, porque goza de propiedades universales en muchos ámbitos.

En resumen, el logaritmo se aplica a números positivos, y al contar el "número de cifras" con-trae mucho los números grandes (mayores que uno) y dilata los números pequeños (entre cero yuno). Esto produce un efecto de simetrización en variables positivas, como pueden ser la renta delas personas, los tiempos de duración o las cantidades producidas, las cuales tienen una barreraestructural en el cero. Así, por ejemplo, la renta de una persona se puede desviar hacia valoresinferiores a la media, sólo hasta llegar a cero, mientras que por encima de la media no hay cota, yde hecho se podrán observar rentas muy elevadas. Al aplicar un logaritmo se contraen las rentaselevadas, y se separan las rentas bajas, y así se consigue un comportamiento simétrico.

Continuamos la explicación con un ejemplo.

Modelos de regresión. Área de Estatística e I.O., USC 15

Page 17: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Ejemplo 7.

Se está realizando un estudio sobre la producción de madera que se obtiene de cierta especiearbórea. Esta especie alcanza la mayor producción en zonas costeras o de baja altitud, mientrasque la producción es menor en zonas más elevadas. Para constatar este hecho y evaluarlo demanera empírica, se registran las producciones de treinta parcelas semejantes situadas a diferentesaltitudes. Los datos se encuentran disponibles en el fichero "madera.txt".

En la Figura 5 se representan los diagramas de dispersión de los datos (primera columna) y delos residuos (segunda columna), para los datos originales (primera fila) y tras aplicar un logaritmoneperiano a la producción de madera (segunda fila).

0 50 100 150 200 250

510

1520

2530

35

altitud

prod

ucci

on

0 50 100 150 200 250

−4

02

46

8

altitud

m3$

resi

dual

s

0 50 100 150 200 250

1.5

2.0

2.5

3.0

3.5

altitud

lp

0 50 100 150 200 250

−0.

10.

00.

10.

2

altitud

m3t

$res

idua

ls

Figura 5: Diagramas de dispersión para los datos de producción de madera en función de la altitud.En la primera fila se encuentran los datos originales y los residuos del ajuste lineal. En la segundafila se encuentran las mismas representaciones tras aplicar un logaritmo neperiano a la producciónde madera.

Modelos de regresión. Área de Estatística e I.O., USC 16

Page 18: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

En los datos originales observamos que la función de regresión no es rectilínea, sino que la pen-diente de regresión es menor según aumenta la altitud. Esto es muy comprensible porque si semantuviera la misma pendiente, llegaría un momento en que la recta cruzaría el eje de abscisas ydaría lugar a predicciones negativas de la producción de madera, lo cual es absurdo.

De modo que esta barrera natural del cero, obliga a que la función de regresión adopte ciertacurvatura, e incluso llegue a un comportamiento asintótico hacia la horizontal.

En cuanto a la varianza condicional, también se observa mayor dispersión entorno a la tendenciade regresión para valores pequeños de altitud, que coinciden con valores grandes de producción demadera. De nuevo nos resulta lógico este hecho, pues cabe esperar menos dispersión (en términosabsolutos) cuando el valor medio de producción es pequeño.

Ambos defectos, falta de linealidad y falta de homocedasticidad, quedan corregidos tras aplicarun logaritmo a la producción de madera, pues los gráficos de la segunda fila ya presentan uncomportamiento lineal y homocedástico.

A continuación extraemos conclusiones generales del ejemplo anterior.

En lo que respecta a la falta de homocedasticidad, el origen del problema radica en que muchasvariables positivas presentan una dispersión relacionada con su valor medio. Cuando el valor medioes grande, la dispersión también lo es. De este modo, lo interesante sería estudiar una medida dedispersión relativa (a la media), como puede ser el coeficiente de variación (CV):

CV (Y ) =Desviación típica(Y )

E(Y )

Entonces, para cierto tipo de variables respuesta, en lugar de la homocedasticidad, que sería unadispersión absoluta constante, Var(Y/X)=constante, tiene más sentido considerar una dispersiónrelativa constante, CV(Y/X)=constante.

Pues bien, al aplicar un logaritmo a la variable respuesta, se consiguen los dos objetivos al mismotiempo: la regresión curva se convierte en recta, y la homocedasticidad relativa se convierte enabsoluta. Esto último se puede demostrar aplicando un desarrollo de Taylor del logaritmo en tornoa la media (argumento típico del método delta):

Método delta. Si h es una función cualquiera, derivable en un entorno de la media de una variablealeatoria E(Y ), entonces

h(Y ) ≈ h(E(Y )) + h′(E(Y ))(Y − E(Y ))

y en consecuenciaVar(h(Y )) ≈

[h′(E(Y ))

]2 Var(Y )

Si tomamos como función h el logaritmo neperiano, h(Y ) = log(Y ), tenemos h′(E(Y )) = 1/E(Y ),y entonces Var(log(Y )) ≈ Var(Y )/[E(Y )]2 = CV(Y )2

Modelos de regresión. Área de Estatística e I.O., USC 17

Page 19: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Lo anterior se puede aplicar a la variable Y o a su distribución condicional a X, esto es,

Var(log(Y/X)) ≈ Var(Y/X)/[E(Y/X)]2 = CV(Y/X)2

Ahora, si el coeficiente de variación condicional es constante, el logaritmo de la variable respuestatendría varianza condicional constante, y el modelo de regresión para ella sería homocedástico.

Las transformaciones, además de conseguir el cumplimiento de las suposiciones del modelo, suelenir acompañadas de una interpretación especial del modelo y del significado de sus parámetros. Lovemos en el ejemplo.

Ejemplo 7 (continuación). En el ejemplo de producción de madera, el modelo de regresión lineallog(Y ) = β0 + β1X + ε es equivalente a

Y = KτX exp(ε)

donde K = exp(β0) y τ = exp(β1). El parámetro K se interpreta como la producción de maderacuando X = 0, o sea, al nivel del mar. El parámetro τ se interpreta como la tasa en que se reduce laproducción por cada incremento unitario de la altitud. Dicho de otro modo, si se aumenta un metrola altitud, la producción se multiplica por τ . Los valores estimados son K = exp(β0) = 30.17 yτ = exp(β1) = 0.993. De modo que al aumentar un metro la producción de madera disminuye un 7por mil. Al aumentar cien metros, tendríamos τ100 = 0.47, con lo que la producción disminuiría enun 53 %.

Nótese que un modelo lineal no transformado supone un incremento (o disminución) en una canti-dad constante que se suma (o resta) a la variable respuesta. En muchos casos, cuando la variablerespuesta es positiva, es más razonable suponer un incremento (o disminución) porcentual de larespuesta.

4.2. La transformación raíz cuadrada

Efectuar una raíz cuadrada a un número positivo, también tiene un efecto de contracción de losvalores grandes y dilatación de los pequeños. En este caso, el efecto es mucho más suave que latransformación logarítmica, y tiene otros usos.

La transformación raíz cuadrada se emplea principalmente en variables que miden recuentos, cuyadistribución más emblemática es la Poisson. Recordemos que si Y ∈ Poisson(λ) entonces E(Y ) =

Var(Y ) = λ.

En tal caso, aplicando el método delta que vimos anteriormente, donde ponemos h(Y ) =√Y y

h′(E(Y )) = 1/(2√

E(Y ))

, tendremos

Var(√

Y)≈

[1

2√E(Y )

]2

Var(Y ) =

[1

2√λ

]2λ = 1/4

Modelos de regresión. Área de Estatística e I.O., USC 18

Page 20: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

La varianza de la variable transformada,√Y , ya no depende del parámetro λ, que a su vez era su

media y podía depender de la variable explicativa. En consecuencia, esta transformación permiti-rá corregir problemas de heterocedasticidad cuando la variable respuesta sea el resultado de unrecuento.

Cuando la variable explicativa también sea un recuento, se aconseja aplicarle también a ella latransformación raíz cuadrada.

2 4 6 8 10 12 14 16

1030

5070

Crews

Roo

ms

2 4 6 8 10 12 14 16

−15

−5

05

1015

Crews

m4$

resi

dual

s

1.5 2.0 2.5 3.0 3.5 4.0

34

56

78

9

raizCrews

raiz

Roo

ms

1.5 2.0 2.5 3.0 3.5 4.0

−1.

00.

00.

51.

0

raizCrews

m4t

$res

idua

ls

Figura 6: Diagramas de dispersión para el número de dependencias frente al número de cuadrillas.En la primera fila se encuentran los datos originales y los residuos del ajuste lineal. En la segundafila se encuentran las mismas representaciones tras aplicar la raíz cuadrada a las dos variables.

Ejemplo 8. Se está analizando la contratación de un servicio de limpieza para ciertas oficinas. Elcoste del servicio de limpieza depende del número de cuadrillas que se contraten. Para poder valo-rar el número de cuadrillas, se han tomado unos datos sobre servicios realizados en el pasado, enlos cuales consta el número de dependencias que se han podido limpiar junto al número de cuadri-llas que realizaron el servicio. Los datos se encuentran en el fichero " cleaning.txt". Se plantea un

Modelos de regresión. Área de Estatística e I.O., USC 19

Page 21: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

estudio de regresión del número de dependencias, variable Rooms, sobre el número de cuadrillas,variable Crews.

En la Figura 6 se representan los diagramas de dispersión de los datos brutos, con el ajuste linealy el gráfico de los residuos, junto con las mismas representaciones tras haber aplicado la raízcuadrada tanto al número de dependencias como al número de cuadrillas.

En los datos brutos se observa que, aunque la linealidad se respeta de manera aceptable, hayun comportamiento heterocedástico bastante acusado, pues el número de dependencias presentamayor dispersión entorno a la recta para valores grandes de la media condicional.

Si se aplicara la transformación raíz cuadrada únicamente a la variable respuesta, se podría corre-gir la heterocedasticidad, pero se podría perder la linealidad. Además se observa que la variableexplicativa también es un recuento, por lo que procede aplicarle la misma transformación. De estemodo se corrige la heterocedasticidad y se conserva la linealidad.

4.3. Búsqueda de la transformación: regresión inversa y transformaciones Box-Cox

En las situaciones anteriores hemos visto que la transformación puede ser conveniente para lavariable respuesta, para la variable explicativa, o para ambas.

La búsqueda de la transformación adecuada está basada en la propia naturaleza de las variables yde la relación que presentan entre ellas. Por tanto, en muchas ocasiones se elegirá la transforma-ción simplemente por la convicción de que es la mejor manera de obtener un buen modelo. En otroscasos, puede ser útil disponer de un mecanismo algo más automático que oriente en esta elección.

Regresión inversa

El método de la regresión inversa es un procedimiento que permite escoger la transformación cuan-do ésta sólo afecta a la variable respuesta. Por tanto, estamos asumiendo que los datos procedende un modelo del tipo:

Y = g(β0 + β1X + ε)

donde g es una función desconocida. Precisamente la transformación que buscamos sería su in-versa, g−1, pues permitiría llegar al modelo lineal así:

g−1(Y ) = β0 + β1X + ε

La idea consiste en estimar g−1 a partir de la regresión de Y sobre Y , siendo Y = β0 + β1X elajuste lineal de Y sobre X. Lo veremos a través de un ejemplo.

Ejemplo 9 (procede de Sheather (2009, página 84)). Emplearemos 250 datos simulados del mo-

Modelos de regresión. Área de Estatística e I.O., USC 20

Page 22: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

deloY = (β0 + β1X + ε)3

con X e Y normales independientes. Los datos se encuentran en el fichero “responsetransforma-tion.txt". En la Figura 7 hemos representado el diagrama de dispersión de los datos junto con elajuste lineal (izquierda), así como el diagrama de dispersión de los residuos (derecha). Como cabíaesperar, hay un problema de falta de linealidad.

1 2 3 4

020

4060

80

x

y

1 2 3 4

010

2030

x

m5$

resi

dual

s

Figura 7: Diagrama de dispersión de Y sobre X, con el ajuste lineal, y diagrama de los residuos.

El objetivo es encontrar la función g−1(Y ) = Y 1/3 que permite reconstruir la relación lineal. Em-pezamos estimando el modelo lineal de Y sobre X, lo cual da lugar a unos valores ajustadosY1, . . . , Yn. A continuación se representa un diagrama de dispersión, donde el eje de ordenadaslo ocupan estos valores ajustados y el eje de abscisas las verdaderas respuestas Y1, . . . , Yn. LaFigura 8 contiene el diagrama para estos datos.

La función que buscamos, g−1 será precisamente la función de regresión que ajuste adecuadamen-te la regresión de Y sobre Y . Le llamamos regresión inversa, porque ahora la variable respuesta Y

ocupa el eje de abscisas.

Esta situación se puede abordar con métodos de regresión muy diversos, por supuesto, no lineales,ya que se trata de buscar una función curvilínea.

Sin embargo tampoco procede complicar demasiado el método en este punto, pues sólo se tratade obtener una transformación. De tener que recurrir a métodos no lineales, compensaría hacerlo

Modelos de regresión. Área de Estatística e I.O., USC 21

Page 23: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

0 20 40 60 80

−20

020

4060

y

m5$

fitte

d

Figura 8: Diagrama de dispersión de Y sobre Y .

directamente con la regresión de Y sobre X. Por ello, nos restringimos a una familia paramétricade funciones, y en concreto lo haremos con la famila de transformaciones de Box-Cox, que haadquirido gran relevancia en la Estadística.

Transformaciones de Box-Cox

Las transformaciones de Box-Cox surgieron con el propósito de modificar un conjunto de datos demanera que se adapte al modelo normal. La familia de transformaciones de Box-Cox viene dadapor la siguiente expresión:

∀y ∈ (0,+∞) tλ(y) =

yλ − 1

λsi λ = 0

ln(y) si λ = 0

Cada valor de λ produce una transformación diferente, de modo que escogiendo el valor de λ esta-mos escogiendo la transformación que más convenga en cada caso. Cualquiera de estas transfor-maciones está definida sobre el intervalo (0,+∞), y por tanto se aplica sobre una variable positiva.En particular:

Para λ > 1 la transformación contrae los valores menores que uno y expande los valoresmayores que uno según la potencia λ indicada.

Para λ ∈ (0, 1) produce el efecto contrario efectuando la raíz correspondiente.

Con λ = 0 se lleva a cabo un logaritmo, que es una contracción muy severa de los valoresgrandes de la variable, mientras que los valores próximos a cero se expanden hacia −∞.

Modelos de regresión. Área de Estatística e I.O., USC 22

Page 24: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Por último, con λ < 0 se invierte la variable.

Selección de la transformación por regresión inversa

El método de la regresión inversa consiste en ajustar la regresión lineal

Y = α0 + α1tλ(Y )

y escoger el parámetro λ de modo que la suma residual de cuadrados sea mínima.

Ejemplo 9 (continuación). En la Figura 9 se representa la función RSS(λ). Finalmente el mínimode esta función se alcanza en λ = 0.332, que está muy próximo al valor verdadero λ = 0.333.

−1.0 −0.5 0.0 0.5 1.0

010

000

2000

030

000

4000

0

lambda

RS

S

Figura 9: Representación de la función RSS(λ) frente a λ, para los datos simulados.

El método de la regresión inversa que acabamos de describir funciona correctamente si la distri-bución de la variable explicativa es simétrica. Si no es así, habría que realizar una transformaciónprevia de la variable explicativa, y aplicar el procedimiento con la variable explicativa transformada.

Existen otros procedimientos para la estimación de las transformaciones adecuadas, dentro de lafamilia Box-Cox. Estos métodos buscarían parámetros γ y λ, para X e Y respectivamente, demodo que se pudiera ajustar un modelo lineal de tλ(Y ) sobre tγ(X). Muchos de estos métodosestán basados en propiedades de la distribución normal multivariante y en técnicas de máximaverosimilitud. Aquí no profundizaremos en los detalles.

En todo caso, la búsqueda de la transformación estará amparada por el conocimiento de la natura-leza de las variables y por la observación de los diagramas de dispersión. También se debe tenerpresente que en ocasiones no es posible encontrar una transformación que conduzca a un modelo

Modelos de regresión. Área de Estatística e I.O., USC 23

Page 25: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

lineal. En esos casos habría que recurrir a modelos más flexibles, o considerar el efecto de otrasvariables explicativas. Algunas de estas cuestiones serán tratadas en los temas siguientes.

Modelos de regresión. Área de Estatística e I.O., USC 24

Page 26: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Ejercicios propuestos

1. Se pretende estudiar el efecto de la concentración de insulina sobre la concentración deazúcar en sangre. Para ello se toman los siguientes datos:

Concentración de insulina 10 11 12 13 14 15 16 17 18 19Concentración de azúcar 34.1 31.9 31.1 27.2 31.1 29.9 30.1 28.6 25.7 29.6

Concentración de insulina 20 25 30 40 50 60 70 80 90 100Concentración de azúcar 27.8 26.4 24.8 24.0 23.6 22.7 23.2 19.7 23.8 23.2

a) Estima un modelo lineal de regresión de la concentración de azúcar sobre la concentra-ción de insulina.

b) Representa mediante un diagrama de dispersión las observaciones y el ajuste lineal,y mediante otro diagrama los residuos de la regresión lineal. En base a los diagramascomprueba el cumplimiento de las suposiciones básicas del modelo lineal simple deregresión.

c) Estima un modelo de regresión lineal de la concentración de azúcar sobre la inversa dela concentración de insulina. Efectúa las mismas representaciones del apartado anteriorpara comprobar el cumplimiento de las hipótesis básicas por parte de este modelo.

2. Con el objetivo de estudiar un nuevo tratamiento hormonal, se han recogido datos del efectodel tratamiento hormonal existente (variable Reference) y del efecto del nuevo tratamiento(variable Test). Por motivos de confidencialidad, no se dispone de más información sobre losaspectos concretos del experimento o incluso, sobre las unidades de medida. Estos datospuedes descargarlos en el archivo hormones.txt del Aula Virtual.

a) Estima un modelo lineal de regresión del nuevo test sobre el test de referencia.

b) Representa mediante un diagrama de dispersión las observaciones y el ajuste lineal,y mediante otro diagrama los residuos de la regresión lineal. En base a los diagramascomprueba el cumplimiento de las suposiciones básicas del modelo lineal simple deregresión.

c) Realiza una transformación logarítmica a ambas variables y obtén el modelo de regre-sión lineal correspondiente. Efectúa las mismas representaciones del apartado anteriorpara comprobar el cumplimiento de las hipótesis básicas por parte de este modelo.

3. En el archivo lizards.txt del Aula Virtual puedes encontrar datos sobre la presencia de un tipode lagartos en las islas del golfo de California, que se muestran en la siguiente tabla. Losdatos incluyen el nombre de la isla (Island) el área en kilómetros cuadrados, el ratio entre elperímetro de la isla y el área y la presencia o ausencia de los lagartos Uta stansburiana.

Modelos de regresión. Área de Estatística e I.O., USC 25

Page 27: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

Island Area PA.ratio UtaBota 0.093 15.41 PresentCabeza 0.704 5.63 PresentCerraja 0.037 25.92 PresentCoronadito 0.072 15.17 AbsentFlecha 0.129 13.04 PresentGemelos.East 0.047 18.85 AbsentGemelos.West 0.02 30.95 AbsentJorabado 0.039 22.87 AbsentMitlan 0.156 12.01 AbsentPata 0.136 11.6 PresentPiojo 0.533 6.09 PresentSmith 8.68 2.28 PresentVentana 1.28 4.05 PresentBahia.Animas.Norte 0.00395 59.94 AbsentBahia.Animas.Sur 0.0038 63.16 AbsentBlanca 0.029 22.76 AbsentPescador 0.035 23.54 AbsentAngel.de.la.Guarda 924.1 0.21 PresentMejia 3.03 2.55 Present

a) Estima un modelo de regresión lineal simple del ratio entre perímetro y área sobre elárea de la isla.

b) Representa mediante un diagrama de dispersión las observaciones y el ajuste lineal,y mediante otro diagrama los residuos de la regresión lineal. En base a los diagramascomprueba el cumplimiento de las suposiciones básicas del modelo de regresión linealsimple.

c) Realiza una transformación logarítmica a ambas variables y obtén el modelo de regre-sión lineal correspondiente. Efectúa las mismas representaciones del apartado anteriorpara comprobar el cumplimiento de las hipótesis básicas por parte de este modelo.

4. En la librería datasets de puedes encontrar el archivo trees que contiene información sobreel diámetro (en pulgadas, medido aproximadamente a 1.5 metros sobre el suelo), la altura (enpies) y el volumne de madera (en pies cúbicos) de 31 cerezos.

a) Estima un modelo de regresión lineal que explique el volumen de madera en función deldiámetro.

b) Realiza la validación del modelo y comprueba el cumplimiento de las hipótesis básicasdel modelo de regresión lineal simple.

Modelos de regresión. Área de Estatística e I.O., USC 26

Page 28: Tema 2. Validación de un modelo de regresión

Tema 2. Validación de un modelo de regresión

c) Aplica una transformación Box-Cox al diámetro, utilizando la función boxcox de la libreríaMASS y estima un nuevo modelo de regresión lineal simple. Efectúa las mimas represen-taciones que en el apartado anterior y comprueba el cumplimiento de las hipótesis.

Modelos de regresión. Área de Estatística e I.O., USC 27