REGRESION LINEAL III
Mario Briones L.MV, MSc
2005
Gráfico de residuales de la regresión El gráfico de residuales de una
regresión se obtiene ubicando en un plano de coordenas los valores de la variable independiente (en el eje X) y la magnitud de la desviación que existe entre cada punto observado y la línea de regresión, con respecto al eje Y.
Ejemplo, osos grises
Variable X 1 Gráfico de los residuales
-150
-100
-50
0
50
100
34 44 54 64 74 84
Variable X 1
Re
sid
uo
s
Objetivo del examen del gráfico de residuales: El gráfico de residuales permite apreciar
más claramente la “adecuación” del modelo lineal a los datos.
Si la relación “real” entre las dos variables es lineal, entonces los puntos aparecen distribuidos homogéneamente alrededor del valor cero de Y, sin ningún patrón reconocible.
La presencia de patrones de distribución de los puntos de residuales pueden indicar que el supuesto de linearidad no se sostiene
Ejemplo Precio de huevos en USA según peso
grado peso grs precio promedio 92-94 (centavos/unidad)LL 73 13.36L 67 13.55M 61 11.92
MS 55 9.1S 49 7.4
SS 43 4.83
Regresión Se observa un alto valor del
coeficiente de determinación
y = 0.3044x - 7.6274
R2 = 0.9434
0
5
10
15
20
40 50 60 70 80
peso (grs)
prec
io (
cent
s)
Gráfico de residuales Se observa una distribución desuniforme
alrededor de ceroVariable X 1 Gráfico de los residuales
-1.5
-1
-0.5
0
0.5
1
1.5
0 20 40 60 80
Variable X 1
Re
sid
uo
s
Análisis de residuales y adecuación del modelo
y = 0.0191x + 41.857
R2 = 0.4174
0100
200300400
500600
700800
0 5000 10000 15000 20000 25000
Ingreso per cápita
Gas
to m
ilita
r
Resumen
Estadísticas de la regresiónCoeficiente de correlación múltiple0.64604099Coeficiente de determinación R 2̂0.41736896R 2̂ ajustado 0.4065795Error típico 136.153868Observaciones 56
ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F
Regresión 1 717100.891 717100.891 38.6830132 7.5658E-08Residuos 54 1001045.29 18537.8757Total 55 1718146.18
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Intercepción 41.8569756 24.8379283 1.68520398 0.09772057 -7.94011553 91.6540667ING_CAP 0.01905844 0.00306427 6.21956696 7.5658E-08 0.01291494 0.02520194
Gráfico de residuales
ING_CAP Gráfico de los residuales
-400
-200
0
200
400
600
800
0 5000 10000 15000 20000 25000
ING_CAP
Re
sid
uo
s
Gráfico de probabilidad normal
Gráfico de probabilidad normal
0
200
400
600
800
0 20 40 60 80 100 120
Muestra percentil
GA
ST
_MIL
Residuales estandarizados
20 191.570963 81.2032301 0.6019047721 46.2387577 -43.7387577 -0.3242059122 77.3725481 682.627452 5.0598568623 49.038212 -25.7703023 -0.1910178724 45.1719604 -42.7992419 -0.3172419125 44.2915393 -34.154865 -0.2531669826 48.4114564 -39.217908 -0.290695927 83.1072474 30.247183 0.2242019728 54.2103627 -44.3552902 -0.3287758529 46.3978347 -42.4737841 -0.3148295130 132.156909 508.355912 3.7680994831 45.7029287 -36.8567749 -0.2731944132 48.3441601 -25.5494003 -0.1893804733 67.0646249 0.73652233 0.00545934
Gráfico de los datos transformados
0
0.5
1
1.5
2
2.5
3
0 1 2 3 4 5
RegresiónResumen
Estadísticas de la regresiónCoeficiente de correlación múltiple 0.89602746Coeficiente de determinación R 2̂ 0.80286521R^2 ajustado 0.79907416Error típico 0.28865576Observaciones 54
ANÁLISIS DE VARIANZAGrados de libertadSuma de cuadradosPromedio de los cuadradosF Valor crítico de F
Regresión 1 17.6458731 17.6458731 211.778909 5.6418E-20Residuos 52 4.33275156 0.08332215Total 53 21.9786246
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%Intercepción -1.33192219 0.21441509 -6.21188643 8.8964E-08 -1.76217725 -0.90166713log_cap 0.90534999 0.06221214 14.5526255 5.6418E-20 0.78051228 1.0301877
Gráfico de residuales
log_cap Gráfico de los residuales
-0.8-0.6-0.4-0.2
0
0.20.40.60.8
0 1 2 3 4 5
log_cap
Re
sid
uo
s
Gráfico de probabilidad normal
Gráfico de probabilidad normal
0
0.5
1
1.5
2
2.5
3
0 20 40 60 80 100 120
Muestra percentil
log
_mil
Intervalo de predicción para un valor individual de Y Dado un valor fijo X, el intervalo de
confianza para un valor individual es:
Y
Donde t/2 es el valor de t para los grados de libertad de la regresión y la mitad del valor de alfa decidido para el intervalo
^
22
2
2/ )()(
)(11
XXn
XXn
nSet
Ejemplo, osos grises De acuerdo con los datos del último
ejercicio, con un b0= -351.66 y b1= 9.65, para una medición de largo corporal de 71 pulgadas, el valor predicho de peso es de 334 lbs.
La construcción de un intervalo de confianza de 95% para este valor predicho dará una idea de la confiabilidad de esta predicción
Ejemplo, osos grises
= 176
Por lo tanto, para un valor de X de 71 pulgadas el intervalo de confianza de 95% para la predición de peso de 334 lbs es 334176 libras, es decir, desde 158 a 510 libras.
2
2
)5.516)7.34525(8)6.6471(8
81
1)6.66)(447.2(
Intervalo de confianza de 95 % para los valores estimados de peso de osos grises, a partir de la medición de largo corporal
-400
-200
0
200
400
600
34 44 54 64 74
largo en pulgadas
peso
en
lbs
Y predicho
lím inferior
lim superior
Intervalo de predicción para la pendiente de la recta
b1
n
XX
St e
22
2/)(
Ejemplo, osos grises
b1
b1= 4.91 El intervalo de confianza de 95% para la
pendiente de esta regresión es 9.66 4.91. El intervalo va de 4.91 a 14.41 y no incluye el
cero
8
)5.516(7.34525
6.66447.2
2
Intervalo de confianza de 95% para la línea de regresión (Systat)
30 40 50 60 70 80LARGO
0
100
200
300
400
500P
ES
O
Regresión lineal múltiple Una ecuación de regresión lineal
múltiple expresa una relación lineal entre una variable dependiente y dos o más variables independienes (X1, X2, ...Xk)
Notación Y= b0+b1X1+b2X2+...bkXk
k= número de variables independientes o predictoras
0= valor de Y cuando todas las variables predictoras son cero (el estimador es b0)
1, 2..k= son los valores de los coeficientes de las variables independientes (los estimadores son b1, b2..bk)
^