39
1 (1.1) (1.2) 1 REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE INTRODUCCIÓN El análisis de regresión tiene como objetivo modelar en forma matemática el comportamiento de una variable de respuesta en función de una o más variables independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control. Para estimar los parámetros de un modelo de regresión son necesarios los datos, los cuales pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos. Sean dos variables X y Y, suponga que se quiere explicar el comportamiento de Y con base en los valores que toma X. Para esto, se mide el valor de Y sobre un conjunto de n valores de X, con lo que se obtienen n parejas de puntos (x 1 ,y 1 ),(x 2 ,y 2 ),…,(x n ,y n ). A Y se le llama la variable dependiente o variable de respuesta y a X se le conoce como variable independiente. La variable X no necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus valores; en cambio, Y sí es una variable aleatoria. Una manera de estudiar el comportamiento de Y con respecto a X es mediante un modelo de regresión que consiste en ajustar un modelo matemático a las n parejas de puntos. Con ello, se puede ver si dado un valor de la variable independiente X es posible predecir el valor promedio de Y. Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y puede ser descrita por el modelo: Donde es un error aleatorio con media cero y varianza . También suponga que los errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, =0, se puede ver que el valor esperado de la variable Y, para cada valor de X, está dado por línea recta. En donde y son los parámetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuación que relaciona las dos = + + | = +

U1 Regresion Actual

Embed Size (px)

DESCRIPTION

estadistica

Citation preview

Page 1: U1 Regresion Actual

1

(1.1)

(1.2)

1 REGRESIÓN LINEAL SIMPLE Y MÚLTIPLE

INTRODUCCIÓN El análisis de regresión tiene como objetivo modelar en forma matemática el comportamiento de una variable de respuesta en función de una o más variables independientes (factores). Por ejemplo, suponga que el rendimiento de un proceso químico está relacionado con la temperatura de operación. Si mediante un modelo matemático es posible describir tal relación, entonces este modelo puede ser usado para propósitos de predicción, optimización o control. Para estimar los parámetros de un modelo de regresión son necesarios los datos, los cuales pueden obtenerse de experimentos planeados, de observaciones de fenómenos no controlados o de registros históricos. Sean dos variables X y Y, suponga que se quiere explicar el comportamiento de Y con base en los valores que toma X. Para esto, se mide el valor de Y sobre un conjunto de n valores de X, con lo que se obtienen n parejas de puntos (x1,y1),(x2,y2),…,(xn,yn). A Y se le llama la variable dependiente o variable de respuesta y a X se le conoce como variable independiente. La variable X no necesariamente es aleatoria, ya que en muchas ocasiones el investigador fija sus valores; en cambio, Y sí es una variable aleatoria. Una manera de estudiar el comportamiento de Y con respecto a X es mediante un modelo de regresión que consiste en ajustar un modelo matemático a las n parejas de puntos. Con ello, se puede ver si dado un valor de la variable independiente X es posible predecir el valor promedio de Y. Suponga que las variables X y Y están relacionadas linealmente y que para cada valor de X, la variable dependiente, Y, es una variable aleatoria. Es decir, que cada observación de Y puede ser descrita por el modelo: Donde � es un error aleatorio con media cero y varianza ��. También suponga que los errores aleatorios no están correlacionados. La ecuación (1.1) es conocida como el modelo de regresión lineal simple. Bajo el supuesto de que este modelo es adecuado y como el valor esperado del error es cero, ���� = 0, se puede ver que el valor esperado de la variable Y, para cada valor de X, está dado por línea recta. En donde y � son los parámetros del modelo y son constantes desconocidas. Por lo tanto, para tener bien especificada la ecuación que relaciona las dos

� = + �� + �

���|�� = + ��

Page 2: U1 Regresion Actual

2

variables será necesario estimar los dos parámetros, que tienen los siguientes significados: es el punto en el cual la línea recta intercepta o cruza el eje y, y � es la pendiente de la línea, es decir, es la cantidad en que se incrementa o disminuye la variable Y por cada unidad que se incrementa X. El siguiente ejemplo nos permitirá ilustrar mejor los conceptos anteriores. Ejemplo 1.1 En un laboratorio se quiere investigar la forma en que se relaciona la cantidad de fibra (madera) en la pulpa con la resistencia del producto (papel). Los datos obtenidos en un estudio experimental son los siguientes: Es claro que la variable de respuesta o variable dependiente es la resistencia, por eso se denota con Y. para tener una idea de la relación que existe entre X y Y, los 14 pares de datos son graficados en un diagrama de dispersión como el siguiente.

30252015105

190

180

170

160

150

140

130

Porcentaje de fibra

Resistencia

Porcentaje de fibra Resistencia 4 134 6 145 8 142 10 149 12 144 14 160 16 156 18 157 20 168 22 166 24 167 26 171 28 174 30 183

Tabla 1.1 Datos de resistencia de la pulpa

Figura 1.1 Diagrama de dispersión para los datos de resistencia de la pulpa

Page 3: U1 Regresion Actual

3

Se observa que entre X y Y existe una correlación lineal positiva, ya que conforme aumenta X también se incrementa Y, por lo que es razonable suponer que la relación entre X y Y la explique un modelo de regresión lineal simple. Así, cada observación de Y, la podemos expresar como: Con i=1,2,…,n (n=14 para este ejemplo). Para estimar y � ajustamos la recta que explique de mejor manera el comportamiento de los datos en el diagrama de dispersión de la figura 1.1. En otras palabras, debemos encontrar la recta que pasa más cerca de todos los puntos. Un procedimiento para ajustar la mejor recta y, por lo tanto, para estimar y � es mediante el método de mínimos cuadrados, el cual consiste en lo siguiente: Si de la ecuación (1.3) despejamos los errores, los elevamos al cuadrado y los sumamos, obtenemos lo siguiente: De esta forma, se quieren encontrar los valores de y � que minimizan la suma de los errores cuadrados. Es decir, se busca ajustar la recta de manera que la suma de las distancias en forma vertical de los puntos a la recta se minimice. El procedimiento matemático para minimizar los errores de la ecuación (1.4) y así encontrar los estimadores de mínimos cuadrados de y �, consiste en calcular dichos estimadores por medio de las siguientes fórmulas: ��, �� son las medias muestrales de las dos variables, es decir, De esta forma, para obtener la recta ajustada es necesario aplicar las fórmulas anteriores, lo cual es muy sencillo, como se muestra en la tabla 1.2 para los datos de la resistencia de la pulpa.

�� = ∑ ������� Y �� = ∑ �������

�� = ∑ ���� − ���������∑ ��� − ��������

� = �� − ����

= !����� = !��� − [ + ���]������

����

�� = + ��� + ��

(1.3)

(1.4)

(1.5)

(1.6)

(1.7) y (1.8)

Page 4: U1 Regresion Actual

4

�� = $%�&'(��)���*���&+.�+-�)%&-(��)���+%� = �)*+%�' = 1.6242 y � = 158.286 − �1.6242��17� = 130.67

Por lo tanto, la línea recta que mejor explica la relación entre porcentaje de fibra y resistencia del papel, está dada por: �6 = 130.67 + 1.6242� En la siguiente figura se muestra el ajuste de esta línea. De esta manera, por cada punto porcentual de incremento en el porcentaje de fibra, se espera un incremento de la resistencia de 1.6242 en promedio.

30252015105

190

180

170

160

150

140

130

Porcentaje de fibra

Resistencia

Porcentaje de fibra (Xi)

Resistencia (Yi)

��� ���� 4 134 16 536 6 145 36 870 8 142 64 1136 10 149 100 1490 12 144 144 1728 14 160 196 2240 16 156 256 2496 18 157 324 2826 20 168 400 3360 22 166 484 3652 24 167 576 4008 26 171 676 4446 28 174 784 4872 30 183 900 5490 ∑ ��=238 ∑ ��=2216 ∑ ���=4956 ∑ �� ��=39150 ��=17 ��=158.286

Tabla 1.2 Procedimiento para realizar los cálculos para la regresión simple

(1.9)

Figura 1.2 Línea que mejor se ajusta a los puntos

Page 5: U1 Regresion Actual

5

La ecuación (1.9) sirve para estimar la resistencia promedio esperada para cualquier porcentaje de fibra utilizada, claro que esa estimación será más precisa en la medida que X esté dentro del intervalo de los valores con los que se hizo la estimación. Por ejemplo, para cada Xi, con el que se experimentó, se puede estimar el �6� con base en el modelo. Hasta aquí hemos obtenido una ecuación de regresión que estima la relación entre la variable X y la variable Y, ahora la pregunta es ¿Qué tan bien se ajusta a los datos dicha ecuación? Una medida de la bondad de ajuste de la ecuación de regresión estimada (lo bien que se ajusta la ecuación a los datos) es el coeficiente de determinación, mismo que se obtiene realizando algunas sumas de cuadrados que veremos a continuación. A la diferencia que existe, en la observación i, entre el valor observado de la variable dependiente Yi, y el valor estimado de la variable dependiente �6�, se le llama residual y se denota como: 7� El residual 7� representa el error que existe al usar �6� para estimar Yi. Por lo tanto, para la observación i, el residual es: 7� = �� − �6� La suma de los cuadrados de estos residuales o errores es la cantidad que se minimiza empleando el método de los mínimos cuadrados. Esta cantidad, también conocida como suma de cuadrados debida al error, se denota por SCE. El valor SCE es una medida del error al utilizar la ecuación de regresión estimada para estimar los valores de la variable dependiente en los elementos de la muestra. Por lo tanto, SCE mide el error que existe al utilizar la ecuación de regresión estimada para predecir Y. Retomando el ejemplo 1.1, los valores de las variables independiente y dependiente para/del porcentaje de fibra 1 son X1= 4 y Y1= 134. El valor estimado para esta resistencia de la pulpa según la ecuación de regresión estimada es Y9� = :;<. => + :. =?@?�@� = :;>. ?<. Por lo tanto, para el porcentaje 1, el error al usar Y9� para estimar Y1 es: Y� − Y9� = 134 − 137.20 = −3.2 �El error elevado al cuadrado, (-3.2)2=10.24.

SUMA DE CUADRADOS DEBIDA AL ERROR : ABC = ∑�DE − D9E�? (1.10)

Page 6: U1 Regresion Actual

6

Tabla 1.3 Cálculos de SCE suma de cuadrados debido al error

Después de calcular y elevar al cuadrado los residuales de cada uno de los porcentajes de la muestra, se suman y se obtiene la Suma de Cuadrados debido al Error (SCE). A continuación se muestra una tabla con cada uno de los residuales de cada uno de los porcentajes de fibra.

�� es la varianza del error aleatorio, �. Así que es natural utilizar los residuos para hacer una estimación para dicha varianza. Para ello la suma de cuadrados debido al error se divide entre sus respectivos grados de libertad, por lo tanto, un estimador insesgado de �� está dado por: �F� = GHI�(� = BJC (1.11) Como se aprecia en la expresión anterior �F� recibe el nombre de Cuadrado Medio debido al Error; y la raíz cuadrada de éste, es decir, �F = √LM�, se conoce como error estándar de estimación.

Porcentaje de fibra

(Xi)

Resistencia (Yi)

Resistencia estimada

�6� 7� = �� − �6� Residual (error) 7�� = ��� − �6���

Residual al cuadrado

4 134 137.17 -3.17 10.05 6 145 140.42 4.59 21.02 8 142 143.66 -1.66 2.76 10 149 146.91 2.09 4.37 12 144 150.16 -6.16 37.95 14 160 153.41 6.59 43.43 16 156 156.66 -0.66 0.44 18 157 159.90 -2.90 8.41 20 168 163.15 4.85 23.52 22 166 166.40 -0.40 0.16 24 167 169.65 -2.65 7.02 26 171 172.90 -1.90 3.61 28 174 176.15 -2.15 4.62 30 183 179.40 3.60 12.96 ∑ ��=238 ∑ ��=2216 SCE=180.32

Page 7: U1 Regresion Actual

7

1.1.1 PRUEBA DE HIPÓTESIS EN LA REGRESIÓN LINEAL SI MPLE En cualquier análisis de regresión no basta hacer los cálculos que se explicaron antes, sino que es necesario evaluar qué tan bien el modelo (la línea recta) explica la relación entre X y Y. Para probar si existe una relación de regresión significante, se debe realizar una prueba de hipótesis. Hay dos pruebas que son las usadas: Prueba t y F, en ambas se requiere una estimación de σ�, misma que está dada en la expresión (1.11).

1.1.1.1 PRUEBA DE HIPÓTESIS t Por lo general, la hipótesis de mayor interés plantea que la pendiente es significativamente diferente de cero. Esto se logra al probar la siguiente hipótesis: Si se rechaza Ho, se concluirá que � ≠ 0, y que entre las dos variables existe una relación estadísticamente significante. Para encontrar el estadístico de prueba o de contraste para esta hipótesis, se requiere calcular previamente el error estándar estimado de �

El estadístico de prueba o de contraste se determina así: Uno de los métodos para rechazar la hipótesis nula (P � es el del valor crítico; el cual si recordamos, dado el nivel de significancia α y considerando n-2 grados de libertad; se busca en las tablas de distribución t, recordemos también que la prueba es de dos extremos porque la H1≠ 0, por lo tanto el nivel de significancia se divide entre 2; por lo que el valor crítico está dado por: tR/�, gl Al aplicar este criterio, se rechaza Ho si tcal ≤ VW/� ó si tcal ≥ VW/� en caso contrario no se rechaza Ho. 1 el subíndice cal permite diferenciar el valor t calculado del valor crítico tα

P : � = 0

P�: � ≠ 0 (1.12)

ERROR ESTÁNDAR ESTIMADO DE Z:: �F[ = \]^∑���(���_ (1.13)

V`ab = c�\]d (1.14)1

Page 8: U1 Regresion Actual

8

No rechazar que � = 0, en el caso del modelo de regresión lineal simple, implica que no existe una relación lineal significativa entre X y Y; por lo tanto, no existe relación entre las variables. Si se utiliza como criterio de rechazo la comparación de la significancia observada (valor-p o p-value) contra la significancia predefinida (α), entonces se rechaza Ho si valor-p < α. La estimación de los parámetros del modelo y las pruebas de hipótesis sobre los mismos se sintetizan en la tabla siguiente.

PARÁMETRO ESTIMACIÓN ERROR ESTÁNDAR ESTADÍSTICO VALOR-P

Intercepción � � �� � ����

Pendiente �� �∑ ���� � ������

���

∑ ��� � �����

��� �F[ �

�F

^∑��� � ���� V`ab �

��

�F[ Pr�VW g |V`ab|�

Consideremos el ejemplo 1.1 (resistencia de la pulpa) para realizar la prueba de hipótesis recién descrita. Determinamos nuestras hipótesis: P : � � 0 P�: � O 0

Calculamos el error estándar estimado de �: �F[ � \]

^∑���(���_ � $.+*-&$'.�--

� 0.1285

Calculamos el estadístico de prueba: V`ab � c�

\]d� �.-�)�

'.��+&� :?. =@

Considerando un nivel de significancia de 0.05, determinamos el valor crítico; así tenemos que t'.'&/�, 12gl equivale a 2.1788 Sustituimos valores respectivos en la regla de rechazo si tcal ≤ VW/� ó si tcal ≥ VW/� se rechaza Ho. Como el estadístico de contraste es positivo, probamos la segunda condición de dicha regla, así tenemos que 12.64 ≥ 2.1788 por lo tanto se rechaza Ho.

-2.1788 2.1788 V`ab � 12.64

Page 9: U1 Regresion Actual

9

Debido a que rechazamos Ho podemos concluir que � O 0, es decir que existe una relación significativa entre las variables X y Y o sea que existe una relación significativa entre la cantidad de fibra en la pulpa y la resistencia del papel.

1.1.1.2 PRUEBA DE HIPÓTESIS F (análisis de varianza del modelo de regresión)

Otro enfoque para analizar la significancia del modelo es descomponer la variabilidad observada, y a partir de ello probar hipótesis. Efectivamente, la variabilidad total observada en la variable de respuesta puede ser medida a través de la Suma Total de Cuadrados, que está dada por: El primer componente de STC se denota por SCR, mide la variabilidad explicada por la recta de regresión (modelo de regresión) y se le conoce como Suma de Cuadrados debido a la Regresión y está dada por: Mientras que como vemos, la ecuación 1.10, es el segundo componente de STC y mide la variabilidad no explicada por la recta de regresión (modelo de regresión). Los grados de libertad para STC son n-1, SCR tiene un grado de libertad y SCE tiene n-2. Al dividir las sumas de cuadrados entre sus grados de libertad obtenemos los cuadrados medios: Como se mencionó en la página 6 del presente material; un estimador insesgado de �� es el CME, así que, otro estimador de �� lo proporciona el CMR.

SUMA TOTAL DE CUADRADOS STC = STC = STC = STC = ∑�DE − Dk�?= = = = SCR + SCE (1.15)

SUMA DE CUADRADOS DEBIDO A LA REGRESIÓN ABn = ∑��6� − ���� (1.16)

CUADRADO MEDIO DEBIDO AL ERROR BJC = GHI�(� (1.11)

CUADRADO MEDIO DEBIDO A LA REGRESIÓN BJn = GHo� (1.17)

Page 10: U1 Regresion Actual

10

Todo lo anterior podemos utilizarlo para generar otra forma de probar la hipótesis sobre la significancia de la regresión: Ya que si Ho es verdadera, entonces el siguiente estadístico: Tiene una distribución F con 1 y n-2 grados de libertad en el numerador y denominador respectivamente. Por lo tanto, se rechaza P : � = 0, si el estadístico de prueba es mayor que el valor crítico correspondiente, es decir, se rechaza Ho si F>F(α, 1, n-2). El análisis de varianza para probar la significancia del modelo de regresión se resume a continuación. Fuente de variación

Suma de cuadrados

Grados de libertad

Cuadrado medio

F Valor-p

Regresión SCR 1 CMR LMpLM� Pr(Fα>Fcal)

Error o residual

SCE n-2 CME

Total STC n-1

Tabla 1.5 Análisis de varianza (ANOVA) para el modelo de regresión simple

Ejemplo 1.2 Al hacer el análisis de regresión y el análisis de varianza para el modelo que se ajustó a los datos del ejemplo 1.1 (resistencia de la pulpa), se obtienen las tablas 1.6 y 1.7. Veamos los detalles. En la página cuatro y ocho del presente material ya habíamos visto que �' =130.675 y �� = 1.6242, �F[ = 0.1285 y V`ab = 12.64, así tenemos que el análisis de regresión para la recta de regresión que relaciona el porcentaje de fibra con la resistencia de la pulpa es:

PARÁMETRO ESTIMACIÓN ERROR ESTÁNDAR ESTADÍSTICO VALOR-P Intercepción 130.675 Pendiente 1.6242 0.1285 12.64 0.0000

Tabla 1.6 Análisis de regresión para el ejemplo 1.2

P : � = 0

P�: � ≠ 0 (1.20)

ESTADÍSTICO DE PRUEBA F qrst = HuoHuI (1.21)

Page 11: U1 Regresion Actual

11

En cuanto al análisis de varianza para la siguiente tabla ya tenemos el valor de SCE=180.32, el cual se calculó en la página 6 del presente, por lo que nos falta calcular los demás valores de dicha tabla. Tomando información de la tabla 1.3 calcularemos la SCR de la siguiente manera: Prácticamente ya tenemos todos los cálculos para completar el análisis de varianza de la tabla 1.7, sólo restaría:

STC= 2,400.5+180.32= 2,580.86 CMR= �,)''.&� = ?, @<<. v

CME=�+'.$��� = :v. <?>: F=

�,)''.&�&.'�*� = :vw. >:

Fuente de variación Suma de

cuadrados Grados de

libertad Cuadrado

medio F Valor-p

Regresión 2,400.5 1 2,400.5 159.71 0.0000 Error o residual 180.32 12 180.32 Total 2,580.86 13

Tabla 1.7 Análisis de varianza (ANOVA) para el ejemplo 1.2

En esta tabla se observa que el modelo de regresión es significativo, ya que el valor –p es menor de 0.05. Esta misma conclusión se obtiene si se procede con el método del valor crítico, ya que de las tablas de distribución F se obtiene que x ab = 159.71 > x�'.'�&;�,��� = 6.55

Porcentaje de fibra

(Xi)

Resistencia (Yi)

Resistencia estimada

�6� ��6� − ����

4 134 137.17 445.63 6 145 140.42 319.16 8 142 143.66 213.74

10 149 146.91 129.28 12 144 150.16 65.93 14 160 153.41 23.72 16 156 156.66 2.62 18 157 159.90 2.62 20 168 163.15 23.72 22 166 166.40 65.93 24 167 169.65 129.28 26 171 172.90 213.74 28 174 176.15 319.34 30 183 179.40 446.05

SCR= 2400.5

Page 12: U1 Regresion Actual

12

1.1.2 CALIDAD DEL AJUSTE EN LA REGRESIÓN LINEAL SI MPLE En la sección anterior estudiamos pruebas de hipótesis para verificar que hay una relación significativa entre X y Y; sin embargo, no hemos visto si tal relación permite hacer estimaciones con una precisión aceptable. Por ejemplo, es de interés saber qué tanta de la variabilidad presente en Y fue explicada por el modelo.

1.1.2.1 COEFICIENTE DE DETERMINACIÓN R2 Un primer criterio para evaluar la calidad del ajuste es observar la forma en que el modelo se ajustó a los datos. En el caso de la regresión lineal simple esto se distingue al observar si los puntos tienden a ajustarse razonablemente bien a la línea recta (véase figura 1.2). Pero otro criterio más cuantitativo es el que proporciona el coeficiente de determinación, que en regresión está definido por: Es claro que 0 < n? ≤1. En general p� se interpreta como la proporción de la variabilidad en los datos (Y) que es explicada por el modelo. En el caso de los

datos del ejemplo 1.1, a partir de la tabla 1.7 tenemos que p� � �,)''.&�,&+'.+- = 0.930. Por

lo tanto, podemos decir 93% de la variación observada en la resistencia es explicada por el modelo (línea recta), lo cual nos dice que la calidad del ajuste es satisfactorio, y que por ello, la relación entre X y Y es descrita adecuadamente por una línea recta. Coeficiente de determinación ajustado ns|? . Este coeficiente se calcula de la

siguiente manera: Donde el cuadrado medio total, CMT, se obtiene al dividir la Suma Total de Cuadrados (STC) entre sus grados de libertad. Cuando hay muchos términos en un modelo el estadístico pa}� se prefiere en lugar de p�, puesto que este último es

engañoso al incrementarse en forma artificial con cada término que se agrega al modelo, aunque sea un término que no contribuya en nada a la explicación de la respuesta. En cambio, el pa}� incluso baja de valor cuando el término que se

agrega no aporta nada. Se cumple que 0 < pa}� ≤ p� ≤ 1.

n? = ~a��ac�b��a� ���b�`a�a � � �b � ��b ~a��ac�b��a� � �ab = ABnA�B (1.22)

ns|? = Hu�(HuIHu� (1.23)

Page 13: U1 Regresion Actual

13

Para el modelo del ejemplo 1.1, de acuerdo a la tabla 1.7, el coeficiente de determinación ajustado está dado por:

ns|? �

"�2,580.86� �13�⁄ ] − [�180.32� �12�⁄ ]�2,580.86� �13�⁄ = <. w?@;:

Coeficiente de correlación r . Es bien conocido que el coeficiente de correlación, r, mide la intensidad de la relación lineal entre dos variables X y Y. Si se tiene n pares de datos de la forma (Xi,Yi), entonces este coeficiente se obtiene de la siguiente manera:

� = ∑ ���� − �����������∑ ��� − �������� �� �L�

Se puede ver que -1 ≤ r ≤ 1; si r es próximo a -1, entonces tendremos una relación lineal negativa fuerte, y si r es próximo a cero, entonces diremos que no hay correlación lineal, y finalmente si r es próximo a 1, entonces tendremos una relación lineal positiva fuerte. Por ejemplo, para los datos del ejemplo 1, el

coeficiente de correlación es � = �)*+^�%�'���&+'.%� = <. w=@@?, lo cual habla de una

correlación lineal positiva fuerte. Media del error absoluto (mea). Otra forma de medir la calidad del ajuste es a través de la media del valor absoluto de los residuos, es decir: Es claro que mientras mejor sea el ajuste, los residuos serán más pequeños y, en consecuencia, también la mea tenderá a ser más pequeña. La mea se puede ver como una medición para ver cuánto falla en promedio el modelo al hacer la estimación de la variable de respuesta. En los datos del ejemplo 1.1, de acuerdo a la tabla 1.3:

�7� = |−3.17| + |4.59| + |−1.7| + ⋯ + |3.6|14 = 43.3714 = 3.0979

�7� = ∑ |��|����� (1.24)

Page 14: U1 Regresion Actual

14

1.1.2.2 ANÁLISIS GRÁFICO DE RESIDUOS Como complemento a lo que se ha discutido hasta aquí, un análisis adecuado de los residuos proporciona información adicional sobre la calidad del ajuste del modelo de regresión y de esa manera es posible verificar si el modelo es adecuado. Las gráficas que suelen hacerse para completar el diagnostico del modelo consisten en: graficar los residuos en papel de probabilidad normal, graficar los residuos contra los predichos (�F��, los residuos contra cada variable independiente (Xi) y contra alguna otra variable importante que no haya sido incluida en el modelo. Por ejemplo, para los residuos del ejemplo 1.1 que se muestran en la tabla 1.3, se construye la gráfica de probabilidad normal que se muestra a continuación.

1050-5-10

99

95

90

80

70

60

50

40

30

20

10

5

1

Residuos

Porcentaje acumulado

En esta gráfica se aprecia que los puntos tienden a ajustarse razonablemente bien a la línea recta. A partir de la tabla 1.3 es fácil obtener la gráfica de residuos contra predichos (7���. �F�� que se muestra en la figura 1.4. Si el modelo es adecuado se espera que en esta gráfica los puntos no sigan ningún patrón y que, por lo tanto, estén distribuidos más o menos aleatoriamente a lo largo y ancho de la gráfica. Cuando esto ocurre significa que el modelo se ajusta de igual manera a lo largo de los valores de Y. por el contrario, si se aprecia algún patrón habrá que ver cuál es el tipo de patrón que se observa en la gráfica y diagnosticar cuál es la falla que registra el modelo.

Figura 1.3 Gráfica de probabilidad normal para los residuos del ejemplo 1.1

Page 15: U1 Regresion Actual

15

En particular la figura anterior no muestra ninguna anomalía, lo cual es una evidencia más a favor del modelo de regresión simple para el ejemplo 1.1

1.1.3 ESTIMACIÓN Y PREDICCIÓN POR INTERVALO EN REGRESIÓN LINEAL SIMPLE

Una de las aplicaciones más importantes en un análisis de regresión es hacer estimaciones de la respuesta media para un valor dado Xp. En el caso particular de la regresión lineal simple, sabemos que un estimador puntual de la respuesta media lo da la recta de regresión:

�6������ ≡ �6� � � + ����

Además de esto, en ocasiones es de interés obtener una estimación por intervalo para ���|��). Para ello, un intervalo de confianza al 100(1- α)% para la respuesta

media en Xp está dado por: La notación usada anteriormente corresponde a: ��= valor dado de la variable independiente X �6�= valor de la variable dependiente Y que corresponde al valor dado �� �F�= error estándar de �6�

180170160150140

7.5

5.0

2.5

0.0

-2.5

-5.0

Valores Predichos

Residuos

Figura 1.4 Gráfica de residuos contra estimados o predichos del ejemplo 1.1

INTERVALO DE CONFIANZA �6� ± V(W �,�(�)⁄ �F� (1.25)

ERROR ESTÁNDAR DE �6� �F� = �LM� ��� + (��(��)_∑ ��2−��k2��=1 � (1.26)

Page 16: U1 Regresion Actual

16

Al intervalo 1.25 se le conoce también como intervalo para la recta de regresión. Note que su amplitud depende de CME y de la distancia entre �� y ��. La amplitud

es mínima cuando ��= �� y se incrementa conforme |��-��| se hace más grande.

Para ilustrar lo anterior consideremos el modelo ajustado a los datos del ejemplo 1.1, y obtengamos el intervalo de confianza para la respuesta media en ��= 12

(porcentaje en fibra). El estimador puntual está dado por �6�=130.67 + (1.6242)(12) = 150.16; y un intervalo de confianza al 95% para la respuesta media en ese punto es:

150.16 ± 2.179�15.0271 � 114 + �12 − 17��910 �

:v<. := ± ?. =v=@ De aquí que el intervalo de confianza para la respuesta media en ��= 12 está

dado por: 147.5 ≤ ���|�� = 12) ≤ 152.82

30252015105

190

180

170

160

150

140

130

120

Porcentaje de fibra

Resistencia

S 3.87648

R-Sq 93.0%

R-Sq(adj) 92.4%

Regression

95% CI

95% PI

Resistencia = 130.7 + 1.624 Porcentaje de fibra

La primera banda (roja) de confianza en torno a la recta de regresión de la figura 1.5 indica el cálculo del intervalo de confianza de la expresión (1.25) para los valores �� con los que se ajustó la recta de regresión. Nótese cómo se va

abriendo esta banda debido a que se incrementa |��-��|.

Figura 1.5 Recta de regresión con intervalo de confianza y de predicción para observaciones futuras para el ejemplo 1.1

Page 17: U1 Regresion Actual

17

1.2 REGRESIÓN LINEAL MULTIPLE Aunque la sección previa aplica a una relación entre dos variables, en esta sección veremos un método para analizar una relación lineal que incluye más de dos variables. Al igual que en la sección anterior, sólo estudiaremos relaciones lineales. Utilizamos la siguiente ecuación de regresión múltiple para describir relaciones lineales que incluyen más de dos variables. Emplearemos la siguiente notación, que surge de manera natural de la notación utilizada en la sección anterior. Notación:

D9 � �  + �:¡: + �?¡? + ⋯ + �¢¡¢ £ (Forma general de la ecuación de regresión múltiple estimada). n = tamaño de la muestra. k = número de variables de predicción. (Las variables de predicción también se conocen como variables independientes o variables x). D9 =valor predicho de Y (se calcula por medio de la ecuación de regresión múltiple) ¡:, ¡?, ⋯ , ¡¢ Son las variables de predicción Z  = intercepto Y, o el valor de Y cuando todas las variables de predicción son 0. (Este valor es un parámetro poblacional). � = estimado de basado en los datos muestrales (� es un estadístico muestral). Z:, Z?, ⋯ , Z¢ son los coeficientes de las variables de predicción ��, ��, ⋯ , �¤ �:, �?, ⋯ , �¢ son estimados muestrales de los coeficientes �, �, ⋯ , ¤ ¥ =es el error aleatorio, que permite a cada respuesta desviarse del valor promedio de Y por la cantidad ¦. Se debe suponer que los valores de ¦ son independientes; tienen una media de 0 y una varianza común �� para cualquier conjunto ��, ��, ⋯ , �¤ y tienen una distribución normal

Una ecuación de regresión múltiple expresa una relación lineal entre una variable de respuesta Y y dos o más variables de predicción (x1, x2, x3,…,xk). La forma general de una ecuación de regresión múltiple es: � = + ��� + ��� + ⋯ + ¤�¤ + ¦ (1.27) Por lo tanto la forma general de una ecuación de regresión múltiple ESTIMADA es

�6 = � + ���� + ���� + ⋯ + �¤�¤ (1.28)

Page 18: U1 Regresion Actual

18

Cuando estos supuestos respecto a ¥ se cumplen, el valor promedio de Y para un conjunto dado de valores ��, ��, ⋯ , �¤ es igual al siguiente modelo: ���� = + ��� + ��� + ⋯ + ¤�¤ Observemos que el modelo de regresión múltiple y los supuestos son muy similares al modelo y los supuestos usados para la regresión lineal simple. Por lo tanto, no nos sorprenda saber que los procedimientos de prueba y estimación también son extensiones de los usados en la sección anterior. Los modelos de regresión múltiple son muy flexibles y toman muchas formas, lo que depende de cómo sean introducidas las variables independientes ��, ��, ⋯ , �¤ en el modelo. ANALISIS DE REGRESIÓN MÚLTIPLE Este análisis tiene que ver con procedimientos de estimación, prueba y diagnóstico diseñados para ajustar el modelo de regresión múltiple ���� = +��� + ��� + ⋯ + ¤�¤ a un conjunto de datos. Debido a la complejidad de los cálculos, estos procedimientos se ponen en práctica casi siempre mediante un programa de regresión en uno o varios paquetes de software. Seguiremos los patrones básicos establecidos en la regresión lineal simple, comenzando con una descripción de los procedimientos generales e ilustrados con un ejemplo. Veamos cómo podemos calcular la ecuación de regresión múltiple. Por conveniencia utilizaremos solamente dos variables independientes en el problema que trabajaremos en esta sección. Debemos tener en consideración, que en principio la misma técnica es aplicable a cualquier número de variables independientes. Ejemplo 1.3 El SAT está tratando de estimar la cantidad mensual de impuestos no pagados descubiertos por su departamento de auditorías. En el pasado, el SAT estimaba esta cantidad sobre la base del número esperado de horas de auditorías de campo. En los últimos años, sin embargo, las horas de trabajo de auditorías de campo se han vuelto un factor de predicción errático de los impuestos reales no pagados. Como resultado de ello, el SAT está buscando otro factor con el cual pueda mejorar la ecuación de estimación.

Page 19: U1 Regresion Actual

19

El departamento de auditorías tiene un registro del número de horas que sus computadoras usan para detectar impuestos no pagados. ¿Podríamos combinar esta información con los datos referentes a las horas de trabajo de auditorías de campo y obtener una ecuación de estimación más precisa para los impuestos no pagados descubiertos cada mes? En la siguiente tabla se presentan esos datos correspondientes a los últimos diez meses. En la regresión simple, X es el símbolo utilizado para los valores de la variable independiente. En la regresión múltiple tenemos más de una variable independiente. De modo que debemos continuar usando X, pero debemos añadir un subíndice (por ejemplo X1,X2) para diferenciar las variables independientes que estamos utilizando. En este ejemplo, dejaremos que X1 represente el número de horas de trabajo de auditorías en campo y X2 represente el número de horas en computadora. La variable dependiente, Y, será los impuestos reales no pagados descubiertos.

Mes Horas de trabajo de

auditoría de campo

(x1)

Horas en computadora

(x2)

Impuestos reales no pagados

descubiertos (Yi)

Enero 45 16 29 Febrero 42 14 24 Marzo 44 15 27 Abril 45 13 25 Mayo 43 13 26 Junio 46 14 28 Julio 44 16 30

Agosto 45 16 28 Septiembre 44 15 28

Octubre 43 15 27

Tabla 1.8 Datos de la auditoría del SAT empleados en el ejemplo 1.3

Recordemos que en la regresión simple, la ecuación �6 � � + ���� describe la relación entre dos variables X y Y. En regresión múltiple, debemos extender esa ecuación, agregando un término para cada nueva variable. En forma simbólica, la ecuación (1.28) es la fórmula que podemos utilizar cuando tenemos dos variables independientes

�6 � � + ���� + ����

Page 20: U1 Regresion Actual

20

En la que: �6 = valor estimado correspondiente a la variable dependiente � = Intersección con Y �� y �� = valores de las dos variables independientes �� y �� = pendientes asociadas con �� y ��, respectivamente. Recordemos que visualizamos la ecuación de estimación como una línea recta en una gráfica; así pues, podemos representar una ecuación de regresión múltiple con dos variables independientes como un plano, como el siguiente. Aquí tenemos una forma tridimensional que posee profundidad, longitud y ancho. Para adquirir una idea intuitiva de esta forma tridimensional, visualice la intersección de los ejes Y, X1 y X2 como el rincón de un cuarto. Usaremos los datos de la tabla 1.8 y las siguientes ecuaciones para determinar los valores de las constantes numéricas � , �� y �� El resolver las ecuaciones 1.29, 1.30 y 1.31 para � , �� y �� nos dará los coeficientes del plano de regresión. Obviamente, la mejor manera de calcular

∑ � � �� + �� ∑ �� + �� ∑ �� (1.29) ∑ ��� � � ∑ �� + �� ∑ ��

� + �� ∑ ���� (1.30) ∑ ��� � �' ∑ �� + �� ∑ ���� + �� ∑ ��

� (1.31)

Page 21: U1 Regresion Actual

21

todas las sumas implicadas en estas tres ecuaciones es mediante el uso de una tabla para recoger y organizar la información necesaria, del mismo modo como lo hicimos en la regresión simple. Hemos hecho esto en la siguiente tabla para el problema del SAT

Y (1)

X1

(2) X2 (3)

X1Y (2)x(1)

X2Y (3)x(1)

X1X2

(2)x(3) ��

� (2)2

���

(3)2 Y2

(1)2

29 45 16 1,305 464 720 2,025 256 841 24 42 14 1,008 336 588 1,764 196 576 27 44 15 1,188 405 660 1,936 225 729 25 45 13 1,125 325 585 2,025 169 625 26 43 13 1,118 338 559 1,849 169 676 28 46 14 1,288 392 644 2,116 196 784 30 44 16 1,320 480 704 1,936 256 900 28 45 16 1,260 448 720 2,025 256 784 28 44 15 1,232 420 660 1,936 225 784 27 43 15 1,161 405 645 1,849 225 729

272 441 147 12,005 4,013 6,485 19,461 2,173 7,428 ∑ � ∑ ¡: ∑ ¡? ∑ ¡: D ∑ ¡? D ∑ ¡: ¡? ∑ ¡:

? ∑ ¡?? ∑ D?

Dk � ?>. ?, ¡k: = @@. :, ¡k? = :@. >

Tabla 1.9 Datos de 15 condominios para el ejemplo 1.4

Ahora, utilizando la información de la tabla anterior en las ecuaciones 1.29, 1.30 y 1.31, obtenemos tres ecuaciones con tres constantes desconocidas (� , �� y ���:

272 = 10� + 441�� + 147�� 12,005 = 441� + 19,461�� + 6,485�� 4,013 = 147� + 6,485�� + 2,173��

Cuando resolvemos estas tres ecuaciones de manera simultánea obtenemos: � = −13.828, �� = 0.564 y �� = 1.099 Sustituimos estos valores en la ecuación de regresión de dos variables, obtenemos una ecuación que describe la relación entre el número de horas de trabajo de auditorías de campo, el número de horas de computación y los impuestos no pagados descubiertos por el departamento de auditorías: �6 = � + ���� + ����

= -13.828 + 0.564�� + 1.099��

Page 22: U1 Regresion Actual

22

El departamento de auditorías puede utilizar esta ecuación mensualmente para estimar la cantidad de impuestos no pagados que va a descubrir. Supongamos que el SAT desea aumentar la cantidad de sus descubrimientos de impuestos no pagados durante el siguiente mes. Como los auditores entrenados son escasos, el SAT no tiene la intención de contratar personal adicional. El número de horas de trabajo en auditorías de campo, entonces, permanecerá en el nivel de octubre, alrededor de 4,300 horas. Pero con el fin de aumentar sus hallazgos de impuestos no pagados, el SAT espera aumentar el número de horas en computadora a aproximadamente 1,600. Como consecuencia de lo anterior: �� � 43 � 4,300 horas de trabajo en auditorías de campo �� = 16 � 1,600 horas de tiempo en computadora Sustituimos estos valores en la ecuación de regresión para el departamento de auditorías, obtenemos:

= -13.828 + 0.564�� + 1.099�� = -13.828 + (0.564)(43) +(1.099)(16) = -13.828 + 24.252 + 17.584 = 28.008 �descubrimientos estimados en $28’008,000

Por consiguiente, en el pronóstico para noviembre, el departamento de auditorías espera encontrar una evasión de impuestos de aproximadamente 28 millones de dólares, para esta combinación de factores. Hasta este punto nos hemos referido a � como la intersección con Y y a �� y �� como las pendientes del plano de regresión múltiple. Pero, para ser más precisos, deberíamos decir que estas constantes numéricas son los coeficientes de regresión estimados. La constante � es el valor de �6 (en este caso, la estimación de los impuestos no pagados) si tanto X1 y X2 tienen valor cero. Los coeficientes �� y �� describen cómo los cambios en X1 y X2 afectan el valor de �6. En el ejemplo del SAT, podemos dejar constante el número de horas de trabajo de auditoría de campo, X1, y cambiar el número de horas en computadora, X2. Cuando hacemos esto, el valor de �6 aumenta en $1’099,000 por cada 100 horas adicionales de tiempo en computadora. Del mismo modo, podemos fijar X2 y encontrar que por cada aumento adicional de 100 horas en el número de horas de trabajo de auditorías de campo, �6 aumenta en $564,000. Como vemos, cada variable independiente puede ser responsable por algo de la variabilidad de la variable dependiente.

Page 23: U1 Regresion Actual

23

En resumen, la regresión múltiple es sólo una técnica para usar varias variables independientes para construir una mejor ecuación de predicción. LA REGRESIÓN MÚLTIPLE En la sección inicial y hasta donde vamos de la presente, hemos visto problemas simplificados y muestras de tamaño pequeño. Después del ejemplo anterior, probablemente hayamos concluido que no nos interesa la regresión si tenemos que realizar los cálculos a mano. De hecho, conforme aumenta el tamaño de las muestras y el número de variables independientes de la regresión se hace mayor, rápidamente se vuelve impracticable hacer los cálculos, incluso con la ayuda de una calculadora de bolsillo. Sin embargo, como profesionistas, tendremos que tratar con problemas complejos que requieren muestras más grandes y variables independientes adicionales. Para ayudarnos a resolver estos problemas más detallados, utilizaremos una computadora, lo cual nos permitirá efectuar un gran número de cálculos en un período muy pequeño. Para demostrar cómo una computadora maneja el análisis de regresión múltiple, tomemos el problema del SAT de la sección anterior. Supongamos que el departamento de auditorías agrega a su modelo la información correspondiente a las recompensas pagadas a los informantes. El SAT desea incluir esta tercera variable independiente, X3, debido a que siente que es verdad que existe una cierta relación entre estos pagos y la evasión de impuestos descubierta.

Mes Horas de trabajo de

auditoría de campo

(x1)

Horas en computadora

(x2)

Recompensa a

informantes (X3)

Impuestos reales no pagados

descubiertos (Yi)

Enero 45 16 71 29 Febrero 42 14 70 24 Marzo 44 15 72 27 Abril 45 13 71 25 Mayo 43 13 75 26 Junio 46 14 74 28 Julio 44 16 76 30

Agosto 45 16 69 28 Septiembre 44 15 74 28

Octubre 43 15 73 27

Tabla 2.0 Datos de la auditoría del SAT empleados en el ejemplo 1.3

Page 24: U1 Regresion Actual

24

En la tabla 2.0 se recogió la información correspondiente a los últimos diez meses. Para resolver este problema, el departamento de auditorías ha utilizado el procedimiento de regresión múltiple del paquete estadístico Minitab. Desde luego que todavía no sabemos cómo interpretar la solución proporcionada por el paquete, pero como veremos más adelante, la mayoría de los números que se dan en la solución corresponden bastante bien a los que hemos analizado en el contexto de regresión simple. Una vez que todos los datos se han capturado en la computadora y se han elegido las variables independiente y dependiente, el programa Minitab calcula los coeficientes de regresión y varias estadísticas asociadas con la ecuación de regresión. Miremos lo que se obtiene para el problema del SAT y veamos que significan los números producidos. La primera parte del informe se da en la siguiente figura. Como podemos ver, Minitab muestra explícitamente la ecuación de estimación, así como también da una tabla con los coeficientes. Por lo tanto, podemos leer la ecuación de estimación como:

�6 � � + ���� + ���� + �$�$ = -45.796 + 0.597�� + 1.177��+ 0.405�$

Podemos interpretar esta ecuación del mismo modo en que interpretamos la ecuación de regresión de dos variables en la página 21 de este material. Si mantenemos constante el número de horas de trabajo en auditorías de campo, X1, y el número de horas en computadora, X2, y cambiamos la recompensa a informantes, X3, entonces el valor de �6 aumentará $405,000 por cada $1,000 pagados a los informantes. De manera parecida, dejando constantes X1 y X3, vemos que cada 100 horas adicionales de tiempo de computadora empleadas �6 se incrementará en $1’177,000. Finalmente, si X2 y X3 se mantienen fijas, estimamos que un gasto adicional de 100 horas en las auditorías de campo descubrirá una evasión de impuestos adicional de $597,000.

The regression equation is Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2) + 0.405 Recompensa (x3) Predictor Coef SE Coef T P Constant -45.796 4.878 -9.39 0.000 Auditoria (x1) 0.59697 0.08112 7.36 0.000 Compu (x2) 1.17684 0.08407 14.00 0.000 Recompensa (x3) 0.40511 0.04223 9.59 0.000

Page 25: U1 Regresion Actual

25

Supongamos que en noviembre el SAT intenta dejar las horas de trabajo en auditorías de campo y las horas en computadora en sus niveles de octubre (4,300 y 1,500), pero decide aumentar las recompensas pagadas a los informantes a $75,000. ¿Cuánto de impuestos no pagados esperan descubrir en noviembre? Sustituyendo estos valores en la ecuación de regresión estimada, obtenemos: �6 = - 45.796 + 0.597�� + 1.177�� + 0.405�$

= - 45.796 + 0.597(43) + 1.177(15) + 0.405(75) = - 45.796 + 25.671 + 17.6556 + 30.375 = 27.905 �descubrimientos estimados, $27’905,000

De modo que el departamento de auditorías espera descubrir aproximadamente $28 millones de evasión de impuestos en noviembre. Una medida de dispersión, el error estándar de la estimación de la regresión múltiple, el cuál es denotado en Minitab por la letra S y es mostrado inmediatamente después de la primera parte del informe, como vemos a continuación:

S = 0.286128 R-Sq = 98.3% R-Sq(adj) = 97.5%

Recordemos que la estimación se hace más precisa conforme el grado de dispersión alrededor del plano de regresión múltiple se hace más pequeño. Por lo tanto considerando el informe de Minitab, podemos ver que la estimación de los impuestos descubiertos se desvía en $286,000. En la misma línea en la que Minitab muestra el error estándar de la estimación, se encuentran los coeficientes de determinación múltiple así como el coeficiente de determinación múltiple ajustado. Al igual que en regresión simple, en regresión múltiple el coeficiente de determinación representa la proporción de la variabilidad total de Y pero aquí, dicha variabilidad es explicada por el plano de regresión. Por lo tanto, podemos decir 98.3% de la variación total de impuestos no pagados descubiertos se explica por las tres variables independientes. Para la regresión de dos variables que efectuamos anteriormente, R2 es solamente 0.7289, así que 72.89% de la variación se explica por las horas de trabajo de auditoría de campo y las horas en computadora. El agregar las recompensas a los informantes explica otro 25.45% de la variación. Si deseamos saber el porcentaje en el que las variables están relacionadas debemos calcular el coeficiente de correlación, para lo cual sacamos raíz cuadrada al coeficiente de determinación R2, para este caso en particular tenemos

Page 26: U1 Regresion Actual

26

que p � √p� � √. 983 = .991; como vemos, la relación entre las variables es intensa, pues es del 99.1%.

1.2.1 PRUEBA DE HIPÓTESIS EN REGRESIÓN LINEAL MULTI PLE Al inicio de este material, notamos que la línea de regresión de muestra �6 = �' +��� (ecuación 1.9), estimaba la línea de regresión de la población, � = + ��. La razón por la cual solamente podíamos estimar la línea de regresión de población en lugar de encontrarla exactamente era que los puntos de dato no caen exactamente en la línea de regresión de la población. Debido a las perturbaciones aleatorias, los puntos de dato satisfacían � = + �� + � (ecuación 1.1) más que a � = + ��. Exactamente el mismo tipo de situación se tiene en la regresión múltiple. Nuestro plano de regresión estimado: Es una estimación de un plano de regresión de población verdadero pero desconocido de la forma: De nuevo, los puntos de dato individuales normalmente no caen con exactitud en el plano de regresión de población. Consideremos el problema del SAT para ver cómo es esto. No todos los pagos a los informantes serán igualmente efectivos. Algunas de las horas en computadora podrían ser utilizadas para recolectar y organizar datos; otras podrían ser utilizadas para analizar tales datos en búsqueda de errores y fraudes. El éxito de la computadora en descubrir impuestos no pagados puede depender de cuánto tiempo se dedique a cada una de estas actividades. Por éstas y otras razones, algunos de los puntos de dato se encontrarán por encima del plano de regresión y algunos estarán por debajo de éste. En esta sección haremos inferencias acerca de las pendientes (�, �, … , ¤� de la ecuación de regresión “verdadera” (la que se aplica a la población completa) basadas en las pendientes (��, ��, … , �¤� de la ecuación de regresión estimada a partir de la muestra de puntos de dato.

�6 = � + ���� + ���� + ⋯ + �¤�¤ (1.28)

� = + ��� + ��� + ⋯ + ¤�¤ (1.27a)

Page 27: U1 Regresion Actual

27

INFERENCIAS ACERCA DE LA REGRESIÓN COMO UN TODO (PR UEBA GLOBAL) En la regresión lineal simple se usaron las pruebas t y F, las que llevaban a la misma conclusión; es decir, si se rechaza la hipótesis nula, se concluye que b1 ≠ 0. En la regresión múltiple, la prueba t y F tienen propósitos diferentes.

1. La prueba F se usa para determinar si existe una relación de significancia entre la variable dependiente y el conjunto de todas las variables independientes; a esta prueba F se le llama prueba de significancia global.

2. Si la prueba F indica que hay significancia global, se usa la prueba t para ver si cada una de las variables individuales es significativa. Para cada una de las variables independientes del modelo se realiza una prueba t. A cada una de estas pruebas t se les conoce como pruebas de significancia individual.

El modelo de regresión múltiple que se definió al inicio de esta sección es:

� � + ��� + ��� + ⋯ + ¤�¤ + ¦ La hipótesis de la prueba F comprende los parámetros del modelo de regresión múltiple. P : � = � = ⋯ = ¤ = 0 P�: ¨�© © �á� ª7 «©� ¬��á�7V�©� 7� ª��V��V© ª7 ­7�© Cuando se rechaza la hipótesis nula, la prueba proporciona evidencia estadística suficiente para concluir que uno o más de los parámetros no es igual a cero y que la relación global entre Y y el conjunto de variables independientes X1, X2,…,Xk es significativa. En la sección 1.1.1.2 de este material, nos fijamos en tres términos diferentes, cada uno de los cuales es una suma de cuadrados. Los denotamos como: STC = suma total de cuadrados = ∑�� − ���� SCR = suma de cuadrados debido a la regresión = ∑��6 − ���� SCE = suma de cuadrados debido al error = ∑�� − �6�� Así tenemos que STC=SCR+SCE. Cada una de estas sumas de cuadrados tiene un número asociado de grados de libertad.

Page 28: U1 Regresion Actual

28

STC tiene n-1 grados de libertad (n observaciones, pero perdimos un grado de libertad debido a que la variable de la muestra está fija). SCR tiene k grados de libertad, debido a que existen k variables independientes que se utilizaron para explicar Y. SCE tiene n-k-1 grados de libertad, porque utilizamos nuestras n observaciones para estimar k+1 constantes b0, b1, b2,…,bk. Por otro lado, un cuadrado medio es una suma de cuadrados dividida entre sus correspondientes grados de libertad. Por lo tanto, el cuadrado medio debido a la regresión (CMR) es SCR/k y el cuadrado medio debido al error (CME) es SCE/(n-k-1). El siguiente informe de Minitab corresponde al problema del SAT; dicho informe se encuentra inmediatamente después del análisis de regresión visto anteriormente. Aplicaremos la prueba F al problema del SAT. Como se tienen tres variables independientes, las hipótesis se expresan como se mencionó anteriormente: P : � = � = ⋯ = ¤ = 0 P�: ¨�© © �á� ª7 «©� ¬��á�7V�©� 7� ª��V��V© ª7 ­7�© Como podemos ver, en el presente análisis de varianza tenemos que el CMR = 9.7029 y que el CME = 0.0819; así mismo vemos que el estadístico de prueba F tiene un valor de 118.52, el cual, si recordamos de la sección anterior vimos que éste se calcula dividiendo CMR/CME. Ahora usaremos el método del valor crítico para emplear la regla de rechazo y emitir una conclusión. Para determinar dicho valor crítico se procede igual que en la regresión lineal simple, pero lo realizaremos nuevamente aquí. Consideremos la siguiente expresión: ®W�;¤,�(¤(�

CUADRADO MEDIO DEBIDO A LA REGRESIÓN LMp = GHo (1.32)

CUADRADO MEDIO DEBIDO AL ERROR LM� = GHI�(¤(� (1.33)

Analysis of Variance Source DF SS MS F P Regression 3 29.1088 9.7029 118.52 0.000 Residual Error 6 0.4912 0.0819 Total 9 29.6000

Page 29: U1 Regresion Actual

29

Donde: °= nivel de significancia dado k = número de variables independientes = V1 = grados de libertad n-k-1 = número total de la muestra - número de variables independientes -1 = V2

Suponiendo que el nivel de significancia es del 1%, en las tablas de distribución F buscamos lo siguiente: ®±

_;¤,�(¤(��®².²�_ ;$,-�®'.''&;$,-�:?. w?

La regla de rechazo dice: Rechazar Ho si Fcal ≥ Fα

Como 118.52 > 12.92, se rechaza H´: β� � β� � 0 y se concluye que existe una relación significativa entre los impuestos reales descubiertos no pagados, Y, y las tres variables independientes, auditorías en campo, horas en computadora y recompensa a informantes. INFERENCIAS ACERCA DE UNA PENDIENTE INDIVIDUAL ZE El plano de regresión se deriva de una muestra y no de la población completa. Como resultado de ello, no podemos esperar que la ecuación de regresión verdadera � � + ��� + ��� + ⋯ + ¤�¤ (la que se aplica a la población completa) sea exactamente igual que la ecuación estimada a partir de observaciones de muestra, �6 � �' + ���� + ���� + ⋯ + �¤�¤ . Pero, a pesar de esto, podemos utilizar el valor ��, una de las pendientes que calculamos a partir de la muestra, para probar hipótesis acerca del valor �, una de las pendientes del plano de regresión para la población completa. El procedimiento para probar una hipótesis con respecto a � es parecido al procedimiento analizado en la sección 1 de este material sobre prueba de hipótesis. Para entender este problema regresemos al problema en que se relaciona la evasión de impuestos descubierta con las horas de trabajo en auditorías de campo, horas en computadora y recompensa a informantes. En la

12.92 Fcal= 118.52

Page 30: U1 Regresion Actual

30

The regression equation is Impto real (y) = - 45.8 + 0.597 Auditoria (x1) + 1.18 Compu (x2) + 0.405 Recompensa (x3) Predictor Coef SE Coef T P Constant -45.796 4.878 -9.39 0.000 Auditoria (x1) 0.59697 0.08112 7.36 0.000 Compu (x2) 1.17684 0.08407 14.00 0.000 Recompensa (x3) 0.40511 0.04223 9.59 0.000

página 21 apuntamos que ��= 0.597. El primer paso consiste en hallar algún valor para � y compararlo con ��= 0.597. Supongamos que durante un largo periodo transcurrido, la pendiente de la relación entre Y y X1 fue de 0.400. Para probar si todavía esto es válido, podríamos definir las hipótesis como: P : � = 0.400 � Hipótesis nula P�: � ≠ 0.400 �Hipótesis alternativa

En efecto, estamos probando para saber si los datos actuales indican que � ha cambiado su valor histórico de 0.400. Para encontrar el estadístico de prueba para �, es necesario hallar primero el error estándar del coeficiente de regresión. Aquí, el coeficiente de regresión con el que estamos trabajando es �� de modo que el error estándar de este coeficiente se representa con c� . Resulta demasiado difícil calcular c� a mano, pero,

afortunadamente, el programa Minitab calcula los errores estándar de todos los coeficientes de regresión. Por conveniencia, repetiremos el resultado de Minitab

Del resultado anterior, vemos que c�es 0.08112. (Similarmente si deseamos

probar una hipótesis acerca de �, vemos que el error estándar apropiado que debemos utilizar es c_= 0.0841.) Ya que hemos encontrado c� en el resultado

obtenido con Minitab, podemos usar la ecuación siguiente para estandarizar la pendiente de nuestra ecuación de regresión ajustada:

Así tenemos que, V`ab = c�([�G¶� = '.&%*('.)'''.'+� = ?. @;?

Supongamos que estamos interesados en probar nuestras hipótesis al nivel de significancia de 10%. Como tenemos diez observaciones en nuestra muestra de datos, y tres variables independientes, sabemos que se tienen n-k-1= 10-3-1= 6

ESTADÍSTICO DE PRUEBA V`ab = c�([�G¶� (1.32)

Page 31: U1 Regresion Actual

31

grados de libertad. Buscamos en la tabla de distribución t, en la columna correspondiente al 10% hasta que encontremos el renglón de los 6 grados de libertad. Ahí, notamos que el valor apropiado de t es 1.943. Como nos preocupa si �� (la pendiente del plano de regresión de la muestra) es significativamente diferente de � (la pendiente hipotetizada del plano de regresión de la población), ésta es una prueba de dos extremos, y los valores críticos son -1.943 y +1.943. el estadístico de prueba se encuentra fuera de la región de no rechazo de nuestra prueba, como vemos en la siguiente figura: Por consiguiente, rechazamos la hipótesis nula de que � sigue siendo igual a 0.400. En otras palabras, existe una diferencia significativa (suficientemente grande) entre �� y 0.400 para que podamos concluir que � ha cambiado su valor tradicional. Debido a esto, sentimos que cada 100 horas adicionales de trabajo en auditorías de campo ya no aumentan la cantidad de descubrimientos de impuestos no pagados en $400,000 como lo hacían en el pasado.

-1.943 1.943 V`ab � 2.432

Antes teníamos el 0.400 como un parámetro que nos servia para pensar que si aumentábamos 100 horas a las auditorías de campo seguramente descubriríamos $400,000 de impuestos no pagados, pero como la prueba nos dice que rechacemos el 0.400 como válido, ya no hay un parámetro que nos deje suponer lo anterior, sino que aumentemos lo que aumentemos no

sabremos cuantos impuestos no pagados descubriremos.

Page 32: U1 Regresion Actual

32

De los resultados de Minitab

nivel de significancia (α) de 5% y 6 grados de libertad

1.2.2 INTERVALOS DE CONFIANZA Y PREDICCIÓN EN REGRESIÓN LINEAL MULTIPLE

Además de la prueba de hipótesis, también podemos construir un intervalo de confianza para cualquiera de los valores de �. Del mismo modo que �� es una estimación puntual de � , estos intervalos de confianza son estimaciones de intervalo de �. Para ilustrar el proceso de construcción de un intervalo de confianza, encontremos un intervalo de confianza del 95% para $ en el ejemplo del SAT. Los datos importantes son: VW = 2.447 � Con esta información podemos calcular el intervalo de confianza de la siguiente manera: �$ + VW� c·� = 0.405 + 2.447�0.0422�

= 0.508 �límite superior del intervalo �$ − VW� c·� = 0.405 − 2.447�0.0422�

= 0.302 �límite inferior del intervalo Vemos que podemos estar seguros en 95% de que cada $1,000 adicionales pagados a informantes aumenta el descubrimiento de impuestos no pagados en una cantidad entre $302,000 y $508,000. Al igual que en regresión lineal simple podemos construir intervalos de confianza sobre la respuesta media para el conjunto de condiciones dadas por las variables independientes. Un intervalo de confianza de (1-α)100% para la respuesta media de X1, X2,…,Xk es: Donde: �6�= respuesta media estimada VW �⁄ = valor de la distribución t con n-k-1 grados de libertad �F¸= error estándar de la predicción múltiple

�$ = 0.405 c· = 0.0422

INTERVALO DE CONFIANZA �6� ± VW �⁄ �F¸ (1.33)

Page 33: U1 Regresion Actual

33

Con los datos del ejemplo del SAT, construiremos un intervalo de confianza de 95% para la respuesta media, cuando X1= 42, X2= 13 y X3= 69. Como ya lo mencionamos anteriormente, los cálculos de forma manual en regresión múltiple resultan poco prácticos, por lo tanto seguimos explotando las herramientas del programa Minitab, así que una vez ingresados los valores deseados para cada una de las variables independientes, dicho programa nos arroja el siguiente resultado: Analicemos el informe de Minitab; en primer lugar tenemos la respuesta media estimada, �6�, 22.5279, luego tenemos el error estándar de predicción e inmediatamente después tenemos el intervalo de confianza cuyos límites son: 21.8489 y 23.2068. Notemos también que los datos finales de dicho renglón pertenecen a los límites del intervalo de predicción, en este caso 21.5526 para el límite inferior y 23.5031 para el límite superior. En la parte inferior Minitab nos corrobora los valores asignados a cada variable independiente. Con los resultados anteriores, podemos estar seguros en 95% de que si el SAT asigna cada mes 4,200 horas a las auditoras de campo, 1,300 horas en computadora y $69,000 en recompensas a informantes el descubrimiento de impuestos no pagados en promedio estará entre $21’848,900 y $23’206,800. Si el SAT decide manejar para un solo mes (cualquiera que este fuera), 4,200 horas a las auditoras de campo, 1,300 horas en computadora y $69,000 en recompensas a informantes, el SAT esperaría descubrir entre $21’552,600 y $23’503,100 de impuestos no pagados. Es importante distinguir claramente entre el intervalo de confianza sobre la respuesta media y el intervalo de predicción sobre una respuesta observada. Esta última proporciona una frontera dentro de la cual puede decirse que caerá una respuesta nueva observada.

Predicted Values for New Observations New Obs Fit SE Fit 95% CI 95% PI 1 22.5279 0.2775 (21.8489, 23.2068) (21.5526, 23.5031) Values of Predictors for New Observations Auditoria Compu Recompensa New Obs (x1) (x2) (x3) 1 42.0 13.0 69.0

Page 34: U1 Regresion Actual

34

1.3 REGRESIÓN NO LINEAL El modelo de regresión cuadrática es una alternativa cuando el modelo lineal no logra un coeficiente de determinación apropiado, o cuando el fenómeno en estudio tiene un comportamiento que puede considerarse como parabólico. La forma más simple de tratar de establecer la tendencia es a través de un diagrama de dispersión o nube de puntos, tal como la siguiente:

3025201510

4.0

3.5

3.0

2.5

2.0

X

Y

Las variables independientes X1, X2,…,X3 empleadas en el modelo lineal no tienen que representar variables independientes diferentes. Por ejemplo, si se sospecha que una variable independiente X afecta la respuesta Y, pero la relación es curvilínea más que lineal, entonces se podría elegir ajustar a un modelo cuadrático: Notación: Y: Variable dependiente ', �, �: Parámetros de la ecuación, que generalmente son desconocidos ¦: Error asociado al modelo

Xk : Valor de la k-ésima observación de la variable independiente �¤�: Término cuyos exponentes suman 2 (en este caso, X2)

Una ecuación de regresión no lineal expresa una relación curvilínea entre una variable de respuesta Y y dos o más variables de predicción (x1, x2, x3,…,xk), en las que una de ellas está elevada al cuadrado. La forma general de una ecuación de regresión no lineal es:

� = ' + ��� + ���� + ¦ (1.34) Por lo tanto la forma general de una ecuación de regresión no lineal ESTIMADA es

�6 = � + ���� + ����� (1.35)

Figura 1.6 diagrama de dispersión del ejemplo 1.4

Page 35: U1 Regresion Actual

35

Las siguientes fórmulas nos permiten calcular de forma manual los coeficientes de la ecuación de regresión no lineal estimada: Para facilitar un poco el cálculo de las fórmulas anteriores, se construye la siguiente tabla de datos:

X Y X2 X3 X4 X*Y X2*Y Y2 ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ⁞ ƩX ƩY ƩX2

ƩX3 ƩX4 ƩX*Y ƩX2Y ƩY2

Tabla 2.1 Organización de datos para cálculo de �<, �:, �?

Ejemplo 1.4 En un estudio de variables que afecta la productividad en el comercio de comestibles al menudeo, Erick Moreno usa valor agregado por hora de trabajo para medir la productividad de tiendas de comestibles al menudeo. Él define “valor agregado” como “el excedente (dinero generado por el negocio) disponible para pagar empleados, mobiliario y enseres y equipo”. Los datos consistentes con la relación entre valor agregado por hora de trabajo Y y el tamaño X de una tienda de comestibles descrita en el artículo de Moreno, se muestran en la tabla 2.1 para 10 tiendas de alimentos ficticias. Escoja un modelo para relacionar Y con X.

�: = ¹∑ �� − �∑ ���∑ ��� º ∗ ¹∑ �) − �∑ ����� º − ¹∑ ��� − �∑ ����∑ ��� º ∗ ¹∑ �$ − �∑ ����∑ ��� º¹∑ �� − �∑ ���� º ∗ ¹∑ �) − �∑ ����� º − �¼∑ �$ − �∑ ����∑ ��� º� ¼

�? = ¹∑ �� − �∑ ���� º ∗ ¹¼∑ ��� − �∑ ����∑ ��� º − ¹∑ �$ − �∑ ����∑ ��� º ∗ ¹∑ �� − �∑ ���∑ ��� º¼¹∑ �� − ¼�∑ ���� º¼ ∗ ¹¼∑ �) − �∑ ����� º −¼ �¼∑ �$ − �∑ ����∑ ��� º� ¼

�< = ∑ � − �� ∗ ∑ � − �� ∗ ∑ ���

(1.36)

(1.37)

(1.38)

Page 36: U1 Regresion Actual

36

Tienda Valor agregado por hora de trabajo

(Y)

Tamaño de tienda (miles de pies cuadrados)

(X) 1 4.08 21.0 2 3.40 12.0 3 3.51 25.2 4 3.09 10.4 5 2.92 30.9 6 1.94 6.8 7 4.11 19.6 8 3.16 14.5 9 3.75 25.0 10 3.60 19.1

Tabla 2.1 Datos ficticios de diez tiendas de alimentos

Podemos investigar la relación entre Y y X al observar el diagrama de puntos de la figura 1.6, el cuál insertamos nuevamente aquí:

3025201510

4.0

3.5

3.0

2.5

2.0

X

Y

Esta gráfica siguiere que la productividad, Y, aumenta cuando el tamaño de la tienda de comestibles, X, aumenta hasta alcanzar un tamaño óptimo. Arriba de ese tamaño, la productividad tiende a disminuir. La relación parece ser curvilínea y un modelo cuadrático, ���� � ' + ��� + ���

� puede ser apropiado. Recordemos que, al elegir usar este modelo, no estamos diciendo que la verdadera relación sea cuadrática, sino sólo que puede dar estimaciones y predicciones más precisas que, por ejemplo, un modelo lineal. Para ajustar este tipo de modelo podemos proceder manualmente usando las fórmulas (1.36),(1.37) y (1.38), o por medio del programa estadístico Minitab,

Page 37: U1 Regresion Actual

37

como haremos en este material. Una vez capturados los datos en el programa obtenemos el siguiente informe: De la salida anterior de Minitab, podemos ver que la ecuación de regresión es:

�6 � �0.1594 + 0.3919�� − 0.009495��� La gráfica de esta ecuación cuadrática junto con los puntos de datos se muestran en la figura 1.7:

3025201510

4.0

3.5

3.0

2.5

2.0

X

Y

S 0.250298

R-Sq 87.9%

R-Sq(adj) 84.5%

Fitted Line PlotY = - 0.1594 + 0.3919 X

- 0.009495 X**2

Para evaluar lo adecuado del modelo cuadrático, podemos realizar una prueba de hipótesis global, como la siguiente:

The regression equation is Y = - 0.1594 + 0.3919 X - 0.009495 X**2 S = 0.250298 R-Sq = 87.9% R-Sq(adj) = 84.5% Analysis of Variance Source DF SS MS F P Regression 2 3.19889 1.59945 25.53 0.001 Error 7 0.43855 0.06265 Total 9 3.63744 Sequential Analysis of Variance Source DF SS F P Linear 1 0.80032 2.26 0.171 Quadratic 1 2.39858 38.29 0.000

Figura 1.7 Recta de regresión cuadrática ajustada para el ejemplo 1.4

Page 38: U1 Regresion Actual

38

Establecemos las hipótesis: P : � � � � 0 P�: ½� ��� � �©� 0 Con un nivel de significancia de 5% y procediendo por el método del valor crítico tenemos que ®±

_;¾�,¾_� ®'.'�&;�,* � =. v@.

Recordemos que el estadístico de contraste está dado por x ab � HuoHuI

� �.&%%)&'.'-�-&

?;. v; Rechazamos la hipótesis nula; en consecuencia, el ajuste total del modelo es altamente significativo. Por otro lado, vemos que el coeficiente de determinación, R2, muestra un ajuste de la línea a los puntos en 87.9% y si calculamos el coeficiente de correlación, R, éste nos dice que la relación entre las variables es de un 93.7%, por todo esto podemos concluir que la productividad en el comercio de los comestibles al menudeo está altamente relacionado con el tamaño de la tienda.

6.54 Fcal 23.53

Page 39: U1 Regresion Actual

39

BIBLIOGRAFÍA: Levin, Richard I. y Rubin S. David. Estadística para administradores. Prentice-Hall Hispanoamérica, 1996. Anderson, David R., Sweeney Dennis J. y Williams Thomas A. Estadística para administración y economía. Cengage Learning Editores, 2008. Mendenhall, William, Beaver, Robert J. y Barbara M. Introducción a la probabilidad y estadística. Cengage Learning Editores, 2010