30
1 Análisis de Regresión y Correlación Simple en Eviews “Una simple estimación” Jeferson Ruiz. [email protected] Resumen En el presente documento se estima un sencillo modelo de regresión lineal simple en el paquete econométrico Eviews versión 6. Los datos del modelo estimado provienen del libro de Estadística Aplicada para Economía de Allan Webster. Se estudia la correlación de dos variables para una empresa de servicios aéreos (publicidad y pasajeros). El objetivo de estimar este modelo en Eviews es para demostrar que este paquete informático, a pesar de ser solamente para modelos lineales, también se puede obtener otros estadísticos de pruebas importantes para la confiabilidad del modelo en estudio. También, pretendo dar a conocer una serie de comandos que he creado para mi propia programación en este paquete. Palabras Claves: (Estimación, Modelo, Vector, Escalar, Comando, Intervalo, Estadístico, Regresión, Línea Aérea Hop-Scotch). Clasificación: (Prácticas de Econometría UCA). Introducción De todas las técnicas estadísticas que se aprenden en un curso corriente, ninguna es más importante que el análisis de regresión y correlación. Muchos estudios empíricos dependen en máximo grado de esta herramienta estadística, que acaso sean las formas de análisis estadístico mas utilizadas y que adquieren un valor incalculable en el momento de tomar gran número de decisiones empresariales y económicas. La regresión y la correlación son vitales para determinar la naturaleza de la relación entre distintas

Análisis de Regresión y Correlación

Embed Size (px)

DESCRIPTION

es una práctica de analisis de regresion en eviews de una manera sencilla y didactiva, se incluyen comandas y metodologias para el uso de eviews y contrastes de teoria econométrica

Citation preview

Page 1: Análisis de Regresión y Correlación

1

Análisis de Regresión y Correlación Simple en Eviews“Una simple estimación”

Jeferson [email protected]

Resumen

En el presente documento se estima un sencillo modelo de regresión lineal simple en el paquete econométrico Eviews versión 6. Los datos del modelo estimado provienen del libro de Estadística Aplicada para Economía de Allan Webster. Se estudia la correlación de dos variables para una empresa de servicios aéreos (publicidad y pasajeros). El objetivo de estimar este modelo en Eviews es para demostrar que este paquete informático, a pesar de ser solamente para modelos lineales, también se puede obtener otros estadísticos de pruebas importantes para la confiabilidad del modelo en estudio. También, pretendo dar a conocer una serie de comandos que he creado para mi propia programación en este paquete.

Palabras Claves: (Estimación, Modelo, Vector, Escalar, Comando, Intervalo, Estadístico, Regresión, Línea Aérea Hop-Scotch).

Clasificación: (Prácticas de Econometría UCA).

Introducción

De todas las técnicas estadísticas que se aprenden en un curso corriente, ninguna es más importante que el análisis de regresión y correlación. Muchos estudios empíricos dependen en máximo grado de esta herramienta estadística, que acaso sean las formas de análisis estadístico mas utilizadas y que adquieren un valor incalculable en el momento de tomar gran número de decisiones empresariales y económicas. La regresión y la correlación son vitales para determinar la naturaleza de la relación entre distintas variables con las cuales trabajan a diario quienes toman decisiones. Es difícil exagerar la importancia del análisis de regresión y correlación y la variedad y extensión de sus aplicaciones en la resolución de problemas y toma de decisiones. El análisis de regresión y correlación reconoce que puede haber una relación determinable y cuantificable entre dos o más variables. Es decir, una variable dependiente y otra que puede estar determinada por ésta; o bien podemos decir que una variable es función de otra: Y = f(X).

Page 2: Análisis de Regresión y Correlación

2

Datos para el Modelo de Regresión de la línea aérea Hop-Scotch

obs publicidad(X) pasajeros(Y)1 10 152 12 173 8 134 17 235 10 166 15 217 10 148 14 209 19 24

10 10 1711 11 1612 13 1813 16 2314 10 1515 12 16

Donde obs: son los meses en estudio.Publicidad: se da en miles de dólares Pasajeros: se da en miles.

El modelo a estimar es: Y=βo+β1 X 1+e Pero antes recordemos que no contamos con toda la muestra poblacional y, por tanto, haremos una simplificación de la realidad. Para ello planteamos nuevamente el modelo en su forma estocástica:

Y= β o+ β1 X 1+ e

Donde el gorro significa estimación muestral y “e” el término de perturbación estocástica. Una vez obtenido los datos y planteado el modelo en Eviews, nuestro workfile, se presenta de la siguiente manera:

Page 3: Análisis de Regresión y Correlación

3

Donde nos refleja el rango y la muestra de 15 observaciones en estudio (Range, Sample). Y mas abajo nos muestra las variables que estamos sometiendo en estudio. Por último, el nombre en la pestaña de abajo Hop-Scotch, con el cual nombramos nuestro workfile al momento de declarar la serie.

Ahora corremos la regresión. Para ello escribimos en la ventana de comandos: ls pasajeros c publicidad

(Seguido de enter)

Como podemos observar, después de dar enter, nos aparece una ventana con la respectiva regresión, así como también, distintos estadísticos descriptivos. Por tanto, nuestro modelo lineal es: PASAJEROS = 4.3862536302 + 1.08131655373*PUBLICIDAD

Interpretación y predicción: recordemos que el coeficiente β1, significa cuánto variará Y por cada variación de la variable X. En nuestro caso β1=1.08, por cada 1000 dólares adicionales que la línea aérea gaste en publicidad 1080 pasajeros más elegirán volar en Hop-Scotch. Sin embargo, el modelo nos dice que si se gastan, por ejemplo, 10000 dólares en publicidad (X=10) se tendrá:

Y=4.40+1.08∗(10) = 15.2

Si se multiplica 15.2 por 1000, predecimos a partir de nuestro modelo que 15200 valientes elegirán volar en Hop-Scotch cuando ésta gaste 10000 dólares en publicidad. La simple operación aritmética que realizamos para la predicción, la podemos escribir en Eviews en el área de comandos. Sin embargo, dado que Eviews no es un programa de salidas estadísticas ni tan matemáticas, para realizar esta operación, tenemos que

Esta es nuestra área de comandos

Salida de regresión

Page 4: Análisis de Regresión y Correlación

4

generar un vector columna para toda la muestra. Para esto escribimos en el área de comandos:

genr prediccion1=(4.5+1.08*(10))

Damos enter y, en el área de workfile, nos aparece un fichero con el nombre “prediccion1”, lo abrimos y tenemos el vector:

El comando genr es para generar alguna variable, vectores, escalares u otras cosas. En nuestro ejemplo generamos un vector con el nombre “prediccion1”.

Para hacer una segunda predicción, planteemos la idea que se decide gastar 1000 dólares más en publicidad (X=11), la estimación de los pasajeros totales se convierte en:

Y = 4.40 + 1.08*(11)=16.27 o 16270.

Para hacerlo en Eviews repetimos de nuevo los pasos de la prediccion1 y, escribimos en el área de comandos:

genr prediccion2=(4.5+1.08*(11))

Nuevamente se nos generó un fichero en el workfile, lo abrimos y obtenemos el siguiente vector columna:

Page 5: Análisis de Regresión y Correlación

5

Interpretación: Si X se incrementa de 10 a 11, el número de pasajeros predichos es de 16270, es decir, 1080 mas que los 15200 pasajeros predichos si X=10. Esta información es útil para determinar si está justificado un aumento del presupuesto de publicidad. Como puede verse, una de las aplicaciones del modelo de regresión lineal es predecir, prever o proyectar el valor de la variable dependiente. Dada cualquier cantidad del presupuesto de publicidad de Hop-Scotch, es fácil hacer una estimación del número de pasajeros que volarán con esta empresa.

La recta de Regresión y el Error Típico de Estimación.

La recta de regresión se suele llamar también, recta de ajuste óptimo. Es la que se ajusta o acomoda a la relación entre X y Y mejor que ninguna otra recta. Pero precisamente porque suministra el mejor ajuste, aunque no hay ninguna garantía de que sea buena. Existen dos mediadas de bondad de ajuste 1) el error típico de estimación y 2) el coeficiente de determinación. Analizaremos después la técnica de bondad de ajuste. Ahora nos quedaremos con la segunda medida. Pero antes, estimamos la recta de regresión en una grafica. Para ello nos vamos a la ventana de Quick / Graph…

Se nos aparece la siguiente ventana, en la cual, tenemos que escoger las variables que vamos a graficar. En lo único que hay que tener cuidado acá es en ubicar los ejes coordenados. Al realizar esta acción, Eviews, va a reconocer la primer variable introducida como en eje de las abscisas (X) y la segunda variable introducida la reconocerá como el eje de las coordenadas (Y). En nuestro estudio, recordemos que pasajeros está en función de publicidad. Por tanto, nuestro eje X será publicidad y nuestro eje Y será pasajeros.

Page 6: Análisis de Regresión y Correlación

6

Hacemos clic en OK y, nos aparece una nueva ventana:

Esta ventana es el Menú de los Gráficos en Eviews. En nuestro caso haremos un diagrama de dispersión con su respectiva recta de regresión. Entonces, seleccionamos Scatter, luego nos vamos y hacemo clic en Options y nos aparece una ventanita con el nombre “Add Element”, donde seleccionaremos la opción “Regression Line”. Normalmente ya aparece seleccionada por defecto, pero por si acaso no es así, lo confirmamos. Damos “Aceptar” en “Add Element” y nos aparece una nueva ventana:

Page 7: Análisis de Regresión y Correlación

7

Donde Eviews nos pregunta si deseamos que nuestra recta de regresión sea a escala logarítmica, inversa u otro tipo. Pero en nuestro caso no es necesario seleccionar ninguna opción ya que por defecto aparece seleccionada en “None”. Damos clic en Ok y lo mismo en la ventana inicial para obtener nuestro gráfico final:

(Te quedará como tarea hacer un análisis de gráfico).

El error típico de la estimación es bastante similar a la desviación típica de una sólo variable. En el análisis de regresión tenemos dos variables X y Y. El error típico de estimación es una medida de la dispersión de los valores de Y en torno a su media, para cualquier valor específico de X. La regla empírica establece que si los datos siguen una distribución normal, un intervalo que abarque una desviación típica por encima de la media y una desviación típica por debajo

Page 8: Análisis de Regresión y Correlación

8

de la media comprenderá el 68.3% de todas las observaciones; un intervalo de dos desviaciones típicas a cada lado de la media contendrá el 95.5% de las observaciones y tres desviaciones típicas a cada lado de la media englobarán el 99.7% de las observaciones. Recordemos que el valor de 15.2 es la estimación del valor medio que obtendríamos para Y si pusiéramos X igual a 10 muchas veces. Para ilustrar el significado del error típico de la estimación, localicemos los puntos que están en el error típico. Pero ¿cómo obtenemos el error típico? Sencillo, en la salida de regresión que nos arroja Eviews la obtenemos con el nombre: “S.E of regression” (que normalmente conocemos este estadístico en el nombre de “Suma de Errores de la Regresión”) reproducimos por conveniencia la salida y, donde aparece sombreado, es justo lo que buscamos.

Matemáticamente, realizamos esta función a través de una simple operación aritmética. Ya tenemos el valor buscado, el cual lo denotaremos con la letra: “S.E” que será igual a 0.9067. Ahora vamos a localizar los puntos por encima y por debajo del valor medio de 15.2. Estos puntos son: (15.2-0.9067)=14.29 y (15.2+0.9067)=16.11. Nuestro intervalo es: (14.29±16.11). Si por cada uno de estos punto trazáramos rectas paralelas a la de regresión, el 68.3%, aproximadamente de todos los puntos, caerían entre estas rectas y el 31.7% restante de las observaciones estarían fuera de este intervalo. En nuestro caso, el 68.3% de las veces que se gastan 10000 dólares en publicidad, el número de pasajeros estaría entre 14290 y 16110. El 31.7% restante de las veces, el número de pasajeros superaría 16110 o, sería inferior a 14290.

Sobre S.E concluimos que cuanto mas dispersos estén los datos originales, mayor será S.E.

Page 9: Análisis de Regresión y Correlación

9

Coeficiente de determinación.

Para comprender el análisis de correlación habremos de considerar en primer lugar la desviación total de Y. este importante concepto es la cantidad en que los valores individuales de Y varían a partir de su media Y ; es decir, Yi−Y .Si tomamos el mes 13, por ejemplo, los datos de la tabla muestran que 23000 personas volaron en Hop-Scotch (Yi=23). Como el valor medio del número de pasajeros es:

Y=∑Yi

n

La sumatoria total de Y es 268 para las 15 observaciones, si intercambiamos valores tenemos:

¿ 26815

= 17.87

La desviación total de mes decimotercero es 23-17.87= 5.13. La desviación total de entre Yi y Y se puede descomponer en dos tipos. La desviación explicada, es aquella parte de la desviación total que queda explicada por nuestro modelo. Es la cifra entre aquello que nuestro modelo predice, Y y el valor medio de Y; es decir, Y−Y . De esta forma, la desviación explicada mide la cantidad de la diferencia total entre Yie Y , que queda explicada por el modelo de regresión. Como X=16 (publicidad) en el mes decimotercero Y=4.4+1.08 (16 )=21.68 . Por tanto, la desviación explicada es:

Y−Y=21.68−17.87=3.81 .

De esta desviación total de 5.13 del mes decimotercero, nuestro modelo explica 3.81. El resto de la desviación total queda inexplicada. La desviación no explicada es la parte de la desviación total de Yi respecto de Y no explicada por nuestro modelo. Es la desviación adicional a partir de Y que excede de lo que nuestro modelo es capaz de tener en cuenta. Para hallarla hay que calcular la diferencia entre lo que Y era en realidad (Yi) y lo que predijo nuestro modelo (Y ), es decir, Yi−Y . Habremos de reconocer que este es el error que hemos cometido.

Generamos en Eviews un vector columna para obtener la desviación, escribiendo en la ventana de comandos:

genr desviacion = (21.68-17.87)

Nos aparece un nuevo workfile en la ventana: Lo abrimos y observamos un vector columna con la desviación para toda la muestra:

Page 10: Análisis de Regresión y Correlación

10

En nuestro modelo de regresión, el error es únicamente Yi−Y=23−21.68=1.32.

Estamos más cerca del valor real de los pasajeros cuando utilizamos nuestro modelo. Vemos pues que este tiene algo de validez como herramienta explicativa.

En Eviews, realizar estas operaciones aritméticas, es sencillo, siempre y cuando se tenga conocimiento de los comandos, claro está. Lo lamentable es que Eviews no nos da muchas salidas estadísticas, sobre todo cuando es una variable que se toma de manera individual.

La única manera en que Eviews nos da estos resultados, en cuanto a la salida, es como “productos escalares”. Pero ojo, la salida no

se crea como un workfile, a menos de que este sea generado como un vector. Acá no generaremos este vector o llámese workfile puesto que no la necesitaremos.

Para obtener la sumatoria total de Y, escribimos en la barra de comandos:

=@sum(pasajeros)

Y el resultado lo obtenemos en la barra de directorio, como se muestra en la siguiente imagen:

Entrada de comando

Salida de Resultado

Page 11: Análisis de Regresión y Correlación

11

Como podemos observar y, como dije mas arriba, obtenemos el resultado como un producto escalar. Si quisiéramos obtener la media por la rutina aritmética, escribimos el comando:

¿(268/15)

Y el resultado nos aparece de nuevo como un producto escalar, siendo su valor = 17.87, redondeado a dos cifras decimales. Sin embargo, este no es el chiste, la mejor opción es obtener el resultado de la media, de una manera directa. Para ello, escribimos en la ventana de comandos:

=@mean(pasajeros)

Nuevamente esperamos el valor en la barra de directorios, como se muestra en la siguiente figura. No obstante, vamos a generar un vector columna en nuestro workfile ya que lo ocuparemos en posteriores pruebas. Pero antes, ya quedaría a criterio personal si hacer paso a paso la media o de manera directa.

Generamos entonces, el nuevo vector columna con el nombre de desv_explicada. Escribimos en la ventana de comandos:

genr desv_explicada=(268/15)

Nos aparece un nuevo ícono en la ventana de workfile , hacemos doble clic y lo abrimos obteniendo el siguiente vector:

Entrada de comando

Salida

Page 12: Análisis de Regresión y Correlación

12

Para última ilustración, si queremos obtener el error, simplemente escribimos en el área de comandos:

¿(23−21.68)

Y obtenemos el mismo resultado como se muestra en la figura:

Procederemos ahora a estimar el coeficiente de correlación r2 que mide la parte de la desviación total de Y que es explicada por nuestro modelo. En este sentido, es una medida del poder explicativo del modelo de regresión. Son muchos los casos en que necesitamos calcular el coeficiente de correlación, desarrollado por Karl Pearson en el cambio de siglo, se designa con la letra “r” y, no es otra cosa que la raíz cuadrara del coeficiente de determinación:

r=√r2 = √0.93776 = 0.96837.

En la salida de regresión de Eviews, no tenemos este valor 0.96838, como podemos observar en la siguiente figura. Los estadísticos sombreados son el R-cuadrado y el R-cuadrado-ajustado. Por tanto, el r de Pearson tenemos que estimarlo y, ajustarlo a nuestro modelo. Hacer esto es de suma importancia, como veremos más adelante.

El comando que hay que escribir en la ventana de comandos es el siguiente:

Page 13: Análisis de Regresión y Correlación

13

scalar r = @sqr(@r2)

Damos Enter y, en la ventana de workfile, nos tiene que aparecer este ícono , sin embargo, al intentar abrir este fichero, lamento decirles que no se abrirá. La única manera de verlo es haciendo doble clic en el ícono y ver el resultado en la barra de directorio.

El problema de esto estriba en que no generamos un vector, sino más bien lo hicimos como un producto escalar. No es necesario para nuestro estudio generar el vector, ya queda a decisión tuya hacerlo. Lo importante es que ya obtuvimos el estadístico deseado.

Como dije antes, generamos un escalar de r de Pearson. El símbolo @ en Eviews, normalmente se utiliza para obtener distintos estadísticos de pruebas, como el chi-cuadrado, el estadístico F y, otras pruebas que en este documento no estimaremos. Acá lo hemos utilizado para obtener el coeficiente de determinación.

Estimación de Intervalo para la media condicional de Y.

Se trata de una estimación de intervalo para el valor medio de Y con la condición de que X sea igual a 10 muchas veces. Para calcular este intervalo para el valor medio condicional de Y hemos de comenzar por determinar Sy, error típico de la media condicional. El error típico de la media condicional reconoce que utilizamos una muestra para calcular b0 y b1 en la ecuación de regresión. La misión de Sy es tener en cuenta los valores diferentes de b0 y b1que resultan de error de muestreo y, viene determinado por:

Sy=S .E √ 1n+¿¿¿¿

Donde S.E es el error típico de la estimación.´ Xi es el valor dado de la variable dependiente.El intervalo de confianza para la media condicional es entonces:

I .C para μy|x=Y ± tSy

Page 14: Análisis de Regresión y Correlación

14

Donde Y es el estimador puntual hallado a partir de nuestra ecuación de regresión original y el valor de t se basa en un nivel de confianza elegido con n-2 grados de libertad. Hay n-2 g l. Porque tenemos que calcular dos valores, β 0 y β1 a partir de datos muestrales. Por consiguiente, perdemos dos grados de libertad.

El valor de S.E nos lo da la salida de regresión en la ventana de Eviews (0.907) y a X le hemos dado el valor de 10. Entonces, para obtener los otros datos, nos vamos a la ventana de Quick / Group Statistics / Descriptive Statistics / Common sample

Nos aparece una nueva ventana muy parecida a la de graficos, o sea, también acá tenemos que seleccionar la variable, de la cual, necesitamos la media y la suma de desviaciones al cuadrado.

En esta ocasión la variable es publicidad y luego damos Ok y, nos aparece una nueva ventana con distintos estadísticos descriptivos.

En nuestro caso solamente necesitamos la media, y la suma al cuadrado de la desviación. Al sustituir en la fórmula tenemos:

Sy=0.907√ 115 +¿¿¿

¿0.303

Como: Y= β o+ β1 X= 4.4 + 107(10)= 15.2

La fórmula de intervalo:

I .C para μy|x=Y ± tSy

Page 15: Análisis de Regresión y Correlación

15

¿15.2±t (0.303 )

Dado el nivel de confianza del 95% (α = 0.05) y n-2 = 13 grados de libertad. Al consultar la tabla de t en el apéndice de este documento, página 22, da un valor de t = 2.160. Entonces:

I .C μy │x=15.2±(2.160)(0.303)

¿15.2±0.65

¿14.55<μy │x<15.85

Interpretación: Hop-Scotch puede confiar al 95% en que la media poblacional verdadera de Y se encuentra entre 14550 y 15850 pasajeros en todos aquellos meses en que destinan 10000 dólares en publicidad.

En Eviews podemos calcular este intervalo de confianza de la media condicional. Aunque no parezca tan sencillo. Podríamos obtener un escalar o mejor aun, generar un vector que, es lo que haremos en este caso.

Como primer paso, generaremos un nuevo vector con el nombre “se”, que será el producto de la raíz cuadrada de la formula anterior. Escribimos en la ventana de comandos:

genr se = sqr(1/15+(10-12.47)^2/137.73333)

Como resultado obtenemos un nuevo workfile en la ventana: si lo abrimos, el resultado es 0.333109 que es el resultado de la raíz cuadrada. El segundo paso es generar un nuevo vector con el nombre “sy”. Escribimos en la ventana de comandos:

genr sy=(se*0.907)

Sabemos que el valor de la suma de errores al cuadrado es 0.907, redondeado a tres cifras decimales. Por tanto, acá estamos generando un vector que, multiplicado el resultado de la raíz cuadrada por la S.E de la regresión nos da el vector . Que al abrirlo el resultado es:

Que, redondeado a tres cifras decimales nos queda 0.303. Valla a la página 14 y compruébela por formula. No estimaremos nuevamente la predicción de Y dado que ya la tenemos, “15.2”. Hacemos directamente el intervalo:

I .C para μy|x=Y ± tSy

Escribiendo en la ventana de comandos:

genr intervalo1=(prediccion1+2.160*0.303)

Page 16: Análisis de Regresión y Correlación

16

Recuerde que estamos generando el primer intervalo el cual llamamos “intervalo1”. “prediccion1” es 15.2 y 2.160, son los grados de libertad de 15-2=13 y, 0.303 es el resultado de la raíz cuadrada que estimamos antes. Nuestro nuevo workfile es: De momento no lo abriremos y, pasaremos a generar el segundo intervalo, para ello escribimos en la ventana de comandos:

genr intervalo2 = (prediccion1 - 2.160*0.303)

De igual manera, obtenemos un nuevo workfile: Ahora si los vamos a abrir, pero ojo, primero seleccionamos el intervalo dos, apretando la tecla Ctrl y luego, seleccionamos el intervalo uno, hacemos clic derecho open / as Group

Y como podemos observar ya tenemos nuestro intervalo de confianza para la media condicional en Eviews, tal vez no sea tan sencillo, pero al final, sí lo es. Solamente es cuestión de ir adquiriendo práctica. Podríamos obtener varios intervalos de confianza para μy│x y varios valores de X. Ello nos darían varios I.C. Estos intervalos formarían entonces una banda de confianza completa para μx│ y

Intervalo predictivo para un valor único de Y.

El intervalo de confianza elaborado arriba se refiere al valor medio poblacional de todos los valores de Y cuando X se pone igual a una cantidad dada muchas veces. Peor otras veces podría ser útil construir un intervalo de confianza para un valor único de Y que se obtuviera cuando X se pusiera igual a un valor dado una sola vez. Por ejemplo, Hop-Scotch podría estar interesada el predecir el número real de clientes del mes próximo si gastan 10000 dólares en publicidad. Este planteamiento difiere del problema anterior, en el cual el interés se centraba en el valor medio de Y si X se ponía igual a 10 muchas veces. Nuestro interés se centra ahora en predecir un valor único de Y si X se pone igual a una cantidad dada una sola vez. Es decir, en lugar de intentar predecir la media de muchos valores de Y obtenida con la condición de que X se pusiera igual a 10 muchas veces. Ahora tratamos de predecir un valor único de Y que se obtiene si X se pone igual a 10 una sola vez. Para calcular este intervalo predictivo, hemos de comenzar por calcular el error típico de la predicción Syi (que no se debe de confundir con el error típico de la media condicional, Sy). Este error típico de la predicción tiene en cuenta que los valores individuales están más

Page 17: Análisis de Regresión y Correlación

17

dispersos que las medias. El error típico de la predicción refleja el error muestral inherente al error típico de la media condicional Sy, más la dispersión adicional que ocurre porque tratamos con un valor individual de Y. La fórmula para dicho cálculo es:

Syi=S .E √1+ 1n+¿¿¿¿

El intervalo predictivo para un solo valor de Y, Yx, es entonces:

I .C paraYx=Y ± tSyi

Construyamos ahora un intervalo de confianza del 95% para un solo valor de Y cuando X = 10 y comparémoslo con el intervalo para la media condicional que hemos elaborado antes.

Solución:

Syi=S .E √1+ 115+(10−12.47)2

137.73333

¿0.907√1.1114

¿0.956 .

Sabemos que:

Y=4.4+1.08 (10 )

= 15.2

Obtenemos el intervalo:

I .C paraYx=Y ± tSyi

¿15.2± (2.160 ) (0.956 )

¿15.2±2.065

13.14<Yx<17.27

Interpretación: podemos estar seguros al 95% de que si un solo mes X = 10000 dólares, el valor único resultante de Y, se encontrará entre 13140 y 17270 pasajeros.

En Eviews; lo harás esta vez tu solo(a), no es nada complicado, simplemente vas a utilizar la misma metodología que hicimos para estimar la media condicional.

Contraste de Hipótesis sobre el coeficiente de correlación de la población

Como nuestro coeficiente de correlación r = 0.97 no es cero, los datos muestrales nos llevan a la conclusión de que hay una relación entre X y Y. Pero recordemos que esta conclusión se basa únicamente en n = 15 observaciones. Sin embargo, aunque el coeficiente de correlación

Page 18: Análisis de Regresión y Correlación

18

de la muestra no sea cero, a menudo conviene contrastar la hipótesis de que r poblacional es cero. Nuestra hipótesis sería:

Ho : r=0Ha : r≠0

Se realiza este contraste de hipótesis para determinar si es significativamente diferente de cero. Esta prueba emplea el siguiente estadístico:

t= rSr

Tiene n – 2 grados de libertadSr: es el error típico de la distribución muestral de r y, simboliza que, si se tomaran varias muestras de tamaño 15 obtendríamos diferentes valores de r. Es decir, podemos obtener muchas muestras diferentes de la población cada una con su propio valor de r. Si r = 0, los valores de r estarían distribuidos en torno a r, desde – 1 a + 1.

Sr, se halla por la fórmula:

Sr=√ 1−r2n−2

Elegimos en nivel de confianza, por ejemplo el 95% (α = 0.05), al cual contrastar la hipótesis nula de r = 0. Tal elección nos permite hallar un valor crítico de t en la tabla t. Si contrastamos la hipótesis nula al nivel de confianza de 95%, hallaríamos en la tabla que los valores críticos de t, dados 15 – 2 = 13 grados de libertad, son ± 2.160. Esto significa que si r es igual a cero, el 95% de las muestras de tamaño 15 que se pudieran tomar tendrían datos que darían un valor de t entre – 2.160 y + 2.160. Sólo hay una probabilidad de un 5% de que si r = 0, la muestra diera un valor de t por debajo de – 2.160 o por encima de 2.160. Si al introducir los datos muestrales en la fórmula se obtiene un valor t fuera de este intervalo, se puede estar seguro al 95% de que r ≠0 lo cual indica que hay una relación entre X y Y a nivel poblacional. Por el contrario, si el valor de t esta entre – 2.160 y + 2.160 no se puede rechazar la hipótesis nula de r = 0. A pesar de los resultados muestrales no habría pruebas suficientes para llegar a la conclusión, al nivel de confianza del 95%, de que existiera una relación entre X y Y.

Prueba de Hipótesis.

Intercambiando valores en la fórmula:

Ho : r=0Ha : r≠0

Sr=√ 1−0.9377615−2

¿0.06919

Tenemos:

t= rSr

=0.9683800.06919

Page 19: Análisis de Regresión y Correlación

19

= 13.995

Regla de decisión: no rechazar la hipótesis nula de r = 0 si el valor de t está entre – 2.160 y + 2.160. Rechazar r = 0 si el valor de t es inferior a – 2.160 o superior a 2.160.

Interpretación: como t = 13.995 > 2.160, el gerente de Hop-Scotch puede estar seguro al 95% de que hay una relación entre X y Y. Tiene que rechazar la hipótesis nula de r = 0 y llegar a la conclusión, con la certidumbre del 95% de que existe una relación entre X y Y. Esta prueba se dice que es significativa al nivel del 5%.

Para hacer esto en Eviews, tenemos que generar vectores. El primer paso consiste en generar un vector llamado “sr”. Para ello escribimos en la ventana de comandos:

genr sr = (1-0.93776)

Y tenemos nuestro vector Generamos un nuevo vector llamado “t” Escribimos en la ventana de comandos:

genr t = (0.968380/0.927865)

Y obtenemos el nuevo vector

El siguiente comando es:

genr ratio=(sr/13)

El nuevo vector es

Recuerde que de sr tenemos que obtener la raíz cuadrada del ratio. Escribimos el comando:

genr sr = sqr(ratio)

Por último escribimos el comando:

genr t = (r/sr)

Abrimos nuestro nuevo vector y tenemos el valor crítico de t:

Page 20: Análisis de Regresión y Correlación

20

Ya ven que sencillo es… Nuestro último paso, ahora consiste en estimar un intervalo de confianza para β1.Bajo el supuesto que ya conocemos la teoría adyacente, no perderemos el tiempo y, trabajamos directamente en Eviews.

Contraste de hipótesis para β1:Ho : β1=0Ha : β 1≠0

Como la salida de regresión en Eviews nos da el error estándar de cada parámetro, así como también, su respectivo valor t, no es necesario que lo estimemos en Eviews o bien, manualmente. Inclusive, sin necesidad de una calculadora bien se pueden obtener estos resultados. Por tanto, haremos esto de una manera directa.

Reproducimos la salida de regresión por conveniencia:

El contraste será realizado con el nivel de confianza del 99%, para dar el máximo grado de seguridad al gerente de Hop-Scotch.

Dado nuestro valor t = 13.995 (redondeado a tres cifras decimales) Si α = 0.01, los valores críticos de la tabla t son ± 3.012. (Consulte la tabla t del apéndice, página 22).

Regla de decisión: no rechazar Ho: β1 = 0 si el valor de t se encuentra entre – 3.012 y + 3.012. Rechazar si el valor de t está fuera de este intervalo.

Interpretación: como t = 13.995, rechazamos que Ho: β1 = 0 y concluimos que hay una relación entre X y Y. Sólo hay una probabilidad del 1% de que si β1 = 0 nuestra muestra de un valor de t fuera del intervalo especificado. El valor 13.995 de t nos permite rechazar β1 = 0 con un nivel de confianza del 99%.

Page 21: Análisis de Regresión y Correlación

21

Observación. El valor de 13.995 que hemos obtenido para t en nuestra prueba del coeficiente de regresión Ho: β1 = 0, es idéntico al valor de t que obtuvimos en nuestra prueba del coeficiente de correlación, Ho: r = 0. Esto no es una coincidencia. Ocurre siempre en la regresión simple. Por tanto, si β1 = 0, r tiene que ser cero. Y en consecuencia, la hipótesis nula de Ho: β1 = 0 es equivalente a Ho: r = 0. En la práctica sólo es necesario realizar una de estas pruebas.

Intervalo de Confianza para β1

Como β1 = 1.08 es solo una estimación puntual de β1, podríamos necesitar un intervalo de confianza del coeficiente de regresión poblacional. Se consigue mediante:

I .C para β1=β1± tSβ1

Recuerde que el estadístico t tiene n – 2 grados de libertad.

Solución:

Si elegimos un nivel de confianza del 99% para nuestra prueba, hallaremos:

¿1.08132± (3.012 )(0.07726)¿1.08132±0.023280.849<β 1<1.314

Interpretación: podemos confiar al 99% de confianza en que β1 está entre 0.849 y 1.314, con lo cual indica una relación positiva entre publicidad y número de pasajeros. Y por fin, el gerente de Hop-Scotch esta dispuesto a admitir que hay sin duda una relación entre la publicidad y el número de pasajeros que eligen volar en esta línea aérea.

En Eviews, también, se puede estimar este intervalo de confianza como lo hicimos con la media condicional. Pero esto te quedará de tarea. Te deseo buena suerte, recuerda que no es difícil, es muy sencillo, simplemente vas a utilizar la misma metodología con que estimamos la media condicional.

Si tienes algún problema y gustas consultarme, no dudes en escribirme a mi correo. Ahí estoy siempre y a la orden para ti.

Apéndice.Tablas estadísticas de distribución t

Page 22: Análisis de Regresión y Correlación

22

Page 23: Análisis de Regresión y Correlación

23