Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa

Análisis de Datos Atmosféricos

Regresión lineal 1

Francisco Estrada Porrúa

Contenido1. ¿Qué es el modelo de regresión y cuál es su

propósito?

2. ¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?

3. Pasos en modelación empírica

4. Supuestos de regresión

5. Mínimos cuadrados ordinarios (MCO)

6. Propiedades de los estimadores y supuestos

7. Medidas de bondad de ajuste

8. Evaluación de supuestos

9. Corrección de supuestos

¿Qué es el modelo de regresión y cuál es su propósito?

Yt =a+bXt+ut

Predecir o estimar la media de Y con respecto a X, cuantificar relación entre variables, aprender sobre el proceso

E(Yt | It )=a+bXt (componente sistemático)

en general: E(Yt | It )≠ E(Yt | Ht )≠ E(Yt) Ejemplos

E(Tdf,t)=15ºC; E(Tdf,t | mayo)=18ºC

E(Tdf,t) ≠ E(Tdf,t | ENSO) ≠ E(Tdf,t | ENSO,…)

-.6

-.4

-.2

.0

.2

.4

.6

-.5 -.4 -.3 -.2 -.1 .0 .1 .2 .3 .4

AMO

T g

lobal

a+bXt

-.6

-.4

-.2

.0

.2

.4

1900 1925 1950 1975 2000

AMO

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

T global

Línea de regresión

¿Qué representan los coeficientes de regresión?

¿Qué representan los coeficientes de regresión?

Es decir, representa los efectos de sobre Y dado lo que ya explicaron el resto de las variables independientes incluidas en el modelo

Cada representa el efecto parcial de jXsobre Y

jX

0

5000

10000

15000

20000

25000

30000

35000

0 10000 20000 30000 40000 50000 60000 70000

-.6

-.4

-.2

.0

.2

.4

.6

-.5 -.4 -.3 -.2 -.1 .0 .1 .2 .3 .4

AMO

T g

lobal

¿Qué representa ut? ¿Qué implica ut para el modelo de regresión?

El error aleatorio permite que ante mismos valores de las variables explicativas, el efecto sobre Yt sea variado, de pendiendo de la interacción de otros factores.

Relación determinísticaRelación estocástica

Modelo probabilístico

Yt =a+bXt+ut

μt =a+bXt Componente sistemático

ut Componente aleatorio (no sistemático)

It debe ser tal que ut no tiene información sistemática (ut similar a ruido blanco)

¿Cómo sabemos cual It es el bueno?

-.4

-.2

.0

.2

.4

.6

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000

Residual Actual Fitted

-.4

-.2

.0

.2

.4

.6

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000


-.3

-.2

-.1

.0

.1

.2

.3

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000


-.2

-.1

.0

.1

.2

-.6

-.4

-.2

.0

.2

.4

.6

1900 1925 1950 1975 2000


It=(AMO, SOI) It=(AMO, SOI, SOLAR, VOLCANO)

It=(AMO, SOI, SOLAR, VOLCANO, GHG) It=(AMO, SOI, TRF,…)

Ejemplo: modelos de regresión para T global

Ttμt

ut

¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?

Dos maneras comunes pero inadecuadas

1. Teoría únicamente

¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?

Dos maneras comunes pero inadecuadas

2. Reglas de dedo y maximización de R2

-.4

-.2

.0

.2

.4

-.8

-.4

.0

.4

.8

25 50 75 100 125 150


Pasos en modelación empíricaTeoría

Modelo estimable

Recolección de datos

Estimación del modelo

¿Es el modelo estadísticamente adecuado?

No Sí

Reformular el modelo Interpretación del modelo

Uso del modelo Análisis, pronóstico, etc.

¿T

iene

sen

tido?

Ree

spec

ifica

ción

Recomendaciones para la modelación empírica

Graficar datos es esencial No olvidar que un modelo estadístico es un

conjunto de suposiciones probabilísticas Ningún resultado de inferencia estadística debe

ser utilizado para concluir algo a menos de que se haya establecido que el modelo es estadísticamente adecuado

Ninguna teoría, por sofisticada que sea, puede arreglar o validar un modelos estadístico inadecuado

Un buen modelo empírico debe sintetizar los modelos estadístico y teórico sin que ninguno de los dos quede mal representado

Supuestos del modelo de regresión lineal

Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad

Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0

No multicolinealidad Varianza de variables

(excepto a) es >0 T >k

tttt uXbXbaY ,22,11

tu ~ i.i.d 2,0 N

Supuestos del modelo de regresión lineal

Correcta especificaciónEl componente sistemático propuesto es el

correcto, no hay variables de más ni de menos.

Variables omitidas Variables redundantes

Correcta especificación: el caso de variables omitidas Modelo verdadero: Modelo estimado:Entonces

donde

El coeficiente es insesgado únicamente si y/o son iguales a cero.

recoge parcialmente el efecto de Zt sobre yt.

tttt uZXcy 21

ttt vXbay 1

2,1211 bbE

ttt XbZ 2,1

1b 22,1b

1b

Correcta especificación: el caso de variables redundantes Modelo verdadero: Modelo estimado: tttt uZXcy 21

ttt vXbay 1

1 es insesgado

Pero es mayor. 1var

¿Porqué importa?

1

1ˆ

1ˆ

ˆ

ˆˆ

t Es más fácil aceptar la hipótesis nula 01̂

Forma funcional

Se asume que el modelo de regresión clásico es lineal

Ojo: lineal en los parámetros no en las variables

ttt uxy 2 ttt uxy )log(

ttt uxy 2 tttt uwxy 21

Permanencia estructural Los parámetros de la regresión son

estables y válidos para toda la muestra La relación entre las variables es estable

durante el periodo de muestra

-.4

-.2

.0

.2

.4

.6

0.0

0.5

1.0

1.5

2.0

1900 1925 1950 1975 2000


Normalidad

Los errores de la regresión se distribuyen de manera normalPruebas de hipótesis (t, chi-sq, F…) requieren

normalidad

tu ~ i.i.d 2,0 N

1

1ˆ

1ˆ

ˆ

ˆˆ

t2N

~ t 22

21

~ F t

tu2

~2

Homoscedasticidad La varianza de ut es constante (no cambia

ni con t ni con los valores de Xt)

El coeficiente de regresión sigue siendo insesgado pero no así los errores estándar de los coeficientes.

Estadísticos de prueba ya nos son válidos

No autocorrelación Los errores ut son independientes

ttt vuu 1Autocorrelación de primer orden

Autocorrelación de orden k

t

k

iitit vuu

1

El coeficiente de regresión sigue siendo insesgado.

Los errores estándar y estadísticos de prueba ya nos son válidos

Exogeneidad

ut y Xt son independientes.

tttttt xExuEuExu ),cov(

0 tt xuE

0;0 tttt xuExuE

ttt uxy Implica que xt y ut tienen una influencia separada y aditiva sobre yt. Si xt y ut están correlacionadas no es posible determinar sus efectos individuales sobre yt. Si no se cumple, las estimaciones no son validas.

Los residuales son ortogonales a las variables explicativas y al los valores ajustados de yt (¿por qué?)

¿Por qué no habría exogeneidad?

ttt vzu

ttt uxy 0tt xuE

0tt zxE

ttttt xyEzxyE ,

donde

Ut contiene los efectos de un montón de variables que afectan a yt (pero se supone que no de manera sistemática). En este caso zt si afecta de forma sistemática.

Para resolver este problema se necesita el método de variables instrumentales (no lo vamos a ver)

Multicolinealidad Los regresores no están correlacionados: xt y zt

tienen una influencia separada y aditiva sobre yt . Si xt y zt están correlacionadas no es posible determinar sus efectos individuales sobre yt.

Multicolinealidad perfecta Alguna de las variables incluidas en el modelo es una

combinación lineal de otras variables. No se puede estimar la regresión (X’X no es invertible)

Multicolinealidad imperfecta Las variables explicativas están altamente correlacionadas. X’X es cercana a no ser invertible: problemas numéricos. El

modelo sí se puede estimar pero los errores estándar están inflados y pequeños cambios en la regresión modifican mucho los valores de los coeficientes estimados.

Repaso: Supuestos del modelo de regresión lineal

Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad

Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0

No multicolinealidad Varianza de variables

(excepto a) es >0 T >k

tttt uXbXbaY ,22,11

tu ~ i.i.d 2,0 N

Estimación por Mínimos Cuadrados Ordinarios (MCO o LS)

Mínimos Cuadrados Ordinarios (MCO o LS) Así como para estimar la media y la varianza (por

ejemplo) encontramos estimadores con propiedades deseables, lo mismo vamos a hacer para los coeficientes de regresión.

A los estimadores de los coeficientes de regresión les vamos a pedir que sean: 1) Insesgados 2) Mínima varianza 3) Consistentes

n

XX

n

ii

1

1ˆ 12

n

XXn

ii

1) Insesgado

Las estimaciones que se hagan del parámetro pueden estar muy lejos parámetro real o poblacional pero en promedio obtendremos el valor verdadero

Ê

Ê1̂ 2̂

Insesgado Sesgado

2) Mínima varianza (eficiente)

Entre todos los estimadores insesgados se va a escoger el de mínima varianza

Ê1̂ 2̂

Ê

1̂ 2̂

Consistencia

Un estimador es consistente si según el tamaño de la muestra aumente, más me voy a acercar al verdadero valor del parámetro

ˆlimnp

0

0ˆ

P

Teorema de Gauss-Markov

Dados los supuestos anteriores los estimadores de MCO son de mínima varianza dentro de la clase de estimadores lineales insesgados.MELI (BLUE): Mejores estimadores lineales

insesgados (también son consistentes) Lineal, insesgado y de mínima varianza (eficiente)

Mínimos cuadrados ordinarios

Y

x

(ui)2 ui

Minimizar los errores al cuadrado:

1)No se cancelan positivos y negativos (E(ui)=0)

2)Función de pérdida: MCO penaliza más por errores más grandes que por errores más pequeños

MCO regresión simplettt ubxay

Derivar parcialmente con respecto a los parámetros, obtener las condiciones de primer orden y resolver (TAREA)

a

ut

2

b

ut

2

22 ˆminmin ttt yyu

222 ˆˆˆ ttttt xbayyyu

Estimadores de Mínimos Cuadrados Ordinarios

txbya ˆ xyx

bvar

,covˆ

Regresión múltiple

uXy donde

uXy

Estimador de MCO

¿Es realmente un estimador insesgado?

¿Es un estimador insesgado?

¿ Es realmente de mínima varianza?



Supuesto de normalidad

Normalidad y pruebas de hipótesis

Resumen MCO

Normalidad es necesaria para realizar pruebas de hipótesis

Medidas de bondad de ajuste

Medidas de bondad de ajuste

Problemas de la R2

Si aumento el número de variables explicativas forzosamente la R2 va a aumentarR2(ajustada)=1-(1- R2)(T-1)/(T-k) penaliza al incluir

más variables explicativas Si regreso dos variables con tendencia la R2

va a ser muy alta y probablemente la relación sea espuria.Regla de dedo: Desconfiar de regresiones con R2

muy altas

Problemas de la R2

El tamaño de la R2 no es muy importante. La R2 por sí sola no da evidencias a favor o en contra de un

modelo (se quiere aproximar el proceso generador de datos, no maximizar la R2)

La calidad estadística de un modelo y su utilidad para inferencia depende de que se cumplan los supuestos den los que el modelo descansa

Una vez que se cumplen los supuestos podemos ver que tan bueno es el ajuste utilizando la R2 o R2 la ajustada. Solo así tiene sentido hablar de la R2

Evaluación de supuestos Principio de adición de variables

Evaluación de supuestos Principio de adición de variables

Evaluación de supuestos

Pruebas para la evaluación de supuestos

Ramsey RESET

Es una prueba general para detectar errores de especificación en el modelo

Además de detectar una forma funcional incorrecta sirve para detectar:Errores por variables omitidasCorrelación entre las variables explicativas y

el término de error (no exogeneidad)

Ramsey RESET

Ramsey RESET

Ramsey RESET

Correcta especificación



No autocorrelación

No autocorrelación: Durbin-Watson




Autocorrelación: Breusch-Godfrey

Autocorrelación: Ljung-Box

Normalidad: Q-Q plots

Normalidad: histograma y estadísticas descriptivas

NormalAsimetría = 0Curtosis = 3

Normalidad: Jarque-Bera

S = AsimetríaK = Curtosis

Homoscedasticidad: gráficas

Homoscedasticidad

Heteroscedasticidad

Heteroscedasticidad

Homoscedasticidad: White

Homoscedasticidad: ARCH

Homoscedasticidad: ARCH

Permanencia estructural: Chow



Permanencia estructural: Quandt-Andrews

Permanencia estructural: errores recursivos

Permanecia estructural: CUSUM

Permanecia estructural: CUSUMQ

Multicolinealidad

Documents

Análisis de Datos Atmosféricos Regresión lineal 1 Francisco Estrada Porrúa