Upload
ruben-del-rio-coronel
View
217
Download
1
Embed Size (px)
Citation preview
Análisis de Datos Atmosféricos
Regresión lineal 1
Francisco Estrada Porrúa
Contenido1. ¿Qué es el modelo de regresión y cuál es su
propósito?
2. ¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?
3. Pasos en modelación empírica
4. Supuestos de regresión
5. Mínimos cuadrados ordinarios (MCO)
6. Propiedades de los estimadores y supuestos
7. Medidas de bondad de ajuste
8. Evaluación de supuestos
9. Corrección de supuestos
¿Qué es el modelo de regresión y cuál es su propósito?
Yt =a+bXt+ut
Predecir o estimar la media de Y con respecto a X, cuantificar relación entre variables, aprender sobre el proceso
E(Yt | It )=a+bXt (componente sistemático)
en general: E(Yt | It )≠ E(Yt | Ht )≠ E(Yt) Ejemplos
E(Tdf,t)=15ºC; E(Tdf,t | mayo)=18ºC
E(Tdf,t) ≠ E(Tdf,t | ENSO) ≠ E(Tdf,t | ENSO,…)
-.6
-.4
-.2
.0
.2
.4
.6
-.5 -.4 -.3 -.2 -.1 .0 .1 .2 .3 .4
AMO
T g
lobal
a+bXt
-.6
-.4
-.2
.0
.2
.4
1900 1925 1950 1975 2000
AMO
-.6
-.4
-.2
.0
.2
.4
.6
1900 1925 1950 1975 2000
T global
Línea de regresión
¿Qué representan los coeficientes de regresión?
¿Qué representan los coeficientes de regresión?
Es decir, representa los efectos de sobre Y dado lo que ya explicaron el resto de las variables independientes incluidas en el modelo
Cada representa el efecto parcial de jXsobre Y
jX
0
5000
10000
15000
20000
25000
30000
35000
0 10000 20000 30000 40000 50000 60000 70000
-.6
-.4
-.2
.0
.2
.4
.6
-.5 -.4 -.3 -.2 -.1 .0 .1 .2 .3 .4
AMO
T g
lobal
¿Qué representa ut? ¿Qué implica ut para el modelo de regresión?
El error aleatorio permite que ante mismos valores de las variables explicativas, el efecto sobre Yt sea variado, de pendiendo de la interacción de otros factores.
Relación determinísticaRelación estocástica
Modelo probabilístico
Yt =a+bXt+ut
μt =a+bXt Componente sistemático
ut Componente aleatorio (no sistemático)
It debe ser tal que ut no tiene información sistemática (ut similar a ruido blanco)
¿Cómo sabemos cual It es el bueno?
-.4
-.2
.0
.2
.4
.6
-.6
-.4
-.2
.0
.2
.4
.6
1900 1925 1950 1975 2000
Residual Actual Fitted
-.4
-.2
.0
.2
.4
.6
-.6
-.4
-.2
.0
.2
.4
.6
1900 1925 1950 1975 2000
Residual Actual Fitted
-.3
-.2
-.1
.0
.1
.2
.3
-.6
-.4
-.2
.0
.2
.4
.6
1900 1925 1950 1975 2000
Residual Actual Fitted
-.2
-.1
.0
.1
.2
-.6
-.4
-.2
.0
.2
.4
.6
1900 1925 1950 1975 2000
Residual Actual Fitted
It=(AMO, SOI) It=(AMO, SOI, SOLAR, VOLCANO)
It=(AMO, SOI, SOLAR, VOLCANO, GHG) It=(AMO, SOI, TRF,…)
Ejemplo: modelos de regresión para T global
Ttμt
ut
¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?
Dos maneras comunes pero inadecuadas
1. Teoría únicamente
¿Cómo determinar la confiabilidad/calidad de un modelo estadístico?
Dos maneras comunes pero inadecuadas
2. Reglas de dedo y maximización de R2
-.4
-.2
.0
.2
.4
-.8
-.4
.0
.4
.8
25 50 75 100 125 150
Residual Actual Fitted
Pasos en modelación empíricaTeoría
Modelo estimable
Recolección de datos
Estimación del modelo
¿Es el modelo estadísticamente adecuado?
No Sí
Reformular el modelo Interpretación del modelo
Uso del modelo Análisis, pronóstico, etc.
¿T
iene
sen
tido?
Ree
spec
ifica
ción
Recomendaciones para la modelación empírica
Graficar datos es esencial No olvidar que un modelo estadístico es un
conjunto de suposiciones probabilísticas Ningún resultado de inferencia estadística debe
ser utilizado para concluir algo a menos de que se haya establecido que el modelo es estadísticamente adecuado
Ninguna teoría, por sofisticada que sea, puede arreglar o validar un modelos estadístico inadecuado
Un buen modelo empírico debe sintetizar los modelos estadístico y teórico sin que ninguno de los dos quede mal representado
Supuestos del modelo de regresión lineal
Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad
Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0
No multicolinealidad Varianza de variables
(excepto a) es >0 T >k
tttt uXbXbaY ,22,11
tu ~ i.i.d 2,0 N
Supuestos del modelo de regresión lineal
Correcta especificaciónEl componente sistemático propuesto es el
correcto, no hay variables de más ni de menos.
Variables omitidas Variables redundantes
Correcta especificación: el caso de variables omitidas Modelo verdadero: Modelo estimado:Entonces
donde
El coeficiente es insesgado únicamente si y/o son iguales a cero.
recoge parcialmente el efecto de Zt sobre yt.
tttt uZXcy 21
ttt vXbay 1
2,1211 bbE
ttt XbZ 2,1
1b 22,1b
1b
Correcta especificación: el caso de variables redundantes Modelo verdadero: Modelo estimado: tttt uZXcy 21
ttt vXbay 1
1 es insesgado
Pero es mayor. 1var
¿Porqué importa?
1
1ˆ
1ˆ
ˆ
ˆˆ
t Es más fácil aceptar la hipótesis nula 01̂
Forma funcional
Se asume que el modelo de regresión clásico es lineal
Ojo: lineal en los parámetros no en las variables
ttt uxy 2 ttt uxy )log(
ttt uxy 2 tttt uwxy 21
Permanencia estructural Los parámetros de la regresión son
estables y válidos para toda la muestra La relación entre las variables es estable
durante el periodo de muestra
-.4
-.2
.0
.2
.4
.6
0.0
0.5
1.0
1.5
2.0
1900 1925 1950 1975 2000
Residual Actual Fitted
Normalidad
Los errores de la regresión se distribuyen de manera normalPruebas de hipótesis (t, chi-sq, F…) requieren
normalidad
tu ~ i.i.d 2,0 N
1
1ˆ
1ˆ
ˆ
ˆˆ
t2N
~ t 22
21
~ F t
tu2
~2
Homoscedasticidad La varianza de ut es constante (no cambia
ni con t ni con los valores de Xt)
El coeficiente de regresión sigue siendo insesgado pero no así los errores estándar de los coeficientes.
Estadísticos de prueba ya nos son válidos
No autocorrelación Los errores ut son independientes
ttt vuu 1Autocorrelación de primer orden
Autocorrelación de orden k
t
k
iitit vuu
1
El coeficiente de regresión sigue siendo insesgado.
Los errores estándar y estadísticos de prueba ya nos son válidos
Exogeneidad
ut y Xt son independientes.
tttttt xExuEuExu ),cov(
0 tt xuE
0;0 tttt xuExuE
ttt uxy Implica que xt y ut tienen una influencia separada y aditiva sobre yt. Si xt y ut están correlacionadas no es posible determinar sus efectos individuales sobre yt. Si no se cumple, las estimaciones no son validas.
Los residuales son ortogonales a las variables explicativas y al los valores ajustados de yt (¿por qué?)
¿Por qué no habría exogeneidad?
ttt vzu
ttt uxy 0tt xuE
0tt zxE
ttttt xyEzxyE ,
donde
Ut contiene los efectos de un montón de variables que afectan a yt (pero se supone que no de manera sistemática). En este caso zt si afecta de forma sistemática.
Para resolver este problema se necesita el método de variables instrumentales (no lo vamos a ver)
Multicolinealidad Los regresores no están correlacionados: xt y zt
tienen una influencia separada y aditiva sobre yt . Si xt y zt están correlacionadas no es posible determinar sus efectos individuales sobre yt.
Multicolinealidad perfecta Alguna de las variables incluidas en el modelo es una
combinación lineal de otras variables. No se puede estimar la regresión (X’X no es invertible)
Multicolinealidad imperfecta Las variables explicativas están altamente correlacionadas. X’X es cercana a no ser invertible: problemas numéricos. El
modelo sí se puede estimar pero los errores estándar están inflados y pequeños cambios en la regresión modifican mucho los valores de los coeficientes estimados.
Repaso: Supuestos del modelo de regresión lineal
Correcta especificación Forma funcional Permanencia estructural Normalidad No autocorrelación Homoscedasticidad
Exogeneidad E(ut|Xi,t)=0; cov(ut|Xi,t)=0
No multicolinealidad Varianza de variables
(excepto a) es >0 T >k
tttt uXbXbaY ,22,11
tu ~ i.i.d 2,0 N
Estimación por Mínimos Cuadrados Ordinarios (MCO o LS)
Mínimos Cuadrados Ordinarios (MCO o LS) Así como para estimar la media y la varianza (por
ejemplo) encontramos estimadores con propiedades deseables, lo mismo vamos a hacer para los coeficientes de regresión.
A los estimadores de los coeficientes de regresión les vamos a pedir que sean: 1) Insesgados 2) Mínima varianza 3) Consistentes
n
XX
n
ii
1
1ˆ 12
n
XXn
ii
1) Insesgado
Las estimaciones que se hagan del parámetro pueden estar muy lejos parámetro real o poblacional pero en promedio obtendremos el valor verdadero
ˆE
ˆE1̂ 2̂
Insesgado Sesgado
2) Mínima varianza (eficiente)
Entre todos los estimadores insesgados se va a escoger el de mínima varianza
ˆE1̂ 2̂
ˆE
1̂ 2̂
Consistencia
Un estimador es consistente si según el tamaño de la muestra aumente, más me voy a acercar al verdadero valor del parámetro
ˆlimnp
0
0ˆ
P
Teorema de Gauss-Markov
Dados los supuestos anteriores los estimadores de MCO son de mínima varianza dentro de la clase de estimadores lineales insesgados.MELI (BLUE): Mejores estimadores lineales
insesgados (también son consistentes) Lineal, insesgado y de mínima varianza (eficiente)
Mínimos cuadrados ordinarios
Y
x
(ui)2 ui
Minimizar los errores al cuadrado:
1)No se cancelan positivos y negativos (E(ui)=0)
2)Función de pérdida: MCO penaliza más por errores más grandes que por errores más pequeños
MCO regresión simplettt ubxay
Derivar parcialmente con respecto a los parámetros, obtener las condiciones de primer orden y resolver (TAREA)
a
ut
2
b
ut
2
22 ˆminmin ttt yyu
222 ˆˆˆ ttttt xbayyyu
Estimadores de Mínimos Cuadrados Ordinarios
txbya ˆ xyx
bvar
,covˆ
Regresión múltiple
uXy donde
uXy
Estimador de MCO
¿Es realmente un estimador insesgado?
¿Es un estimador insesgado?
¿ Es realmente de mínima varianza?
¿ Es realmente de mínima varianza?
¿ Es realmente de mínima varianza?
Supuesto de normalidad
Normalidad y pruebas de hipótesis
Resumen MCO
Normalidad es necesaria para realizar pruebas de hipótesis
Medidas de bondad de ajuste
Medidas de bondad de ajuste
Problemas de la R2
Si aumento el número de variables explicativas forzosamente la R2 va a aumentarR2(ajustada)=1-(1- R2)(T-1)/(T-k) penaliza al incluir
más variables explicativas Si regreso dos variables con tendencia la R2
va a ser muy alta y probablemente la relación sea espuria.Regla de dedo: Desconfiar de regresiones con R2
muy altas
Problemas de la R2
El tamaño de la R2 no es muy importante. La R2 por sí sola no da evidencias a favor o en contra de un
modelo (se quiere aproximar el proceso generador de datos, no maximizar la R2)
La calidad estadística de un modelo y su utilidad para inferencia depende de que se cumplan los supuestos den los que el modelo descansa
Una vez que se cumplen los supuestos podemos ver que tan bueno es el ajuste utilizando la R2 o R2 la ajustada. Solo así tiene sentido hablar de la R2
Evaluación de supuestos Principio de adición de variables
Evaluación de supuestos Principio de adición de variables
Evaluación de supuestos
Pruebas para la evaluación de supuestos
Ramsey RESET
Es una prueba general para detectar errores de especificación en el modelo
Además de detectar una forma funcional incorrecta sirve para detectar:Errores por variables omitidasCorrelación entre las variables explicativas y
el término de error (no exogeneidad)
Ramsey RESET
Ramsey RESET
Ramsey RESET
Correcta especificación
Correcta especificación
Correcta especificación
No autocorrelación
No autocorrelación: Durbin-Watson
No autocorrelación: Durbin-Watson
No autocorrelación: Durbin-Watson
No autocorrelación: Durbin-Watson
Autocorrelación: Breusch-Godfrey
Autocorrelación: Ljung-Box
Normalidad: Q-Q plots
Normalidad: histograma y estadísticas descriptivas
NormalAsimetría = 0Curtosis = 3
Normalidad: Jarque-Bera
S = AsimetríaK = Curtosis
Homoscedasticidad: gráficas
Homoscedasticidad
Heteroscedasticidad
Heteroscedasticidad
Homoscedasticidad: White
Homoscedasticidad: ARCH
Homoscedasticidad: ARCH
Permanencia estructural: Chow
Permanencia estructural: Chow
Permanencia estructural: Chow
Permanencia estructural: Quandt-Andrews
Permanencia estructural: errores recursivos
Permanecia estructural: CUSUM
Permanecia estructural: CUSUMQ
Multicolinealidad