34
Regresión Múltiple: Estimación (SW Capítulo 6) Esquema 1. Sesgo por variables omitidas 2. El modelo de regresión poblacional múltiple 3. El estimador MCO en la regresión múltiple 4. R 2 , SER, y R 2 para la regresión múltiple 5. Los supuestos de MCO para la Regr. Múltiple 6. La distribución muestral del estimador MCO 7. Multicolinearidad y la trampa de las var. dummy

ch6 - Fede

Embed Size (px)

Citation preview

Page 1: ch6 - Fede

Regresión Múltiple: Estimación (SW Capítulo 6)

Esquema

1. Sesgo por variables omitidas

2. El modelo de regresión poblacional múltiple

3. El estimador MCO en la regresión múltiple

4. R2, SER, y R2 para la regresión múltiple

5. Los supuestos de MCO para la Regr. Múltiple

6. La distribución muestral del estimador MCO

7. Multicolinearidad y la trampa de las var. dummy

Page 2: ch6 - Fede

Motivación

Estimadores MCO de la relación Test Score/STR

Nota: Test Scores = Notas del test, STR=ratio profes/alumnos

Page 3: ch6 - Fede

1. Sesgo por variables omitidas (SW Sección 6.1)

El sesgo en el estimador MCO que ocurre como resultado de un factor omitido se llama sesgo por variable omitida. Para que esto suceda, el factor omitido “Z” tiene que ser:

1. un determinante de Y; y 2. estar correlacionado con X.

Ambas condiciones tienen que darse para que la omisión de “Z” resulte en un sesgo por variable omitida.

Page 4: ch6 - Fede
Page 5: ch6 - Fede

En el ejemplo del test score: 1. Conocimiento del inglés (si el estudiante tiene el inglés

como segundo idioma) probablemente afecta a las notas estandarizadas: Z es un determinante de Y. 2. La comunidades inmigrantes suelen tener menores

rentas y por lo tanto tienen un presupuesto escolar inferior– y mayores STR: Z está positivamente correlacionada con X: σXZ s > 0

• De este modo, está sesgado • ¿Cuál es la dirección del sesgo?

¿Qué sugiere el sentido común? Si el sentido común te falla, aquí tienes la fórmula…

Page 6: ch6 - Fede

Fórmula para el sesgo por variable omitida Y depende de X y de X, por lo que tenemos: Y = α + Xβ1 + Zβ2 + u

Si en lugar de estimar esa ecuación, estimamos: Y = α + Xβ1 + u

∗, donde u

∗ = u + Zβ2 tenemos que Cov X,u∗( ) = Cov X,u + Zβ2( ) = Cov(X,u) + β2Cov(X,Z ) El primer término es cero por MCO1. El segundo puede no

serlo. Se puede demostrar que:

β̂1→pβ1 + β2

σ XZ

σ XX

⎛⎝⎜

⎞⎠⎟= β1 + β2ϕ

Nota: El término divisor es siempre positivo (Por qué?)

Page 7: ch6 - Fede

Entonces, si un factor omitido Z es al mismo tiempo: (1) un determinante de y (2) correlacionado con X,

entonces el estimador MCO es sesgado e inconsistente.

Los resultados sugieren que distritos con pocos alumnos ESL (1) lo hacen mejor en tests estandarizados (β2<0) y (2) tienen clases más reducidas (presupuestos mayores, σZX > 0), así que ignorar el factor ESL resulta en sobreestimar el efecto del tamaño de la clase. Dicho de otro modo, está sesgado hacia abajo:

Page 8: ch6 - Fede

• Distritos con pocos English Learners (estudiantes de inglés) tienen notas del test mayores Distritos con pocos EL (PctEL) tienen clases menores • Entre distritos con PctEL comparables, el efecto del tamaño de clase es

pequeño (recordad “test score gap” = 7.4)

Page 9: ch6 - Fede

Tres maneras de resolver el sesgo por variable omitida: 1. Hacer un experimento controlado y aleatorizado en el que el tratamiento (STR) se asigna aleatoriamente: PctEL seguirá siendo un determinante de TestScore, pero PctEL no está correlacionado con STR. 2. Adoptar la aproximación de “tabulación cruzada”, con gradaciones más refinadas de STR y PctEL (pero nos quedaremos sin datos pronto, y ¿qué hay de otros determinantes como la renta familiar y la educación de los padres?) 3. Usar un método en el que la variable omitida (PctEL) no esté omitida: incluir PctEL como un regresor adicional en una regresión múltiple.

Page 10: ch6 - Fede

2. El Modelo de Regresión Múltiple

(SW Sección 6.2)

Considera el caso de dos regresores:

• X1, X2 son las dos variables independientes (regresores) • (Yi, X1i, X2i) denotan la iésima observación en Y, X1, y X2. • β0 = constante (desconocida) • β 1 = efecto en Y de un cambio en X1, manteniendo X2

constante • β 2 = efecto en Y de un cambio en X2, manteniendo X1

constante • ui = “término de error” (factores omitidos)

Page 11: ch6 - Fede

Interpretación de los coeficientes en una regresión múltiple Considera un cambio de X1 por ΔX1 manteniendo X2 constante: El valor de Y antes del cambio: El valor de Y después del cambio:

Page 12: ch6 - Fede

Antes: Después: Diferencia: Esto es,

β1 =ΔYΔX1 , manteniendo X2 constante

También, β2 =

ΔYΔX2 , manteniendo X1 constante

Y β0 = valor predicho de Y cuando X1 = X2 = 0 .

Page 13: ch6 - Fede

3. El estimador MCO en la Regresión Múltiple (SW Sección 6.3)

Con dos regresores, el estimador MCO resuelve:

• El estimador MCO minimiza la media de la diferencia al cuadrado de los valores reales de Yi y la predicción (valor predicho) basada en la recta estimada. • Este problema de minimización se resuelve con cálculo • El resultado son los estimadores MCO β 0, β 1 y β 2.

Page 14: ch6 - Fede

Ejemplo: Los datos sobre los Test Scores de California Regresión de TestScore respecto STR: Ahora incluimos el porcentaje de English Learners en el distrito (PctEL):

• ¿Qué pasa con el coeficiente de STR? • ¿Por qué? (Nota: corr(STR, PctEL) = 0.19)

Page 15: ch6 - Fede

Regresión Múltiple con STATA:

Page 16: ch6 - Fede

(i) El modelo MCO en notación matricial

Ejemplo: Las letras en negrita indican matrices y vectores:

Así pues, Lo podemos escribir como

Page 17: ch6 - Fede

Modelo de regresión múltiple con k regresores en notación matricial:

(ii) El estimador MCO resuelve: donde A’ denota la transpuesta de A Tomando derivadas en ambos lados e igualando a cero:

(date cuenta que hay k ecuaciones) Reordenando: Así La solución del estimador MCO en notación matricial Nota: X’X es invertible debido a la ausencia de multicolinearidad.

Page 18: ch6 - Fede

4. El R2, SER, y para la Regresión Múltiple

(SW Sección 6.4) Por definición, Actual = predicho + residuo: Como en la regresión con un solo regresor, la SER (y la RMSE) es una medida de la dispersión de las Y’s alrededor de la recta de regresión:

Page 19: ch6 - Fede

El R2 es la fracción de la varianza explicada por el modelo:

donde

- del mismo modo que en la regresión con un solo regresor. • El R2 siempre crece cuando se añade un regresor adicional

- es un problema para medir el “ajuste”

• el ( R2 ajustado) corrige este problema “penalizando” por incluir otro regresor:

Page 20: ch6 - Fede

¿Cómo interpretar R2 y ?

• Un R2 (o ) grande significa que los regresores explican una proporción alta de la variación de Y

• Un R2 (o ) grande no significa que has eliminado el sesgo por variable omitida.

• Un R2 (o ) grande no significa que tienes un estimador insesgado de un efecto causal (β1).

• Un R2 (o ) grande no significa que las variables incluidas son estadísticamente significativas – esto tiene que determinarse con un test de hipótesis.

Page 21: ch6 - Fede

5. Los Supuestos de los Mínimos Cuadrados para la

Regresión Múltiple (SW Sección 6.5)

1. La distribución condicional de u dadas las X tiene

esperanza (media) cero, esto es, E(u|X1=x1,…,Xk=xk) = 0

2. (X1i,…,Xki, Yki ), i=1,…,n, son i.i.d.

3. X1,…, Xk y u tienen cuatro momentos:

4. No hay multicolinearidad perfecta.

Page 22: ch6 - Fede

Supuesto #1: la media condicional de u dadas las X incluidas es cero. • Tiene la misma interpretación que en la regresión con un solo regresor. • Si una variable omitida (1) pertenece a la ecuación (está en la u) y (2) está correlacionada con alguna X incluida, entonces esta condición falla. • El fallo de esta condición lleva al sesgo por variable omitida • La solución – si es posible – es incluir la variable omitida

en la regresión.

Page 23: ch6 - Fede

Supuesto #2: (X1i,…,Xki,Yi), i =1,…,n, son i.i.d.

Esto se cumple automáticamente si los datos son recogidos mediante muestreo simple aleatorio.

Supuesto #3: cuatro momentos finitos

Este supuesto técnico se cumple automáticamente por variables con un dominio acotado (test scores, PctEL, etc.)

Page 24: ch6 - Fede

Supuesto #4: No hay multicolinearidad perfecta Multicolinearidad perfecta se da cuando uno de los regresores es un una función lineal exacta de otros regresores. Ejemplo: Supón que accidentalmente incluyes STR dos veces:

Page 25: ch6 - Fede

6. La Distribución Muestral del estimador MCO

(SW Sección 6.6) Bajo los cuatro supuestos de MCO,

• La distribución exacta (muestra finita) tiene media

var( ) es inversamente proporcional a n; lo mismo para

• Aparte de su media y varianza, la distribución exacta de es muy complicada

• es consistente (ley de los grandes números)

• se distribuye aproximadamente N(0,1) (CLT)

• Lo mismo para

Page 26: ch6 - Fede

(iii) Distribución muestral de :

así

Media :

Porque E(u|X) = 0 (MCO#1)

Varianza: Bajo homoscedasticidad:

y

Page 27: ch6 - Fede

TCL:

Distribución normal con n grande: Notas: • Esta distribución para muestras grandes es la distribución

muestral conjunta de - lo que significa que podemos

abordar la distribución de cualquier combinación lineal de .

• es el elemento (2.3) de la matriz k x k

• la varianza de la combinación lineal, es

Page 28: ch6 - Fede

7. Multicolinearidad y la trampa de las variables dummy (SW Sección 6.7) 7.1.Multicolinearidad perfecta es cuando uno de los regresores es una función lineal exacta de los otros regresores. • En la regresión previa, β1 es el efecto sobre TestScore de un cambio unitario en STR, manteniendo STR constante (Sí, no tiene sentido…) • Segundo ejemplo: regresión de TestScore en una constante, D, y B, donde: Di = 1 si STR _ 20, = 0 si no; Bi = 1 si STR >20, = 0 si no, así pues Bi = 1 – Di y hay multicolinearidad perfecta • ¿Habría multicolinearidad perfecta si la constante fuera de algún modo eliminada (esto es, omitida) de la regresión?

Page 29: ch6 - Fede

Ejemplo de colinearidad perfecta: Supongamos que el modelo poblacional es:

Yi = β 0 + β 1X1i + β 2X2i + ui

Entonces el estimador MCO:

Equivalentemente, puede escribirse como:

Page 30: ch6 - Fede

O

Ahora bien, si x1 es una constante, entonces m11=0 y m12=0, de modo que

m11m22-m212=0

Así que el estimador MCO no existe.

Page 31: ch6 - Fede

7.b La trampa de las variables dummy • A las variables binarias se las suele denominar como variables dummy. • Si incluyes un conjunto completo de variables dummy (una categorización completa y mutuamente excluyente) y una constante en la regresión, tendrás multicolinearidad perfecta. Ejemplos:

- hombre y mujer en la regresión de la evaluación del curso. - Datos sobre estudiantes universitarios: incluyes 4 variables

dummy, primero, segundo, tercero y cuarto curso (y una constante y probablemente otros regresores)

• Esto se llama la trampa de las variables dummy. • Soluciones a la trampa de las variables dummy:

- Omitir uno de los grupos (e.g. cuarto curso), o - Omitir la constante

• ¿Cuáles son las implicaciones de (1) o (2) para la interpretación de los coeficientes?

Page 32: ch6 - Fede

7.c Multicolinearidad no perfecta ocurre cuando dos o más regresores están altamente correlacionados. Consecuentemente, los coeficientes de estos regresores serán estimados de forma muy imprecisa. Para el caso especial de error homoscedástico el efecto puede verse matemáticamente:

La multicolinearidad es una característica de los datos de que disponemos, MCO y la pregunta que queremos responder. Como consecuencia, no hay ninguna “solución” a este problema de coeficientes imprecisamente estimados.

Page 33: ch6 - Fede

Derivación de

es el elemento (1,1) de

Page 34: ch6 - Fede