Upload
lamtram
View
238
Download
0
Embed Size (px)
Citation preview
Cap. 9 – Modelos de Regressão com
Variáveis Binárias
Fonte: GUJARATI; D. N. Econometria Básica: 4ª Edição.
Rio de Janeiro. Elsevier- Campus, 2006
Variáveis Binárias
• = variáveis dummy – assumem valores 0 ou 1
• = variáveis indicadoras, de categoria, qualitativas ou
binárias
• São essencialmente variáveis nominais
• Um artifício para classificar dados em categorias
mutuamente exclusivas como masculino e feminino
• Modelos com regressores de natureza exclusivamente
binária são chamados modelos de análise de variância
(ANOVA)
Ver exemplo 9.1 em dummy1.txt
Cautela no uso de variáveis binárias
• Colinearidade perfeita
• No exemplo com 3 regiões se criarmos uma terceira
dummy D1 teremos ao somar as três dummies uma
coluna com 51 uns, igual aos 1’s implícitos em α
𝑌1 = 𝛼. 1 + 𝛽1𝐷11 + 𝛽2𝐷21 + 𝛽3𝐷31 + 𝑢1
𝑌2 = 𝛼. 1 + 𝛽1𝐷12 + 𝛽2𝐷22 + 𝛽3𝐷32 + 𝑢2
𝑌3 = 𝛼. 1 + 𝛽1𝐷13 + 𝛽2𝐷23 + 𝛽3𝐷33 + 𝑢3
⋮𝑌𝑛 = 𝛼. 1 + 𝛽1𝐷1𝑛 + 𝛽2𝐷2𝑛 + 𝛽3𝐷3𝑛 + 𝑢𝑛
Cautela no uso de variáveis binárias
• Na forma matricial
𝑌1
𝑌2
⋮𝑌𝑛
=
1 𝐷11 𝐷21
1 𝐷12 𝐷22
⋮1
⋮𝐷1𝑛
⋮𝐷2𝑛
𝐷31
𝐷32
⋮𝐷3𝑛
𝛼𝛽1
𝛽2
𝛽3
+
𝑢1
𝑢2
⋮𝑢𝑛
1 = 𝟏
Colinearidade perfeita => essa matriz não tem inversa
Regra: se a variável qualitativa tem m categorias teremos
que usar (m-1) variáveis dummies!!
Cautela no uso de variáveis binárias
• Categoria de base, de referência, de controle, de
comparação ou omitida => não se designa variável
binária
• 𝛽1 é o valor médio dessa categoria
• Outros 𝛽𝑠 são coeficientes diferenciais de intercepto
• Se não usarmos a regra das classificações menos 1,
então temos que rodar o modelo sem intercepto
• Daí os valores médios serão obtidos diretamente
Modelos ANOVA com duas variáveis
qualitativas
• Qual a categoria de
referência nesse caso?
• Qual o salário médio dos
casados?
• Qual o salário médio dos
que residem no Sul?
• Esses salários são
estatisticamente diferentes
daqueles da categoria
referencial?
Regressões com variáveis quantitativas e
qualitativas: os modelos ANCOVA
• Um método de controlar estatisticamente os efeitos de
regressores quantitativos, chamados de covariáveis ou
variáveis de controle, em um modelo que inclui tanto
regressores quantitativos quanto qualitativos ou
binários.
• Será que o gasto público com educação afeta o salário
dos professores?
𝑌𝑖 = 𝛽1 + 𝛽2𝐷2𝑖 + 𝛽3𝐷3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖Yi = salário médio anual dos professores em US$
D2i = 1 se NE ou CO; 0 c.c.
D3i = 1 se Sul e 0 c.c.
Xi = gastos com ensino público em US$/aluno
Ver exemplo 9.3 em dummy2.txt
A variável binária como alternativa ao teste de
Chow
• No teste de Chow não é possível dizer se a diferença se
devia ao intercepto, aos coeficientes angulares ou a
ambos.
• Há quatro situações possíveis:
1. Regressões coincidentes = interceptos e inclinações são
iguais
2. Regressões paralelas = interceptos diferentes e inclinações
iguais
3. Regressões concorrentes = interceptos iguais e inclinações
diferentes
4. Regressões dessemelhantes = interceptos e inclinações são
diferentes
A variável binária como alternativa ao teste de
Chow
• Exemplo poupança e renda americana de 1970 a 1995
𝑌𝑡 = 𝛼1 + 𝛼2𝐷𝑡 + 𝛽1𝑋𝑡 + 𝛽2 𝐷𝑡𝑋𝑡 + 𝑢𝑡Y = poupança
X = renda
t = anos
D = 1 para o período 1982 a 1995
0, nos demais casos (1970 – 1981)
Função de poupança média, 1970 – 1981:𝐸 𝑌𝑡 𝐷𝑡 = 0, 𝑋𝑡 = 𝛼1 + 𝛽1𝑋𝑡
Função de poupança média, 1982 – 1995:𝐸 𝑌𝑡 𝐷𝑡 = 1, 𝑋𝑡 = (𝛼1 + 𝛼2) + (𝛽1 + 𝛽2)𝑋𝑡
Se significativo indica
que a inclinação é diferente
Se significativo indica
que o intercepto é diferente
A variável binária como alternativa ao teste de
Chow
• Variável binária
ADITIVA => para avaliar interceptos
MULTIPLICATIVA => para avaliar inclinações
• Para saber se as retas são coincidentes é preciso testar
simultaneamente 𝛼2 = 𝛽2 = 0
Ver exemplo 9.4 em pouprenda.txt
Efeitos de interação com o uso de
variáveis binárias
𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛽𝑋𝑖 + 𝑢𝑖Yi = salários-hora em US$
D2i = 1 se mulheres, 0 se homens
D3i = 1 se não brancos e não hispânicos, 0 outros
Xi = escolaridade (anos de frequência à escola)
• O efeito diferencial da variável gênero é constante nas
duas categorias de raça (a diferença de salário por ser
mulher não depende de ser branco e hispânico)
• O efeito diferencial da variável raça é constante nos
dois gêneros.
• E se a diferença de salário pelo gênero depender
também da raça?
Efeitos de interação com o uso de
variáveis binárias
𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛽𝑋𝑖 + 𝑢𝑖
• Pode haver uma interação entre as variáveis D2 e D3. O
efeito sobre Y médio pode não ser aditivo, mas também
multiplicativo.
𝑌𝑖 = 𝛼1 + 𝛼2𝐷2𝑖 + 𝛼3𝐷3𝑖 + 𝛼4(𝐷2𝑖𝐷3𝑖) + 𝛽𝑋𝑖 + 𝑢𝑖Mulher não branca não hispânica: D2=1 D3=1
𝐸 𝑌𝑖 𝐷2𝑖 = 1, 𝐷3𝑖 = 1, 𝑋𝑖 = (𝛼1 + 𝛼2 + 𝛼3 + 𝛼4) + 𝛽𝑋𝑖
Homem não branco não hispânico: D2=0 D3=1
𝐸 𝑌𝑖 𝐷2𝑖 = 0, 𝐷3𝑖 = 1, 𝑋𝑖 = (𝛼1 + 𝛼3) + 𝛽𝑋𝑖
Homem branco e hispânico: D2=0 D3=0
𝐸 𝑌𝑖 𝐷2𝑖 = 0, 𝐷3𝑖 = 0, 𝑋𝑖 = 𝛼1 + 𝛽𝑋𝑖
Mulher branca e hispânica: D2=1 D3=0
𝐸 𝑌𝑖 𝐷2𝑖 = 1, 𝐷3𝑖 = 0, 𝑋𝑖 = (𝛼1 + 𝛼2) + 𝛽𝑋𝑖
Em todos esses
caso a inclinação não
se altera. Poderíamos
criar variáveis de interação
para ver se a inclinação
se altera.
Variáveis binárias em análises sazonais
• Uma solução é usar uma dummy para cada período
tendo o cuidado de estimar o modelo sem intercepto.
• Usar um período como referência tem a vantagem de
podermos identificar se o intercepto diferencial em
algum período não é estatisticamente significante.
• Os resíduos dessa regressão serão a séria
dessazonalizada, com os componentes de tendência,
cíclico e aleatório.
ST = s + c + t + u
Ver exemplo 9.6
Regressão linear segmentada
• Quando há mudança na inclinação a partir de um
determinado valor do regressor.
𝑌𝑖 = 𝛼1 + 𝛽1𝑋𝑖 + 𝛽2 𝑋𝑖 − 𝑋∗ 𝐷𝑖 + 𝑢𝑖Yi = comissão sobre vendas
Xi = volume de vendas geradas por um
vendedor
X* = valor limiar de vendas, nó
D = 1 se Xi > X* e 0 se Xi < X*
Regressão linear segmentada
Para X < X* => D = 0
𝐸(𝑌𝑖|𝐷𝑖 = 0, 𝑋𝑖, 𝑋∗) = 𝛼1 + 𝛽1𝑋𝑖
Para X > X* => D = 1
𝐸 𝑌𝑖 𝐷𝑖 = 1, 𝑋𝑖, 𝑋∗ = 𝛼1 − 𝛽2𝑋∗ + (𝛽1 + 𝛽2)𝑋𝑖
Variáveis binárias em regressões
semilogarítmicas
• Nessas regressões o coeficiente nos dá a semi-elasticidade
(variação percentual da variável dependente para uma variação
unitária da variável explicativa).
• Só se aplica se o regressor for variável quantitativa.
• Para um modelo do tipo
𝑙𝑛𝑌𝑖 = 𝛽1 + 𝛽2𝐷𝑖 + 𝑢𝑖
Onde Y = salário hora em US$ e D = 1 se mulher
A função salário para homens será:
𝐸(𝑙𝑛𝑌𝑖|𝐷𝑖 = 0) = 𝛽1
A função salário para mulheres será:
𝐸 𝑙𝑛𝑌𝑖 𝐷𝑖 = 1 = 𝛽1 + 𝛽2
Dá a variação
no logaritmo médio
dos salários-hora
Variáveis binárias em regressões
semilogarítmicas
• O antilogaritmo dos coeficientes nos dá o salário
mediano e não o médio (antilog x = ex)
• 𝑙𝑛𝑌𝑖 = 𝛽1 + 𝛽2𝐷𝑖
• 𝑙𝑛𝑌𝑖 = 𝛽1 + ln(𝑒𝛽2𝐷𝑖) => 𝑠𝑒 𝐷 = 0 𝑒𝛽2𝐷𝑖 = 1
𝑠𝑒 𝐷 = 1 𝑒𝛽2𝐷𝑖 = 𝑒𝛽2
• Logo, quando D varia de 0 para 1 o ln Y varia (𝑒𝛽2 −1)
• A variação no logaritmo é uma variação relativa
• Se multiplicarmos por 100 teremos a variação %
Variáveis binárias em regressões
semilogarítmicas
• No modelo do exemplo 9.8
• Para verificar a variação percentual no salário mediano
de homens e mulheres fazemos:
𝑒−0,2437 − 1 . 100 = −21,63%
O salário mediano da trabalhadora (D=1) é inferior ao
masculino em cerca de 21,63%.
A hipótese da normalidade
𝑡 = 𝛽1 − 𝛽1
𝑒𝑝( 𝛽1)
𝑡 = 𝛽2 − 𝛽2
𝑒𝑝( 𝛽2)
𝑡 = 𝛽3 − 𝛽3
𝑒𝑝( 𝛽3)
Segue a distribuição t com n – 3 graus de liberdade.
Por que 3 graus de liberdade?
t => para testar coeficientes parciais da regressão múltipla
χ2=> para testar hipóteses sobre o verdadeiro σ2 da
população
Testes de hipóteses relativos aos coeficientes
de regressão individuais
• H0: β2 = 0
• H1: β2 ≠ 0
– Comparar t com tcrítico
– Qual seria o tcrítico para o caso da MI?
– Na prática olhamos o p-valor
– E se eu espero um determinado sinal?
• O teste não é mais bilateral... no exemplo da MI poderia supor que o
coeficiente de PNBpc seja negativo. Então:
H0: β2 ≥ 0
H1: β2 < 0
Teste de significância geral da regressão
amostral
• Testa se há uma relação linear entre o Y e as variáveis
explicativas em conjunto
H0: β2 = β3 = 0
• É o mesmo que testar β2 = 0 e β3 = 0?
– Não!
– Usamos a mesma amostra para testar β2 = 0 e β3 = 0, portanto
não são independentes
– 𝑃 𝛽2 = 0 𝛽3 = 0 ≠ 𝑃 𝛽2 = 0 . 𝑃(𝛽3 = 0)
– 𝑃[ 𝛽2 ± 𝑡 𝛼2𝑒𝑝 𝛽2 , 𝑃[ 𝛽3 ± 𝑡 𝛼
2𝑒𝑝 𝛽3 ] ≠ (1 − 𝛼)(1 − 𝛼)
– Então, como testar β2 = β3 = 0?
A abordagem da ANOVA: teste F
𝑦𝑖2 = 𝛽2 𝑦𝑖𝑥2𝑖 + 𝛽3 𝑦𝑖𝑥3𝑖 + 𝑢𝑖
𝐹 =
𝛽2 𝑦𝑖𝑥2𝑖 + 𝛽3 𝑦𝑖𝑥3𝑖2
𝑢𝑖
2
𝑛 − 3
=
𝑆𝑄𝐸𝑔𝑙
𝑆𝑄𝑅
𝑔𝑙
Se distribui como a distribuição F, com 2 e n-3 graus de liberdade.
Se β2 = β3 = 0 for verdadeira SQE e SQR serão muito próximos. O
modelo não agrega explicação. Não se rejeitará H0. Se SQE for
muito maior que SQR rejeita-se H0.
STQ SQE SQR
Significância geral de uma regressão
múltipla
Dado o modelo de regressão com k variáveis:
𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + ⋯ + 𝛽𝑘𝑋𝑘𝑖 + 𝑢𝑖
Para testar a hipótese:
H0: β2 = β3 =...= βk = 0
H1: nem todos os coeficientes angulares são simultaneamente
iguais a zero
𝐹 =
𝑆𝑄𝐸𝑔𝑙
𝑆𝑄𝑅
𝑔𝑙
=
𝑆𝑄𝐸(𝑘 − 1)
𝑆𝑄𝑅
(𝑛 − 𝑘)
Se F > Fα(k-1,n-k), rejeite H0.
k =3 no caso de 3 variáveis (Y, X2 e X3)
Significância geral de uma regressão
múltipla
• Testes dos coeficientes individuais não substituem o
teste geral da regressão linear múltipla.
• É possível ter regressão significativa como um todo
com poucos ou nenhum coeficiente significativo
individualmente.
• E também R2 baixos em regressões com coeficientes
significativos. Essa é uma situação comum em dados
em corte transversal.
• O importante é a especificação correta do modelo,
sinais corretos e significância estatística.
Relação entre R2 e F
𝑅2 =𝑆𝑄𝐸
𝑆𝑄𝑇
𝐹 =
𝑆𝑄𝐸(𝑘 − 1)
𝑆𝑄𝑅(𝑛 − 𝑘)
=𝑛 − 𝑘
𝑘 − 1.𝑆𝑄𝐸
𝑆𝑄𝑅
𝐹 =𝑛 − 𝑘
𝑘 − 1.
𝑆𝑄𝐸
𝑆𝑇𝑄 − 𝑆𝑄𝐸
÷ 𝑆𝑄𝑇÷ 𝑆𝑄𝑇
𝐹 =𝑛 − 𝑘
𝑘 − 1.
𝑅2
1 − 𝑅2
𝐹 = 𝑅2
(𝑘 − 1)
(1 − 𝑅2)
(𝑛 − 𝑘)
Relação entre R2 e F
𝐹 = 𝑅2
(𝑘 − 1)
(1 − 𝑅2)
(𝑛 − 𝑘)
R2 = 0 => F = 0 => regressão não é significante
R2 = 1 => F => ∞
Quando acrescentar uma nova variável?
𝐹 =
(𝑆𝑄𝐸𝑛𝑜𝑣𝑜−𝑆𝑄𝐸𝑣𝑒𝑙ℎ𝑜)𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔.
𝑆𝑄𝐸𝑛𝑜𝑣𝑜
(𝑛 − 𝑘)
Se as variáveis dependentes dos modelos novo e antigo
são as mesmas posso usar:
𝐹 =
𝑅𝑛𝑜𝑣𝑜2 − 𝑅𝑣𝑒𝑙ℎ𝑜
2
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔.
1 − 𝑅𝑛𝑜𝑣𝑜2
𝑛 − 𝑘
Quando acrescentar uma nova variável?
• A prática de escolher modelo com 𝑅𝑎𝑗𝑢𝑠𝑡2 mais alto não
é adequada, pois não há certeza de que o aumento é
significativo.
• 𝑅𝑎𝑗𝑢𝑠𝑡2 aumenta se | t | da nova variável é maior que 1,
sendo | t | calculado sob a hipótese de que o coeficiente
é igual a zero.
• 𝑅𝑎𝑗𝑢𝑠𝑡2 aumentará se t2 = F for maior que 1
Quando acrescentar um grupo de
variáveis?
Quando F dado por
𝐹 =
𝑅𝑛𝑜𝑣𝑜2 − 𝑅𝑣𝑒𝑙ℎ𝑜
2
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑛𝑜𝑣𝑜𝑠 𝑟𝑒𝑔.
1 − 𝑅𝑛𝑜𝑣𝑜2
𝑛 − 𝑘
for maior que 1.
Teste da igualdade de dois coeficientes da
regressão
𝑌𝑖 = 𝛽1 + 𝛽2𝑋2𝑖 + 𝛽3𝑋3𝑖 + 𝛽4𝑋4𝑖 + 𝑢𝑖
• X3 = renda, X4 = riqueza, Y = demanda do bem
H0: β3 = β4 => (β3 - β4) = 0
H0: β3 ≠ β4 => (β3 - β4) ≠ 0
𝑡 = 𝛽3 − 𝛽4 − (𝛽3 − 𝛽4)
𝑒𝑝 𝛽3 − 𝛽4
𝑒𝑝 𝛽3 − 𝛽4 = 𝑣𝑎𝑟 𝛽3 + 𝑣𝑎𝑟 𝛽4 − 2𝑐𝑜𝑣( 𝛽3, 𝛽4)
Onde obter as var e cov?
Ver comandos em funcaocusto.txt
Mínimos quadrados restritos: teste das
restrições de igualdade linear
Função Cobb-Douglas
𝑌𝑖 = 𝛽1𝑋2𝑖𝛽2𝑋3𝑖
𝛽3𝑒𝑢𝑖
Onde X2 = insumo de mão de obra, X3 = insumo de
capital, Y = produção
𝑙𝑛𝑌𝑖 = 𝛽0 + 𝛽2𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖
Onde 𝛽0 = 𝑙𝑛𝛽1
Se houver retornos constantes de escala = variação
equiproporcional da produção para uma variação
equiproporcional nos insumos
𝛽2 + 𝛽3 = 1
Mínimos quadrados restritos: teste das
restrições de igualdade linear
A abordagem do teste t:
𝑡 = 𝛽2 + 𝛽3 − (𝛽2 + 𝛽3)
𝑒𝑝 𝛽2 + 𝛽3
𝑒𝑝 𝛽2 + 𝛽3 = 𝑣𝑎𝑟 𝛽2 + 𝑣𝑎𝑟 𝛽3 + 2𝑐𝑜𝑣( 𝛽2, 𝛽3)
Mínimos quadrados restritos: teste das
restrições de igualdade linear
A abordagem do teste F:
𝐹 = 𝑆𝑄𝑅𝑅 − 𝑆𝑄𝑅𝑆𝑅𝑚
𝑆𝑄𝑅𝑆𝑅
𝑛 − 𝑘
𝐹 = 𝑅𝑆𝑅
2 − 𝑅𝑅2
𝑚
1 − 𝑅𝑆𝑅
2
𝑛 − 𝑘
Mínimos quadrados restritos: teste das
restrições de igualdade linear
Como obter o modelo restrito?
𝛽2 + 𝛽3 = 1𝛽2 − 1 = 𝛽3
𝑙𝑛𝑌𝑖 = 𝛽0 + (1 − 𝛽3)𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖
𝑙𝑛𝑌𝑖 = 𝛽0 + 𝑙𝑛𝑋2𝑖 − 𝛽3𝑙𝑛𝑋2𝑖 + 𝛽3𝑙𝑛𝑋3𝑖 + 𝑢𝑖
𝑙𝑛𝑌𝑖 − 𝑙𝑛𝑋2𝑖 = 𝛽0 + 𝛽3(𝑙𝑛𝑋3𝑖 − 𝑙𝑛𝑋2𝑖) + 𝑢𝑖
𝑙𝑛𝑌𝑖
𝑋2𝑖= 𝛽0 + 𝛽3𝑙𝑛
𝑋3𝑖
𝑋2𝑖+ 𝑢𝑖
Ver comandos em cobbdouglas.txt
Teste da estabilidade estrutural ou dos
parâmetros nos modelos de regressão: Teste de
Chow
• Quando empregamos um modelo de regressão que
envolve o uso de séries temporais pode haver mudança
dos coeficientes ao longo do tempo.
• Exemplos: (i) exportações no Brasil antes e depois da
liberação do câmbio em 1999; (ii) demonstrações
contábeis antes e depois do IFRS
• Como saber se há quebra de estrutura?
Teste de Chow
• Nada mais é que um teste de modelo restrito x modelo
sem restrições
• Aqui o restrito é o que supõe que os coeficientes são
iguais ao longo de todo o tempo
• Premissas:
– 𝑢1𝑡~𝑁 0 , 𝜎2
– 𝑢2𝑡~𝑁(0 , 𝜎2)
– 𝑢1𝑡 e 𝑢2𝑡 têm distribuições independentes
Distribuição Normal
com mesma variância
Teste de Chow
• Etapas do teste:
1. Estima-se as regressões separadas
2. Estima-se a regressão para o período completo
3. Obtém-se os SQR (soma quad. resíduos)
4. Teste F
𝐹 = 𝑆𝑄𝑅𝑅 − 𝑆𝑄𝑅𝑆𝑅𝑘
𝑆𝑄𝑅𝑆𝑅
(𝑛1 + 𝑛2 − 2𝑘)
~ 𝐹𝑘 ,𝑛1+𝑛2−2𝑘
Ver comandos em pouprenda.txt
Teste de Chow
• Advertências:
1. As premissas devem ser respeitadas. É preciso verificar se
as variâncias dos erros das regressão são iguais.
2. O teste não diz se a diferença entre as regressões decorre
dos interceptos, coeficientes angulares ou de ambos.
3. O teste pressupõe que conhecemos o ponto de quebra
estrutural.
Ver comandos em pouprenda.txt