35
Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy) 1 variáveis binárias (dummy)

Análise de Regressão Múltipla com informação qualitativa ... · Dummies para múltiplas categorias Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário,

  • Upload
    vodang

  • View
    228

  • Download
    0

Embed Size (px)

Citation preview

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

1

variáveis binárias (dummy)

Como descrever informações qualitativas?

Fatores qualitativos podem ser incorporados a modelos de regressão.

Neste caso, classificamos os dados conforme algumas características qualitativas.

2

Exemplos: ser homem ou ser mulher; ser branco ou negro; morar no Rio ou em Niterói.... etc.

Estas variáveis qualitativas podem ser regressoresou variáveis dependentes.

Existem formas de incorporá-las ao modeloeconométrico.

Variáveis binárias ou dummy

Nestes casos, as informações relevantes podem ser captadas pela definição de uma variável binária (variável zero-um)

Definição de uma dummy: identificar o Definição de uma dummy: identificar o evento que assumirá o valor um e o evento que assumirá o valor zero.

É sempre bom denominar a variável pelo evento que é igual a um:� Ser homem é igual a 1 – chamar a variável de

“homem” 3

Variáveis binárias ou dummy

Como fica o banco de dados?

4

Exemplo: com uma variável binária

Somente dois fatores afetam os salários: gênero e escolaridade

Qual a diferença entre o salário hora do homem e da mulher, dado o mesmo nível educacional?

5

6

Exemplo 2:

Se educação, experiência e permanência foram características relevantes para a produtividade, a hipótese nula para não existência de diferença entre homens e mulheres seria:

A alternativa seria que existe discriminação contra mulheres:

7

0: 0 =δo

H

0: 0 <δo

H

Banco de dados: wage1.gdt

Rode o modelo acima

Quanto a mulher ganha , em média, a menos que o homem?menos que o homem?

Rode o mesmo modelo acima, mas excluindo todos controles com exceção da dummy feminino.

� Qual o salário hora médio dos homens?

� O que é o intercepto?

� Teste de comparação das médias 8

Banco de dados: GPA1.gdtEfeitos de se possuir computadores na avaliação de cursos superiores

� PC = 1 se o aluno tem computador em casa.

� hsGPA: nota no final do ensino médio

� ACT: nota do exame vestibular� ACT: nota do exame vestibular

Qual o efeito sobre a nota média final prevista no curso superior?

O que acontece com o efeito se retirar hsGPA e ACT? Interprete o significado do coeficiente de PC.

Defina uma variável semPC e inclua acima excluindo PC. O que acontece com o intercepto na equação estimada? Qual o coeficiente de semPC?

9

Avaliação de políticas

Qual efeito de um programa econômico ou social sobre os indivíduos, empresas, etc...

Dois grupos de estudo: Dois grupos de estudo: � Grupo de controle: não participa do programa

� Grupo de tratamento: participa do programa

Escolha dos grupos de controle e tratamento não é aleatória.

10

Avaliação de políticas

Definição do grupo de controle e tratamento:� Grupo de Tratamento: pessoas (do público- alvo) que serão atendidas pelo projeto.que serão atendidas pelo projeto.

� Grupo de Controle: pessoas com características similares, mas que não serão atendidas pelo projeto.

11

Banco de dados. JTRAIN.GDTEfeitos da concessão de subsídios sobre as horas de treinamento

Dados de 1988 indústrias de Michigan

hrsemp: horas de treinamento por empregado no nível da empresa.

Subs = 1 se a indústria recebeu subsídio12

Variável dependente na forma log

Regressão dos preços dos imóveis

Banco de dados Hprice1.gdt

Dummy colonial: igual a 1 se o imóvel tiver estilo colonial. Qual a sua interpretação?

13

Reestimar o exemplo 2

Use log(salário hora)

Inclua termos quadráticos para experiência e tempo de permanência.e tempo de permanência.

Quanto as mulheres ganham a menos que os homens?

Qual a diferença percentual exata entre homens e mulheres?

14

15

Reestimar o exemplo 2

)297,0exp(/

)297,0exp())/exp(log(

297,0)/log(

297,0)log()log(

−=

−=

−=

−=−

salariohsalariom

salariohsalariom

salariohsalariom

salariohsalariom

16

257,01)297,0exp(

1

)297,0exp(/

−=−−=−

−=−

−=

salarioh

salariohsalariom

salarioh

salariom

salarioh

salariohsalariom

salariohsalariom

Dummies para múltiplas categorias

Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia.

Para compará-los, inclua 2 variáveis dummies:

17

Para compará-los, inclua 2 variáveis dummies:

prim = 1 se a pessoa trabalha no setor primário e= 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.

Dummies para múltiplas categorias

Suponha que seus dados sejam sobre pessoas que trabalham nos setores primário, secundário e terciário da economia.

Para compará-los, inclua 2 variáveis dummies:

18

Para compará-los, inclua 2 variáveis dummies:

prim = 1 se a pessoa trabalha no setor primário e= 0 caso contrário; e sec = 1 se ela trabalha no setor secundário e = 0 caso contrário.

Categorias múltiplas (cont.)

Qualquer variável expressa em categorias pode ser transformada em uma variável dummy.

Como o caso base é representado pelo

19

Como o caso base é representado pelo intercepto, se há n categorias, devem havern – 1 dummies.Se há muitas categorias, pode-se agrupar algumas delas.

Exemplo: Equação do log salário hora

Modelo que considere as diferenças salariais entre quatro grupos: � Homens casados (marrmale)

Homens solteiros (grupo base)

20

� Homens solteiros (grupo base)� Mulheres casadas (marrfem)� Mulheres solteiras (singfem)

O “prêmio” por ser casado não é o mesmo para homens e mulheres!!!

Exemplo: Equação do log salário hora

21

Lembre do grupo base!!!!

As estimativas das três variáveis medem a diferença proporcional nos salários relativamente aos homens solteiros.

Exemplo: Equação do log salário hora

Os homens casados ganham cerca de 21,3% mais que os homens solteiros.Uma mulher casada deve ganhar 19,8% a menos que um homem solteiro.

22

que um homem solteiro.Diferença proporcional estimada entre as mulheres solteiras e as casadas é (-0,110-(-0,198)) = 0,088. Mulheres solteiras ganham 8,8% a mais que as mulheres casadas.

Interação entre dummies

Interagir dummies é como subdividir o grupo. Exemplo: ter dummies para homens assim como para prim e sec.Adicione homem*prim e homem*sec, para um total de 5 dummies e 6 categorias.

23

total de 5 dummies e 6 categorias.O caso base é: mulher no terciário. prim é para mulheres no setor primário e sec é para mulheres no setor secundário.As interações refletem homens no primário e homens no secundário.

Mais sobre dummies de interaçãoFormalmente, o modelo é y = β0 + δ1homem + δ2prim + δ3sec + δ4homem*prim + δ5homem*sec+ β1x + u. Então, por exemplo:Se homem = 0, prim = 0 e sec = 0:y = β + β x + u

24

y = β0 + β1x + u

Se homem = 0, prim = 1 e sec = 0:y = β0 + δ2prim + β1x + u

Se homem = 1, prim = 0 e sec = 1:y = β0 + δ1homem + δ3prim + δ5homem*sec + β1x + u

Exemplo:

25

Outra forma de encontramos diferencias de salário entre homens casados, homens solteiros, mulheres casadas e mulheres solteiras.

Outras interações com dummies

Podemos também interagir uma dummy, d, com uma variável contínua, x:

y = β0 + δ1d + β1x + δ2d*x + u.

26

y = β0 + δ1d + β1x + δ2d*x + u.

Se d = 0, então y = β0 + β1x + u.

Se d = 1, então y = (β0 + δ1) + (β1+ δ2) x +

u.

Temos uma mudança na inclinação.

y

y = β0 +β1x

Exemplo de δ0 > 0 e δ1 < 0

d = 0

27x

y = (β0 + δ0) + (β1 + δ1) x

d = 1

Exemplo:

Queremos verificar se o retorno da educação é o mesmo para homens e mulheres:

mede a diferença nos interceptos entre homens e mulheres

28

homens e mulheres

mede a diferença no retorno da educação entre homens e mulheres.

interação

29

30

• O retorno estimado da educação dos homens é 8,2%.

• Para as mulheres, o retorno é 0,082-0,0056 = 0,0764 (7,6%).

• Esta diferença de retorno é pouco significativa. Logo, não podemos rejeitar a hipótese nula de que o retorno para homens e mulheres é igual.

Teste para diferenças entre grupos

Testar se uma função de regressão é diferente para um grupo em relação a outro pode ser pensado simplesmente como um teste para a significância conjunta da dummy e suas interações com todas as outras variáveis x.

31

com todas as outras variáveis x.

A hipótese nula é que os modelos não sãodiferentes para os grupos.Então, estimam-se os modelos com e sem todas as interações e calcula-se a estatística F.

Mas quando há muitas interações, há um procedimento mais fácil.

Teste para diferenças entre grupos

Suponha que temos dois grupos e queremos testar se

interceptos e inclinações são diferentes para estes dois

grupos:

32

uxxxxy kkggggg ++++++= ....3... ,3,22,11,0, βββββ

Temos k+1 restrições.

O teste de ChowÉ possível calcular a estatística F sem estimarmos o modelo irrestrito completo.Estima-se o SQR do modelo irrestrito, estimando o modelo para cada grupo: obtenha a SQR1; depois, faça o mesmo para o outro grupo e

33

depois, faça o mesmo para o outro grupo e obtenha a SQR2:

Estima-se o modelo restrito considerando todos os grupos juntos e obtenha a SQR. Então:

( )[ ] ( )[ ]1

12

21

21

+

+−

+

+−=

k

kn

SQRSQR

SQRSQRSQRF

O teste de Chow (cont.)

O teste de Chow é apenas um teste F usual de exclusão de variáveis, se você observar que SQRir

= SQR1 + SQR2.

Observe que há k + 1 restrições (cada uma das

34

Observe que há k + 1 restrições (cada uma das inclinações e o intercepto).

Observe que o modelo irrestrito estimaria dois diferentes interceptos e duas inclinações diferentes, logo temos n – 2k – 2 graus de liberdade no denominador.

Modelo de Probabilidade Linear

Regressão múltipla para explicar um evento qualitativo.

y é 0 ou 1.y é 0 ou 1.

35