23

Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Embed Size (px)

Citation preview

Page 1: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Modelos Lineares Generalizados

Emilly Malveira de Lima

Análise de Dados CategóricosUniversidade Federal de Minas Gerais - UFMG

10 de Maio de 2018

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 1 / 20

Page 2: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Modelo de regressão linear

Regressão linear

Tem o interesse de modelar o comportamento médio de uma variável de interessepor meio da combinação de covariáveis explicativas.

Yi = β0 + β1X1i + · · ·+ βpXpi + εi , i = 1, ..., n.

E [Yi |Xi ] = β0 + β1X1i + · · ·+ βpXpi = X′iβ︸︷︷︸Preditor linear

ε′i s são independentes e têm a mesma distribuição, N(0, σ2)

Yi ∼ N(E [Yi |Xi ], σ2)

Suposições do modelo: linearidade, independência, homocedasticidade enormalidade

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 2 / 20

Page 3: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Modelos lineares generalizados

Os MLGs foram propostos por Nelder and Wedderburn (1972) como umaextensão do modelo linear normal;

são modelos para análise de dados em que a suposição de normalidade não éplausível;

é possível modelar variáveis de interesse que assumem a forma decontagem, contínuas simétricas e assimétricas, binárias e categóricas;

assume-se que a densidade da função de distribuição da variável respostapertence à família exponencial.

a modelagem da média não é feita de forma direta. É necessário escolheruma função que é capaz de relacionar as covariáveis com a média davariável resposta.

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 3 / 20

Page 4: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Estrutura do MLG

Há 3 perguntas a serem feitas na hora da construção de um MLG

1 Qual a distribuição dos dados?O vetor Y geralmente consiste em medidas independentes vindas de umadistribuição de probabilidade com densidade na família exponencial.

2 Quais serão os preditores? Variáveis explicativas que estejam associadas àvariável resposta.

3 Qual a função da média que será modelada como linear nos preditores?Função de ligação

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Page 5: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Estrutura do MLG

Há 3 perguntas a serem feitas na hora da construção de um MLG

1 Qual a distribuição dos dados?O vetor Y geralmente consiste em medidas independentes vindas de umadistribuição de probabilidade com densidade na família exponencial.

2 Quais serão os preditores? Variáveis explicativas que estejam associadas àvariável resposta.

3 Qual a função da média que será modelada como linear nos preditores?Função de ligação

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Page 6: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Estrutura do MLG

Há 3 perguntas a serem feitas na hora da construção de um MLG

1 Qual a distribuição dos dados?O vetor Y geralmente consiste em medidas independentes vindas de umadistribuição de probabilidade com densidade na família exponencial.

2 Quais serão os preditores? Variáveis explicativas que estejam associadas àvariável resposta.

3 Qual a função da média que será modelada como linear nos preditores?Função de ligação

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Page 7: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Estrutura do MLG

Há 3 perguntas a serem feitas na hora da construção de um MLG

1 Qual a distribuição dos dados?O vetor Y geralmente consiste em medidas independentes vindas de umadistribuição de probabilidade com densidade na família exponencial.

2 Quais serão os preditores? Variáveis explicativas que estejam associadas àvariável resposta.

3 Qual a função da média que será modelada como linear nos preditores?Função de ligação

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 4 / 20

Page 8: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Família exponencial

De maneira geral, uma distribuição é dita ser da família exponencial de sua densi-dade pode ser escrita na seguinte forma

Estrutura da família exponencial

f (y |θ, φ) = exp

{yθ − b(θ)

a(φ)+ c(y , φ)

}

y é a variável de interesse

θ é parâmetro natural (função de ligação canônica)

φ parâmetro de escala

a, b, e c são funções especí�cas que derterminam unicamente a distribuição.

Propriedades:µ = E (Y ) = b′(θ) = db(θ)

dθ e

σ2 = Var(Y ) = b′′(θ)a(φ) = d2b(θ)dθ2 a(φ)

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 5 / 20

Page 9: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Tipos de resposta e distribuições

Contagem: modelo de Poisson

Binária: modelo Bernoulli

Categórica: modelo multinomial

Contínua assimétrica: modelo gama

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 6 / 20

Page 10: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Resposta Poisson

Contagem/Taxas de ocorrência de eventos

Número de acidentes de carro;

Número de mortes por uma determinada doença;

Número de casos de dengue em uma região (município, estado...)

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 7 / 20

Page 11: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Poisson

Função de probabilidade

fY (y |λ) =λy

y !e−λ, y = 0, 1, 2, ... ; λ > 0.

Forma da família exponencial

fY (y |λ) = exp{ylog(λ)− λ+ [−log(y !)]}

θ = log(λ); b(θ) = λ = exp(θ); a(φ) = 1; c(y , φ) = −log(y !)

Média e variância

µ = b′(θ) = exp(θ) = λ

σ2 = b′′(θ)a(φ) = λ

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 8 / 20

Page 12: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Resposta Binária

Binária Quando temos o intuito de modelar uma variável resposta 0-1 (�fracasso-sucesso�), ou seja, a probabilidade de sucesso de algum evento de interesse

probabilidade de um paciente desenvolver algum tipo de doença;

] probabilidade de um indivíduos possuir plano de saúde;

probabilidade de um cliente de banco ser inadimplente;

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 9 / 20

Page 13: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Bernoulli

Função de probabilidade

fY (y |π) = πy (1− π)1−y , y = {0, 1}, 0 < π < 1.

Forma da família exponencial

fY (y |π) = exp

{ylog

1− π

)− [−log(1− π)]

}

θ = log

1− π

); b(θ) = log(1+ exp{θ}); a(φ) = 1; c(y , φ) = 0

Média e variância

µ = b′(θ) =exp(θ)

1+ exp(θ)= π

σ2 = b′′(θ)a(φ) =exp(θ)

[1+ exp(θ)]2= π(1− π)

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 10 / 20

Page 14: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Função de ligação

Sejam X1,X2, . . . ,Xp um conjunto de covariáveis.

A média da variável resposta

µ = E (Y )

é relacionada com X1,X2, . . . ,Xp através de uma função de ligação g

A relação entre µ e η é de�nida por

g(µ) = g(E [Y ]) = η = β0 + β1X1 + β2X2 + · · ·+ βpXp = X′β

geralmente são utilizadas as funções canônicas, ou seja, θ = η

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 11 / 20

Page 15: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Função de ligação

Exemplo: Poisson (Regressão de Poisson)

Sob a ligação canônica devemos ter

θ = log(λ) = η = X′β

entãog(E (Y )) = g(λ) = log(λ)

Para o modelo de Poisson g é chamada de ligação log

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 12 / 20

Page 16: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Função de ligação

Exemplo: Bernoulli (Regressão logística)

Sob a função de ligação canônica temos

θ = log

1− π

)= η = X′β

então

g(E (Y )) = g(π) = log

1− π

)Para o modelo de Bernoulli g é chamada de ligação logit.

O modelo de regressão logística é expresso por

p(y |x) = exp(X′β)1+ exp(X′β)

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 13 / 20

Page 17: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Outras ligações na regressão logística

0.00

0.25

0.50

0.75

1.00

−10 −5 0 5 10

x

P(X

< x

)

cauchit

cloglog

logit

probit

tobit

Mais utilizadas: logit, probit e complemento log-log.

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 14 / 20

Page 18: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Inferência nos MLG's

Inferência baseada na teoria assintótica de máxima verossimilhança;

Métodos numéricos: Newton Raphson e Escore de Fisher

Exemplo: Função de verossimilhança da Bernoulli

L(β) =n∏

i=1

fY (yi |π) = πyi (1− π)1−yi =n∏

i=1

exp(yiX′

iβ)

1+ exp(X′iβ)

Função de log-verossimilhança

l(β) = logL(β) =n∑

i=1

{yiX′

iβ − log [1− exp(X′

iβ)]}

Porém, nos MLG's os estimadores dos β′s NÃO são encontrados de forma analí-tica.

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 15 / 20

Page 19: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Newton-Raphson

o algoritmo de Newton-Raphson é comumente utilizado para calcular o EMVde β.

Algoritmo de Newton-Raphson

Seja l ′(β) o logaritmo da função de verossimilhança. A cada passo do algoritmoNR a estimativa βt é atualizada por

βt+1 = βt + [l ′′(β)]−1l ′(βt)

em que

l ′(β) =(∂l(β)∂β0

, ∂l(β)∂β1, . . . , ∂l(β)∂βp

)conhecido com vetor escore

l ′′(β) é a matriz de segundas derivadas com (p + 1)x(p + 1) elementos

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 16 / 20

Page 20: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Inferência nos GLM'sTeste de Hipóteses

Baseados na teoria assintótica de MV;

usualmente três estatísticas especí�cas para realizar testes sobre β's:

i Waldii Razão de verossimilhançasiii Escore

1) Teste de Wald parar testar a hipótese de nulidade do efeito das covariáveis,ou seja, H0 : βj = 0.

I A estatística de teste X 2

j =(

β̂j

EP(β̂j )

)2segue uma distribuição χ2 com 1 gl.

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 17 / 20

Page 21: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Inferências nos MLG'sTeste de Hipóteses

2) TRV para testar modelos aninhados.

TRV = −2[`(H0)

`(H1)

]assintótica∼ χp−q

Sendo p o no de parâmetros do modelo sem restrição, e q do modelo comrestrição.

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 18 / 20

Page 22: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

No R

glm()

formula: y ∼ x1+ x2+ ...

family: binomial(link = �logit�)poisson(link = �log�)gaussian(link = �identity�)Gamma(link = �inverse�)

data

o�set

TRV

anova(modelo sob restrição, modelo sem restição)

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 19 / 20

Page 23: Modelos Lineares Generalizados - est.ufmg.brenricoc/pdf/categoricos/mlg.pdf · assume-se que a densidade da função de distribuição da variável resposta pertence à família exponencial

Referências

Nelder, J., & Wedderburn, R. (1972). Generalized Linear Models. Journal of the RoyalStatistical Society. Series A (General), 135(3), 370-384.

Cordeiro, G. M., & Demétrio, C. G. (2008). Modelos lineares generalizados e extensões.Sao Paulo.

Dobson, A. J., & Barnett, A. (2008). An introduction to generalized linear models. CRCpress.

Emilly Malveira (PGEST-UFMG) 10 de Maio de 2018 20 / 20