37
PAULO NOVIS ROCHA ( [email protected] ) REGRESSÃO LOGÍSTICA I Créditos para o livro: Principles of Biostatistics, Marcello Pagano e Kimberlee Gauvreau

Regressão Logística

Embed Size (px)

Citation preview

P A U L O N O V I S R O C H A ( P A U L O N R O C H A @ U F B A . B R )

REGRESSÃO LOGÍSTICA I

Créditos para o livro: Principles of Biostatistics, Marcello Pagano e Kimberlee Gauvreau

NA REGRESSÃO LINEAR…

• Ajustamos um modelo do formato

• y = α + β1x1 + β2x2 + … + βqxq + ε

• Pressuposto importante: a variável y era de natureza contínua e seguia uma distribuição normal.

• O modelo se preocupava em estimar (ou predizer) o valor médio de y dado um certo conjunto de valores das variáveis explanatórias.

E SE A VARIÁVEL Y FOR DICOTÔMICA?

• Doença presente = 1

• Doença ausente = 0

• Morto = 1

• Vivo = 0

• 1 = “sucesso” do ponto de vista estatístico, corresponde a ocorrência do evento

• 0 = “falha” do ponto de vista estatístico, corresponde não ocorrência do evento

E SE A VARIÁVEL Y FOR DICOTÔMICA?

• A média desta variável dicotômica “y” será designada “p”

• Onde “p” é a proporção de vezes que a variável assume o valor 1

• p = P (Y = 1)

• p = P (“sucesso”)

• Para estimar a probabilidade “p” associada a uma resposta dicotômica para diversos valores de uma variável explanatória, utilizamos uma técnica chamada de REGRESSÃO LOGÍSTICA.

SITUAÇÃO CLÍNICA

• Considere os neonatos de baixo peso (definido como <

1750 gramas) que satisfazem os seguintes critérios:

• Confinados a uma UTI neonatal

• Necessitaram de IOT e VM durante as 12 primeiras horas de

vida

• Sobreviveram por pelo menos 28 dias

• Amostra aleatória de n = 223 neonatos com estas

características

• 76 foram identificados como portadores de displasia

broncopulmonar; os 147 restantes não.

P (Y = 1)

• Y = variável aleatória dicotômica onde:

• 1 = presença de DBP

• 0 = ausência de DBP

• A probabilidade estimada de que um neonato

retirado desta população tenha DBP é a

proporção de DBP na amostra aleatória:

• p = 76/223 = 0,341 (ou 34,1%).

PREDITORES / FATORES DE RISCO

• Podemos suspeitar que alguns fatores – maternos e

neonatais – devem afetar a probabilidade de um

neonato em particular desenvolver DBP.

• O conhecimento da presença ou ausência destes

fatores pode:

• aumentar a precisão da nossa estimativa “p”

• desenvolver intervenções para reduzir essa probabilidade

• Analogia com a regressão linear

• Equação visa melhorar a estimativa em relação à simples

média aritmética

FATOR DE RISCO: PESO DO NEONATO

• Se a variável dependente y fosse contínua,

poderíamos começar a análise construindo um

diagrama de dispersão de pontos das variáveis x

versus y.

• Será que podemos fazer o mesmo com uma

variável y dicotômica?

F I G U R E 2 0 . 1

DIAGNOSIS OF BRONCHOPULMONARY DYSPLASIA VERSUS BIRTHWEIGHT FOR A SAMPLE OF 223 LOW BIRTH WEIGHT INFANTS

EXPLORANDO UM POUCO MAIS:DIVIDINDO O PESO EM INTERVALOS DE CLASSE

Peso ao nascer

(em gramas)

Tamanho da

amostra

Número com

DBP

p

0 - 950 68 49 0,721

951 - 1350 80 18 0,225

1351 - 1750 75 9 0,120

223 76 0,341

• AGORA SIM!

• Parece que a probabilidade de desenvolver DBP aumenta à medida

que o peso do neonato diminui – e vice-versa.

• Como parece haver uma relação entre estas duas variáveis,

gostaríamos de utilizar o peso ao nascer para ajudar na estimativa

da probabilidade do neonato vir a desenvolver DBP.

A FUNÇÃO LOGÍSTICA - I

• A primeira estratégia poderia ser tentar ajustar um

modelo do tipo:

p = α + βx

• onde x representa o peso ao nascer.

• À primeira impressão, este modelo não é

adequado.

• Como p é uma probabilidade, só pode aceitar

valores entre 0 e 1.

A FUNÇÃO LOGÍSTICA - II

A FUNÇÃO LOGÍSTICA - III

PROBABILIDADE X CHANCE

CHANCE E FUNÇÃO LOGÍSTICA

CONCLUÍNDO

A EQUAÇÃO LOGÍSTICA

TESTE DE HIPÓTESES

APLICAÇÃO

USANDO O MESMO MÉTODO...

PESO AO NASCER PROBABILIDADE ESTIMADA DE DBP

750 0.708

1150 0.311

1550 0.078

Se calcularmos a probabilidade estimada para cada valor observado

de peso ao nascer e plotarmos essa probabilidade estimada x peso, o

resultado seria a curva a seguir.

F I G U R E 2 0 . 2

LOGISTIC REGRESSION OF BRONCHOPULMONARY DISPLASIA ONBIRTH WEIGHT

REGRESSÃO LOGÍSTICA MÚLTIPLA

Idade

gestacional

(semanas)

Tamanho da

amostra

Número com

DBP

Probabilidade

estimada

≤ 28 58 40 0.690

29-30 73 26 0.356

≥ 31 92 10 0.109

223 76 0.341

• Para começar a explorar a possibilidade de que a idade gestacional

também poderia interferir na probabilidade de um neonato

desenvolver DBP, a população de neonatos de baixo peso foi

subdividida em três categorias.

• A tabela mostra que a probabilidade estimada de DBP diminui à

medida que aumenta a idade gestacional.

REGRESSÃO LOGÍSTICA MÚLTIPLA

Peso ao nascer

(gramas)

Idade gestacional (semanas)

≤ 28 29-30 ≥ 31

0-950 0.805 (41) 0.714 (21) 0.167 (6)

951-1350 0.412 (17) 0.194 (36) 0.148 (27)

1351-1750 - (0) 0.250 (16) 0.085 (59)

• Classificação cruzada dos 223 neonatos estratificados em três

categorias de de peso ao nascer e três categorias de idade

gestacional.

• Observem as seguintes tendências:• Para uma determinada categoria de peso, a probabilidade estimada de

DBP parece diminuir à medida que a idade gestacional aumenta

• Para uma determinada categoria de idade gestacional, a probabilidade

estimada de DBP parece diminuir à medida que o peso ao nascer

aumenta (salvo uma exceção, onde o n é pequeno)

REGRESSÃO LOGÍSTICA MÚLTIPLA

REGRESSÃO LOGÍSTICA MÚLTIPLA

APLICAÇÃO

Peso ao nascer

(gramas)

Idade gestacional

(semanas)

Probabilidade

estimada de DBP

750 27 0.781

1150 32 0.157

• Como realizado anteriormente, basta inserir os valores de idade

gestacional e peso ao nascer na equação para encontrar a

probabilidade estimada de DBP.

E SE A VARIÁVEL “X” FOR DICOTÔMICA

E SE A VARIÁVEL “X” FOR DICOTÔMICA

ODDS RATIO (RAZÃO DE CHANCES)

ODDS RATIO (RAZÃO DE CHANCES)

Toxemia

Sim 6 70 76

Não 23 147

TOTAL 29 194 223

INTERVALO DE CONFIANÇA

INCREMENTANDO O MODELO

INCREMENTANDO O MODELO

PRÉ-SELEÇÃO DE VARIÁVEIS

• Evitar sobrecarregar o modelo de variáveis

• Critérios de pré-seleção• Não estatísticos:

• Conhecimento prévio (clínica, literatura)

• Hipótese do autor

• Estatísticos

• Valor p (0,10? 0,25?)

• Análises estratificadas

• Comparações entre médias, comparações entre proporções, regressão logística univariada

TÉCNICAS DE MODELAGEM

1. Todos os modelos possíveis

2. Enter• Todas as variáveis pré-selecionadas são forçadas a ficar no modelo final

3. Forward selection• Variáveis pré-selecionadas colocadas uma a uma no modelo, começando com a que

mais explica o desfecho

• Acrescenta a variável que mais aumenta o poder de explicação do modelo

• Termina quando nenhuma das variáveis restantes adiciona poder de explicação ao modelo

4. Backward elimination• Começa colocando todas as variáveis pré-selecionadas no modelo

• Variáveis retiradas uma a uma, começando com a que menos reduz o poder de explicação do modelo

• Termina quando todas as variáveis restantes no modelo explicam uma porção significativa da variável dependente y

5. Stepwise selection• Reúne características de forward e backward

• Começa como forward, mas a cada nova variável acrescentada, as variáveis anteriores são re-avaliadas para ver se mantém a sua significância estatística.

AVALIAÇÃO DO MODELO

• R2

• Hosmer and Lemeshow Goodness of fit test

• Análise de resíduos

EXEMPLOS NO SPSS

BANCO: LTX RESEARCH