Analise de Dados Discretos

UNIVERSIDADE FEDERAL DO PARANA

DEPARTAMENTO DE ESTATISTICA

ANALISE DE DADOS DISCRETOS

Suely Ruiz Giolo

C U R I T I B A

Estado do Parana - Brasil

Prefacio

Este material baseia-se em varios livros e artigos citados e tem como objetivo apre-

sentar um texto introdutorio sobre a Analise de Dados Discretos. Ele pode ser usado

em cursos de Bacharelado em Estatıstica, bem como em outros cursos de graduacao

e de pos-graduacao, em que os alunos tenham conhecimentos basicos de probabili-

dade, inferencia e regressao bem como tenham, tambem, nocoes de alguns testes nao-

parametricos.

O texto se originou de notas de aulas da disciplina Analise de Dados Discretos,

ministrada no curso de Bacharelado em Estatıstica da Universidade Federal do Parana,

com o proposito de apresentar metodos para a descricao, analise e modelagem de dados

em que a variavel resposta de interesse seja categorica. Diversos exemplos sao apresen-

tados e discutidos no decorrer do texto a fim de facilitar o entendimento dos conceitos,

metodos e modelos apresentados.

O manuscrito foi preparado usando o LaTex e as ilustracoes e resultados es-

tatısticos foram obtidos no pacote estatıstico R. O texto nao esta livre de erros e

imperfeicoes e, desse modo, comentarios, crıticas e sugestoes dos leitores, que possam

contribuir para uma futura edicao revisada do mesmo, sao bem-vindos.

Suely Ruiz Giolo

Curitiba, marco de 2004.

SUMARIO

Pagina

1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1 Escalas de Mensuracao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Dados Obtidos nos Delineamentos Amostrais . . . . . . . . . . . . . . . . . 4

1.2.1 Dados historicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.2 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2.3 Dados de levantamentos amostrais . . . . . . . . . . . . . . . . . . . . . . 5

2 TABELAS DE CONTINGENCIA 2 × 2 . . . . . . . . . . . . . . . . . . . . 6

2.1 Modelo produto de Binomiais independentes . . . . . . . . . . . . . . . . . 6

2.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.3 Modelo Produto de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 Modelo Hipergeometrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.5 Estudos frequentes e modelos probabilısticos associados . . . . . . . . . . . 9

2.5.1 Estudos de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.5.2 Estudos Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.5.3 Estudos cross-sectional ou tranversais . . . . . . . . . . . . . . . . . . . . 14

2.5.4 Ensaios clınicos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . 14

2.6 Estatısticas de teste e Medidas de Associacao . . . . . . . . . . . . . . . . . 16

2.6.1 Estatısticas Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.6.2 Testes Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.6.3 Diferenca nas proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.6.4 Risco relativo e odds ratio (razao de chances) . . . . . . . . . . . . . . . 19

2.6.5 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 24

2.6.6 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 TABELAS DE CONTINGENCIA: OUTRAS DIMENSOES . . . . . . . . . 27

3.1 Conjunto de tabelas de contingencia 2 × 2 . . . . . . . . . . . . . . . . . . 27

3.1.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.1.2 Medidas de associacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Conjunto de tabelas de contingencia 2 × r . . . . . . . . . . . . . . . . . . 30

3.2.1 Associacao em uma unica tabela de contingencia 2 × r . . . . . . . . . . 31

3.2.1.1 Escolha dos escores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2.2 Associacao em um conjunto de tabelas de contingencia 2 × r . . . . . . . 34

3.3 Conjunto de tabelas de contingencia s × 2 . . . . . . . . . . . . . . . . . . . 35

3.3.1 Associacao em uma unica tabela de contingencia s × 2 . . . . . . . . . . 36

3.3.2 Associacao em um conjunto de tabelas de contingencia s × 2 . . . . . . 37

3.4 Tabelas de contingencia s × r . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.4.1 Testes para associacao geral em tabelas s × r . . . . . . . . . . . . . . . . 38

3.4.1.1 Situacao 1: variavel resposta nominal . . . . . . . . . . . . . . . . . . . 38

3.4.1.2 Situacao 2: variavel resposta ordinal . . . . . . . . . . . . . . . . . . . . 39

3.4.1.3 Situacao 3: ambas as variaveis ordinais . . . . . . . . . . . . . . . . . . 39

3.4.2 Teste exato para associacao geral em tabelas s × r . . . . . . . . . . . . . 40

3.4.3 Medidas de associacao em tabelas s × r . . . . . . . . . . . . . . . . . . . 40

3.4.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.4.4.1 Local de moradia e afiliacoes polıtico partidarias . . . . . . . . . . . . . 41

3.4.4.2 Medicamentos para dor de cabeca e perıodo sem dor . . . . . . . . . . . 41

3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza . . . . . . . . . 43

3.4.4.4 Tipo de veıculo adquirido e fonte de propaganda. . . . . . . . . . . . . . 43

3.4.5 Concordancia entre observadores . . . . . . . . . . . . . . . . . . . . . . . 44

3.4.5.1 Estatıstica Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

3.4.5.2 Exemplo: concordancia entre o diagnostico de dois neurologistas . . . . 46

3.5 Conjunto de tabelas de contingencia s × r . . . . . . . . . . . . . . . . . . . 47

4 REGRESSAO LOGISTICA DICOTOMICA . . . . . . . . . . . . . . . . . . 48

4.1 Estimacao dos parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4.2 Significancia das variaveis no modelo . . . . . . . . . . . . . . . . . . . . . 54

4.2.1 Analise de Deviance e selecao de modelos . . . . . . . . . . . . . . . . . . 56

4.3 Qualidade do modelo ajustado . . . . . . . . . . . . . . . . . . . . . . . . . 57

4.3.1 O modelo ajustado e interpretacoes . . . . . . . . . . . . . . . . . . . . . 59

4.4 Diagnostico da regressao logıstica . . . . . . . . . . . . . . . . . . . . . . . 59

4.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.5.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.5.1.1 Resultados e conclusoes obtidas para os dados do exemplo 1 . . . . . . . 64

4.5.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.5.3 Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.5.4 Metodos auxiliares no diagnotico do modelo ajustado . . . . . . . . . . . 73

4.5.4.1 QQplot com envelope simulado . . . . . . . . . . . . . . . . . . . . . . . 73

4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares . . . . . . . . . . 74

5 REGRESSAO LOGISTICA POLITOMICA . . . . . . . . . . . . . . . . . . 76

5.1 Resposta ordinal: modelo de odds proporcionais . . . . . . . . . . . . . . . 76

5.1.1 Regressao logıstica politomica ajustada aos dados sobre artrite . . . . . . 78

5.2 Resposta nominal: modelo de logitos generalizados . . . . . . . . . . . . . . 82

5.2.1 Logitos generalizados ajustados aos dados do programa escolar . . . . . . 84

BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

1 INTRODUCAO

Analistas de dados frequentemente se deparam com experimentos cujas respos-

tas de interesse sao, por natureza, categoricas e refletem, portanto, categorias de in-

formacao em vez da usual escala intervalar. Dados categoricos sao, em geral, apresenta-

dos na forma de tabelas, conhecidas como tabelas de contingencia. A analise de dados

categoricos (ou discretos) trata, portanto, da analise de experimentos em que a variavel

resposta e categorica. Quanto as variaveis explanatorias (covariaveis), estas podem ser

tanto categoricas quanto contınuas.

Observar a escala de mensuracao (dicotomica, ordinal, nominal etc.) das variaveis

categoricas e identificar o delineamento amostral que produziu os dados, sao fatores

muito importantes para a determinacao de uma analise apropriada e, consequentemente,

das possıveis inferencias.

Na secao 1.1 sao, portanto, descritas e ilustradas varias escalas de mensuracao

das variaveis categoricas e, na secao 1.2, sao descritos os delineamento amostrais mais

frequentes.

1.1 Escalas de Mensuracao

A escala de mensuracao de uma variavel categorica e um elemento chave para

a escolha de uma estrategia de analise. Nao considera-la pode, portanto, implicar na

escolha inapropriada de uma estrategia que pode levar a conclusoes erroneas.

De um modo geral, variaveis resposta categoricas podem ser:

• dicotomica

• ordinal

• nominal

• contagens discretas.

Giolo, S. R. Analise de Dados Discretos 2

Respostas dicotomicas sao aquelas que apresentam duas possibilidades de res-

posta. O objetivo, por exemplo, de um ensaio clınico realizado para testar um novo

medicamento e saber se o paciente obteve, ou nao, uma melhora. Nesses casos, e comum

a representacao dos dados em uma tabela de contingencia 2 × 2, como mostrado na

Tabela 1.

Tabela 1. Resposta ao novo medicamento.

Melhora

Medicamento Sim Nao Total

Novo 40 20 60

Placebo 16 48 64

A resposta, nesse exemplo, e dicotomica e a analise investiga a relacao entre a

resposta e o medicamento.

Variaveis categoricas com mais do que duas possibilidades de resposta, e

que apresentam uma certa ordenacao natural, sao tambem frequentes. Tais variaveis,

ditas apresentarem um escala ordinal de mensuracao, podem, por exemplo, resultar de

questoes tais como: i) A nova grade curricular produziu pequeno, algum ou grande

entusiasmo entre os estudantes? ii) A agua exibe baixo, medio ou alto grau de pureza?

Observe, nesses exemplos, que ha uma ordem clara das categorias de resposta, mas

nao existe, contudo, indıcios quanto as distancias relativas entre os nıveis. Note em ii)

que existe uma possıvel distancia entre os nıveis: medio pode significar 2 vezes mais

puro do que baixo e alto 3 vezes mais puro do que baixo. Algumas vezes a distancia

encontra-se mais clara. A Tabela 2 mostra um exemplo de um experimento com

resposta categorica ordinal.

Observe que variaveis resposta categoricas podem ser tratadas de diferentes

modos. Pode-se, por exemplo, combinar as colunas com as respostas “Acentuada”

e “Alguma” da Tabela 2 para produzir uma resposta dicotomica: “melhora” versus

Tabela 2. Resultado de um ensaio clınico realizado com pacientes do sexo feminino

e masculino para investigar um tratamento para artrite reumatoide.

Melhora

Sexo Tratamento Acentuada Alguma Nenhuma Total

Feminino Ativo 16 5 6 27

Feminino Placebo 6 7 19 32

Masculino Ativo 5 2 7 14

Masculino Placebo 1 0 10 11

“nao melhora”. Grupar categorias e usual durante uma analise se, e claro, a resposta

dicotomica resultante for tambem de interesse.

Se, no entanto, existirem mais do que duas categorias de resposta e ne-

nhuma ordenacao para estas categorias, tem-se uma escala de mensuracao nominal.

Por exemplo, i) preferencia de local para passar as ferias: praia, montanha ou fazenda,

ii) candidato de sua preferencia: A, X, Y ou Z. Observe, em ambos os exemplos, que

nao existe nenhuma aparente maneira de ordenar as categorias de resposta.

Variaveis resposta categoricas podem tambem apresentar contagens discretas.

Em vez de categorias tais como “sim e nao” ou “baixo, medio e alto”, as respostas

sao numeros. Alguns exemplos sao: i) tamanho da ninhada: 1, 2, 3, 4 ou 5 membros;

ii) numero de televisores em uma casa: 1, 2, 3 ou 4. Em tais situacoes poder-se-ia

pensar na usual estrategia de analisar a contagem media. No entanto, as suposicoes

exigidas para o modelo linear padrao, usado para dados contınuos, nao sao, em geral,

atendidas com contagens discretas que tem uma amplitude pequena, contagens que

nao sao normalmente distribuıdas e podem, ainda, nao apresentar variancia homogenea.

Em algumas situacoes variaveis contınuas sao, por interesse do pesquisador,

categorizadas em intervalos e tratadas, entao, como variaveis categoricas. A variavel

peso, por exemplo, pode ser categorizada em “obeso” e “nao-obeso” ou, ainda, em

intervalos tais como < 60kg, [60, 100)kg, [100, 150)kg e ≥ 150kg.

1.2 Dados Obtidos nos Delineamentos Amostrais

Em um problema estatıstico e, inicialmente, conveniente diferenciar os tipos de

variaveis observadas entre (i) variaveis resposta e (ii) variaveis explanatorias ou fatores

(as quais afetam a resposta). Em um dado problema fazer essa distincao depende do

delineamento e do proposito da investigacao.

Os estudos observacionais, estudos experimentais e levantamentos amostrais sao,

de um modo geral, os delineamentos amostrais mais comuns e estes conduzem, respec-

tivamente, a obtencao de: a) dados historicos, b) dados experimentais e c) dados de

levantamentos amostrais.

1.2.1 Dados historicos

Dados historicos sao dados observacionais o que significa que a populacao em

estudo tem uma definicao geografica ou circunstancial. Dados dessa natureza sao, por

exemplo, todas as ocorrencias de uma doenca em uma regiao especıfica ou, todas as

criancas que frequentam uma particular escola primaria.

Os dados historicos nao envolvem aleatorizacao para a sua obtencao e, sendo

assim, e difıcil assumir que eles sejam representativos de uma dada populacao.

1.2.2 Dados experimentais

Dados experimentais sao obtidos de estudos que envolvam a alocacao aleatoria

dos indivıduos a, por exemplo, diferentes tratamentos. Outros exemplos sao: estudos

em que diferentes fertilizantes (ou diferentes dosagens de um fertilizante) sao aplicados

em areas distintas de uma cultura ou, ainda, estudos em que diferentes dosagens de

uma droga terapeutica sao aplicadas a grupos distintos de indivıduos.

1.2.3 Dados de levantamentos amostrais

Em estudos dessa natureza, indivıduos sao aleatoriamente escolhidos de uma

grande populacao de interesse. O censo por amostragem, em que a cada 10 casas

entrevistadas, 1 delas responde a um questionario mais detalhado, e um exemplo desse

tipo de estudo.

Alguns delineamentos amostrais podem tambem ser a combinacao de um

levantamento amostral e um estudo experimental. Pesquisadores podem, por exemplo,

selecionar aleatoriamente uma populacao e, entao, designar aleatoriamente tratamentos

aos indivıduos sob estudo. Note que a unidade de aleatorizacao pode ser, dentre

outros, um indivıduo ou um grupo de indivıduos.

Alem da escala de mensuracao e do delineamento amostral, deve-se tambem

considerar se os dados sao suficientes para assegurar a teoria assintotica exigida por

muitos testes. Muitas vezes pode-se ter um total amostral muito pequeno ou, entao,

um numero grande de caselas com contagens zeros, ou muito pequenas, que tornam as

suposicoes assintoticas questionaveis.

Algumas estrategias de analise de dados categoricos serao, portanto, tratadas

nesse material. Sera considerado, inicialmente, a analise de tabelas de contingencia

2 × 2, estendendo-se, entao, para tabelas s × 2, 2 × r e s × r. Sera visto que muitas

questoes sobre dados categoricos podem ser respondidas por meio do estabelecimento

de hipoteses de associacao. Para, no entanto, descrever a natureza dessa associacao,

quando presente nos dados, bem como os padroes dessa associacao, modelos estatısticos

serao usados. Dentre os possıveis modelos, utilizados na analise de dados categoricos,

encontram-se: os modelos log-lineares, a regressao logıstica e a regressao Poisson.

2 TABELAS DE CONTINGENCIA 2 × 2

Considere a tabela de contingencia apresentada na Tabela 3, a qual e uma maneira

comum de resumir e representar dados categoricos.

Tabela 3. Tabela de contingencia s = 2 × r = 2.

Coluna

Linha A B Totais

A n11 n12 n1+

B n21 n22 n2+

Totais n+1 n+2 n

Pela Tabela 3 pode-se observar frequencias, representadas por n11, · · · , n22,

n1+, · · · , n+2 e n, associadas as diversas caselas. Os totais n1+, n2+, n+1 e n+2 sao

denominados totais marginais e n total ou tamanho amostral. Esses totais, ao serem

considerados no delineamento amostral como fixos ou aleatorios, indicam o modelo

probabilıstico a ser considerado.

2.1 Modelo produto de Binomiais independentes

Se, por exemplo, o experimento for realizado de modo que n1+ e n2+ sejam

amostras aleatorias obtidas de dois grupos independentes e de tamanhos fixos (isto e, de

tamanhos estabelecidos antes da execucao do experimento), tem-se duas distribuicoes

binomiais independentes associadas a Tabela 3, uma para cada linha. O modelo proba-

bilıstico associado a Tabela 3, nessa situacao, sera, portanto, o modelo produto de

binomiais independentes de modo a ter-se:

i) uma variavel aleatoria N11 com distribuicao Bin(n1+, p11) associada a 1a linha da

tabela e,

ii) outra variavel aleatoria N21, independente da primeira, com distribuicao

Bin(n2+, p21) associada a 2a linha desta mesma tabela

em que, p11 e a probabilidade de qualquer indivıduo pertencente a 1a linha ser classi-

ficado na 1a coluna e, analogamente, p21 e a probabilidade de qualquer indivıduo per-

tencente a 2a linha ser classificado na 1a coluna. Observe que2∑

p1j = 1 e2∑

p2j = 1.

Assim, tem-se que a distribuicao associada a Tabela 3 e o produto de Binomias inde-

pendentes descrita pela funcao de probabilidade:

P (N11 = n11, N21 = n21) =2∏

ni+!2∏

2.2 Modelo Multinomial

Se, no entanto, o experimento for realizado de modo que apenas n seja uma

amostra aleatoria de tamanho fixo tem-se, associado a Tabela 3, a distribuicao Multi-

nomial descrita pela funcao de probabilidade:

P (N11 = n11, N12 = n12, N21 = n21, N22 = n22) = P (Nij = nij)

= n!2∏

sendo,2∑

nij = n e2∑

pij = 1.

2.3 Modelo Produto de Poisson

Em alguns experimentos pode ocorrer de nenhum dos tamanhos amostrais serem

fixos. Um exemplo, desses experimentos, e o da coleta de insetos em armadilhas adesivas

de duas cores, descrito em Silveira Neto et al. (1976) e Demetrio (2001), e apresentado

na Tabela 4, em que os indivıduos coletados de uma determinada especie foram sexados,

com o fim de se verificar a influencia da cor da armadilha sobre a atracao de machos e

femeas dessa especie.

Tabela 4. Numero de insetos coletados em armadilhas e sexados

Armadilha Machos Femeas Total

Alaranjada 246 17 263

Amarela 458 32 490

Total 704 49 753

Nesse experimento, o numero de insetos que chegam as armadilhas, seja macho

ou femea, e um numero (contagem) aleatorio, caracterizando, assim, a distribuicao de

Poisson. Assume-se, entao, que Nij ∼ Poisson(λij) independentes, i, j = 1, 2, de modo

que associado a Tabela 4, tem-se a distribuicao Produto de Poisson descrita pela funcao

de probabilidade:

P (Nij = nij) =2∏

e−λijλnij

nij!(3)

em que λij > 0.

2.4 Modelo Hipergeometrico

O modelo hipergeometrico e comum, por exemplo, em experimentos em que

pacientes sao alocados aleatoriamente a dois tratamentos considerados equivalentes

observando-se, nesses pacientes, uma resposta binaria (dicotomica). Sob a hipotese

de que os efeitos dos dois tratamentos sao iguais para cada paciente, a distribuicao

hipergeometrica e considerada. Nessas situacoes considera-se, portanto, que n1+, n2+

e n+1 sao fixos. A fixacao de ambas as margens da tabela provocada pelo condiciona-

mento em n1+, n2+ e n+1, leva a que qualquer uma, por exemplo n11, das 4 frequencias

determine as restantes. Assim, N11 tem distribuicao Hipergeometrica com funcao de

probabilidade expressa por:

P (N11 = n11) =Cn1+

n11Cn2+

ni+!2∏

n!2∏

Em sıntese tem-se:

Tabela 5. Modelos probabilısticos associados as tabelas de contingencia 2 × 2.

Tamanho amostral Totais marginais Totais marginais Modelo probabilısticon ni+ n+j associado

aleatorio aleatorios aleatorios Produto de Poisson

fixo aleatorios aleatorios Multinomial

fixo fixos aleatorios Produto de Binomias

fixo fixos fixos Hipergeometrico(por hipotese)

Na secao 2.5 sao apresentados alguns estudos frequentes e respectivos modelos

probabilısticos associados.

2.5 Estudos frequentes e modelos probabilısticos associados

2.5.1 Estudos de Coorte

Ao conduzir um estudo de Coorte, muito comum em medicina, o pesquisador

tem por interesse, por exemplo, verificar se indivıduos expostos a um determinado fator

tem, ou nao, mais propensao a desenvolver determinada doenca. Ao contrario do estudo

Caso-Controle, descrito adiante, em que sao escolhidos um grupo de indivıduos com a

doenca e outro grupo de indivıduos livres da mesma, um estudo de Coorte e constituıdo,

em seu inıcio, de um grupo de indivıduos, denominada Coorte, em que todos estao

livres da doenca sob investigacao. Os indivıduos dessa Coorte sao entao classificados

em expostos e nao-expostos ao fator de interesse, obtendo-se assim dois grupos (ou

duas Coortes de comparacao) que serao entao observados por um perıodo de tempo

verificando-se quais indivıduos desenvolveram a doenca em questao. Os indivıduos

expostos e nao-expostos devem ser comparaveis, ou seja, semelhantes quanto aos demais

fatores, que nao o de interesse, para que os resultados obtidos sejam confiaveis.

O termo Coorte e entao usado para descrever um grupo de indivıduos que tem

algo em comum ao serem reunidos e que sao observados por um determinado perıodo

para que se possa verificar o que ocorre com eles.

E importante que todos os indivıduos sejam observados por todo o perıodo de

seguimento, ja que informacoes de uma Coorte incompleta podem distorcer o verdadeiro

estado das coisas. Por outro lado, o perıodo de tempo em que os indivıduos serao

observados deve ser significativo na historia natural da doenca em questao para que

haja tempo suficiente de o risco se manifestar. Doencas com perıodo de latencia longa

exigirao perıodos longos de observacao. Entenda-se por historia natural da doenca sua

evolucao sem intervencao medica e por perıodo de latencia o tempo entre a exposicao

ao fator e as primeiras manifestacoes da doenca. Outros nomes, geralmente usados para

os estudos de Coorte sao:

• longitudinal: enfatizando que os indivıduos sao acompanhados ao longo do tempo;

• prospectivo: subentendendo a direcao em que os indivıduos sao acompanhados;

• de incidencia: chamando atencao para a medida basica de novos eventos de doenca

no tempo de seguimento.

Quanto a forma de coleta das informacoes dos indivıduos pertencentes a Coorte

sob investigacao, pode-se ainda classificar os estudos de Coorte em: estudos de Coorte

Contemporaneo e estudos de Coorte Historica. Em um estudo de Coorte Contem-

poraneo, os indivıduos sao escolhidos no presente e acompanhados no futuro. Em uma

Coorte Historica, os indivıduos sao escolhidos em registros do passado e acompanhados

daquele perıodo ate o presente. Informacoes provenientes de Coortes Historicas sao

frequentemente coletadas com outros objetivos que nao especificamente o de interesse

e podem portanto nao ter a qualidade suficiente para uma pesquisa rigorosa. O mesmo

nao ocorre com um estudo de Coorte Contemporaneo, uma vez que os dados sao co-

letados especificamente para atender aos objetivos do estudo. Os estudos de Coorte

sao menos propensos aos vıcios que podem ocorrer nos estudos Caso-Controle e sao os

mais indicados para o estudo de riscos quando a experimentacao nao e possıvel. Nos

estudos de Coorte e possıvel responder a seguinte questao: ”quantas vezes a probabi-

lidade de os indivıduos expostos adquirirem a doenca e maior do que a probabilidade

de os indivıduos nao-expostos adquirirem a doenca?”. As principais dificuldades para a

realizacao de um estudo de Coorte sao: (a) e um estudo mais demorado e que envolve

custos elevados pelos recursos necessarios para acompanhar muitos indivıduos ao longo

do tempo estabelecido; (b) nao disponibiliza resultados a curto prazo; (c) os indivıduos

sob estudo vivem livremente e nao sob controle do pesquisador e; (d) nao e viavel para

doencas raras.

Na Tabela 6 encontra-se o resultado de um estudo de coorte realizado para

pesquisar a associacao de cancer de pulmao ao tabagismo.

Tabela 6. Resultado de um estudo de coorte realizado para pesquisar a associacao

do tabagismo e cancer de pulmao

Cancer de Pulmao

Fumante Sim Nao Totais

Sim 75 45 120

Nao 21 56 77

Totais 197

Note que os totais marginais n1+ e n2+ sao fixos e, portanto, tem-se associado a

Tabela 6 o modelo produto de Binomiais independentes, uma Binomial para cada linha

da tabela.

2.5.2 Estudos Caso-Controle

Embora o objetivo de um estudo Caso-Controle seja o mesmo de um estudo de

Coorte, ou seja, descobrir se a exposicao a um determinado fator esta associada ao

desenvolvimento da doenca sob estudo, os mesmos diferem essencialmente quanto a

forma de selecao e coleta de informacoes dos indivıduos.

Nestes estudos, o pesquisador seleciona um grupo de indivıduos com uma deter-

minada doenca de interesse, denominados “casos”, e outro grupo de indivıduos livre

da doenca, os “controles”. Fatores associados a um risco aumentado de adoecer sao

denominados “fatores de risco”; exposicao a um fator de risco significa que uma pessoa,

antes de adoecer, esteve em contato com o fator em questao ou o manifestou. A vali-

dade dos resultados destes estudos esta condicionada principalmente a forma de selecao

dos indivıduos. Os casos devem ser preferencialmente novos e nao os ja existentes e os

controles devem ser comparaveis aos casos, isto e, todas as diferencas importantes, que

nao o fator de interesse, devem ser controladas quando da escolha desses indivıduos.

Em outras palavras, casos e controles devem parecer ter tido chances iguais de terem

sido expostos ao fator em questao.

Os controles sao, em geral, escolhidos segundo alguma estrategia que possa mi-

nimizar os vıcios de selecao. Uma dessas estrategias e a dos casos emparelhados aos

controles, isto e, para cada caso, um ou mais controles com caracterısticas comuns aos

casos sao selecionados. E comum emparelhar por caracterısticas demograficas (idade,

sexo, raca), porem deve-se tambem emparelhar por outras reconhecidamente impor-

tantes. O emparelhamento apresenta contudo um risco, a de o pesquisador emparelhar

por um fator que esta relacionado a exposicao. Outra estrategia possıvel e escolher

mais de um grupo de controle. A comparacao dos resultados dos casos com cada um

dos grupos de controle selecionados pode trazer a tona potenciais vıcios pois, se resul-

tados diferentes forem observados na comparacao dos casos com os diferentes grupos

controle, ha evidencias de que os grupos sao nao comparaveis. Muita atencao e cuidado

sao necessarios quando da selecao dos casos e controles para que a comparabilidade

entre os grupos possa ser assegurada. Atencao tambem deve ser dada ao numero de

indivıduos sob estudo. Este deve ser suficiente para que o acaso nao interfira em de-

masia nos resultados. Uma vez selecionados os casos e controles verifica-se, para cada

indivıduo, sua exposicao, ou nao, ao fator sob investigacao. O pesquisador geralmente

se utiliza para este fim de informacoes passadas, dependendo assim da disponibilidade e

qualidade dos registros (protocolos) ou da memoria dos pacientes. Evidentemente, isto

pode ocasionar vıcios no estudo. Por utilizar-se de informacoes passadas, os estudos

Caso-Controle sao tambem denominados retrospectivos. As principais vantagens destes

estudos sao o custo e o tempo envolvidos para a obtencao da resposta. Estes sao re-

lativamente pequenos quando comparados aos de outros estudos, como por exemplo, o

estudo de Coorte discutido anteriormente. Por outro lado, tais estudos apresentam um

particular problema, o de resultados propensos a vıcios devido principalmente a possıvel

manipulacao, pelos investigadores, dos grupos de comparacao e por a exposicao ao fator

de interesse ser medida por meio de informacoes passadas. Se atencao apropriada for

dada as possıveis fontes de vıcios, estudos Caso-Controle podem ser validos e eficientes

para responder a muitas questoes clınicas, em particular aquelas envolvendo doencas

raras.

Do ponto de vista teorico, os estudos de coorte sao mais adequados do que os

de caso-controle. Os estudos caso-controle sao, contudo, mais usados por envolverem

menor custo e menor tempo para a coleta das informacoes.

Na Tabela 7 encontram-se os resultados do mesmo estudo apresentado na Tabela 6

realizado, no entanto, como um estudo caso-controle.

Tabela 7. Resultados de um estudo caso-controle realizado para pesquisar a asso-

ciacao do tabagismo e cancer de pulmao

Grupos

Fumante Casos: com cancer Controles: sem cancer Totais

Sim 75 45

Nao 21 56

Totais 96 101 197

Observe que, comparativamente ao estudo de Coorte, um estudo caso-controle

apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+. Para a Tabela 7 tem-

se, tambem, o modelo Produto de Binomiais independentes, uma Binomial, contudo,

para cada coluna da respectiva tabela.

2.5.3 Estudos cross-sectional ou tranversais

Em estudos transversais coletam-se simultaneamente, de um grupo ou populacao

de indivıduos, informacoes sobre uma variedade de caracterısticas que sao posterior-

mente cruzadas em uma tabela de contingencia. Esta coleta e realizada em um unico

ponto no tempo e, frequentemente, o pesquisador nao sabe o que ocorreu antes deste

ponto. A obtencao da prevalencia da doenca, ou seja, da proporcao do grupo com a

doenca no ponto em que se realizou a coleta e um dos objetivos destes estudos. Cons-

titui outro interesse, em geral, a investigacao de potenciais relacoes causais entre os

fatores suspeitos serem de risco e a doenca.

Os estudos transversais podem ser vistos como avaliacoes fotograficas de grupos

ou populacoes de indivıduos. O termo transversal e usado para indicar que os indivıduos

sao estudados em um ponto no tempo (corte transversal). O interesse esta em avaliar a

associacao entre as respostas obtidas. Nesses estudos e comum considerar algumas das

variaveis como “fatores”.

Um exemplo e o de um estudo realizado com criancas para determinar se elas

apresentavam sintomas de doencas respiratorias. Um total de n = 1080 criancas foram

examinadas anotando-se, para cada uma, o sexo e se apresentavam, ou nao, os sintomas.

Os resultados sao mostrados na Tabela 8.

Note que apenas n e fixo e, desse modo, tem-se a distribuicao multinomial asso-

ciada a Tabela 8

2.5.4 Ensaios clınicos aleatorizados

Esses estudos sao realizados com o objetivo de comparar tratamentos. Os in-

divıduos sao alocados aleatoriamente ou ao grupo controle (tratamento padrao) ou ao

Tabela 8. Resultado de um estudo transversal sobre doencas respiratorias em

criancas.

Sıntomas

Sexo Sim Nao Totais

Feminino 355 125 480

Masculino 410 190 600

Totais 765 315 1080

grupo tratamento (tratamento alternativo). Um exemplo e mostrado na Tabela 9.

Tabela 9. Resultados de um ensaio clınico realizado para comparar dois medicamen-

tos usados no tratamento de infeccoes respiratorias severas.

Resposta

Tratamento Favoravel Nao favoravel Totais

Novo 29 16 45

Padrao 14 31 45

Totais 43 47 90

Observe que nos ensaios clınicos o pesquisador interfere deliberadamente no

curso natural dos acontecimentos, ou seja, impoe um tratamento. Nos outros tipos

de estudos (coorte, caso-controle e transversal) o pesquisador nao interfere no curso

natural dos acontecimentos, apenas observa. Como n1+ e n2+ sao fixos, a distribuicao

produto de Binomias independentes esta associada a Tabela 9.

Nos estudos de Coorte e nos ensaios clınicos os indivıduos apresentam no

inıcio do experimento a mesma condicao clınica. Sao entao acompanhados por um

perıodo de tempo para observacao de ocorrencia de casos novos (por exemplo, de

doenca, de cura etc). Nesses estudos (coorte e ensaios clınicos) e possıvel a obtencao

de uma medida denominada incidencia. A incidencia (seja de doenca, de cura etc.) e

definida como a proporcao de indivıduos em um determinado grupo que desenvolve a

resposta de interesse ao longo do tempo de observacao, isto e,

Incidencia =indivıduos que apresentaram resposta positiva no perıodo de observacao

total de indivıduos no inıcio do experimento.

Nos estudos transversais, indivıduos sao, em um unico ponto no tempo, investi-

gados quanto a uma determinada resposta de interesse. Alguns dos indivıduos neste

ponto do tempo apresentarao a resposta e outros nao. Nao e observado portanto casos

novos ao longo do tempo. A medida adequada aqui e a prevalencia, isto e, a proporcao

de indivıduos do grupo com resposta positiva naquele ponto especıfico do tempo, isto

Prevalencia =indivıduos com a resposta em determinado ponto no tempo

indivıduos pesquisados em determinado ponto no tempo.

2.6 Estatısticas de teste e Medidas de Associacao

Considere os dados apresentados na Tabela 1 referente a um ensaio clınico

aleatorizado realizado para comparar dois medicamentos. A questao de interesse,

nesse caso, e se as taxas de melhora para o placebo e para o novo medicamento sao as

mesmas. Essa questao pode ser respondida testando se existe associacao entre o tipo

de tratamento e a resposta do paciente, ou seja, testando-se a hipotese nula:

H0: Nao existe associacao entre tratamento e resposta do paciente.

Existem varias maneiras (metodos) de se testar a hipotese H0, muitas de-

las baseadas na distribuicao Qui-quadrado, outras na distribuicao hipergeometrica ou,

ainda, em outras distribuicoes. Esses metodos sao tratados nas secoes a seguir.

2.6.1 Estatısticas Qui-Quadrado

No estudo experimental que produziu os dados da Tabela 1, os totais marginais n1+

e n2+ sao fixos pois, 60 pacientes foram alocados aleatoriamente a um dos tratamentos

(placebo) e 64 ao outro tratamento. Sob a hipotese nula de nao existencia de diferenca

entre os tratamentos, os totais marginais n+1 e n+2 sao tambem considerados fixos e,

portanto, sob H0, a distribuicao de probabilidade associada e a hipergeometrica. Assim,

o valor esperado de nij e:

E(Nij | H0) =(ni+) (n+j)

n= mij

e a variancia:

V (Nij | H0) =(n1+) (n2+) (n+1) (n+2)

n2(n − 1)= vij.

Para uma amostra suficientemente grande, n11 tem aproximadamente uma dis-

tribuicao Normal, o que implica que:

Q =(n11 − m11)

tem aproximadamente uma distribuicao Qui-quadrado com um grau de liberdade. Nao

importa como as linhas e colunas sao arranjadas, Q assumira sempre o mesmo valor

uma vez que:

| n11 − m11 | = | nij − mij | =| n11n22 − n12n21 |

Uma estatıstica relacionada a Q e a estatıstica de Pearson dada por:

QP =2∑

(nij − mij)2

(n − 1)Q. (6)

Se as contagens (frequencias) nas caselas forem suficientemente grandes, QP

segue a distribuicao Qui-quadrado com um grau de liberdade. Ainda, quando n

cresce, QP e Q convergem. Uma regra util para determinar o tamanho amostral

adequado para Q e QP e que o valor esperado mij seja maior que 5 para todas as caselas.

Obs: As estatısticas Q e Qp sao tambem apropriadas para testar a hipotese

nula de nao associacao em estudos em que se tenham asssociados os modelos

probabilısticos Multinomial e produto de Poisson.

2.6.2 Testes Exatos

Muitas vezes, contudo, as frequencias observadas nas caselas da tabela sao muito

pequenas inviabilizando, assim, o uso da distribuicao Qui-quadrado. Metodos exatos

baseados na distribuicao hipergeometrica sao usados, nessas situacoes, para testar a

hipotese de associacao.

O teste exato de Fisher, em que o valor p e determinado somando-se as probabi-

lidades das tabelas que sao pouco provaveis, dado que as marginais sao fixas, e, entao,

utilizado.

2.6.3 Diferenca nas proporcoes

Estabelecida a associacao entre as linhas e colunas de uma tabela de contingencia

2 × 2, pode-se ter interesse em descrever essa associacao. Por exemplo, estimar as

diferencas de proporcoes, somente possıvel nas tabelas em que as marginais n1+ e n2+

sao fixas.

Assim, se os dois grupos sao amostras aleatorias com probabilidades de sucesso π11

e π21, respectivamente, e ha interesse em estimar a diferenca de proporcoes d = p11−p21,

em que o valor esperado e:

E[p11 − p21] = π11 − π21

e a variancia

V [p11 − p21] =π11(1 − π11)

+π21(1 − π21)

para a qual um estimador nao-viciado e:

v[p11 − p21] =p11(1 − p11)

n1+ − 1+

p21(1 − p21)

n2+ − 1,

tem-se o seguinte intervalo para (π11 − π21), a um nıvel de confianca (1-α)%:

√v +

em que zα/2 denota o 100(1 − α/2) percentil da distribuicao Normal padrao.

Exemplo: Para os dados da Tabela 1 tem-se: Q = 21,53 (p < 0,0001) e Qp = 21,7

(p < 0,0001). Ambas as estatısticas sao claramente significativas e, portanto, ha uma

forte associacao entre o tratamento e a resposta do paciente. Como se trata de um

experimento em que as marginais n1+ e n2+ sao fixas, tem-se que a diferenca estimada

entre as proporcoes e de d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo,

ao nıvel de 95% de confianca, dado por: I.C.95%(d) = 0,417 ± 0,177 = (0,24; 0,594).

Conclui-se, portanto, que o novo tratamento e significativamente superior ao placebo.

2.6.4 Risco relativo e odds ratio (razao de chances)

A odds ratio (OR) e uma medida que descreve o “grau”(intensidade) de asso-

ciacao em uma tabela 2 × 2 e e calculada por:

OR =n11/n12

n21/n22

=n11n22

n12n21

Esta medida pode ser usada em qualquer tipo de estudo e varia de 0 a infinito.

Quando OR = 1, nao existe associacao entre as variaveis. Se, no entanto, OR > 1, o

grupo 1 apresenta chance (odds) maior de ter a resposta do que o grupo 2. Consequen-

temente, se OR < 1, o grupo 1 apresenta chance menor de ter a resposta do que o

grupo 2. Para a obtencao de um I.C. para a OR, toma-se o logaritmo da mesma (na

base e), isto e, f = log(OR), cuja variancia estimada e:

V (f) =

Assim, um I.C. para a OR, ao nıvel 100(1-α)% de confianca e dado por:

I.C.(OR) = exp(

f ± zα/2

V (f))

em que zα/2 denota o 100(1 − α/2) percentil da distribuicao Normal padrao.

Para estudos prospectivos (Coorte e ensaios clınicos), uma outra quantidade

chamada risco relativo pode tambem ser obtida. O risco relativo (RR) fornece o

risco de desenvolvimento de uma determinada condicao (frequentemente uma doenca)

para um grupo comparado a outro grupo. Esta medida e expressa por:

RR =p11

e pode ser mostrado que:

RR = OR ×[

1 + (n21/n22)

1 + (n11/n12)

Logo, a OR se aproxima do RR quando n11 e n21 sao pequenos relativamente a

n12 e n22, respectivamente. Essa situacao se verifica para o caso de doencas raras.

Um I.C. para o RR e tambem obtido tomando-se o logaritmo do RR (na base e),

isto e, f ∗ = log(RR) = log(p11) − log(p21) cuja variancia e dada por:

V (f ∗) =(1 − p11)

(n1+) (p11)+

(1 − p21)

(n2+) (p21)

e, portanto, um I.C. para o RR, ao nıvel 100(1-α)% de confianca e dado por:

I.C.(RR) = exp(

f ∗ ± zα/2

V (f ∗))

em que, zα/2 denota o 100(1 − α/2) percentil da distribuicao Normal padrao.

Exemplos: Para os dados apresentados na:

(i) Tabela 1: referente a um estudo realizado para testar um novo medicamento, em

que 2 amostras aleatorias foram selecionadas, e estabeleceu-se a hipotese nula H0: nao

existe associacao entre tratamento e a resposta do paciente, tem-se.

Q = 21, 53 (p < 0, 0001) e Qp = 21, 7 (p < 0, 0001)

d(novo−placebo) = (0, 667 − 0, 25) = 0, 417

IC(d)(95%) = (0, 24; 0, 594)

RRnovo|placebo = 2, 67

IC(RR)(95%) = (1, 68; 4, 22)

Com base nesses resultados pode-se concluir, portanto, que tratamento e resposta

do paciente estao associados e, desse modo, as taxas de melhora para o placebo e para

o novo medicamento nao sao as mesmas. Para o novo medicamento estima-se que

41,7% a mais dos pacientes, em relacao ao placebo, apresentem melhora, estimativa

esta que pode variar, ao nıvel de confianca de 95%, entre 24% e 59,4%. Pode-se,

ainda, concluir que os pacientes submetidos ao novo medicamento sao 2,67 vezes mais

provaveis a apresentarem melhora do que os pacientes que recebem placebo, podendo

esta estimativa, ao nıvel de confianca de 95%, variar entre 1,68 a 4,22 vezes. O novo

medicamento e, portanto, recomendavel.

(ii) Tabela 4: referente a um estudo realizado para verificar a influencia da

cor da armadilha sobre a atracao de machos e femeas de modo que H0: nao existe

associacao entre a cor da armadilha e sexo, tem-se:

Q = 0, 0013 (p = 0, 9718) e Qp = 0, 0013 (p = 0, 9718)

OR = 1, 011

IC(OR)(95%) = (0, 55; 1, 857)

Nao ha, portanto, evidencias estatısticas para a rejeicao da hipotese nula e, desse

modo, pode-se concluir que a atracao de machos e femeas nao e influenciada pela cor

da armadilha. A atracao de machos e femeas, da especie coletada, e semelhante tanto

usando-se armadilhas alaranjadas quanto armadilhas amarelas sendo que, os machos,

apresentam, em media, atracao maior as armadilhas do que as femeas.

(iii) Tabela 6: referente a um estudo de coorte realizado para pesquisar a as-

sociacao do tabagismo e cancer de pulmao em que H0: nao existe associacao entre

tabagismo e cancer de pulmao, tem-se.

Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001)

d(fumantes - nao fumantes) = (0, 625 − 0, 2777) = 0, 3523

IC(d)(95%) = (0, 21; 0, 495)

RR(fumantes | nao fumantes) = 2, 29

IC(RR)(95%) = (1, 55; 3, 38)

A conclusao, nesse exemplo, e de que existe associacao entre tabagismo e cancer

de pulmao. Para os fumantes estima-se que 35,23% a mais deles, em relacao aos nao

fumantes, desenvolverao cancer de pulmao, estimativa esta que pode variar, ao nıvel de

confianca de 95%, entre 21% e 49,5%. Pode-se, ainda, concluir que indivıduos fumantes

sao 2,29 vezes mais provaveis a apresentarem cancer de pulmao do que os nao fumantes

podendo esta estimativa, ao nıvel de confianca de 95%, variar entre 1,55 a 3,38 vezes.

O tabagismo pode, portanto, ser considerado um fator de risco para o cancer de pulmao.

(iv) Tabela 7: referente a um caso-controle realizado para pesquisar a asso-

ciacao do tabagismo e cancer de pulmao em que H0: nao existe associacao entre

tabagismo e cancer de pulmao.

Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001)

OR = 4, 44

IC(OR)(95%) = (2, 37; 8, 28)

Conclui-se, portanto, que tabagismo e cancer de pulmao estao associados, ou

seja, as taxas de desenvolvimento de cancer de pulmao para fumantes e nao fumantes

diferem. A chance dos indivıduos que fumam apresentarem a doenca e 4,44 vezes

maior do que a chance dos que nao fumam, chance esta que, ao nıvel de confianca de

95%, pode variar entre 2,37 e 8,28 vezes.

(v) Tabela 8: referente a um estudo transversal sobre doencas respiratorias

realizado com criancas em que deseja-se saber se sexo e doencas respiratorias estao

associadas. A hipotese nula a ser considerada e H0: nao existe associacao entre sexo e

doencas respiratorias e, para testa-la, obteve-se:

Q = 4, 0803 (p = 0, 0434) e Qp = 4, 084 (p = 0, 0433)

OR(feminino|masculino) = 1, 3161

IC(OR)(95%) = (1, 008; 1, 718)

Com base nos resultados obtidos, e considerando-se um nıvel de significancia de

5%, pode-se concluir que existe associacao entre sexo e doencas respiratorias, ou seja,

as taxas de doencas respiratorias em criancas do sexo feminino e masculino diferem.

Observe, contudo, que a OR estimada nao se encontra tao distante do valor 1 (que

indicaria chances iguais para ambos os sexos). Este fato mostra que a chance das

criancas do sexo feminino apresentarem doencas respiratorias, nao e tao maior do que

a das criancas do sexo masculino. Essa chance e de 1,31 vezes podendo, ao nıvel de

confianca de 95%, variar entre 1,008 e 1,718 vezes.

(vi) Tabela 9: referente a um ensaio clınico realizado para comparar dois medica-

mentos usados no tratamento de infeccoes severas. Para esse estudo tem-se H0: nao

existe associacao entre tratamento e a resposta do paciente. Para testa-la, os seguintes

resultados das estatısticas de teste e medidas de associacao foram obtidos:

Q = 9, 9085(p = 0, 0016) e Qp = 10, 02(p = 0, 0015)

d(novo - padrao) = (0, 6444 − 0, 3111) = 0, 3333

IC(d)(95%) = (0, 114; 0, 552)

RR(novo | padrao) = 2, 07

IC(RR)(95%) = (1, 27; 3, 36).

Pode-se concluir, portanto, que existe associacao entre o tratamento e a resposta

do paciente o que implica que as taxas de respostas favoraveis para os tratamentos

novo e padrao diferem. Estima-se que 33,33% a mais dos pacientes que receberam

o novo tratamento, em relacao aos que receberam o tratamento padrao, apresentarao

resposta favoravel, estimativa esta que pode variar, ao nıvel de confianca de 95%, entre

11,4% e 55,2%. Conclui-se, ainda, que pacientes que receberam o novo tratamento sao

2,07 vezes mais provaveis a apresentarem resposta favoravel do que os que receberam

o tratamento padrao, podendo esta estimativa, ao nıvel de confianca de 95%, variar

entre 1,27 a 3,36 vezes. O novo medicamento e, desse modo, preferıvel ao medicamento

padrao.

2.6.5 Sensibilidade e Especificidade

A sensibilidade e especificidade sao outras medidas usadas em particular quando

se deseja determinar a eficacia de um exame (teste) realizado para detectar a presenca,

ou nao, de uma doenca ou outro evento qualquer. O exame de DNA realizado para

saber se o indivıduo e, ou nao, pai de uma crianca e um exemplo desses testes. Outro

exemplo e o do exame de AIDS realizado para saber se o sujeito e, ou nao, soro positivo.

As medidas citadas determinam a eficiencia desses testes em detectar a verdade.

A sensibilidade e definida como a proporcao de resultados positivos que um teste apre-

senta quando realizado em sujeitos conhecidos terem a doenca, ou seja, e a proporcao de

verdadeiros positivos. A especificidade, por outro lado, e definida como a proporcao

de resultados negativos que um teste apresenta quando realizado em sujeitos conheci-

dos estarem livres da doenca (proporcao de verdadeiros negativos). O desejado de um

exame (teste) e que ele tenha, simultaneamente, alta sensibilidade e especificidade.

A sensibilidade e especificidade sao tambem usadas para testar se um novo exame,

alternativo ao ja existente, mas de custo inferior, e tao eficiente quanto aquele tido como

o melhor na literatura. O melhor teste e, geralmente, referenciado na literatura como

“teste ouro” ou “teste padrao”.

Considere a Tabela 10 representando os resultados positivos e negativos apresen-

tados em um exame realizado em 180 pacientes.

Para esses dados a sensibilidade e especificidade estimadas sao, respectivamente,

dadas por:

Sensibilidade =52

60= 0, 867 e Especificidade =

120= 0, 833.

O exame usado apresenta, portanto, boa sensibilidade e especificidade detectando

Tabela 10. Resultados de um exame realizado em 180 pacientes para verificar a

presenca, ou nao, de uma doenca de pele.

Resultado do exame

Status + - Totais

Doenca presente 52 8 60

Doenca ausente 20 100 120

em torno de 87% dos casos positivos e 83% dos casos negativos. O exame deixou,

contudo, de detectar em torno de 13% dos casos positivos (taxa de falsos negativos =

8/60 = 0,1333) e em torno de 17% dos casos apresentou resultado positivo erronea-

mente (taxa de falsos positivos = 20/120 = 0,1667). A taxa bruta de concordancia

(poder preditivo) do exame foi de 152/180 = 0.844 (84.4%). Dos 72 resultados posi-

tivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder preditivo positivo

do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado, dos 108 resultados nega-

tivos apresentados pelo exame, 100 estavam corretos fornecendo, assim, para o poder

preditivo negativo do exame, um valor de 100/108 = 0,926 (92,6%).

Seria, desse modo, recomendavel que o teste fosse realizado mais de uma vez,

em cada paciente, para evitar que um paciente doente nao seja tratado ou que, um

paciente livre da doenca seja tratado indevidamente. Se, contudo, o medicamento a

ser utilizado nao apresenta efeitos colaterais, recomenda-se um segundo teste somente

para os pacientes que apresentarem resultado negativo. Como cada doenca apresenta

suas peculiaridades, deve-se analisar, para cada uma delas, o que e de fato relevante.

Em determinadas situacoes, por exemplo, ha um interesse maior em testes com alta

sensibilidade e, especificidade, relativamente inferior.

2.6.6 Teste de McNemar

As tabelas de contingencia 2 × 2 contem, em algumas situacoes, informacoes

pareadas. Por exemplo, situacoes em que sao realizadas duas perguntas relacionadas

ou, a mesma pergunta e feita para um par de indivıduos relacionados (casal, gemeos

etc.) ou, ainda, informacoes tomadas antes e apos algum acontecimento (uso de um

medicamento, campanha publicitaria etc).

Nesses casos o interesse e testar se a proporcao dos pares respondendo sim para

a pergunta 1 e a mesma dos que respondem sim para a pergunta 2, ou seja, testar a

hipotese nula:

H0 :n+1

McNemar (1947) desenvolveu um teste qui-quadrado baseado na distribuicao bi-

nomial para testar a hipotese citada. Ele mostra que somente os elementos fora da

diagonal sao importantes para determinar se existe diferenca nessas proporcoes. A

estatıstica do teste e dada por:

QM =(n12 − n21)

(n12 + n21)

e tem aproximadamente distribuicao qui-quadrado com 1 grau de liberdade.

Exemplo: Considere a taxa de aprovacao de um determinado polıtico, antes e

apos o anuncio de certas medidas, descrita na Tabela 11.

Tabela 11. Resultados de um pesquisa realizada para verificar a taxa de aprovacao

de um polıtico antes e apos o anuncio de certas medidas.

Antes Aprova Reprova Totais

Aprova 20 5 25

Reprova 10 10 20

Totais 30 15 45

O teste da hipotese H0: proporcao de aprovacao do candidato antes e apos o

anuncio das medidas e a mesma, resultou em QM = 1,67 (valor p = 0,1967). Assim,

nao se rejeita H0 e, desse modo, nao e possıvel dizer que a taxa de aprovacao desse

polıtico se alterou apos o anuncio das medidas.

3 TABELAS DE CONTINGENCIA: OUTRAS DIMENSOES

3.1 Conjunto de tabelas de contingencia 2 × 2

Considere os dados da Tabela 12 provenientes de um ensaio clınico realizado para

comparar dois medicamentos usados no tratamento de infeccoes respiratorias severas,

medicamentos estes que foram testados em dois centros medicos.

Tabela 12. Resultados de um ensaio clınico realizado para comparar dois medica-

mentos usados no tratamento de infeccoes respiratorias severas.

Resposta

Centro Tratamento Favoravel Nao favoravel Totais

1 Novo 29 16 45

1 Padrao 14 31 45

Totais 43 47 90

2 Novo 37 8 45

2 Padrao 24 21 45

Totais 61 29 90

Note que a tabela acima e, na realidade, um conjunto de duas tabelas de con-

tingencia 2 × 2 e em que, as mesmas questoes de uma unica tabela, sao de interesse.

Ou seja, existe associacao entre tratamento e a resposta do paciente e, se existe, qual a

intensidade dessa associacao?

Como o interesse concentra-se na associacao global entre o tratamento e a resposta,

poder-se-ia pensar em somar as frequencias das linhas correspondentes a cada trata-

mento obtendo-se, assim, uma unica tabela de contingencia 2 × 2. Os pesquisadores

notaram, contudo, que os pacientes apresentaram comportamentos acentuadamente di-

ferentes em cada centro e que este deveria ser, portanto, considerado na analise. Em

alguns casos, a estratificacao pode ter sido planejada, em outros surge apos a coleta dos

dados.

Uma analise estratificada e, desse modo, a estrategia a ser adotada nessas

situacoes. Em tal analise, examina-se a associacao entre as duas variaveis de interesse

controlando-se, ou ajustando-se, para o efeito de centro.

3.1.1 Teste de Mantel-Haenszel

Um metodo para verificar a associacao global das variaveis de interesse, con-

trolando (ou ajustando) para o fator de estratificacao, foi proposto por Mantel-Haenszel

(1959). Para a obtencao da estatıstica de teste proposta por esses autores, considera-se,

para cada uma das q tabelas 2 × 2 que compoem a tabela geral, a notacao apresentada

na Tabela 13.

Tabela 13. h-esima tabela de contingencia 2 × 2.

Coluna

Linha A B Totais

A nh11 nh12 nh1+

B nh21 nh22 nh2+

Totais nh+1 nh+2 nh

Sob a hipotese nula de nao diferenca entre os tratamentos, o valor esperado de

nh11 e sua respectiva variancia sao:

E(Nh11 | H0) =nh1+nh+1

= mh11

V (Nh11 | H0) =(nh1+)(nh2+)(nh+1)(nh+2)

n2h(nh − 1)

= vh11.

Assim, a estatıstica de teste proposta por Mantel-Haenszel e dada por:

( q∑

nh11 −q∑

( q∑

(nh1+ nh2+)

(ph11 − ph21)

em que phi1 = nhi1/nhi+ e QMH tem distribuicao aproximadamente qui-quadrado com 1

grau de liberdade quando∑q

h=1 nh for suficientemente grande (> 30). Em um certo sen-

tido, essa estrategia de analise e similar a uma analise de variancia de um experimento

fatorial em blocos aleatorizados.

QMH e eficaz para determinar padroes de associacao quando existir uma forte

tendencia de a maioria das diferencas (ph11 − ph21) apresentar o mesmo sinal. Assim,

QMH pode falhar em detectar a associacao quando as diferencas estiverem em direcoes

opostas (sinais diferentes) e apresentarem magnitudes similares.

Mantel e Fleiss (1980) propuseram um criterio para determinar se a aproximacao

qui-quadrado e apropriada para a distribuicao da estatıstica de Mantel-Haenszel para

q tabelas. Este criterio e dado por:

CMF = min

{[ q∑

mh11 −q∑

(nh11)L

[ q∑

(nh11)U −q∑

(mh11)

em que (nh11)L = max(0, (nh1+ − nh11)) e (nh11)U = min(nh+1, nh1+).

Para os dados da Tabela 12 tem-se: QMH = 18, 41 (p < 0,0001). Assim,

existe uma forte associacao entre tratamento e a resposta do paciente, ajus-

tado para centro. Conclui-se, portanto, que o medicamento novo apresenta uma

taxa de resposta favoravel significativamente maior do que a do placebo. Ainda,

CMF = min{

(52 − 16), (88 − 52)}

= 16 ≥ 5 mostrando que, para esses dados, a

aproximacao qui-quadrado e apropriada para QMH .

3.1.2 Medidas de associacao

Para um conjunto de q tabelas 2 × 2 pode-se calcular a media das odds ratios.

Se as odds ratios sao homogeneas, o estimador de Mantel-Haenszel para a odds ratio

comum e dado por:

ORMH =

∑qh=1

nh11 nh22

nh∑q

h=1nh12 nh21

O intervalo de confianca a 100(1-α)% para a ORMH e:

ORMH exp(zα/2 σ), ORMH exp(−zα/2 σ))

em que,

h(nh11 + nh22)(nh11 nh22)/n2h

h(nh11 nh22)/nh)2

(nh11 + nh22)(nh12 nh21) + (nh12 + nh21)(nh11 nh22)]

h(nh11 nh22)/nh)(∑

h(nh12 nh21)/nh)

h(nh12 + nh21)(nh12 nh21)/n2h

h(nh12 nh21)/nh)2.

No exemplo apresentado na Tabela 12 tem-se que as odds ratios sao ho-

mogeneas (OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada

bem como seu respectivo I.C, ao nıvel de confianca de 95%, sao:

ORMH = 4, 028

IC(ORMH)(95)% = (2, 106; 7, 701).

Portanto, aqueles pacientes que receberam o novo tratamento apresentam, em

media, uma chance (odds) de apresentarem melhora de em torno de 4 vezes maior, em

relacao a odds dos que receberam placebo. Essa chance varia, ao nıvel de confianca de

95%, entre 2,1 e 7,7 vezes.

3.2 Conjunto de tabelas de contingencia 2 × r

Considere os dados da Tabela 14, referente a um ensaio clınico duplo-cego reali-

zado para investigar um novo tratamento para artrite reumatoide, em que a resposta

Melhora

Sexo Tratamento Nenhuma Alguma Acentuada Totais

Feminino Ativo 6 5 16 27

Feminino Placebo 19 7 6 32

Totais 25 12 22 59

Masculino Ativo 7 2 5 14

Masculino Placebo 10 0 1 11

Totais 17 2 6 25

considerada foi se existiu nenhuma, alguma ou acentuada melhora nos sıntomas da

doenca.

Os dados sao, portanto, um conjunto de duas tabelas de contingencia 2 × 3 em

que o interesse esta na associacao entre tratamento e o grau de melhora, ajustado para

sexo. O grau de melhora e uma resposta ordinal uma vez que nenhuma, alguma e

acentuada sao gradacoes de melhora.

Mantel (1963) propos uma extensao da estrategia de Mantel-Haenszel para a

analise de tabelas 2 × r quando a resposta e ordinal. Essa extensao envolve escores

medios para a resposta e usa diferencas destes escores no calculo de uma estatıstica de

teste adequada.

Antes, porem, de discutir as estrategias usadas para acessar a associacao em um

conjunto de tabelas 2 × r, faz-se necessario discutir tal associacao em uma unica tabela

2 × r que apresenta resposta ordinal.

3.2.1 Associacao em uma unica tabela de contingencia 2 × r

Considere a Tabela 14 agrupando-se as frequencias dos sexos feminino e masculino,

respectivamente. A Tabela 15 mostra esse agrupamento.

Melhora

Tratamento Nenhuma Alguma Acentuada Totais

Ativo 13 7 21 41

Placebo 29 7 7 43

Totais 42 14 28 84

Como e desejavel usar na estatıstica de teste a informacao de que a variavel

resposta e ordinal, sao assumidos escores para os nıveis dessa variavel. Obtem-se,

assim, medias (uma para cada linha da tabela) que sao, entao, comparadas. A media

para a i-esima linha (i = 1, 2) da Tabela 15 e definida como:

fi =3∑

aj nij

i = 1, 2

em que a = (a1, a2, a3) e o vetor de escores assumidos para os nıveis da variavel resposta.

Se a hipotese H0 e de nao associacao entre tratamento e grau de melhora, o que

significa que as frequencias sao similares para todos os nıveis, entao,

E(f1 | H0) =3∑

ajn1+ n+j

n= µa

em que a variancia:

V (f1 | H0) =(n − n1+)

n1+(n − 1)

(aj − µa)2(n+j

=(n − n1+) va

n1+(n − 1)

sendo va =∑3

j=1(aj − µa)2(

A quantidade f1 tem distribuicao aproximadamente Normal, pelo teorema central

do limite, de modo que a quantidade:

QS =(f1 − µa)

(n − n1+)/(n1+(n − 1))]

tem distribuicao aproximadamente qui-quadrado com um grau de liberdade. QS e

chamada estatıstica escore medio. Por usar a informacao ordinal da variavel resposta,

QS pode indicar onde as mudancas ocorrem. Assim, as estatısticas Q e Qp sao uteis para

detectar tipos gerais de associacao, mas nao sao tao eficientes quanto QS em detectar

a localizacao dessas mudancas.

Usando os escores a = (1, 2, 3) para os nıveis de melhora nenhum, algum e

acentuada, respectivamente, obteve-se QS = 12,859 (p = 0,0003). Conclui-se, desse

modo, que os tratamentos diferem e que o tratamento “Ativo” apresentou desempenho

melhor (grau de melhora mais acentuado) do que o placebo, uma vez que fA = 2, 195

e fP = 1, 488.

3.2.1.1 Escolha dos escores

As estrategias de analise de dados ordinais requerem a escolha dos escores a serem

atribuıdos aos nıveis da variavel resposta. Dentre as varias maneiras que tais escores

podem ser escolhidos, as duas mais usuais sao:

i) escores inteiros: estes sao definidos como aj = j, para j = 1, 2, · · · , r, e sao

uteis quando os nıveis da variavel resposta sao categorias ordenadas vistas como

igualmente espacadas. Sao tambem uteis, quando os nıveis da variavel resposta

correspondem a contagens inteiras. Os escores inteiros (0, 1, · · ·) e (1, 2, · · ·), em

termos de conclusoes, produzem resultados similares.

ii) escores padronizados (midranks): estes sao restritos a valores entre 0 e 1 e

sao definidos por:

aj =2(

∑jk=1 n+k

− n+j + 1

2(n + 1).

A vantagem desses escores sobre os escores inteiros e que o analista nao se respon-

sabiliza diretamente pela selecao dos escores. Ele usa os dados para obte-los.

Para muitos conjuntos de dados, a escolha dos escores apresentam pequeno efeito

nos resultados. Escolhas diferentes de escores inteiros usualmente fornecem resultados

similares. Isso pode, contudo, nao acontecer quando os dados sao muito desbalanceados,

tal como quando algumas categorias apresentam muito mais observacoes do que outras.

Com os escores padronizados (midranks) isso tambem ocorre, uma vez que aquelas

categorias apresentando poucas observacoes, em relacao as demais, apresentarao escores

muito proximos. A consequencia disto e que as distancias entre os nıveis da variavel

resposta podem vir a ser consideradas muito mais proximas do que elas realmente sao.

Como pode ser visto, a escolha dos escores nao e uma tarefa tao simples. Agresti

(1990, 1996) recomenda que os dados sejam analisados usando diversos razoaveis con-

juntos de escores para determinar se conclusoes importantes dependem das escolhas

feitas. O pesquisador e, sem duvida, de fundamental importancia para o entendimento

das distancias entre os nıveis da variavel resposta e consequente escolha adequada dos

escores.

3.2.2 Associacao em um conjunto de tabelas de contingencia 2 × r

A associacao em um conjunto de tabelas 2 × r em que a resposta e ordinal tambem

envolve o calculo de medias baseadas em um conjunto de escores.

Considere ah = (ah1, ah2, · · · , ahr) o conjunto de escores assumidos para os r nıveis

da variavel resposta na h-esima tabela 2 × r. Assim, considerando-se as duas tabelas

2 × 3 da Tabela 14, tem-se para o tratamento “Ativo” a seguinte soma de escores:

f+1 =2∑

ahjnh1j =2∑

nh1+fh1

em quefh1 =

ahj nh1j

e o escore medio para o tratamento Ativo na h-esima tabela. Sob a hipotese nula de

nao associacao f+1 tem valor esperado dado por:

E(f+1 | H0) =2∑

nh1+ µh = µ∗

e variancia,

V (f+1 | H0) =2∑

nh1+ (nh − nh1+)

(nh − 1)vh = v∗

em que µh =3∑

(ahj nh+j)

e vh =3∑

(ahj − µh)2

Se os tamanhos amostrais n+i+ =∑2

∑3j=1 nhij sao suficientemente grandes,

entao f+1 tem distribuicao aproximadamente normal e a quantidade

QSMH =(f+1 − µ∗)

tem distribuicao aproximadamente qui-quadrado com 1 grau de liberdade.

QSMH e conhecida como a estatıstica escore medio de Mantel-Haenszel esten-

dida e e eficiente para detectar padroes de diferencas quando (fh1 − fh2) apresentarem

predominantemente o mesmo sinal.

Para os dados da Tabela 14 e considerando-se os escores a = (1, 2, 3), obteve-se

QSMH = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e n+2+ = 43 sao tambem

suficientemente grandes, o que assegura que QSMH apresenta uma boa aproximacao da

distribuicao qui-quadrado, de modo que, pode-se concluir que tratamento e o grau de

melhora, controlando para sexo, sao associados.

3.3 Conjunto de tabelas de contingencia s × 2

Os dados apresentados na Tabela 16 referem-se a um estudo sobre o uso de tabaco

por adolescentes (Bauman et al., 1989). O interesse concentrou-se em fatores que

influenciam o uso do tabaco. Note, nesse exemplo, que a Tabela 16 e formada por um

conjunto de duas tabelas de contingencia 3 × 2 e que, o interesse, e testar a existencia,

ou nao, de associacao entre a variavel resposta (uso de tabaco) e o fator consciencia do

risco do uso do tabaco pelo adolescente controlando pelo fator uso de tabaco pelo pai.

Para esses dados observam-se, a variavel resposta (uso de tabaco) e o fator uso de

tabaco pelo pai, como sendo dicotomicas e o fator consciencia do risco, como ordinal.

Na pratica, as tres variaveis podem ser consideradas ordinais, uma vez que e comum

associar os escores 0 e 1 aos nıveis de uma variavel dicotomica.

Para acessar a associacao de interesse, sera, inicialmente, considerado uma unica

tabela de contingencia 3 × 2 para, entao, estender a ideia para um conjunto de tabelas

de contingencia 3 × 2.

Tabela 16. Resultado de um estudo realizado com adolescentes para investigar fa-

tores que afetam o uso do tabaco.

Pai usa Consciencia do risco Nao usa tabaco Usa tabaco Totais

Nao Mınima 59 25 84

Nao Moderada 169 29 198

Nao Substancial 196 9 205

Totais 424 63 487

Sim Mınima 11 8 19

Sim Moderada 33 11 44

Sim Substancial 22 2 24

Totais 66 21 87

3.3.1 Associacao em uma unica tabela de contingencia s × 2

Considere somente a primeira tabela de contingencia 3 × 2 (relativa aos adoles-

centes cujos pais nao fumam) apresentada anteriormente. Como no caso das tabelas

de contingencia 2 × s, escores c = (c1, c2, c3) sao assumidos para os nıveis (mınima,

moderada e substancial) do fator ordinal “consciencia do risco”. Para a variavel res-

posta assume-se, como ja mencionado, os escores a = (a1, a2) = (0, 1) para as respostas

“nao usa” e “usa” tabaco, respectivamente. Assim, tem-se:

f =3∑

ci aj nij

em que, sob H0,

E(f | H0) =3∑

= µc µa

V (f | H0) =

(ci − aj)2(ni+

(aj − µa)2(n+j/n)

(n + 1)

A quantidade f tem distribuicao aproximadamente Normal para grandes amostras

de modo que, para essas situacoes, usa-se a estatıstica de teste:

QCS =(f − µc µa)

V ar(f | H0)=

(n − 1)[

∑3i=1

∑2j=1(ci − µc)(aj − µa) nij

∑3i=1(ci − µc)2 ni+

∑2j=1(aj − µa)2 n+j

] = (n − 1) r2ac

em que rac e o coeficiente de correlacao de Pearson. Por este fato QCS e denominada

estatıstica da correlacao. Ainda, QCS tem distribuicao aproximada Qui-quadrado com

1 grau de liberdade.

Para os dados da primeira tabela de contingencia 3 × 2 da Tabela 16 obteve-

se QCS = 34, 28 (p < 0,0001), concluindo-se, portanto, haver uma forte associacao

(correlacao) entre consciencia do risco de fumo e uso de tabaco.

3.3.2 Associacao em um conjunto de tabelas de contingencia s × 2

Mantel (1963) tambem propos uma estatıstica de teste para a associacao de duas

variaveis que sao ordinais em um conjunto de tabelas s × 2, baseada nos escores a e c

assumidos para as colunas e linhas das tabelas. Esta estatıstica e expressa por:

QCSMH =

∑qh=1 nh

fh − E(fh | H0))

∑qh=1 n2

h var(fh | H0)=

∑qh=1 nh (vhc vha)

1/2 rca.h

∑qh=1

n2h vhc vha/(nh − 1)

e e chamada estatıstica da correlacao de Mantel-Haenszel estendida. QCSMH

segue a distribuicao Qui-quadrado com 1 grau de liberdade quando o tamanho

amostral combinado das tabelas s× 2 for suficientemente grande, isto e,∑q

h=1 nh ≥ 40.

Para os dados da Tabela 16, tomando-se os escores inteiros c = (1, 2, 3),

obteve-se QCSMH = 40,6639 (p < 0,0001). Existe, portanto, uma forte associacao

(correlacao) entre consciencia do risco de fumar e uso de tabaco pelo adolescente,

controlando pelo fator uso de tabaco pelo pai.

3.4 Tabelas de contingencia s × r

Os conceitos de associacao e medidas de associacao em tabelas 2 × 2 e associacao

em tabelas de contingencia 2 × r e s × 2 foram apresentados e discutidos ate o momento.

Nessa secao tais conceitos sao estendidos para as tabelas s × r.

3.4.1 Testes para associacao geral em tabelas s × r

A notacao de uma tabela de contingencia s × r, em que tem-se duas variaveis,

uma delas com s categorias e a outra com r categorias e apresentada na Tabela 17.

Tabela 17. Tabela de contingencia s × r.

Categorias da variavel resposta

Grupos 1 2 · · · r Totais

1 n11 n12 · · · n1r n1+

2 n21 n22 · · · n2r n2+

......

s ns1 ns2 · · · nsr ns+

Totais n+1 n+2 · · · n+r n

Para testar a hipotese nula de nao existencia de associacao geral em uma tabela

de contingencia s × r pode-se usar:

3.4.1.1 Situacao 1: variavel resposta nominal

i) a estatıstica qui-quadrado de Pearson, como definida para uma tabela de con-

tingencia 2 × 2, isto e,

QP =s∑

(nij − mij)2

que, quando todas as caselas apresentarem valores esperados maiores que 5, tem

distribuicao aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade.

ii) a estatıstica Q que, como para uma tabela de contingencia 2 × 2, e obtida por:

Q =(n − 1)

e tem, nesse caso, distribuicao aproximada Qui-quadrado com (s -1)(r - 1) graus

de liberdade.

3.4.1.2 Situacao 2: variavel resposta ordinal

As estatısticas Q e QP sao adequadas para a deteccao de associacao geral. Nao

sao, no entanto, tao adequadas quando a variavel resposta e ordinal e e de interesse

levar em conta tal ordenacao. Assim como para tabelas 2× r, a estatıstica escore medio,

QS, pode ser tambem usada para tabelas s × r, de modo que QS e expressa por:

QS =(n − 1)

∑si=1 ni+(fi − µa)

em que fi =∑r

j=1aj nij

ni+, µa = E[fi | H0] =

∑rj=1

aj n+j

ne va =

∑rj=1(aj − µa)

Nesses casos, QS tem distribuicao aproximada Qui-quadrado com (s - 1) graus de

liberdade uma vez que os escores medios de s grupos estao sendo comparados.

3.4.1.3 Situacao 3: ambas as variaveis ordinais

Esta situacao ocorre, por exemplo, quando a variavel resposta e ordinal e os

tratamentos sendo comparados sao, na realidade, dosagens diferentes de um mesmo

medicamento. Em tais situacoes, escores sao assumidos para os nıveis da variavel

resposta e, tambem, para os nıveis do fator de interesse.

A estatıstica de teste apropriada para esta situacao, como visto para tabelas de

contingencia s × 2, e a estatıstica da correlacao QCS que, independente da dimensao

da tabela, tera sempre distribuicao aproximada Qui-quadrado com 1 grau de liberdade.

Tal estatıstica e expressa por:

QCS = (n − 1) r2ac

em que rac e o coeficiente de correlacao de Pearson (ver pgs. 36 e 37).

3.4.2 Teste exato para associacao geral em tabelas s × r

Em alguns casos o tamanho amostral, em uma tabela de contingencia s × r,

nao e suficientemente grande e ocorrem diversos valores esperados menores que 5. As

estatısticas qui-quadrado discutidas anteriormente nao sao, portanto, recomendaveis.

Nessas situacoes, uma alternativa e o teste exato de Fisher para tabelas s × r. Esse

metodo segue os mesmos princıpios do teste exato de Fisher para uma tabela de con-

tingencia 2× 2, exceto que as probabilidades sao assumidas serem provenientes de uma

distribuicao Hipergeometrica multivariada, isto e.

P (Nij = nij) =

ni+!r∏

n!s∏

3.4.3 Medidas de associacao em tabelas s × r

Algumas medidas de associacao encontram-se disponıveis quando ha interesse em

se obter a intensidade da associacao em uma tabela s × r. A escolha por uma dessas

medidas, dependera da escala de mensuracao das variaveis.

i) Medidas de associacao ordinal

Nos casos em que as categorias exibidas nas linhas e colunas de uma tabela de

contingencia s × r estiverem em uma escala intervalar ou apresentarem escores

que sao igualmente espacados, recomenda-se (Stokes et al., 2000), como medida

de associacao, o coeficiente de correlacao de Pearson. Nos casos, contudo, em

que as categorias sao de natureza ordinal mas nao apresentarem uma escala de

distancia obvia, sugere-se, entao, o coeficiente de correlacao de Spearman o qual

baseia-se nos ranks das categorias.

ii) Medidas de associacao nominal

Medidas de associacao nos casos em que uma, ou ambas, as variaveis de uma

tabela de contingencia s × r estiverem em uma escala de mensuracao nominal,

sao mais difıceis. Dois coeficientes propostos na literatura para essas situacoes

sao: o coeficiente de incerteza (uncertainty coefficient) e o coeficiente lambda.

Agresti (1990) discute algumas dessas medidas.

3.4.4 Exemplos

3.4.4.1 Local de moradia e afiliacoes polıtico partidarias

Os dados apresentados na Tabela 18 referem-se a um estudo sobre a afiliacao

partidaria em uma determinada cidade (Stokes et al., 2000). O interesse e saber se

existe associacao entre partido polıtico e local (bairros) de moradia.

Tabela 18. Distribuicao polıtico partidaria nos bairros da cidade.

Local de Moradia

Partido Polıtico A B C D Totais

Democrata 221 160 360 140 881

Independente 200 291 160 311 962

Republicano 208 106 316 97 727

Totais 629 557 548 836 2570

Para esses dados, ambas as variaveis encontram-se na escala de mensuracao nomi-

nal e, desse modo, para testar a hipotese nula de nao associacao entre partido polıtico e

local de moradia pode-se usar a estatıstica qui-quadrado de Pearson (QP ) bem como a

estatıstica Q. Os resultados obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6)

e Q = 273, 81 (p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito

proximos, o que ja era esperado uma vez que o tamanho amostral (n = 2570) e grande.

Dos resultados apresentados, conclui-se haver associacao entre partido polıtico e local

de moradia.

3.4.4.2 Medicamentos para dor de cabeca e perıodo sem dor

Os dados desse exemplo, que encontram-se apresentados na Tabela 19, sao de

um estudo sobre um novo medicamento utilizado para aliviar dores de cabeca. Os

pesquisadores compararam tal medicamento com o tratamento padrao e um placebo

e mediram, para cada um deles, o numero (em horas) de substancial alıvio da dor de

cabeca.

Tabela 19. Estudo de um novo medicamento para o tratamento de dores de cabeca.

Horas de alıvio

Tratamento 0 1 2 3 4 Totais

Placebo 6 9 6 3 1 25

Padrao 1 4 6 6 8 25

Novo 2 5 6 8 6 27

Totais 9 18 18 17 15 77

Claramente, numero de horas e uma variavel resposta ordinal. Nesses casos, o teste

escore medio, como visto anteriormente, e indicado para testar a hipotese nula de nao

associacao entre medicamento e a intensidade do alıvio de dor de cabeca. Utilizando-se,

portanto, os escores a = (0, 1, 2, 3, 4) obteve-se QS = 13, 7346 ( p = 0,00104, g.l = 2).

Assim, ha evidencias estatısticas de associacao entre tratamento e o numero de horas

de dor de cabeca. Pode-se, desse modo, concluir que pelo menos dois tratamentos

diferem entre si. Quais deles diferem? Observe que f1 = 1, 36, f2 = 2, 64 e f3 = 2, 41

fornecendo indıcios de que o placebo difere dos tratamentos novo e padrao. Nao parece

haver indıcios, contudo, de diferencas entre os tratamentos novo e padrao.

Considerando-se, entao, a tabela com somente as linhas correspondentes aos trata-

mentos padrao e novo tem-se QS= 0,465 (p = 0,495, g.l. = 1). Conclui-se, desse modo,

que os tratamentos novo e padrao nao diferem entre si. Para as demais comparacoes

obtiveram-se: i) placebo versus novo: QS = 8, 6 (p = 0,0034, g.l. = 1)

ii) placebo versus padrao: QS = 11, 66 ( p = 0,0006, g.l. = 1).

Observe, neste exemplo, que existe varias caselas com numero esperado menores

que 5 o que inviabiliza a utilizacao das estatısticas Q e QP , mas nao inviabiliza o uso da

estatıstica QS. Este e, portanto, um exemplo que mostra a vantagem em se considerar

a escala ordinal dos dados utilizando-se uma estatıstica de teste mais apropriada.

3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza

Uma companhia de tratamento de agua realizou um estudo para pesquisar como

os aditivos adicionados a agua afetam a limpeza das roupas. O estudo considerou:

agua sem nenhum aditivo, agua com tratamento padrao e agua com dose dupla do

tratamento padrao. Os resultados obtidos encontram-se na Tabela 20

Tabela 20. Influencia de aditivos na agua sobre limpeza das roupas.

Limpeza

Tratamento Baixa Media Alta Totais

Agua pura 27 14 5 46

Agua + trat. padrao 10 17 26 53

Agua + dose dupla trat. padrao 5 12 50 67

Totais 42 43 81 166

Ambas as variaveis sao, nesse caso, ordinais e como foi visto, a estatıstica da

correlacao QCS e indicada. Tomando-se, desse modo, os escores a = (1, 2, 3) e c = (1,

2, 3) para as categorias das variaveis limpeza e tratamento, respectivamente, obteve-se

QCS = 50,6 (p < 0,0001, g.l.= 1). Conclui-se, portanto, que o tratamento e limpeza

estao associados e que a limpeza aumenta com a dosagem de aditivo adicionado a agua.

3.4.4.4 Tipo de veıculo adquirido e fonte de propaganda.

Os dados desse exemplo referem-se a um estudo realizado para saber se o tipo

de carro que as pessoas tinham comprado nos ultimos meses em uma determinada

concessionaria estava associada com o tipo de anuncio publicitario dos mesmos. O

resultado do estudo encontra-se apresentado na Tabela 21.

Pode-se notar que os dados nao satisfazem as condiccoes de aplicabilidade dos

testes usuais Q e QP pois existem caselas com frequencia zero bem como algumas delas

com frequencias esperadas menores do que 5. O teste exato de Fisher para testar a

hipotese nula de nao associacao e, desse modo, a estrategia indicada. Utilizando-se

Tabela 21. Escolha do carro e anuncio publicitario

Anuncio publicitario

Tipo de carro TV Revista Jornal Radio Totais

Sedan 4 0 0 2 6

Esportivo 0 3 3 4 10

Utilitario 5 5 2 2 14

Totais 9 8 5 8 30

tal teste para os dados desse exemplo obteve-se um valor p = 0,0473 (bilateral). Nao

existe teste exato de Fisher unilateral para tabelas s× r. Conclui-se, nesse caso, haver

evidencias de associacao ao nıvel de significancia de 5%. Para nıveis de significancia

menores nao e possıvel concluir pela existencia de associacao entre o tipo de carro

comprado e tipo de anuncio publicitario.

3.4.5 Concordancia entre observadores

3.4.5.1 Estatıstica Kappa

Pesquisadores nas areas de medicina, epidemiologia, psiquiatria, psicologia etc.

tem, ou deveriam ter, consciencia de que o observador e uma possıvel fonte de erro de

medicao. Em muitos casos, diferentes observadores, ou um mesmo observador em dife-

rentes tempos, podem, por exemplo, examinar um raio X, ou realizar um exame fısico,

e chegarem a diferentes conclusoes (diagnosticos). E importante, desse modo, avaliar

a concordancia entre os observadores. Os dados, em um estudo desse tipo, produzem,

em geral, uma tabela de contingencia s × s em que os nıveis nas colunas representam

a resposta de um observador e os nıveis nas linhas a resposta do outro observador. As

caselas na diagonal representam os casos em que os observadores concordam.

Certamente as estatısticas tratadas anteriormente para testar a associacao, ou nao,

entre as respostas dos observadores poderiam ser usadas. Com os resultados obtidos

nao se poderia, contudo, quantificar a concordancia dos observadores. Medidas de

concordancia foram, entao, propostas.

O coeficiente Kappa, proposto por Cohen (1960), e uma dessas medidas e e

definido por:

κ =Π0 − Πe

1 − Πe

sendo Π0 =∑s

i=1 pii =∑s

i=1nii

na probabilidade de concordancia com, pii a probabi-

lidade de um indivıduo ser classificado na categoria i por ambos os observadores e,

Πe =∑s

i=1(pi+)(p+i) =∑s

i=1ni+

na probabilidade de concordancia sob H0 em que

H0: nao ha concordancia entre os observadores.

Como Π0 = 1 quando existir concordancia perfeita (todos os elementos fora da

diagonal sao iguais a zero), κ sera igual a 1 quando existir concordancia perfeita entre

os observadores e, κ sera igual a 0 quando a concordancia for aquela esperada sob

H0. Assim quanto mais proximo de 1 for o valor de κ, maior concordancia existira

entre os observadores. E possıvel obter valores negativos para κ mas isto, raramente

ocorre. Considera-se, em geral, κ < 0,4 como concordancia fraca, κ entre [0,4; 0,8)

como concordancia moderada e κ ≥ 0,8 como concordancia forte.

A variancia assintotica do coeficiente Kappa pode ser estimada por:

var(κ) =(A + B − C)

((1 − Πe)2 n)

em que A =∑

1 − (pi+ + p+i)(1 − κ)]2

, B = (1 − κ)2)∑∑

i6=j pij(p+1 pj+)2 e

κ−Πe(1− κ)]2

. Um intervalo de confianca para κ pode, portanto, ser obtido por:

κ ± zα/2

(var(κ))

em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.

Para os casos em que a resposta e ordinal uma forma ponderada da estatıstica

Kappa foi proposta e esta e definida por:

κw =Π0(w) − Πe(w)

1 − Πe(w)=

∑si=1

∑sj=1 wij pij −

∑si=1

∑sj=1 wij pi+ p+j

1 −∑si=1

∑sj=1 wij pi+ p+j

em que wij sao pesos com valores entre 0 e 1. Um possıvel conjunto de pesos e dado

wij = 1 − | escore(i) − escore(j) |escore(dim) − escore(1)

em que escore(i) e o escore para a i-esima linha, escore(j) e o escore para a j-esima coluna

e dim e a dimensao da tabela s × s.

A variancia assintotica do coeficiente Kappa ponderado pode ser estimada por:

var(κw) =

wij − (wi+ + w+j)(1 − κw)]2 −

κw − Πe(w)(1 − κw)]2

(1 − Πe(w))2 n

em que wi+ =∑

j p+jwij e w+j =∑

j pi+wij.

Um intervalo de confianca para κw pode, portanto, ser obtido por:

κ(w) ± zα/2

√var(κw)

em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.

3.4.5.2 Exemplo: concordancia entre o diagnostico de dois neurologistas

Os dados apresentados na Tabela 22 referem-se a classificacao de pacientes com

esclerose multipla, em 4 classes de diagnostico, por dois neurologistas.

Tabela 22. Concordancia dos diagnosticos de dois neurologistas

Neurologista 1

Neurologista 2 1 2 3 4 Totais

1 38 5 0 1 44

2 33 11 3 0 47

3 10 14 5 6 35

4 3 7 3 10 23

Totais 84 37 11 17 149

Para esses dados obteve-se:

κ =((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/1492)

1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492))

κ = 0, 2079.

Ainda, var(κ) = 0, 00255 e, portanto, IC0,95(κ) = (0,109; 0,3068). De forma

analoga, κw = 0, 3797, var(κw) = 0, 002673 e IC0,95(κw) = (0,2785; 0,4810). Tais

resultados indicam uma fraca concordancia entre os neurologistas.

3.5 Conjunto de tabelas de contingencia s × r

Para um conjunto de tabelas s× r tem-se, para testar as associacoes de interesse,

as extensoes das estatısticas:

i) QMH , quando as variaveis forem nominais;

ii) QSMH , quando os nıveis da variavel resposta forem ordinais e,

iii) QCSMH , quando ambas as variaveis forem ordinais.

4 REGRESSAO LOGISTICA DICOTOMICA

Neste capıtulo, o modelo de regressao logıstica sera apresentado para descrever a

natureza da associacao entre um conjunto de fatores e a variavel resposta por meio de

um numero parcimonioso de parametros.

A regressao logıstica e frequentemente apropriada para variaveis respostas

categoricas e descreve a relacao entre esta variavel resposta e um conjunto de variaveis

explanatorias (covariaveis). A variavel resposta e usualmente dicotomica (tipicamente

sim e nao), mas pode tambem ser usada para variaveis resposta com mais do que duas

categorias (regressao logıstica politomica). As variaveis explanatorias, em regressao

logıstica, podem ser categoricas ou contınuas. Variaveis dummy sao usadas para a

incorporacao de variaveis qualitativas no modelo de regressao logıstica.

Considere, como exemplo inicial, os dados da Tabela 24 em que a relacao entre

idade e doenca coronaria esta sendo estudada. Pelos resultados apresentados nesta

tabela, observa-se que com o acrescimo da idade, cresce tambem a probabilidade de

ocorrencia de doenca coronaria. A Figura 1 apresenta graficamente tais resultados

considerando-se o ponto medio de cada intervalo de idade.

Uma diferenca importante entre o modelo de regressao logıstica e o modelo de

regressao linear pode ser notada e, esta, diz respeito a natureza da relacao entre a

variavel resposta e as variaveis independentes. Em qualquer problema de regressao a

quantidade sendo modelada e o valor medio da variavel resposta dado os valores das

variaveis independentes. Esta quantidade e chamada media condicional e sera expressa

por E(Y | x) em que Y denota a variavel resposta e x denota os valores das variaveis

independentes. Em regressao linear tem-se - ∞ < E(Y | x) < + ∞ e, em regressao

logıstica, devido a natureza da variavel resposta, 0 ≤ E(Y | x) ≤ 1 como pode ser

Tabela 23. Dados sobre doenca coronaria por intervalo de idade

Doenca coronaria

Idade (X = x) Nao (Y = 0) Sim (Y = 1) Totais E(Y | x)

20-29 9 1 10 0,10

30-34 13 2 15 0,13

35-39 9 3 12 0,25

40-44 10 5 15 0,33

45-49 7 6 13 0,46

50-54 3 5 8 0,63

55-59 4 13 17 0,76

60-69 2 8 10 0,80

Totais 57 43 100 0,43

30 40 50 60

Idade(em anos)

Figura 1: E(Y | x) versus idade.

observado na Figura 1. Observe ainda, nesta mesma figura, que a mudanca em E(Y | x)

por unidade de mudanca em x torna-se progressivamente menor quando E(Y | x) torna-

se proxima de zero ou de um. A curva em forma de “S” lembra a distribuicao acumulada

de uma variavel aleatoria, o que motivou o uso da distribuicao logıstica para fornecer

um modelo para E(Y | x).

A funcao de distribuicao logıstica e descrita por:

F (x) =1

1 + exp{−x} =exp{x}

1 + exp{x}em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua correspondente

representacao grafica e mostrada na Figura 2.

−20 −10 0 10 20

Figura 2: Funcao de distribuicao logıstica.

A funcao de distribuicao logıstica toma valores entre zero e um; assume o valor

zero em uma parte do domınio das variaveis explicativas, um em outra parte do domınio

e cresce suavemente na parte intermediaria possuindo uma particular curva em forma

de “S”. Se comparada a Figura 1 pode-se notar as similaridades.

Outras funcoes de distribuicao possuem as caracterısticas acima mencionadas. A

funcao logıstica foi escolhida, no entanto, basicamente por duas razoes: (i) do ponto

de vista matematico e extremamente flexıvel e facil de ser usada e, (ii) conduz a in-

terpretacoes simples. Para descrever a variacao entre os θ(x) = E(Y | x), foi, entao,

proposto o modelo de regressao logıstico expresso por:

θ(x) = P (Y = 1 | x) =1

1 + exp

β0 +p∑

βk xk

β0 +p∑

βk xk

1 + exp

β0 +p∑

βk xk

em que Yi = 1 significa a presenca da resposta, x representa as covariaveis (fatores de

risco), isto e, x = (x1, x2, · · · , xp), o parametro β0 e o intercepto, e βk (k = 1, · · · , p)

sao os p parametros de regressao. Observe que este modelo retornara uma estima-

tiva da probabilidade do indivıduo ter a resposta dado que o mesmo possui, ou nao,

determinados fatores de risco. Consequentemente,

1 − θ(x) =

β0 +p∑

βk xk

1 + exp

− β0 +p∑

βk xk

1 + exp

β0 +p∑

βk xk

retornara uma estimativa da probabilidade do indivıduo nao ter a resposta dado que o

mesmo possui ou nao determinados fatores de risco.

Observe, ainda, que fazendo-se:

1 − θ(x)

= β0 +p∑

βk xk

tem-se um modelo linear para o logito, isto e, para o logaritmo neperiano da razao entre

θ(x) e 1 - θ(x). O logito e, na realidade, o logaritmo de uma odds e, este fato, permitira

que odds ratios sejam, portanto, obtidas pelo modelo (sera tratado em detalhes mais

adiante).

No contexto de modelos lineares generalizados, uma funcao, monotona e derivavel,

que relaciona a media ao preditor linear e denominada de funcao de ligacao. Assim,

η = log(

θ(x)1−θ(x)

, e a funcao de ligacao canonica para a modelo Binomial.

Alem de apresentar uma forma linear, o modelo logıstico apresenta a propriedade

util de que todos os valores (β0 +∑p

k=1 βkxk), pertencentes ao intervalo (-∞, + ∞),

terem um correspondente, no intervalo (0, 1), para θ(x). Probabilidades preditas por

este modelo sao, desse modo, restritas a assumirem valores entre 0 e 1. O modelo,

portanto, nao produz probabilidades negativas bem como probabilidades maiores que 1.

Outra diferenca importante entre um modelo de regressao linear e o modelo de

regressao logıstico refere-se a distribuicao condicional da variavel resposta. No modelo

de regressao linear e assumido que uma observacao da variavel resposta pode ser ex-

pressa por y = E(Y | x) + ε em que a quantidade ε e chamada erro e e assumida ter

distribuicao Normal com media zero e variancia constante. Este nao e o caso quando

a resposta e dicotomica ( Y = 1 ou 0 ). O valor da variavel resposta dado x e expresso

por y = θ(x) + ε e, como a quantidade ε pode assumir somente um de dois possıveis

valores, isto e, ε = 1 - θ(x) para y = 1 ou, ε = - θ(x) para y = 0, segue que ε tem

distribuicao com media zero e variancia dada por θ(x)(

1- θ(x))

, isto e, a distribuicao

condicional da variavel resposta segue uma distribuicao Binomial com probabilidade

dada pela media condicional θ(x).

4.1 Estimacao dos parametros

A estimacao dos parametros em regressao logıstica e, em geral, feita pelo metodo

da maxima verossimilhanca. Para aplicacao deste metodo e necessario construir ini-

cialmente a funcao de verossimilhanca a qual expressa a probabilidade dos dados ob-

servados como uma funcao dos parametros desconhecidos. Os estimadores de maxima

verossimilhanca dos parametros serao os valores que maximizam esta funcao.

Para encontrar esses valores no modelo de regressao logıstico, considere a variavel

resposta Y codificada como zero ou um. Da expressao (7) pode-se, entao, obter a

probabilidade condicional de que Y seja igual a 1 dado x, isto e, θ(x) = P(Y = 1 | x)

e, em consequencia, a probabilidade condicional de que Y seja igual a zero dado x,

isto e, 1 - θ(x) = P(Y = 0 | x). Assim, θ(xi) sera a contribuicao para a funcao de

verossimilhanca dos pares (yi, xi) em que yi = 1 e 1 - θ(xi), a contribuicao dos pares

em que yi = 0.

Assumindo-se que as observacoes sao independentes tem-se a seguinte expressao

para a funcao de verossimilhanca:

L(β) =n∏

θ(xi))yi

1 − θ(xi))1−yi

As estimativas de β serao os valores que maximizam a funcao de verossimilhanca

dada em (8). Algebricamente e mais facil trabalhar com o logaritmo desta funcao, isto

e, com:

l(β) = log L(β) =n∑

yi log(

θ(xi))

+ (1 − yi) log(

1 − θ(xi))

Para obter os valores de β que maximizam l(β) basta diferenciar a respectiva

funcao com respeito a cada parametro βj (j = 0, 1,.., p) obtendo-se, assim, o sistema

de p + 1 equacoes,

yi − θ(xi))

= 0 j = 1, · · · , p

que, quando igualadas a zero, produzem como solucao as estimativas de maxima

verossimilhanca de β. Os valores ajustados para o modelo de regressao logıstico sao,

portanto, obtidos substituindo-se as estimativas de β em (7).

As p + 1 equacoes sao chamadas equacoes de verossimilhanca e por serem nao-

lineares nos parametros βj (j = 0, 1,.., p), requerem metodos especiais para suas

solucoes. Os metodos iterativos de Newton-Raphson e o escore de Fisher sao algoritmos

numericos comumente utilizados com esta finalidade. Uma discussao geral de metodos

implementados em varios softwares pode ser encontrada em McCullagh e Nelder (1983).

O metodo de estimacao das variancias-covariancias dos coeficientes estimados

seguem da teoria de estimacao de maxima verossimilhanca a qual estabelece que os

estimadores sao obtidos pela matriz das derivadas parciais de segunda ordem do loga-

ritmo da funcao de verossimilhanca. Essas derivadas tem a seguinte forma geral:

∂2 log L(β)

∂β2j

= −n∑

x2ij θ(xi)

1 − θ(xi))

∂2 log L(β)

∂βj∂βl

= −n∑

xij xil θ(xi)(

1 − θ(xi))

para j, l = 0, 1, .., p.

A matriz contendo o negativo dos termos dados nas equacoes (9) e (10) sera

denotada por I(β) e e chamada matriz de informacao. As variancias e covariancias

dos coeficientes estimados serao obtidas pela inversa dessa matriz e sera denotada por

Σ(β) = I−1(β). O j-esimo elemento da diagonal dessa matriz, denotado por σ2(βj),

corresponde a variancia de βj e, o elemento na j-esima linha e l-esima coluna, dessa

matriz, denotado por σ(βj, βl), corresponde a covariancia entre βj e βl. Os estimadores

das variancias e covariancias, denotados por Σ(β), sao obtidos por avaliar Σ(β) em β.

Em notacao matricial, a matriz de informacao I(β) = X’VX em que X e uma

matriz com n linhas e p + 1 colunas contendo um vetor de uns e as covariaveis

dos indivıduos, e V e uma matriz diagonal de n linhas e n colunas com elementos

θ(x)(1 − θ(x)) na diagonal. Isto e,

1 x11 · · · x1p

1 x21 · · · x2p

......

1 xn1 · · · xnp

θ(x1)(1 − θ(x1)) 0 · · · 0

0 θ(x1)(1 − θ(x2)) · · · 0...

......

0 0 · · · θ(xn)(1 − θ(xn))

Considerando-se o ponto medio para cada intervalo de idade, isto e, x = 25, 32,

38, 43, 47, 53, 57 e 65, e ajustando-se o modelo de regressao logıstica para os dados

da Tabela 23 foram obtidas as estimativas β0 = -5,123 (s.e. = 1,110) e β1 = 0,1058

(s.e. = 0,023).

4.2 Significancia das variaveis no modelo

Apos obtencao das estimativas dos coeficientes βj (j = 0, 1,..., p) faz-se necessario

avaliar a adequacao do modelo ajustado.

O primeiro interesse esta em acessar a significancia das covariaveis presentes no

modelo. O princıpio em regressao logıstica e o mesmo usado em regressao linear, ou

seja, comparar os valores observados da variavel resposta com os valores preditos pelos

modelos com, e sem, a covariavel sob investigacao.

Em regressao linear esta comparacao e feita por meio de uma tabela chamada

analise de variancia em que atencao e dada a soma de quadrados devida a regressao.

Um grande valor da soma de quadrados da regressao sugere que pelo menos uma, ou

talvez todas as variaveis independentes, sejam importantes. Em regressao logıstica a

comparacao pode ser feita utilizando-se testes tal como, dentre outros, o teste da razao

de verossimilhancas em que, a funcao de verossimilhanca do modelo sem as covariaveis

(LSC) e comparada com a funcao de verossimilhanca do modelo com as covariaveis

(LCC). Formalmente, o teste e expresso por:

RV = −2 log

verossimilhanca do modelo sem as covariaveis

verossimilhanca do modelo com as covariaveis

= −2 log

= 2 log(LCC) − 2 log(LSC)

Note que a razao das verossimilhancas e multiplicada por −2 log. Isto e feito para

que se obtenha uma quantidade cuja distribuicao e conhecida (no caso a distribuicao

qui-quadrado) de modo que, tal quantidade, possa ser usada para a realizacao de testes

de hipoteses. Em regressao logıstica a estatıstica:

D = −2 log

verossimilhanca do modelo sob estudo

verossimilhanca do modelo saturado

e chamada deviance, em que, para um melhor entendimento, e conceitualmente util

pensar um valor observado da variavel resposta como sendo tambem um valor pre-

dito resultante do modelo saturado. Um modelo saturado e aquele que contem tantos

parametros quanto dados existirem. Assim, a estatıstica RV apresentada anterior-

mente, pode ser vista como a diferenca de duas deviances, isto e,

RV = Deviance do modelo sem covariaveis − Deviance do modelo com covariaveis

= −2 log

verossimilhanca do modelo sem covariaveis

− 2 log

verossimilhanca do modelo com as covariaveis

o que resulta em:

RV = 2 log(LCC) − 2 log(LSC).

Sob a hipotese nula de que os p coeficientes associados as covariaveis no modelo

sao iguais a zero, a distribuicao de RV sera Qui-Quadrado com p graus de liberdade.

Rejeicao da hipotese nula neste caso tem interpretacao analoga aquela em regressao

linear, ou seja, pode-se concluir que pelo menos um, ou talvez todos, os p coeficientes

sao diferentes de zero.

4.2.1 Analise de Deviance e selecao de modelos

Uma tabela, similar a obtida em regressao linear, para a analise de deviance

(ANODEV) pode ser construıda. A ANODEV e uma generalizacao da analise de

variancia visando obter, a partir de uma sequencia de modelos encaixados, os efeitos de

fatores, covariaveis e suas interacoes.

Para uma sequencia de modelos encaixados, tendo estes a mesma distribuicao e

funcao de ligacao, utiliza-se a deviance como uma medida de discrepancia do modelo e

pode-se, entao, construir uma tabela das diferencas de deviances, como, por exemplo, a

apresentada na Tabela 24 em que e considerado um experimento com duas covariaveis

contınuas X1 e X2.

Tabela 24. Exemplo de uma tabela de Diferenca de Deviances para um experimento com duas

covariaveis contınuas X1 e X2.

Modelo g.l. Deviance Residual Diferenca Deviances Diferenca g.l.

Nulo g.l.N DN

X1 g.l.N - 1 DX1 DN - DX1 1

X1 e X2 g.l.N - 2 DX1+X2 DX1 - DX1+X2 1

X1, X2 e X1 ∗ X2 g.l.N - 3 DX1∗X2 DX1+X2 - DX1∗X2 1

Saturado 0 0

A partir das deviances e suas diferencas pode-se, entao, usando-se o teste da

razao de verossimilhancas, descrito anteriormente, testar a significancia da inclusao de

determinadas covariaveis bem como interacoes no modelo. Em outras palavras, pode-

se avaliar o quanto da variacao dos dados e explicada pela inclusao de termos no modelo.

Para o exemplo apresentado na Tabela 23 em que deseja-se verificar a relacao

entre idade e doenca coronaria tem-se:

Tabela 25. Tabela de diferenca de deviances para os dados sobre doenca coronaria.

Modelo g.l. Deviance residual Dif. Deviance Dif. g.l.

Nulo 7 28,7015

X1: idade 6 0,5838 28,1177 1

bem como a correspondente analise de deviance (ANODEV),

Tabela 26. Analise de deviance para os dados sobre doenca coronaria.

Causa de variacao g.l. Deviances RV valor p

Regressao 1 28,1177 28,1177 1,142e-07

Resıduos 6 0,5838

Total 7 28,7015

Portanto, RV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se a hipotese

H0: β1 = 0 concluindo-se, entao, que idade esta altamente associada a doenca coronaria

e deve, portanto, permanecer no modelo.

4.3 Qualidade do modelo ajustado

Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o quao

bem ele se ajusta aos dados, ou seja, quao proximo os valores preditos pelo modelo

encontram-se de seus correspondentes valores observados. As estatısticas de teste usadas

para essa finalidade sao, em geral, denominadas estatısticas de qualidade do ajuste

e comparam, de alguma maneira apropriada, as diferencas entre os valores observados

e preditos.

Duas estatısticas tradicionais de qualidade do ajuste sao: a qui-quadrado de

Pearson, QP , que e baseada nos resıduos de Pearson e a qui-quadrado da razao de

verossimilhancas, QL, tambem conhecida como deviance por basear-se nos resıduos

deviance, e estas sao expressas, respectivamente, por:

QP =∑

nij − mij

QL =∑

2nij log

em que mij sao as quantidades preditas pelo modelo e definidas por:

mij = ni+ θ(x) para j = 1

mij = ni+ (1 − θ(x)) para j = 2.

Sob a hipotese H0 de que o modelo se ajusta bem aos dados, QP e QL sao aproxi-

madamente qui-quadrado com graus de liberdade igual ao numero de linhas na tabela

de dados menos o numero de parametros no modelo. Na pratica, essas estatısticas serao

aproximadamente qui-quadrado se:

• cada ni+ > 10

• 80% das contagens preditas sao pelo menos 5

• todas as outras contagens esperadas sao maiores que 2, e nenhuma contagem e 0.

Para o modelo ajustado aos dados de doenca coronaria obtiveram-se: Qp = 0.59

(p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6). Conclui-se, desses resultados,

pela nao rejeicao da hipotese H0 e, portanto, pode-se dizer que o modelo escolhido se

ajusta satisfatoriamente aos dados.

4.3.1 O modelo ajustado e interpretacoes

Para os dados da Tabela 23, foi ajustado, e considerado satisfatorio, o modelo:

θ(x) =

− 5, 123 + 0, 1058 ∗ idade

1 + exp

− 5, 123 + 0, 1058 ∗ idade

podendo-se, entao, obter, a partir deste, algumas estimativas, tais como, por exemplo:

Tabela 27. Estimativas obtidas pelo modelo ajustado.

Idade (xi) θ(xi) 1 − θ(xi) logito

26 0,0853 0,9147 -2,3724

27 0,0939 0,9061 -2,2669

65 0,8524 0,1476 1,7535

Observe que exp{logito(θ(xi))} =θ(xi)

(1 − θ(xi))= odds (tratada anteriormente).

Pode-se, entao, obter a odds ratio para, por exemplo, os indivıduos com idades 65 e 26

anos, isto e,

OR =odds(65 anos)

odds(26 anos)=

exp{1, 7535}exp{−2, 3724} = 61, 9

concluindo-se, assim, que indivıduos com 65 anos de idade tem odds 61,9 vezes maior

de doenca coronaria do que a odds dos indivıduos com 26 anos.

4.4 Diagnostico da regressao logıstica

As estatısticas Qp e QL, descritas na secao anterior e usadas para verificar a

qualidade de ajuste do modelo de regressao logıstica, fornecem um unico numero o qual

resume a concordancia entre os valores observados e os ajustados. O problema com essas

estatısticas e que um unico numero e usado para resumir uma quantidade consideravel

de informacao. Portanto, antes de considerar que o modelo ajustado e satisfatorio,

e importante que outras medidas sejam examinadas para que se possa averiguar se

o ajuste e valido sobre todo o conjunto de padroes (combinacoes das categorias) das

covariaveis.

Pregibon (1981) estendeu os metodos de diagnostico de regressao linear para a

regressao logıstica e argumenta que, como as estatısticas qui-quadrado de Pearson (Qp)

e deviance (QL) sao duas medidas usadas para verificar a qualidade do modelo ajustado,

faz sentido analisar os componentes individuais dessas estatısticas uma vez que estes

componentes sao funcoes dos valores observados e preditos pelo modelo

Assim, se em uma tabela de contingencia s×2, tem-se para cada uma das s linhas

ni+ sujeitos dos quais ni1 apresentam a resposta de interesse (sucesso) e θi1 denota a

probabilidade predita de sucesso para a i-esima linha (grupo), define-se o i-esimo resıduo

ci =ni1 − ((ni+) θi1)

(ni+) θi1 (1 − θi1)i = 1, · · · , s.

Esses resıduos sao conhecidos como resıduos de Pearson, uma vez que a soma

deles ao quadrado resulta em QP . Exame dos valores residuais ci auxiliam a deter-

minar quao bem o modelo se ajusta aos grupos individuais. Frequentemente, resıduos

excedendo o valor 2,0 (ou 2,5) indicam falta de ajuste.

Similarmente, a deviance residual e um componente da estatıstica deviance e e

expressa por:

di = sinal(ni1 − yi1)

2 ni1 log

+ 2(ni+ − ni1) log

ni+ − ni1

ni+ − yi1

em que yi1 = (ni+) θi1. A soma das deviances residuais di ao quadrado resulta na

estatıstica deviance QL. A partir do exame dos resıduos deviance pode-se observar a

presenca de resıduos nao usuais (demasiadamente grandes) bem como a presenca de

outliers ou, ainda, padroes sistematicos de variacao indicando, possivelmente, a escolha

de um modelo nao muito adequado.

Para os dados da Tabela 23 obtiveram-se os resıduos de Pearson e resıduos

deviance apresentados a seguir.

Covariavel Pearson Deviance Residual

IDADE Residual Value

1 25.0000 0.2677 | * | 0.2570 | | * |

2 32.0000 -0.1763 | * | -0.1791 | * | |

3 38.0000 0.0070 | * | 0.0070 | * |

4 43.0000 -0.2169 | * | -0.2182 | * | |

5 47.0000 -0.0051 | * | -0.0051 | * |

6 53.0000 0.0375 | * | 0.0376 | |* |

7 57.0000 0.4774 | * | 0.4870 | | * |

8 65.0000 -0.4662 |* | -0.4465 | * | |

Uma analise dos resıduos mostram que os mesmos apresentam-se satisfatorios,

podendo-se, entao, concluir que o modelo escolhido ajusta-se bem aos dados.

As estatısticas de diagnostico apresentadas permitem, ao analista, identificar aque-

les padroes de covariaveis que estao com um ajuste pobre. Depois destes padroes

serem identificados, pode-se, entao, avaliar a importancia que eles tem na analise. Esta

avaliacao e similar ao que e feito em regressao linear, ou seja, retira-se o(s) padrao(oes)

com ajuste pobre e verifica-se o impacto causado nas estimativas dos parametros bem

como nas estatısticas QP e QL, usadas para verificar a qualidade de ajuste do modelo.

Na Figura 3 encontram-se apresentados os valores observados e preditos pelo mo-

delo de regressao logıstico ajustado.

30 40 50 60

Figura 3: Valores observados e preditos pelo modelo.

4.5 Exemplos

4.5.1 Exemplo 1

Os dados apresentados na Tabela 28 referem-se a um estudo realizado com pa-

cientes que procuraram uma determinada clınica para serem submetidos a um eletro-

cardiagrama (ECG). A variavel resposta, presenca ou ausencia de doenca coronaria

arterial, bem como as covariaveis sexo e ECG, sao dicotomicas.

Tabela 28. Estudo sobre doenca coronaria arterial.

Sexo (x1) ECG (x2) Presenca doenca Ausencia doenca Total

Feminino < 0,1 ST 4 11 15

Feminino ≥ 0,1 ST 8 10 18

Masculino < 0,1 ST 9 9 18

Masculino ≥ 0,1 ST 21 6 27

Assumindo-se que a variavel resposta apresenta distribuicao binomial (uma para

cada linha da tabela) de modo que tem-se, associado a tabela, o modelo produto de

binomias independentes, pode-se utilizar o modelo de regressao logıstico para descrever

a variacao entre os θi1(x), isto e,

θi1(x) =

β0 + β1 x1 + β2 x2

1 + exp

β0 + β1 x1 + β2 x2

em que β0 e o intercepto e, β1 e β2, sao os parametros desconhecidos associados as

covariaveis sexo e ECG, respectivamente.

Assim, tem-se que:

θi1(x)

1 − θi1(x)

= logit(θi1(x)) = β0 + β1 x1 + β2 x2 (11)

o, que matricialmente corresponde a:

logit(θ11)

logit(θ21)

logit(θ31)

logit(θ41)

β0 + β2

β0 + β1

β0 + β1 + β2

Esse tipo de parametrizacao e frequentemente denominada “parametrizacao de

efeito incremental”. Como a combinacao sexo feminino e ECG < 0,1 sao descritas

pelo intercepto, esse grupo e conhecido, nessa parametrizacao, como a combinacao de

referencia. O parametro β1 e o incremento no logito para o sexo masculino e β2 e o

incremento no logito para ECG ≥ 0,1. As probabilidades e odds preditas para esse

modelo sao, portanto, as apresentadas na Tabela 29

Tabela 29. Probabilidades e odds preditas para o modelo.

Sexo (x1) ECG (x2) θi1 Odds de doenca

Feminino < 0,1 eβ0/(1 + eβ0) eβ0

Feminino ≥ 0,1 eβ0+β2/(1 + eβ0+β2) eβ0+β2

Masculino < 0,1 eβ0+β1/(1 + eβ0+β1) eβ0+β1

Masculino ≥ 0,1 eβ0+β1/(1 + eβ0+β1+β2) eβ0+β1+β2

Pode-se, desse modo, obter a odds ratio para pacientes do sexo masculino versus

as do sexo feminino por:

eβ0+β1

eβ0= eβ1 ou

eβ0+β1+β2

eβ0+β2= eβ1 .

Similarmente, a odds ratio para alto ECG versus baixo ECG e determinado por:

eβ0+β1+β2

eβ0+β1= eβ2 ou

eβ0+β2

eβ0= eβ2 .

Em regressao logıstica, as odds ratio sao, portanto, funcoes dos parametros do

modelo. Para modelos com somente efeitos principais, cada odds, que compoem a odds

ratio, e obtida simplesmente exponenciando as estimativas dos parametros. Contudo,

diferentemente das odds ratio obtidas de tabelas 2 × 2, estas sao ajustadas para todas

as outras covariaveis no modelo.

4.5.1.1 Resultados e conclusoes obtidas para os dados do exemplo 1

As estimativas de maxima verossimilhanca do modelo apresentado em (11) e

obtidas para os dados do exemplo 1 foram: β0 = -1,1747 (s.e.= 0,4854), β1 = 1,277

(s.e.= 0,4980) e β2 = 1,0545 (s.e.= 0,4980).

A Tabela 30 apresenta as diferencas de deviances e mostra a significancia das

variaveis sexo (p = 0,00762) e ECG (p = 0,03108).

Tabela 30. Tabela de diferenca de deviances para os dados do exemplo 1.

Modelos sequenciais g.l. Deviance residual Dif. Deviance Dif. g.l. valor p

Nulo 3 11,9835

X1: sexo 2 4,8626 7,1209 1 0,00762

X2: ECG 1 0,2141 4,6485 1 0,03108

A ANODEV apresentada na Tabela 31 mostra que o modelo de regressao logıstico,

com as covariaveis sexo e ECG, apresentou uma reducao na deviance residual de 11,7694

(de um total de 11,9835) evidenciando que ambas as covariaveis estao associadas a

variavel resposta e devem, portanto, permanecer no modelo uma vez que estas explicam

grande parte da variabilidade total dos dados.

Tabela 31. Analise de deviance para os dados do exemplo 1.

Regressao 2 11,7694 11,7694 0,00278

Resıduos 1 0,2141

Total 3 11,9835

Para o modelo ajustado e expresso por:

logit(θi1(x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG

obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e, sendo assim,

nao se rejeita a hipotese nula H0 de que o modelo ajustado e satisfatorio.

Os valores θi1 observados e preditos pelo modelo bem como a deviance residual e

resıduos de Pearson sao apresentados na Tabela 32. Nota-se, desses resultados, que os

resıduos apresentam-se satisfatorios, podendo-se, entao, concluir que o modelo escolhido

ajusta-se bem aos dados.

Tabela 32. Valores θi1 observados e preditos pelo modelo, deviance residual e resıduo de Pearson.

θi1 θi1 (θi1 - θi1) di = deviance res. ci = res. de Pearson

0,2666667 0,2360103 0,03065632 0.2756894 0.2796124

0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644

0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564

0,7777778 0,7607465 0,01703129 0.2091855 0.2074342

Tem-se, entao, que a odds ratio dos pacientes do sexo masculino versus a dos

pacientes do sexo feminino pode ser estimada, como visto anteriormente, por OR(m/f) =

e1,277 = 3,586. Homens, nesse estudo, tem, portanto, odds 3,5 vezes maior de doenca

coronaria arterial do que a odds das mulheres. De modo analogo, a odds ratio estimada

de ECG ≥ 0,1 versus a de ECG < 0,1 e de OR = e1,0545 = 2,871. Entao, pacientes com

ECG ≥ 0,1 tem odds aproximadamente 3 vezes maior de doenca coronaria arterial do

que a odds daqueles pacientes com ECG < 0,1. De um modo geral, pacientes do sexo

masculino e com ECG ≥ 0,1 sao os mais propensos a apresentaram doenca coronaria

arterial.

Intervalos de confianca para as odds ratio podem ser obtidos usando-se as pro-

priedades assintoticas de βi. Assim, por exemplo, o I.C.95% para OR(m/f) e dado por

(e(1,277−1,96∗0,498), e(1,277+1,96∗0,498)) = (1,35; 9,51). Analogamente, para a odds ratio de

ECG ≥ 0,1 versus ECG < 0,1, tem-se o intervalo, a 95% de confianca, de (1,082; 7,618).

A interacao entre sexo e ECG, quando incluıda no modelo, mostrou-se nao signi-

ficativa com correspondente valor p, associado ao teste da razao de verossimilhancas,

de 0,6436.

4.5.2 Exemplo 2

Neste exemplo dados de um estudo sobre infeccoes urinarias (Koch et al., 1985),

que encontram-se apresentados na Tabela 33, serao analisados.

Tabela 33. Estudo sobre tratamento de infeccoes urinarias.

Diagnostico(x1) Tratamento (x2) Curado Nao curado Total

Infeccao complicada A 78 28 106

Infeccao complicada B 101 11 112

Infeccao complicada C 68 46 114

Infeccao nao complicada A 40 5 45

Infeccao nao complicada B 54 5 59

Infeccao nao complicada C 34 6 40

Observe que tres tratamentos foram aplicados aos pacientes que apresentaram,

no diagnostico, infeccao urinaria complicada, ou nao, de ser curada. A resposta e,

portanto, dicotomica, a covariavel diagnostico apresenta duas categorias e a covariavel

tratamento tres categorias. E importante notar que uma covariavel com L categorias

deve ser representada por (L - 1 ) parametros.

O modelo com os efeitos principais (diagnostico e tratamento) e a interacao entre

eles sera, portanto, representado matricialmente por:

logit(θ11)

logit(θ21)

logit(θ31)

logit(θ41)

logit(θ51)

logit(θ61)

1 1 1 0 1 0

1 1 0 1 0 1

1 1 0 0 0 0

1 0 1 0 0 0

1 0 0 1 0 0

1 0 0 0 0 0

Uma vez que o modelo considerado e o saturado, isto e, seu numero de parametros

e igual ao numero de grupos (linhas) da tabela de dados, o teste de qualidade de ajuste

nao se aplica a este modelo porque nao existem graus de liberdade disponıveis. Ajustar

esse modelo, contudo, permite que seja determinada a existencia, ou nao, do efeito

da interacao. Na Tabela 34 e apresentado as diferencas de deviances dos modelos

sequenciais ajustados.

Tabela 34. Tabela de Diferenca de Deviances para o estudo sobre infeccoes urinarias.

Nulo 5 44,473

X1 4 30,628 13,844 1

X1 e X2 2 2,515 28,114 2

X1, X2 e X1 ∗ X2 0 0,000 2,515 2

Da tabela de diferenca das deviances tem-se, portanto, que o teste da RV , relativo

a hipotese nula de que a interacao e nao significativa, o que equivale a testar a hipotese

H0: β4 = β5 = 0, resultou em RV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, nao ha

evidencias para a rejeicao da hipotese H0. O modelo sem a interacao entre diagnostico

e tratamento sera, entao, a seguir analisado.

Para saber se ha, ou nao, efeito da covariavel tratamento, o que equivale a testar

a hipotese nula H0: β2 = β3 = 0, usou-se, novamente, o teste da RV obtendo-se

RV = 28,114 (p = 7,85e-07, g.l. = 2). A conclusao e, portanto, de que ha evidencias

de efeito dos tratamentos. Analogamente obteve-se, para o teste do efeito da covariavel

diagnostico (H0: β1 = 0), RV = 13,844 (p = 0,000198, g.l.= 1) concluindo-se, tambem,

haver evidencias de efeito do diagnostico.

O modelo a ser ajustado sera, portanto, aquele que considera os efeitos principais

de diagnostico e tratamento. Os respectivos parametros estimados, para este modelo,

encontram-se apresentados na Tabela 35.

Tabela 35. Estimativas dos parametros obtidas para o modelo ajustado.

Parametros Estimativas e.p.

β0: intercepto 1,4184 0,2986

β1: diag = infeccao complicada -0,9616 0,2997

β2: tratamento A 0,5847 0,2641

β3: tratamento B 1,5608 0,3158

A ANODEV para esse modelo encontra-se na Tabela 36 e, desta tabela, pode-se

observar que as covariaveis diagnostico e tratamento sao altamente associadas a variavel

resposta (cura, ou nao, da infeccao urinaria).

Tabela 36. Analise de deviance para os dados do exemplo 2.

Regressao 3 41,958 41,958 4.09e-09

Resıduos 2 2,515

Total 5 44,473

As estatısticas de qualidade de ajuste do modelo considerado resultaram em

QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2) fornecendo,

assim, evidencias de que o modelo apresenta ajuste satisfatorio aos dados. Ainda, dos

valores observados e preditos pelo modelo bem como da deviance residual e dos resıduos

de Pearson, apresentados na Tabela 37, nota-se que os resıduos apresentaram-se satis-

fatorios, podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:

logit(θi1) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB

em que diag = 1 se infeccao urinaria foi diagnosticada como complicada e 0 em caso

contrario, tratA = 1 e tratB = 0 se o tratamento A foi utilizado, tratA = 0 e tratB = 1

se o tratamento B foi utilizado e tratA = tratB = 0 se o tratamento C foi utilizado,

ajusta-se bem aos dados.

Tabela 37. Valores observados e preditos, deviance residual e resıduo de Pearson.

θi1 θi1 di = deviance res. ci = res. de Pearson

0,7358491 0,7391443 -0,07715904 -0,07726359

0,9017857 0,8826267 0,64598342 0,62995503

0,5964912 0,6122501 -0,34450962 -0,34533240

0,8888889 0,8811267 0,16244931 0,16088958

0,9152542 0,9516237 -1,18234402 -1,30201030

0,8500000 0,8050871 0,74055971 0,71706568

Do modelo ajustado pode-se, entao, obter as odds, apresentadas na Tabela 48,

para que se possa tirar algumas conclusoes de interesse do pesquisador.

Tabela 38. Logitos e odds obtidos a partir do modelo de regressao logıstico ajustado.

diagnostico tratamento logito odds de cura

inf. complicada A β0 + β1 + β2 = 1,0415 e1,0415 = 2,8335

inf. complicada B β0 + β1 + β3 = 2,0175 e2,0175 = 7,5198

inf. complicada C β0 + β1 = 0,4567 e0,4567 = 1,5789

inf. nao complicada A β0 + β2 = 2,0031 e2,0031 = 7,4123

inf. nao complicada B β0 + β3 = 2,9791 e2,9791 = 19,671

inf. nao complicada C β0 = 1,4184 e1,4184 = 4,1305

Pela Tabela 48 tem-se, por exemplo, que a odds ratio de diagnostico de infeccao

complicada versus a de infeccao nao complicada e de OR = eβ1 = 0,3822 e, portanto, a

odds de cura, se a infeccao for diagnosticada como nao complicada, e de (1/0,3822) = 2,6

vezes maior do que a odds de cura no caso de infeccoes diagnosticadas como complicadas.

Ainda, a odds de ser curado com o tratamento A, quando comparado ao tratamento C, e

de eβ2 = 1,79 vezes maior bem como, a odds de ser curado com o tratamento B, quando

comparado ao tratamento C, e de eβ3 = 4,76 vezes maior. De modo analogo, tem-se que

a odds de cura com o tratamento B, comparado ao tratamento A, e de eβ3−β2 = 2,65

vezes maior.

4.5.3 Exemplo 3

Neste exemplo serao analisados os dados apresentados na Tabela 39 referente a

um estudo sobre doenca coronaria, similar ao analisado previamente no exemplo 1,

considerando-se, no entanto, alem das covariaveis sexo e eletrocardiograma (ECG), a

covariavel idade (em anos). Ainda, a covariavel ECG e considerada, nesse estudo, em

tres categorias: < 0,1, [0,1; 0,2) e ≥ 0,2 e foi considerada nos modelos como uma

variavel ordinal em que foram assumidos, para as categorias citadas, os escores 0, 1 e

2, respectivamente.

Tabela 39. Dados de pacientes observados em um estudo sobre doenca coronaria.

sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc

0 0 28 0 1 0 42 1 0 1 46 0 1 1 45 0

0 0 34 0 1 0 44 1 0 1 48 1 1 1 45 1

0 0 38 0 1 0 45 0 0 1 49 0 1 1 45 1

0 0 41 1 1 0 46 0 0 1 49 0 1 1 46 1

0 0 44 0 1 0 48 0 0 1 52 0 1 1 48 1

0 0 45 1 1 0 50 0 0 1 53 1 1 1 57 1

0 0 46 0 1 0 52 1 0 1 54 1 1 1 57 1

0 0 47 0 1 0 52 1 0 1 55 0 1 1 59 1

0 0 50 0 1 0 54 0 0 1 57 1 1 1 60 1

0 0 51 0 1 0 55 0 0 2 46 1 1 1 63 1

0 0 51 0 1 0 59 1 0 2 48 0 1 2 35 0

0 0 53 0 1 0 59 1 0 2 57 1 1 2 37 1

0 0 55 1 1 1 32 0 0 2 60 1 1 2 43 1

0 0 59 0 1 1 37 0 1 0 30 0 1 2 47 1

0 0 60 1 1 1 38 1 1 0 34 0 1 2 48 1

0 1 32 1 1 1 38 1 1 0 36 1 1 2 49 0

0 1 33 0 1 1 42 1 1 0 38 1 1 2 58 1

0 1 35 0 1 1 43 0 1 0 39 0 1 2 59 1

0 1 39 0 1 1 43 1 1 0 42 0 1 2 60 1

0 1 40 0 1 1 44 1

sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se ∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2;

dc = 1 se doenca coronaria presente e dc = 0 em caso contrario.

Observe que diversos valores da covariavel idade sao unicos o que implica que, na

construcao de uma tabela de contingencia considerando-se as 3 covariaveis, existirao

diversas caselas com somente uma observacao. Isso significa que o tamanho amostral

requerido pelas estatısticas de teste QL e QP nao serao atendidos e nao poderao, desse

modo, serem calculadas. Este fato e muito comum quando se tem a presenca de co-

variaveis contınuas. Para esses casos, estrategias alternativas encontram-se disponıveis.

Um modelo de interesse para os dados apresentados e aquele com os termos sexo,

ECG e idade e, possivelmente, as interacoes entre eles. Um cuidado que se deve ter,

no entanto, e quanto ao numero de parametros envolvidos. Alguns analistas sugerem

que haja pelo menos 5 observacoes, da resposta que ocorre com menor frequencia, para

cada parametro sendo considerado. Nesse estudo tem-se 37 indivıduos que apresentaram

resposta nao e 41 que apresentaram resposta sim. Assim, tem-se 37/5 = 7,4 o que sugere

que em torno de 7 a 8 parametros podem ser considerados.

Na Tabela 40 e apresentado as diferencas de deviances dos modelos sequenciais

ajustados para os dados do estudo descrito.

Tabela 40. Tabela das diferencas de deviances dos modelos de regressao logıstica sequencias

ajustados ao estudo sobre doencas coronarias.

Nulo 77 107,926

X1 76 101,840 6,086 1

X1 e X2 75 95,080 6,760 1

X1, X2 e X3 74 86,811 8,626 1

X1, X2, X3 + int. duplas 71 85,522 1,289 3

X1, X2, X3 + int. duplas e tripla 70 85,414 0,108 1

X1 = sexo; X2 = ECG e X3 = idade.

Pela tabela de diferenca das deviances tem-se, portanto, que o teste da RV , rela-

tivo a hipotese nula de que a interacao tripla e nao significativa, o que equivale a testar

a hipotese H0: β7 = 0, resultou em RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo,

nao ha evidencias para a rejeicao da hipotese H0. De modo analogo, para o teste da

hipotese nula H0: β4 = β5 = β6 = 0 (interacoes duplas) tem-se RV = 1,289 (p =

0,7317, g.l. = 3) e, assim, nao ha evidencias para a rejeicao da hipotese nula. Como ha

evidencias de que as interacoes tripla e duplas nao sao necessarias no modelo, testou-se

as hipoteses:

a) H0: β3 = 0 em que RV = 8,626 (p = 0,0033, g.l.= 1)

b) H0: β2 = 0 em que RV = 6,760 (p = 0,0093, g.l.= 1)

c) H0: β1 = 0 em que RV = 6,086 (p = 0,0136, g.l.= 1)

concluindo-se, portanto, haver evidencias para rejeitar as tres hipoteses nulas testadas.

O modelo a ser ajustado sera, portanto, aquele que considera os efeitos princi-

pais de sexo, ECG e idade. Os respectivos parametros estimados, para este modelo,

encontram-se apresentados na Tabela 41.

Tabela 41. Estimativas dos parametros do modelo ajustado.

β0: intercepto -5,6417 1,8026

β1: sexo = masculino 1,3564 0,5458

β2: ECG 0,8732 0,3839

β3: idade 0,0928 0,0350

O modelo estimado ficou expresso, portanto, por:

logit(θi1) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.

Para avaliar a qualidade do modelo ajustado, na presenca de variaveis contınuas,

Hosmer e Lemeshow (1989) propuseram uma estatıstica, denotada aqui por QHL, que

considera as contagens esperadas e observadas, para as respostas dc = 1 e dc = 0, em

cada decil das probabilidades preditas. Para esse estudo, tal estatıstica resultou em

4,776 (p = 0,7812, g.l. = 8 (# decis -2)). E possıvel, desse modo, concluir que o modelo

considerado ajusta-se satisfatoriamente aos dados. Os resıduos (deviance e de Pearson)

apresentaram-se, tambem, satisfatorios como pode ser observado na Figura 4.

0 20 40 60 80

−2−1

0 20 40 60 80

−2−1

Figura 4: Resıduos de Pearson e deviance residual.

A odds ratio para sexo, ajustado para ECG e idade, e, nesse estudo, estimada

por OR = e1,3564 = 3,882. Assim, a odds de doenca coronaria dos pacientes do sexo

masculino e de 3,882 vezes maior do que a odds de doenca coronaria dos pacientes do

sexo feminino. De modo analogo, a odds ratio para ECG, ajustado para sexo e idade,

e estimada por OR = e0,8732 = 2,395. Isto significa que a odds de doenca coronaria de

pacientes com ECG = 1 e 2,395 vezes maior do que a odds daqueles com ECG = 0 bem

como que, a odds dos pacientes com ECG = 2 e de 2,395 vezes maior do que a odds dos

pacientes com ECG = 1. Ainda, a odds ratio para a idade, ajustado para sexo e ECG,

dada por OR = e0,0929 = 1,097 significa que a odds de doenca coronaria de um paciente

com x+1 anos e 1,097 vezes maior do que a odds de um paciente com x anos. Para, por

exemplo, dois pacientes do mesmo sexo e mesmo ECG, mas em que um deles tenha 30

anos e outro 40, tem-se OR = e0,0929∗(40−30) = 2,53, ou seja, a odds de doenca coronaria

do paciente com 40 anos e de 2,53 vezes maior do que a odds do paciente com 30 anos.

De um modo geral pode-se concluir, desse estudo, que a presenca de doenca

coronaria encontra-se positivamente associada com a idade e com o resultado do ECG

bem como que, os pacientes do sexo masculino sao mais propensos a apresenta-la.

4.5.4 Metodos auxiliares no diagnotico do modelo ajustado

4.5.4.1 QQplot com envelope simulado

No caso em que a variavel resposta e assumida ser normalmente distribuıda, e

comum que afastamentos serios da distribuicao Normal sejam verificados por meio do

grafico de probabilidades Normal dos resıduos. No contexto de modelos lineares gene-

ralizados, em que distribuicoes diferentes da Normal sao tambem consideradas, graficos

similares com envelopes simulados podem ser tambem construıdos com os resıduos ge-

rados a partir do modelo ajustado. A inclusao do envelope simulado no QQplot auxilia

a decidir se o pontos diferem significativamente de uma linha reta (Atkinson, 1985).

Paula (2000) apresenta codigos em linguagem Splus, que podem ser utilizados no pa-

cote estatıstico R, para gerar tais graficos em: regressao gama, logıstica, Poisson e

Binomial Negativa, alem da Normal. Para que o modelo ajustado seja considerado

satisfatorio, faz-se necessario que as deviances residuais caiam dentro do envelope si-

mulado. Para os dados desse exemplo, o QQplot obtido encontra-se apresentado na

Figura 5. Desta figura e possıvel observar que nao ocorreram afastamentos serios da

distribuicao Binomial para a variavel resposta uma vez que as deviances encontram-se

dentro do envelope.

−2 −1 0 1 2

−2−1

Normal Q−Q Plot

Percentis

eNormal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot

Figura 5: QQplot com envelope simulado para os dados do exemplo 3.

4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares

O poder preditivo do modelo pode, ainda, ser obtido com a finalidade de avaliar

a qualidade do modelo ajustado. Para isso, faz-se necessario estabelecer uma probabi-

lidade, denominada “ponto de corte”, a partir da qual se estabeleca que:

- a variavel resposta receba o valor 1, isto e, Y = 1 para probabilidades estimadas

pelo modelo maiores ou iguais a esse ponto de corte e, ainda, que

- a variavel resposta receba o valor 0, isto e, Y = 0 para probabilidades estimadas

pelo modelo menores do que esse ponto de corte.

Estabelecendo o ponte de corte pc = 0.50 obteve-se para os dados do exemplo 3,

os resultados apresentados na Tabela 42. Desta tabela tem-se que:

a) valor preditivo do modelo = 31+2578

= 0, 7179

b) valor preditivo + = 3143

= 0, 7209 e valor preditivo - = 2535

= 0, 7143

c) falsos positivos = 1237

= 0, 3243 e falsos negativos = 1041

= 0, 2439

d) sensibilidade do modelo = 3141

= 0, 7561

e) especificidade do modelo = 2537

= 0, 6757

Tabela 42. Classificacoes pelo modelo para pc = 0.5 vs. observado.

Classificado pelo modelo

Observado dc = 1 (+) dc = 0 (-) Totais

dc = 1 (+) 31 10 41

dc = 0 (-) 12 25 37

Totais 43 35 78

De um modo geral, e dos resultados apresentados, pode-se concluir que o modelo

ajustado apresenta-se satisfatorio.

5 REGRESSAO LOGISTICA POLITOMICA

A regressao logıstica tambem se aplica, como mencionado no capıtulo anterior, a

situacoes em que a variavel resposta apresenta mais do que duas categorias (respostas

politomicas), podendo, as categorias, serem ordinais ou nominais.

5.1 Resposta ordinal: modelo de odds proporcionais

Para tratar a situacao em que a resposta e ordinal, considere os dados apresentados

na Tabela 43 em que pacientes do sexo feminino e masculino receberam o tratamento

A, ou um placebo, para suas dores de artrite. A resposta, nesse estudo, foi a o grau de

melhora das dores: nenhuma, alguma e melhora acentuada.

Tabela 43. Dados sobre tratamentos para artrite

Grau de melhora

Sexo Tratamento Acentuada Alguma Nenhuma Totais

F A 16 5 6 27

F Placebo 6 7 19 32

M A 5 2 7 14

M Placebo 1 0 10 11

Uma possıvel estrategia de analise desses dados seria criar uma variavel resposta

dicotomica combinando duas das categorias de respostas. Contudo, visto que existe

uma ordem natural das categorias de resposta, faz sentido considerar uma estrategia

que leve em conta essa ordenacao. Considere, desse modo, as quantidades:

θhi1 = πhi1 e θhi2 = πhi1 + πhi2

em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabilidade de

alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1 para sexo feminino,

h = 2 para sexo masculino, i = 1 para tratamento A e i = 2 para placebo). Assim, θhi1

e a probabilidade de melhora acentuada e θhi2 e a probabilidade de melhora acentuada

ou alguma melhora, ou seja, e uma probabilidade acumulada.

Para uma resposta dicotomica foi visto que, uma unica funcao logito e considerada

para cada subpopulacao (cada linha da tabela de contingencia). Ja para uma resposta

ordinal com L > 2 categorias, L − 1 logitos cumulativos, baseados nas probabilidades

acumuladas, sao considerados para cada subpopulacao. Para tres categorias de resposta,

como e o caso do exemplo apresentado na Tabela 43, os dois logitos cumulativos sao

expressos por:

logit(θhi1) = log

πhi2 + πhi3

e logit(θhi2) = log

πhi1 + πhi2

Esses logitos sao, respectivamente, o log(odds) de melhora acentuada para alguma

ou nenhuma melhora e o log(odds) de melhora acentuada ou alguma melhora para

nenhuma melhora. O modelo de odds proporcionais leva em consideracao ambas as

odds citadas.

Assumindo-se que os totais marginais nhi+ sao fixos, tem-se, associado a cada

subpopulacao (cada linha da tabela de contingencia), a distribuicao multinomial em

que∑3

j=1 πhij = 1. Um modelo, que se aplica a ambos os logitos simultaneamente, para

cada combinacao de sexo e tratamento, poderia, entao, ser escrito por:

logit(θhik) = β0k + β′kxhi

em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos sao distintos bem

como existem diferentes conjuntos de parametros de regressao para cada logito.

Com a suposicao de odds proporcionais tem-se que βk = β para todo k, simpli-

cando, assim, o modelo para:

logit(θhik) = β0k + β′xhi

que tambem pode ser expresso por:

θhik =exp

β0k + β′xhi

1 + exp{

β0k + β′xhi

} =exp

β0k +∑p

g=1 xhig

1 + exp{

β0k +∑p

g=1 xhig

em que g = 1, ..., p refere-se as covariaveis. Esse modelo e similar ao modelo de regressao

logıstica dicotomico e e tambem ajustado por metodos de maxima verossimilhanca.

Os valores para πhij podem, usando-se esse modelo, ser determinados por meio

das apropriadas subtracoes de θhik, ou seja:

πhi1 = θhi1

πhi2 = θhi2 − θhi1

πhi3 = 1 − θhi2.

5.1.1 Regressao logıstica politomica ajustada aos dados sobre artrite

Sob a suposicao de odds proporcionais, o modelo de efeitos principais e um apro-

priado ponto de partida para a analise dos dados sobre artrite e, este modelo, em

notacao matricial, e expresso por:

logit(θ111)

logit(θ112)

logit(θ121)

logit(θ122)

logit(θ211)

logit(θ212)

logit(θ221)

logit(θ222)

β01 + β1 + β2

β02 + β1 + β2

β01 + β1

β02 + β1

β01 + β2

β02 + β2

1 0 1 1

0 1 1 1

1 0 1 0

0 1 1 0

1 0 0 1

0 1 0 1

1 0 0 0

0 1 0 0

Esse modelo e muito similar aos modelos descritos anteriormente, exceto pela

existencia de dois parametros de intercepto, correspondendo as duas funcoes logito

sendo modeladas para cada subpopulacao. O parametro β01 e o intercepto do primeiro

logito cumulativo e o parametro β02 e o intercepto do segundo logito cumulativo, β1 e

o efeito (incremento) do sexo feminino e β2 e o efeito (incremento) do tratamento A.

Sexo masculino e o placebo compreendem a casela de referencia.

Na Tabela 44 sao apresentadas as diferencas de deviances dos modelos sequenciais

ajustados, podendo-se observar, desta tabela, que a interacao entre sexo e tratamento

e nao significativa uma vez que RV = 0,3084 (p = 0,5786, g.l. = 1). Ja para os efeitos

principais de sexo e tratamento obtiveram-se RV = 3,8053 (p = 0,051) e RV = 16,0812

(p = 6,06e−7), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos

sao significativos e devem, portanto, permanecer no modelo.

Tabela 44. Tabela de Diferenca de Deviances para os dados sobre artrite.

Modelo Deviance Residual Diferenca Deviances Diferenca g.l.

Nulo 169,9159

X1 166,1106 3,8053 1

X1 e X2 150,0294 16,0812 1

X1, X2 e X1 ∗ X2 149,7210 0,3084 1

X1 = sexo, X2 = tratamento

Os respectivos parametros estimados, para o modelo com as covariaveis sexo e

tratamento, encontram-se apresentados na Tabela 45.

Tabela 45. Estimativas dos parametros obtidas para o modelo ajustado.

β01: intercepto 1 -2,6672 0,6065

β02: intercepto 2 -1,8128 0,5654

β1: sexo feminino 1,3187 0,5381

β2: tratamento A 1,7973 0,4718

A avaliacao da qualidade de ajuste do modelo de odds proporcionais e similar

a realizada para o modelo de regressao logıstica dicotomica. Se pelo menos 80% das

contagens observadas nas caselas for 5, entao pode-se usar as estatısticas QL e QP

as quais, sob H0, tem distribuicao Qui-Quadrado com ((r − 1)(s − 1) − p) g.l. em

que r = numero de categorias da variavel resposta, s = numero de subpopulacoes e

p e o numero de covariaveis. Para os dados desse exemplo obtiveram-se QL = 2,7121

(p = 0,6071, g.l. = 4) e QP = 1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se

que o modelo ajusta-se satisfatoriamente aos dados. O modelo ajustado e, portanto,

expresso por:

logit(θhik) = β0k + 1, 3187 sexo + 1, 7973 tratamento

ou, ainda,

θhik =exp

β0k + 1, 3187 sexo + 1, 7973 tratamento}

1 + exp{

β0k + 1, 3187 sexo + 1, 7973 tratamento} , k = 1, 2.

As probabilidades cumulativas preditas por tal modelo e, consequentemente, as

probabilidades nao-cumulativas, encontram-se apresentadas na Tabela 46.

Tabela 46. Probabilidades cumulativas (θhik) e nao-cumulativas (πhij) preditas pelo modelo.

Sexo Tratamento θhi1 θhi2 πhi1 = θhi1 πhi2 = θhi2 - θhi1 πhi3 = 1 - θhi2

F A 0,6104 0,7864 0,6104 0,1760 0,2136

F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211

M A 0,2953 0,4961 0,2953 0,2008 0,5039

M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597

Note, ainda, que as probabilidades observadas e preditas pelo modelo, apresen-

tadas na Tabela 5.1.1, encontram-se bastante proximas umas das outras indicando que

o modelo ajustado apresenta-se satisfatorio.

As odds ratio sao, tambem, obtidas de modo similar a regressao logıstica di-

cotomica. Na Tabela 48 sao apresentadas as odds para o modelo de odds proporcionais

ajustado. Desta tabela, pode-se, por exemplo, observar que a odds de melhora acen-

tuada versus alguma ou nenhuma melhora para pacientes do sexo feminino comparada

com a odds dos pacientes do sexo masculino e de OR = exp(β01+β1+β2)exp(β01+β2)

= exp(β01+β1)exp(β01)

Tabela 47. Probabilidades observadas e preditas pelo modelo.

observadas preditas (observadas - preditas)

0.5925926 0.61036848 -0.017775889

0.1851852 0.17601388 0.009171310

0.2222222 0.21361764 0.008604579

0.1875000 0.20612474 -0.018624743

0.2187500 0.17281504 0.045934963

0.5937500 0.62106022 -0.027310220

0.3571429 0.29527688 0.061865982

0.1428571 0.20084884 -0.057991694

0.5000000 0.50387429 -0.003874287

0.0909091 0.06493692 0.025972174

0.0000000 0.07536270 -0.075362704

0.9090909 0.85970038 0.049390531

exp(β1). Assim, pacientes do sexo feminino tem odds e1,3187 = 3, 738 vezes maior de

mostrar melhora acentuada do que pacientes do sexo masculino. Ainda, pacientes re-

cebendo o tratamento A tem odds eβ2 = e1,8128 = 6,13 vezes maior de mostrar melhora

acentuada do que os pacientes recebendo placebo e, pela suposicao de odds propor-

cionais assumida para o modelo ajustado, esta e tambem a odds ratio para melhora

acentuada ou alguma melhora versus nenhuma melhora.

Tabela 48. Formulas das odds obtidas para o modelo de odds proporcionais ajustado.

Melhora acentuada versus Melhora acentuada ou alguma

Sexo Tratamento alguma ou nenhuma versus nenhuma

F A exp{β01 + β1 + β2} exp{β02 + β1 + β2}F Placebo exp{β01 + β1} exp{β02 + β1}M A exp{β01 + β2} exp{β02 + β2}M Placebo exp{β01} exp{β02}

Observe que a suposicao de odds proporcionais e necessaria para o uso do modelo

aqui apresentado. Assim, a hipotese de que existe um vetor comum de β, em vez de

distintos βk, deve ser testada, isto e, deve-se testar a hipotese nula H0: βk = β. Se esta

hipotese for rejeitada, uma outra abordagem deve ser considerada. Uma abordagem

sugerida, nesses casos, e considerar os dados como nominais e, entao, ajustar um modelo

para os logitos generalizados (tratado na proxima secao).

Para o exemplo considerado, o teste da hipotese nula citada resultou em

QRS = 1,8833 (p = 0,39, g.l. = ((r − 1)(s − 1) − p) = 2), concluindo-se, portanto,

que a suposicao de odds proporcionais e razoavel para esses dados.

5.2 Resposta nominal: modelo de logitos generalizados

Um modelo de regressao logıstica tambem pode ser usado para modelar os dados

quando a variavel resposta for nominal. Nesses casos, contudo, ajusta-se um modelo

para os logitos generalizados e nao para os logitos cumulativos.

Para tratar este modelo, considere os dados apresentados na Tabela 49 referente

a um estudo realizado com criancas para determinar qual programa de aprendizado

elas preferem bem como se, tal preferencia, estaria associada com a escola e o perıodo

escolar (padrao ou com atividades em tempo integral).

Tabela 49. Dados sobre programa escolar.

Preferencia aprendizado

Escola Perıodo Individual Grupo Sala Aula Totais

1 Padrao 10 17 26 53

1 Integral 5 12 50 67

2 Padrao 21 17 26 64

2 Integral 16 12 36 64

3 Padrao 15 15 16 46

3 Integral 12 12 20 44

Uma vez que as categorias da variavel resposta nao apresentam uma ordenacao,

o modelo de odds proporcionais nao e apropriado. Assim, o logito generalizado, usado

nessas situacoes, e definido como:

logithij = log

para j = 1, 2, · · · , (r − 1). Cada logito e, portanto, formado com a probabilidade de

cada categoria sobre a ultima categoria de resposta. Os logitos generalizados para uma

resposta com tres categorias, como e o caso do exemplo sobre o programa escolar, sao

expressos, portanto, por:

logithi1 = log

, logithi2 = log

para h = 1, 2, 3 (escolas) e i = 1, 2 (perıodos padrao e integral, respectivamente).

Desse modo, o modelo a ser ajustado para os logitos generalizados e expresso por:

logithij = β0k + β′kxhi

em que k indexa os 2 logitos. Note que para cada logito desse modelo, existem diferentes

interceptos e diferentes conjuntos dos parametros de regressao βk. Assim, enquanto

para o modelo de odds proporcionais estimam-se multiplos parametros de interceptos

para os logitos cumulativos mas um unico conjunto de parametros correspondendo as

covariaveis, para o modelo de logitos generalizados estimam-se multiplos conjuntos de

parametros tanto para o intercepto quanto para as covariaveis.

Como multiplas funcoes resposta (logitos) estao sendo modeladas para cada sub-

populacao (cada linha da tabela de contingencia), existe um numero maior de graus

de liberdade associados a cada efeito. A forma matricial do modelo e, tambem, um

tanto mais complicada devido a necessidade de se levar em consideracao tais funcoes

multiplas. Contudo, o procedimento de modelagem e o usual, isto e, ajusta-se o modelo,

examinam-se as estatısticas de qualidade de ajuste do modelo ajustado e, se necessario,

reduz-se o modelo. Note que, como mais de um logito esta sendo predito por subpo-

pulacao, o tamanho amostral necessita ser grande o suficiente para acomodar o numero

de logitos sendo modelados. Problemas de estimacao dos parametros serao certamente

encontrados em situacoes em que nao existem dados suficientes para justificar a analise

de logitos generalizados. Em tais situacoes, simplificar a estrutura da variavel resposta

para uma razoavel resposta dicotomica e proceder a uma analise de regressao logıstica

dicotomica pode ser uma alternativa plausıvel.

5.2.1 Logitos generalizados ajustados aos dados do programa escolar

Os logitos generalizados, nesse exemplo, serao construıdos considerando-se a pro-

babilidade de preferencia de aprendizado individual com respeito ao aprendizado em

sala de aula (πhi1/πhi3) e a probabilidade de preferencia de aprendizado em grupo com

respeito ao aprendizado em sala de aula (πhi2/πhi3).

Na Tabela 50 sao apresentadas as diferencas de deviances dos modelos sequenciais

ajustados, podendo-se observar, desta tabela, que a interacao entre escola e perıodo e

nao significativa uma vez que RV = 1,7776 (p = 0,78, g.l. = 4). Ja para os efeitos

principais de escola e perıodo obtiveram-se RV = 17,3765 (p = 0,0016, g.l. = 4 ) e

RV = 11,094 (p = 0,0039, g.l.= 2 ), respectivamente, podendo-se, desse modo, concluir

que ambos os efeitos sao significativos e devem, portanto, permanecer no modelo.

Tabela 50. Tabela de Diferenca de Deviances para os dados do programa escolar.

Nulo 2 695,4043

X1 6 678,0278 17,3765 (6-2) = 4

X1 e X2 8 666,9338 11,0940 (8-6) = 2

X1, X2 e X1 ∗ X2 12 665,1562 1,7776 (12-8) = 4

X1 = escola, X2 = perıodo

Note que os graus de liberdade para modelar dois logitos sao duas vezes os graus de

liberdade esperados ao modelar-se um unico logito. Isso ocorre porque simultaneamente

sao modeladas duas funcoes resposta (logitos) em vez de uma e, consequentemente, o

numero de parametros a serem estimados sao duplicados. Assim, em um modelo de

logitos generalizados, os graus de liberdade associados aos efeitos sao determinados

multiplicando-se por (r -1) o numero de graus de liberdade esperado para modelar um

logito, sendo r o numero de categorias da variavel resposta.

Como a interacao apresentou-se nao significativa, o modelo de efeitos principais,

em notacao matricial, fica expresso por:

logit111

logit112

logit121

logit122

logit211

logit212

logit221

logit222

logit311

logit312

logit321

logit322

1 0 1 0 0 0 1 0

0 1 0 1 0 0 0 1

1 0 1 0 0 0 −1 0

0 1 0 1 0 0 0 −1

1 0 0 0 1 0 1 0

0 1 0 0 0 1 0 1

1 0 0 0 1 0 −1 0

0 1 0 0 0 1 0 −1

1 0 −1 0 −1 0 1 0

0 1 0 −1 0 −1 0 1

1 0 −1 0 −1 0 −1 0

0 1 0 −1 0 −1 0 −1

Observe, na representacao matricial do modelo, que as linhas ımpares correspon-

dem ao primeiro logito e as linhas pares ao segundo logito. Similarmente, as colunas

ımpares correspondem aos parametros do primeiro logito e as pares aos do segundo lo-

gito. As estimativas dos parametros correspondente ao modelo ajustado encontram-se

apresentadas na Tabela 51 e, na Tabela 52, estes sao apresentados de acordo ao logito

a que se referem.

Tabela 51. Estimativas dos parametros do modelo ajustado.

Erro Chi-

Efeito Parametro Estimativa Padrao Quadrado valor p

Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001

β02 -0,6589 0,1367 23,23 < 0, 0001

escola β11 -0,7992 0,2198 13,22 0,0003

β12 -0,2786 0,1867 2,23 0,1356

β21 0,2836 0,1899 2,23 0,1352

β22 -0,0985 0,1892 0,27 0,6028

perıodo β31 0,3737 0,1410 7,03 0,0080

β32 0,3713 0,1353 7,53 0,0061

Tabela 52. Estimativas dos parametros do modelo ajustado por logito.

logito(indiv./sala aula) logito(grupo/sala de aula)

Covariavel Coeficiente e.p. Coeficiente e.p.

Intercepto -0,7979 0,1465 -0,6589 0,1367

Escola 1 -0,7992 0,2198 -0,2786 0,1867

Escola 2 0,2836 0,1899 -0,0985 0,1892

Perıodo 0,3737 0,1410 0,3713 0,1353

Pela Tabela 52 e possıvel observar que a escola 1 apresenta o maior efeito dentre

as escolas, particularmente para o logito comparando aprendizado individual ao apren-

dizado em sala de aula. O perıodo escolar apresenta efeitos similares em ambos os

logitos.

As odds ratios tambem podem ser usadas nos modelos de logitos generalizados para

facilitar a interpretacao do modelo. Para o modelo considerado, as odds encontram-se

apresentadas na Tabela 53.

Tabela 53. Odds preditas pelo modelo de logitos generalizados.

Escola Perıodo Individual/Sala aula Grupo/Sala aula

1 Padrao eβ01+β11+β31 eβ02+β12+β32

1 Integral eβ01+β11−β31 eβ02+β12−β32

2 Padrao eβ01+β21+β31 eβ02+β22+β32

2 Integral eβ01+β21−β31 eβ02+β22−β32

3 Padrao eβ01−β11−β21+β31 eβ02−β12−β22+β32

3 Integral eβ01−β11−β21−β31 eβ02−β12−β22−β32

As odds ratio de aprendizado individual, em relacao ao aprendizado em sala de

aula, de interesse sao:

i) entre perıodos: ORP/I =eβ01+β11+β31

eβ01+β11−β31= e2∗β31 = 2,11

ii) entre escolas: OR2/1 =eβ01+β21+β31

eβ01+β11+β31= eβ21−β11 = 2,95

OR3/1 =eβ01−β11−β21+β31

eβ01+β11+β31= e−2∗β11−β21 = 3,72

OR3/2 =eβ01−β11−β21+β31

eβ01+β21+β31= e−2∗β21−β11 = 1,26

Assim, a odds de preferencia pelo aprendizado individual sobre a de aprendizado

em sala de aula foi de 2,11 vezes maior nas escolas com perıodo escolar padrao do que

nas escolas com perıodo escolar integral. Ainda, por exemplo, os alunos da escola 2, em

relacao aos da escola 1, preferem o aprendizado individual ao em sala de aula sendo,

esta preferencia, 2,95 vezes maior entre os alunos da escola 2 do que entre os alunos da

escola 1.

De modo analogo tem-se que as odds ratio de aprendizado em grupo, em relacao

ao aprendizado em sala de aula, sao:

i) entre perıodos: ORP/I =eβ02+β12+β32

eβ02+β12−β32= e2∗β32 = e2∗0,3713 = 2,10

ii) entre escolas: OR2/1 =eβ02+β22+β32

eβ02+β12+β32= eβ22−β12 = 1,19

OR3/1 =eβ02−β12−β22+β32

eβ02+β12+β32= e−2∗β12−β22 = 1,93

OR3/2 =eβ02−β12−β22+β32

eβ02+β22+β32= e−2∗β22−β12 = 1,61

Desse modo, tem-se que a odds de preferencia pelo aprendizado em grupo sobre a

de aprendizado em sala de aula foi de 2,10 vezes maior nas escolas com perıodo escolar

padrao do que nas escolas com perıodo escolar integral. Os alunos, por exemplo, da

escola 3, em relacao aos da escola 1, preferem o aprendizado em grupo ao em sala de

aula sendo, esta preferencia, 1,93 vezes maior entre os alunos da escola 3 do que entre

os alunos da escola 1.

Note, a partir dos resultados apresentados na Tabela 54, que as probabilidades

observadas e preditas pelo modelo encontram-se consideravelmente proximas, indicando

que o modelo ajustado apresenta-se satisfatorio.

Tabela 54. Maximum Likelihood Predicted Values for Probabilities

--------------------------------------------------------------------------------------------

--------Observed------- -------Predicted-------

Standard Standard

escola periodo pref Probability Error Probability Error Residual

---------------------------------------------------------------------------------------------

1 pad ind 0.1887 0.0537 0.158 0.0403 0.0306

gr 0.3208 0.0641 0.3049 0.0527 0.0159

aula 0.4906 0.0687 0.5371 0.056 -0.047

1 int ind 0.0746 0.0321 0.0989 0.0279 -0.024

gr 0.1791 0.0468 0.1917 0.0393 -0.013

aula 0.7463 0.0532 0.7095 0.0459 0.0368

2 pad ind 0.3281 0.0587 0.3409 0.0515 -0.013

gr 0.2656 0.0552 0.2667 0.0469 -0.001

aula 0.4063 0.0614 0.3924 0.0509 0.0139

2 int ind 0.25 0.0541 0.2372 0.0444 0.0128

gr 0.1875 0.0488 0.1864 0.0389 0.0011

aula 0.5625 0.062 0.5764 0.0518 -0.014

3 pad ind 0.3261 0.0691 0.3436 0.0587 -0.017

gr 0.3261 0.0691 0.3429 0.0582 -0.017

aula 0.3478 0.0702 0.3136 0.0536 0.0343

3 int ind 0.2727 0.0671 0.2545 0.0521 0.0183

gr 0.2727 0.0671 0.2552 0.0517 0.0176

aula 0.4545 0.0751 0.4904 0.0608 -0.036

---------------------------------------------------------------------------------------------

BIBLIOGRAFIA

AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons, 1990.

AGRESTI, A. An Introduction to Categorical data Analysis. New York: John

Wiley & Sons, 1996.

BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived health

risk, and smokeless tobacco use among white adolescent males, NI Mono-

graphs 8, p.43-48, 1989.

DEMETRIO, C.G.B. Modelos Lineares Generalizados em Experimentacao

Agronomica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001.

FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel Dekker,

HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New York:

John Wiley & Sons, 1989.

McCULLACH, P., NELDER, J.A. Generalized Linear Models. London: Chapman

and Hall, 1989.

MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the Mantel-

Haenszel procedure, Journal of the American Statistical Association, v.58,

p.690-700, 1963.

MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from retro-

spective studies of disease, Journal of the National Cancer Institute, v.22,

p.719-748, 1959.

MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-

Haenszel one-degree of freedom ch-square test and a related rapid procedure,

American Journal of Epidemiology, v.112, p.129-143, 1980.

PAULA, G. Analise de Regressao. 2000.

PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9, p.705-724,

SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Manual de

Ecologia dos Insetos. Sao Paulo: Agronomica Ceres, 1976, 419p.

STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis using

the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.

Analise de Dados Discretos

Documents

Analise de Dados Pesquisa Qualitativa

Analise de Dados Com Spss

004 Brochura Analise de Dados

Analise Dados

Analise OO, Banco Dados, Web

Curso online metodos quantitativos e analise de dados

Texto 10--analise de dados

[30609-36070]Analise Dados Seg Publica

Analise de Dados Qualitativos - Graham Gibbs_527

Livro analise de dados amostrais complexos

Banco de Dados via WEB Uma Analise Comparativa

Grupo Focal - Analise Dos Dados

Analise de dados ranking da formação 2014 - Açores

Método Qualitativo/ Analise de Dados

ANALISE DE DADOS SEQUENCIAIS´ HETEROGENEOS BASEADA …

Analise de Dados Qualitativos Gibbs

Modelos de regressão para dados discretos (parte 1): dados ...cnaber/aula_MR_dados_discretos_part… · Modelos de regress~ao para dados discretos (parte 1): dados bin arios Prof

Analise de dados ccill end

Analise dos dados das entrevistas 3 m3

ANALISE DE DADOS AMOSTRAIS COMPLEXOS UTILIZANDO …