View
3.101
Download
20
Category
Preview:
Citation preview
UNIVERSIDADE FEDERAL DO PARANA
DEPARTAMENTO DE ESTATISTICA
ANALISE DE DADOS DISCRETOS
Suely Ruiz Giolo
C U R I T I B A
Estado do Parana - Brasil
2004
Prefacio
Este material baseia-se em varios livros e artigos citados e tem como objetivo apre-
sentar um texto introdutorio sobre a Analise de Dados Discretos. Ele pode ser usado
em cursos de Bacharelado em Estatıstica, bem como em outros cursos de graduacao
e de pos-graduacao, em que os alunos tenham conhecimentos basicos de probabili-
dade, inferencia e regressao bem como tenham, tambem, nocoes de alguns testes nao-
parametricos.
O texto se originou de notas de aulas da disciplina Analise de Dados Discretos,
ministrada no curso de Bacharelado em Estatıstica da Universidade Federal do Parana,
com o proposito de apresentar metodos para a descricao, analise e modelagem de dados
em que a variavel resposta de interesse seja categorica. Diversos exemplos sao apresen-
tados e discutidos no decorrer do texto a fim de facilitar o entendimento dos conceitos,
metodos e modelos apresentados.
O manuscrito foi preparado usando o LaTex e as ilustracoes e resultados es-
tatısticos foram obtidos no pacote estatıstico R. O texto nao esta livre de erros e
imperfeicoes e, desse modo, comentarios, crıticas e sugestoes dos leitores, que possam
contribuir para uma futura edicao revisada do mesmo, sao bem-vindos.
Suely Ruiz Giolo
Curitiba, marco de 2004.
SUMARIO
Pagina
1 INTRODUCAO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1 Escalas de Mensuracao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Dados Obtidos nos Delineamentos Amostrais . . . . . . . . . . . . . . . . . 4
1.2.1 Dados historicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Dados experimentais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.3 Dados de levantamentos amostrais . . . . . . . . . . . . . . . . . . . . . . 5
2 TABELAS DE CONTINGENCIA 2 × 2 . . . . . . . . . . . . . . . . . . . . 6
2.1 Modelo produto de Binomiais independentes . . . . . . . . . . . . . . . . . 6
2.2 Modelo Multinomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.3 Modelo Produto de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4 Modelo Hipergeometrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.5 Estudos frequentes e modelos probabilısticos associados . . . . . . . . . . . 9
2.5.1 Estudos de Coorte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.5.2 Estudos Caso-Controle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.5.3 Estudos cross-sectional ou tranversais . . . . . . . . . . . . . . . . . . . . 14
2.5.4 Ensaios clınicos aleatorizados . . . . . . . . . . . . . . . . . . . . . . . . 14
2.6 Estatısticas de teste e Medidas de Associacao . . . . . . . . . . . . . . . . . 16
2.6.1 Estatısticas Qui-Quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6.2 Testes Exatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.3 Diferenca nas proporcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.6.4 Risco relativo e odds ratio (razao de chances) . . . . . . . . . . . . . . . 19
ii
2.6.5 Sensibilidade e Especificidade . . . . . . . . . . . . . . . . . . . . . . . . 24
2.6.6 Teste de McNemar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3 TABELAS DE CONTINGENCIA: OUTRAS DIMENSOES . . . . . . . . . 27
3.1 Conjunto de tabelas de contingencia 2 × 2 . . . . . . . . . . . . . . . . . . 27
3.1.1 Teste de Mantel-Haenszel . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.1.2 Medidas de associacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Conjunto de tabelas de contingencia 2 × r . . . . . . . . . . . . . . . . . . 30
3.2.1 Associacao em uma unica tabela de contingencia 2 × r . . . . . . . . . . 31
3.2.1.1 Escolha dos escores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2.2 Associacao em um conjunto de tabelas de contingencia 2 × r . . . . . . . 34
3.3 Conjunto de tabelas de contingencia s × 2 . . . . . . . . . . . . . . . . . . . 35
3.3.1 Associacao em uma unica tabela de contingencia s × 2 . . . . . . . . . . 36
3.3.2 Associacao em um conjunto de tabelas de contingencia s × 2 . . . . . . 37
3.4 Tabelas de contingencia s × r . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.4.1 Testes para associacao geral em tabelas s × r . . . . . . . . . . . . . . . . 38
3.4.1.1 Situacao 1: variavel resposta nominal . . . . . . . . . . . . . . . . . . . 38
3.4.1.2 Situacao 2: variavel resposta ordinal . . . . . . . . . . . . . . . . . . . . 39
3.4.1.3 Situacao 3: ambas as variaveis ordinais . . . . . . . . . . . . . . . . . . 39
3.4.2 Teste exato para associacao geral em tabelas s × r . . . . . . . . . . . . . 40
3.4.3 Medidas de associacao em tabelas s × r . . . . . . . . . . . . . . . . . . . 40
3.4.4 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.4.4.1 Local de moradia e afiliacoes polıtico partidarias . . . . . . . . . . . . . 41
3.4.4.2 Medicamentos para dor de cabeca e perıodo sem dor . . . . . . . . . . . 41
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza . . . . . . . . . 43
3.4.4.4 Tipo de veıculo adquirido e fonte de propaganda. . . . . . . . . . . . . . 43
3.4.5 Concordancia entre observadores . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.1 Estatıstica Kappa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.4.5.2 Exemplo: concordancia entre o diagnostico de dois neurologistas . . . . 46
3.5 Conjunto de tabelas de contingencia s × r . . . . . . . . . . . . . . . . . . . 47
iii
4 REGRESSAO LOGISTICA DICOTOMICA . . . . . . . . . . . . . . . . . . 48
4.1 Estimacao dos parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.2 Significancia das variaveis no modelo . . . . . . . . . . . . . . . . . . . . . 54
4.2.1 Analise de Deviance e selecao de modelos . . . . . . . . . . . . . . . . . . 56
4.3 Qualidade do modelo ajustado . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.3.1 O modelo ajustado e interpretacoes . . . . . . . . . . . . . . . . . . . . . 59
4.4 Diagnostico da regressao logıstica . . . . . . . . . . . . . . . . . . . . . . . 59
4.5 Exemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1 Exemplo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.5.1.1 Resultados e conclusoes obtidas para os dados do exemplo 1 . . . . . . . 64
4.5.2 Exemplo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
4.5.3 Exemplo 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.5.4 Metodos auxiliares no diagnotico do modelo ajustado . . . . . . . . . . . 73
4.5.4.1 QQplot com envelope simulado . . . . . . . . . . . . . . . . . . . . . . . 73
4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares . . . . . . . . . . 74
5 REGRESSAO LOGISTICA POLITOMICA . . . . . . . . . . . . . . . . . . 76
5.1 Resposta ordinal: modelo de odds proporcionais . . . . . . . . . . . . . . . 76
5.1.1 Regressao logıstica politomica ajustada aos dados sobre artrite . . . . . . 78
5.2 Resposta nominal: modelo de logitos generalizados . . . . . . . . . . . . . . 82
5.2.1 Logitos generalizados ajustados aos dados do programa escolar . . . . . . 84
BIBLIOGRAFIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
1 INTRODUCAO
Analistas de dados frequentemente se deparam com experimentos cujas respos-
tas de interesse sao, por natureza, categoricas e refletem, portanto, categorias de in-
formacao em vez da usual escala intervalar. Dados categoricos sao, em geral, apresenta-
dos na forma de tabelas, conhecidas como tabelas de contingencia. A analise de dados
categoricos (ou discretos) trata, portanto, da analise de experimentos em que a variavel
resposta e categorica. Quanto as variaveis explanatorias (covariaveis), estas podem ser
tanto categoricas quanto contınuas.
Observar a escala de mensuracao (dicotomica, ordinal, nominal etc.) das variaveis
categoricas e identificar o delineamento amostral que produziu os dados, sao fatores
muito importantes para a determinacao de uma analise apropriada e, consequentemente,
das possıveis inferencias.
Na secao 1.1 sao, portanto, descritas e ilustradas varias escalas de mensuracao
das variaveis categoricas e, na secao 1.2, sao descritos os delineamento amostrais mais
frequentes.
1.1 Escalas de Mensuracao
A escala de mensuracao de uma variavel categorica e um elemento chave para
a escolha de uma estrategia de analise. Nao considera-la pode, portanto, implicar na
escolha inapropriada de uma estrategia que pode levar a conclusoes erroneas.
De um modo geral, variaveis resposta categoricas podem ser:
• dicotomica
• ordinal
• nominal
• contagens discretas.
Giolo, S. R. Analise de Dados Discretos 2
Respostas dicotomicas sao aquelas que apresentam duas possibilidades de res-
posta. O objetivo, por exemplo, de um ensaio clınico realizado para testar um novo
medicamento e saber se o paciente obteve, ou nao, uma melhora. Nesses casos, e comum
a representacao dos dados em uma tabela de contingencia 2 × 2, como mostrado na
Tabela 1.
Tabela 1. Resposta ao novo medicamento.
Melhora
Medicamento Sim Nao Total
Novo 40 20 60
Placebo 16 48 64
A resposta, nesse exemplo, e dicotomica e a analise investiga a relacao entre a
resposta e o medicamento.
Variaveis categoricas com mais do que duas possibilidades de resposta, e
que apresentam uma certa ordenacao natural, sao tambem frequentes. Tais variaveis,
ditas apresentarem um escala ordinal de mensuracao, podem, por exemplo, resultar de
questoes tais como: i) A nova grade curricular produziu pequeno, algum ou grande
entusiasmo entre os estudantes? ii) A agua exibe baixo, medio ou alto grau de pureza?
Observe, nesses exemplos, que ha uma ordem clara das categorias de resposta, mas
nao existe, contudo, indıcios quanto as distancias relativas entre os nıveis. Note em ii)
que existe uma possıvel distancia entre os nıveis: medio pode significar 2 vezes mais
puro do que baixo e alto 3 vezes mais puro do que baixo. Algumas vezes a distancia
encontra-se mais clara. A Tabela 2 mostra um exemplo de um experimento com
resposta categorica ordinal.
Observe que variaveis resposta categoricas podem ser tratadas de diferentes
modos. Pode-se, por exemplo, combinar as colunas com as respostas “Acentuada”
e “Alguma” da Tabela 2 para produzir uma resposta dicotomica: “melhora” versus
Giolo, S. R. Analise de Dados Discretos 3
Tabela 2. Resultado de um ensaio clınico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatoide.
Melhora
Sexo Tratamento Acentuada Alguma Nenhuma Total
Feminino Ativo 16 5 6 27
Feminino Placebo 6 7 19 32
Masculino Ativo 5 2 7 14
Masculino Placebo 1 0 10 11
“nao melhora”. Grupar categorias e usual durante uma analise se, e claro, a resposta
dicotomica resultante for tambem de interesse.
Se, no entanto, existirem mais do que duas categorias de resposta e ne-
nhuma ordenacao para estas categorias, tem-se uma escala de mensuracao nominal.
Por exemplo, i) preferencia de local para passar as ferias: praia, montanha ou fazenda,
ii) candidato de sua preferencia: A, X, Y ou Z. Observe, em ambos os exemplos, que
nao existe nenhuma aparente maneira de ordenar as categorias de resposta.
Variaveis resposta categoricas podem tambem apresentar contagens discretas.
Em vez de categorias tais como “sim e nao” ou “baixo, medio e alto”, as respostas
sao numeros. Alguns exemplos sao: i) tamanho da ninhada: 1, 2, 3, 4 ou 5 membros;
ii) numero de televisores em uma casa: 1, 2, 3 ou 4. Em tais situacoes poder-se-ia
pensar na usual estrategia de analisar a contagem media. No entanto, as suposicoes
exigidas para o modelo linear padrao, usado para dados contınuos, nao sao, em geral,
atendidas com contagens discretas que tem uma amplitude pequena, contagens que
nao sao normalmente distribuıdas e podem, ainda, nao apresentar variancia homogenea.
Em algumas situacoes variaveis contınuas sao, por interesse do pesquisador,
Giolo, S. R. Analise de Dados Discretos 4
categorizadas em intervalos e tratadas, entao, como variaveis categoricas. A variavel
peso, por exemplo, pode ser categorizada em “obeso” e “nao-obeso” ou, ainda, em
intervalos tais como < 60kg, [60, 100)kg, [100, 150)kg e ≥ 150kg.
1.2 Dados Obtidos nos Delineamentos Amostrais
Em um problema estatıstico e, inicialmente, conveniente diferenciar os tipos de
variaveis observadas entre (i) variaveis resposta e (ii) variaveis explanatorias ou fatores
(as quais afetam a resposta). Em um dado problema fazer essa distincao depende do
delineamento e do proposito da investigacao.
Os estudos observacionais, estudos experimentais e levantamentos amostrais sao,
de um modo geral, os delineamentos amostrais mais comuns e estes conduzem, respec-
tivamente, a obtencao de: a) dados historicos, b) dados experimentais e c) dados de
levantamentos amostrais.
1.2.1 Dados historicos
Dados historicos sao dados observacionais o que significa que a populacao em
estudo tem uma definicao geografica ou circunstancial. Dados dessa natureza sao, por
exemplo, todas as ocorrencias de uma doenca em uma regiao especıfica ou, todas as
criancas que frequentam uma particular escola primaria.
Os dados historicos nao envolvem aleatorizacao para a sua obtencao e, sendo
assim, e difıcil assumir que eles sejam representativos de uma dada populacao.
1.2.2 Dados experimentais
Dados experimentais sao obtidos de estudos que envolvam a alocacao aleatoria
dos indivıduos a, por exemplo, diferentes tratamentos. Outros exemplos sao: estudos
em que diferentes fertilizantes (ou diferentes dosagens de um fertilizante) sao aplicados
em areas distintas de uma cultura ou, ainda, estudos em que diferentes dosagens de
uma droga terapeutica sao aplicadas a grupos distintos de indivıduos.
Giolo, S. R. Analise de Dados Discretos 5
1.2.3 Dados de levantamentos amostrais
Em estudos dessa natureza, indivıduos sao aleatoriamente escolhidos de uma
grande populacao de interesse. O censo por amostragem, em que a cada 10 casas
entrevistadas, 1 delas responde a um questionario mais detalhado, e um exemplo desse
tipo de estudo.
Alguns delineamentos amostrais podem tambem ser a combinacao de um
levantamento amostral e um estudo experimental. Pesquisadores podem, por exemplo,
selecionar aleatoriamente uma populacao e, entao, designar aleatoriamente tratamentos
aos indivıduos sob estudo. Note que a unidade de aleatorizacao pode ser, dentre
outros, um indivıduo ou um grupo de indivıduos.
Alem da escala de mensuracao e do delineamento amostral, deve-se tambem
considerar se os dados sao suficientes para assegurar a teoria assintotica exigida por
muitos testes. Muitas vezes pode-se ter um total amostral muito pequeno ou, entao,
um numero grande de caselas com contagens zeros, ou muito pequenas, que tornam as
suposicoes assintoticas questionaveis.
Algumas estrategias de analise de dados categoricos serao, portanto, tratadas
nesse material. Sera considerado, inicialmente, a analise de tabelas de contingencia
2 × 2, estendendo-se, entao, para tabelas s × 2, 2 × r e s × r. Sera visto que muitas
questoes sobre dados categoricos podem ser respondidas por meio do estabelecimento
de hipoteses de associacao. Para, no entanto, descrever a natureza dessa associacao,
quando presente nos dados, bem como os padroes dessa associacao, modelos estatısticos
serao usados. Dentre os possıveis modelos, utilizados na analise de dados categoricos,
encontram-se: os modelos log-lineares, a regressao logıstica e a regressao Poisson.
2 TABELAS DE CONTINGENCIA 2 × 2
Considere a tabela de contingencia apresentada na Tabela 3, a qual e uma maneira
comum de resumir e representar dados categoricos.
Tabela 3. Tabela de contingencia s = 2 × r = 2.
Coluna
Linha A B Totais
A n11 n12 n1+
B n21 n22 n2+
Totais n+1 n+2 n
Pela Tabela 3 pode-se observar frequencias, representadas por n11, · · · , n22,
n1+, · · · , n+2 e n, associadas as diversas caselas. Os totais n1+, n2+, n+1 e n+2 sao
denominados totais marginais e n total ou tamanho amostral. Esses totais, ao serem
considerados no delineamento amostral como fixos ou aleatorios, indicam o modelo
probabilıstico a ser considerado.
2.1 Modelo produto de Binomiais independentes
Se, por exemplo, o experimento for realizado de modo que n1+ e n2+ sejam
amostras aleatorias obtidas de dois grupos independentes e de tamanhos fixos (isto e, de
tamanhos estabelecidos antes da execucao do experimento), tem-se duas distribuicoes
binomiais independentes associadas a Tabela 3, uma para cada linha. O modelo proba-
bilıstico associado a Tabela 3, nessa situacao, sera, portanto, o modelo produto de
binomiais independentes de modo a ter-se:
Giolo, S. R. Analise de Dados Discretos 7
i) uma variavel aleatoria N11 com distribuicao Bin(n1+, p11) associada a 1a linha da
tabela e,
ii) outra variavel aleatoria N21, independente da primeira, com distribuicao
Bin(n2+, p21) associada a 2a linha desta mesma tabela
em que, p11 e a probabilidade de qualquer indivıduo pertencente a 1a linha ser classi-
ficado na 1a coluna e, analogamente, p21 e a probabilidade de qualquer indivıduo per-
tencente a 2a linha ser classificado na 1a coluna. Observe que2∑
j=1
p1j = 1 e2∑
j=1
p2j = 1.
Assim, tem-se que a distribuicao associada a Tabela 3 e o produto de Binomias inde-
pendentes descrita pela funcao de probabilidade:
P (N11 = n11, N21 = n21) =2∏
i=1
{
ni+!2∏
j=1
pnij
ij
nij!
}
. (1)
2.2 Modelo Multinomial
Se, no entanto, o experimento for realizado de modo que apenas n seja uma
amostra aleatoria de tamanho fixo tem-se, associado a Tabela 3, a distribuicao Multi-
nomial descrita pela funcao de probabilidade:
P (N11 = n11, N12 = n12, N21 = n21, N22 = n22) = P (Nij = nij)
= n!2∏
i,j=1
pnij
ij
nij!
(2)
sendo,2∑
i,j=1
nij = n e2∑
i,j=1
pij = 1.
2.3 Modelo Produto de Poisson
Em alguns experimentos pode ocorrer de nenhum dos tamanhos amostrais serem
fixos. Um exemplo, desses experimentos, e o da coleta de insetos em armadilhas adesivas
de duas cores, descrito em Silveira Neto et al. (1976) e Demetrio (2001), e apresentado
na Tabela 4, em que os indivıduos coletados de uma determinada especie foram sexados,
Giolo, S. R. Analise de Dados Discretos 8
com o fim de se verificar a influencia da cor da armadilha sobre a atracao de machos e
femeas dessa especie.
Tabela 4. Numero de insetos coletados em armadilhas e sexados
Sexo
Armadilha Machos Femeas Total
Alaranjada 246 17 263
Amarela 458 32 490
Total 704 49 753
Nesse experimento, o numero de insetos que chegam as armadilhas, seja macho
ou femea, e um numero (contagem) aleatorio, caracterizando, assim, a distribuicao de
Poisson. Assume-se, entao, que Nij ∼ Poisson(λij) independentes, i, j = 1, 2, de modo
que associado a Tabela 4, tem-se a distribuicao Produto de Poisson descrita pela funcao
de probabilidade:
P (Nij = nij) =2∏
i=1
2∏
j=1
e−λijλnij
ij
nij!(3)
em que λij > 0.
2.4 Modelo Hipergeometrico
O modelo hipergeometrico e comum, por exemplo, em experimentos em que
pacientes sao alocados aleatoriamente a dois tratamentos considerados equivalentes
observando-se, nesses pacientes, uma resposta binaria (dicotomica). Sob a hipotese
de que os efeitos dos dois tratamentos sao iguais para cada paciente, a distribuicao
hipergeometrica e considerada. Nessas situacoes considera-se, portanto, que n1+, n2+
e n+1 sao fixos. A fixacao de ambas as margens da tabela provocada pelo condiciona-
mento em n1+, n2+ e n+1, leva a que qualquer uma, por exemplo n11, das 4 frequencias
determine as restantes. Assim, N11 tem distribuicao Hipergeometrica com funcao de
probabilidade expressa por:
Giolo, S. R. Analise de Dados Discretos 9
P (N11 = n11) =Cn1+
n11Cn2+
n21
Cnn+1
=
2∏
i=1
ni+!2∏
j=1
n+j!
n!2∏
i=1
2∏
j=1
nij!
. (4)
Em sıntese tem-se:
Tabela 5. Modelos probabilısticos associados as tabelas de contingencia 2 × 2.
Tamanho amostral Totais marginais Totais marginais Modelo probabilısticon ni+ n+j associado
aleatorio aleatorios aleatorios Produto de Poisson
fixo aleatorios aleatorios Multinomial
fixo fixos aleatorios Produto de Binomias
fixo fixos fixos Hipergeometrico(por hipotese)
Na secao 2.5 sao apresentados alguns estudos frequentes e respectivos modelos
probabilısticos associados.
2.5 Estudos frequentes e modelos probabilısticos associados
2.5.1 Estudos de Coorte
Ao conduzir um estudo de Coorte, muito comum em medicina, o pesquisador
tem por interesse, por exemplo, verificar se indivıduos expostos a um determinado fator
tem, ou nao, mais propensao a desenvolver determinada doenca. Ao contrario do estudo
Caso-Controle, descrito adiante, em que sao escolhidos um grupo de indivıduos com a
doenca e outro grupo de indivıduos livres da mesma, um estudo de Coorte e constituıdo,
em seu inıcio, de um grupo de indivıduos, denominada Coorte, em que todos estao
livres da doenca sob investigacao. Os indivıduos dessa Coorte sao entao classificados
em expostos e nao-expostos ao fator de interesse, obtendo-se assim dois grupos (ou
duas Coortes de comparacao) que serao entao observados por um perıodo de tempo
Giolo, S. R. Analise de Dados Discretos 10
verificando-se quais indivıduos desenvolveram a doenca em questao. Os indivıduos
expostos e nao-expostos devem ser comparaveis, ou seja, semelhantes quanto aos demais
fatores, que nao o de interesse, para que os resultados obtidos sejam confiaveis.
O termo Coorte e entao usado para descrever um grupo de indivıduos que tem
algo em comum ao serem reunidos e que sao observados por um determinado perıodo
para que se possa verificar o que ocorre com eles.
E importante que todos os indivıduos sejam observados por todo o perıodo de
seguimento, ja que informacoes de uma Coorte incompleta podem distorcer o verdadeiro
estado das coisas. Por outro lado, o perıodo de tempo em que os indivıduos serao
observados deve ser significativo na historia natural da doenca em questao para que
haja tempo suficiente de o risco se manifestar. Doencas com perıodo de latencia longa
exigirao perıodos longos de observacao. Entenda-se por historia natural da doenca sua
evolucao sem intervencao medica e por perıodo de latencia o tempo entre a exposicao
ao fator e as primeiras manifestacoes da doenca. Outros nomes, geralmente usados para
os estudos de Coorte sao:
• longitudinal: enfatizando que os indivıduos sao acompanhados ao longo do tempo;
• prospectivo: subentendendo a direcao em que os indivıduos sao acompanhados;
• de incidencia: chamando atencao para a medida basica de novos eventos de doenca
no tempo de seguimento.
Quanto a forma de coleta das informacoes dos indivıduos pertencentes a Coorte
sob investigacao, pode-se ainda classificar os estudos de Coorte em: estudos de Coorte
Contemporaneo e estudos de Coorte Historica. Em um estudo de Coorte Contem-
poraneo, os indivıduos sao escolhidos no presente e acompanhados no futuro. Em uma
Coorte Historica, os indivıduos sao escolhidos em registros do passado e acompanhados
daquele perıodo ate o presente. Informacoes provenientes de Coortes Historicas sao
frequentemente coletadas com outros objetivos que nao especificamente o de interesse
e podem portanto nao ter a qualidade suficiente para uma pesquisa rigorosa. O mesmo
Giolo, S. R. Analise de Dados Discretos 11
nao ocorre com um estudo de Coorte Contemporaneo, uma vez que os dados sao co-
letados especificamente para atender aos objetivos do estudo. Os estudos de Coorte
sao menos propensos aos vıcios que podem ocorrer nos estudos Caso-Controle e sao os
mais indicados para o estudo de riscos quando a experimentacao nao e possıvel. Nos
estudos de Coorte e possıvel responder a seguinte questao: ”quantas vezes a probabi-
lidade de os indivıduos expostos adquirirem a doenca e maior do que a probabilidade
de os indivıduos nao-expostos adquirirem a doenca?”. As principais dificuldades para a
realizacao de um estudo de Coorte sao: (a) e um estudo mais demorado e que envolve
custos elevados pelos recursos necessarios para acompanhar muitos indivıduos ao longo
do tempo estabelecido; (b) nao disponibiliza resultados a curto prazo; (c) os indivıduos
sob estudo vivem livremente e nao sob controle do pesquisador e; (d) nao e viavel para
doencas raras.
Na Tabela 6 encontra-se o resultado de um estudo de coorte realizado para
pesquisar a associacao de cancer de pulmao ao tabagismo.
Tabela 6. Resultado de um estudo de coorte realizado para pesquisar a associacao
do tabagismo e cancer de pulmao
Cancer de Pulmao
Fumante Sim Nao Totais
Sim 75 45 120
Nao 21 56 77
Totais 197
Note que os totais marginais n1+ e n2+ sao fixos e, portanto, tem-se associado a
Tabela 6 o modelo produto de Binomiais independentes, uma Binomial para cada linha
da tabela.
Giolo, S. R. Analise de Dados Discretos 12
2.5.2 Estudos Caso-Controle
Embora o objetivo de um estudo Caso-Controle seja o mesmo de um estudo de
Coorte, ou seja, descobrir se a exposicao a um determinado fator esta associada ao
desenvolvimento da doenca sob estudo, os mesmos diferem essencialmente quanto a
forma de selecao e coleta de informacoes dos indivıduos.
Nestes estudos, o pesquisador seleciona um grupo de indivıduos com uma deter-
minada doenca de interesse, denominados “casos”, e outro grupo de indivıduos livre
da doenca, os “controles”. Fatores associados a um risco aumentado de adoecer sao
denominados “fatores de risco”; exposicao a um fator de risco significa que uma pessoa,
antes de adoecer, esteve em contato com o fator em questao ou o manifestou. A vali-
dade dos resultados destes estudos esta condicionada principalmente a forma de selecao
dos indivıduos. Os casos devem ser preferencialmente novos e nao os ja existentes e os
controles devem ser comparaveis aos casos, isto e, todas as diferencas importantes, que
nao o fator de interesse, devem ser controladas quando da escolha desses indivıduos.
Em outras palavras, casos e controles devem parecer ter tido chances iguais de terem
sido expostos ao fator em questao.
Os controles sao, em geral, escolhidos segundo alguma estrategia que possa mi-
nimizar os vıcios de selecao. Uma dessas estrategias e a dos casos emparelhados aos
controles, isto e, para cada caso, um ou mais controles com caracterısticas comuns aos
casos sao selecionados. E comum emparelhar por caracterısticas demograficas (idade,
sexo, raca), porem deve-se tambem emparelhar por outras reconhecidamente impor-
tantes. O emparelhamento apresenta contudo um risco, a de o pesquisador emparelhar
por um fator que esta relacionado a exposicao. Outra estrategia possıvel e escolher
mais de um grupo de controle. A comparacao dos resultados dos casos com cada um
dos grupos de controle selecionados pode trazer a tona potenciais vıcios pois, se resul-
tados diferentes forem observados na comparacao dos casos com os diferentes grupos
controle, ha evidencias de que os grupos sao nao comparaveis. Muita atencao e cuidado
sao necessarios quando da selecao dos casos e controles para que a comparabilidade
entre os grupos possa ser assegurada. Atencao tambem deve ser dada ao numero de
Giolo, S. R. Analise de Dados Discretos 13
indivıduos sob estudo. Este deve ser suficiente para que o acaso nao interfira em de-
masia nos resultados. Uma vez selecionados os casos e controles verifica-se, para cada
indivıduo, sua exposicao, ou nao, ao fator sob investigacao. O pesquisador geralmente
se utiliza para este fim de informacoes passadas, dependendo assim da disponibilidade e
qualidade dos registros (protocolos) ou da memoria dos pacientes. Evidentemente, isto
pode ocasionar vıcios no estudo. Por utilizar-se de informacoes passadas, os estudos
Caso-Controle sao tambem denominados retrospectivos. As principais vantagens destes
estudos sao o custo e o tempo envolvidos para a obtencao da resposta. Estes sao re-
lativamente pequenos quando comparados aos de outros estudos, como por exemplo, o
estudo de Coorte discutido anteriormente. Por outro lado, tais estudos apresentam um
particular problema, o de resultados propensos a vıcios devido principalmente a possıvel
manipulacao, pelos investigadores, dos grupos de comparacao e por a exposicao ao fator
de interesse ser medida por meio de informacoes passadas. Se atencao apropriada for
dada as possıveis fontes de vıcios, estudos Caso-Controle podem ser validos e eficientes
para responder a muitas questoes clınicas, em particular aquelas envolvendo doencas
raras.
Do ponto de vista teorico, os estudos de coorte sao mais adequados do que os
de caso-controle. Os estudos caso-controle sao, contudo, mais usados por envolverem
menor custo e menor tempo para a coleta das informacoes.
Na Tabela 7 encontram-se os resultados do mesmo estudo apresentado na Tabela 6
realizado, no entanto, como um estudo caso-controle.
Tabela 7. Resultados de um estudo caso-controle realizado para pesquisar a asso-
ciacao do tabagismo e cancer de pulmao
Grupos
Fumante Casos: com cancer Controles: sem cancer Totais
Sim 75 45
Nao 21 56
Totais 96 101 197
Giolo, S. R. Analise de Dados Discretos 14
Observe que, comparativamente ao estudo de Coorte, um estudo caso-controle
apresenta os totais marginais n+1 e n+2 fixos em vez de n1+ e n2+. Para a Tabela 7 tem-
se, tambem, o modelo Produto de Binomiais independentes, uma Binomial, contudo,
para cada coluna da respectiva tabela.
2.5.3 Estudos cross-sectional ou tranversais
Em estudos transversais coletam-se simultaneamente, de um grupo ou populacao
de indivıduos, informacoes sobre uma variedade de caracterısticas que sao posterior-
mente cruzadas em uma tabela de contingencia. Esta coleta e realizada em um unico
ponto no tempo e, frequentemente, o pesquisador nao sabe o que ocorreu antes deste
ponto. A obtencao da prevalencia da doenca, ou seja, da proporcao do grupo com a
doenca no ponto em que se realizou a coleta e um dos objetivos destes estudos. Cons-
titui outro interesse, em geral, a investigacao de potenciais relacoes causais entre os
fatores suspeitos serem de risco e a doenca.
Os estudos transversais podem ser vistos como avaliacoes fotograficas de grupos
ou populacoes de indivıduos. O termo transversal e usado para indicar que os indivıduos
sao estudados em um ponto no tempo (corte transversal). O interesse esta em avaliar a
associacao entre as respostas obtidas. Nesses estudos e comum considerar algumas das
variaveis como “fatores”.
Um exemplo e o de um estudo realizado com criancas para determinar se elas
apresentavam sintomas de doencas respiratorias. Um total de n = 1080 criancas foram
examinadas anotando-se, para cada uma, o sexo e se apresentavam, ou nao, os sintomas.
Os resultados sao mostrados na Tabela 8.
Note que apenas n e fixo e, desse modo, tem-se a distribuicao multinomial asso-
ciada a Tabela 8
2.5.4 Ensaios clınicos aleatorizados
Esses estudos sao realizados com o objetivo de comparar tratamentos. Os in-
divıduos sao alocados aleatoriamente ou ao grupo controle (tratamento padrao) ou ao
Giolo, S. R. Analise de Dados Discretos 15
Tabela 8. Resultado de um estudo transversal sobre doencas respiratorias em
criancas.
Sıntomas
Sexo Sim Nao Totais
Feminino 355 125 480
Masculino 410 190 600
Totais 765 315 1080
grupo tratamento (tratamento alternativo). Um exemplo e mostrado na Tabela 9.
Tabela 9. Resultados de um ensaio clınico realizado para comparar dois medicamen-
tos usados no tratamento de infeccoes respiratorias severas.
Resposta
Tratamento Favoravel Nao favoravel Totais
Novo 29 16 45
Padrao 14 31 45
Totais 43 47 90
Observe que nos ensaios clınicos o pesquisador interfere deliberadamente no
curso natural dos acontecimentos, ou seja, impoe um tratamento. Nos outros tipos
de estudos (coorte, caso-controle e transversal) o pesquisador nao interfere no curso
natural dos acontecimentos, apenas observa. Como n1+ e n2+ sao fixos, a distribuicao
produto de Binomias independentes esta associada a Tabela 9.
Nos estudos de Coorte e nos ensaios clınicos os indivıduos apresentam no
inıcio do experimento a mesma condicao clınica. Sao entao acompanhados por um
perıodo de tempo para observacao de ocorrencia de casos novos (por exemplo, de
doenca, de cura etc). Nesses estudos (coorte e ensaios clınicos) e possıvel a obtencao
de uma medida denominada incidencia. A incidencia (seja de doenca, de cura etc.) e
Giolo, S. R. Analise de Dados Discretos 16
definida como a proporcao de indivıduos em um determinado grupo que desenvolve a
resposta de interesse ao longo do tempo de observacao, isto e,
Incidencia =indivıduos que apresentaram resposta positiva no perıodo de observacao
total de indivıduos no inıcio do experimento.
Nos estudos transversais, indivıduos sao, em um unico ponto no tempo, investi-
gados quanto a uma determinada resposta de interesse. Alguns dos indivıduos neste
ponto do tempo apresentarao a resposta e outros nao. Nao e observado portanto casos
novos ao longo do tempo. A medida adequada aqui e a prevalencia, isto e, a proporcao
de indivıduos do grupo com resposta positiva naquele ponto especıfico do tempo, isto
e,
Prevalencia =indivıduos com a resposta em determinado ponto no tempo
indivıduos pesquisados em determinado ponto no tempo.
2.6 Estatısticas de teste e Medidas de Associacao
Considere os dados apresentados na Tabela 1 referente a um ensaio clınico
aleatorizado realizado para comparar dois medicamentos. A questao de interesse,
nesse caso, e se as taxas de melhora para o placebo e para o novo medicamento sao as
mesmas. Essa questao pode ser respondida testando se existe associacao entre o tipo
de tratamento e a resposta do paciente, ou seja, testando-se a hipotese nula:
H0: Nao existe associacao entre tratamento e resposta do paciente.
Existem varias maneiras (metodos) de se testar a hipotese H0, muitas de-
las baseadas na distribuicao Qui-quadrado, outras na distribuicao hipergeometrica ou,
ainda, em outras distribuicoes. Esses metodos sao tratados nas secoes a seguir.
Giolo, S. R. Analise de Dados Discretos 17
2.6.1 Estatısticas Qui-Quadrado
No estudo experimental que produziu os dados da Tabela 1, os totais marginais n1+
e n2+ sao fixos pois, 60 pacientes foram alocados aleatoriamente a um dos tratamentos
(placebo) e 64 ao outro tratamento. Sob a hipotese nula de nao existencia de diferenca
entre os tratamentos, os totais marginais n+1 e n+2 sao tambem considerados fixos e,
portanto, sob H0, a distribuicao de probabilidade associada e a hipergeometrica. Assim,
o valor esperado de nij e:
E(Nij | H0) =(ni+) (n+j)
n= mij
e a variancia:
V (Nij | H0) =(n1+) (n2+) (n+1) (n+2)
n2(n − 1)= vij.
Para uma amostra suficientemente grande, n11 tem aproximadamente uma dis-
tribuicao Normal, o que implica que:
Q =(n11 − m11)
2
v11
(5)
tem aproximadamente uma distribuicao Qui-quadrado com um grau de liberdade. Nao
importa como as linhas e colunas sao arranjadas, Q assumira sempre o mesmo valor
uma vez que:
| n11 − m11 | = | nij − mij | =| n11n22 − n12n21 |
n.
Uma estatıstica relacionada a Q e a estatıstica de Pearson dada por:
QP =2∑
i=1
2∑
j=1
(nij − mij)2
mij
=n
(n − 1)Q. (6)
Se as contagens (frequencias) nas caselas forem suficientemente grandes, QP
segue a distribuicao Qui-quadrado com um grau de liberdade. Ainda, quando n
cresce, QP e Q convergem. Uma regra util para determinar o tamanho amostral
adequado para Q e QP e que o valor esperado mij seja maior que 5 para todas as caselas.
Giolo, S. R. Analise de Dados Discretos 18
Obs: As estatısticas Q e Qp sao tambem apropriadas para testar a hipotese
nula de nao associacao em estudos em que se tenham asssociados os modelos
probabilısticos Multinomial e produto de Poisson.
2.6.2 Testes Exatos
Muitas vezes, contudo, as frequencias observadas nas caselas da tabela sao muito
pequenas inviabilizando, assim, o uso da distribuicao Qui-quadrado. Metodos exatos
baseados na distribuicao hipergeometrica sao usados, nessas situacoes, para testar a
hipotese de associacao.
O teste exato de Fisher, em que o valor p e determinado somando-se as probabi-
lidades das tabelas que sao pouco provaveis, dado que as marginais sao fixas, e, entao,
utilizado.
2.6.3 Diferenca nas proporcoes
Estabelecida a associacao entre as linhas e colunas de uma tabela de contingencia
2 × 2, pode-se ter interesse em descrever essa associacao. Por exemplo, estimar as
diferencas de proporcoes, somente possıvel nas tabelas em que as marginais n1+ e n2+
sao fixas.
Assim, se os dois grupos sao amostras aleatorias com probabilidades de sucesso π11
e π21, respectivamente, e ha interesse em estimar a diferenca de proporcoes d = p11−p21,
em que o valor esperado e:
E[p11 − p21] = π11 − π21
e a variancia
V [p11 − p21] =π11(1 − π11)
n1+
+π21(1 − π21)
n2+
,
para a qual um estimador nao-viciado e:
v[p11 − p21] =p11(1 − p11)
n1+ − 1+
p21(1 − p21)
n2+ − 1,
Giolo, S. R. Analise de Dados Discretos 19
tem-se o seguinte intervalo para (π11 − π21), a um nıvel de confianca (1-α)%:
d ±(
zα/2
√v +
1
2
(
1
n1+
+1
n2+
))
.
em que zα/2 denota o 100(1 − α/2) percentil da distribuicao Normal padrao.
Exemplo: Para os dados da Tabela 1 tem-se: Q = 21,53 (p < 0,0001) e Qp = 21,7
(p < 0,0001). Ambas as estatısticas sao claramente significativas e, portanto, ha uma
forte associacao entre o tratamento e a resposta do paciente. Como se trata de um
experimento em que as marginais n1+ e n2+ sao fixas, tem-se que a diferenca estimada
entre as proporcoes e de d = 0, 667 − 0, 25 = 0, 417 com correspondente intervalo,
ao nıvel de 95% de confianca, dado por: I.C.95%(d) = 0,417 ± 0,177 = (0,24; 0,594).
Conclui-se, portanto, que o novo tratamento e significativamente superior ao placebo.
2.6.4 Risco relativo e odds ratio (razao de chances)
A odds ratio (OR) e uma medida que descreve o “grau”(intensidade) de asso-
ciacao em uma tabela 2 × 2 e e calculada por:
OR =n11/n12
n21/n22
=n11n22
n12n21
.
Esta medida pode ser usada em qualquer tipo de estudo e varia de 0 a infinito.
Quando OR = 1, nao existe associacao entre as variaveis. Se, no entanto, OR > 1, o
grupo 1 apresenta chance (odds) maior de ter a resposta do que o grupo 2. Consequen-
temente, se OR < 1, o grupo 1 apresenta chance menor de ter a resposta do que o
grupo 2. Para a obtencao de um I.C. para a OR, toma-se o logaritmo da mesma (na
base e), isto e, f = log(OR), cuja variancia estimada e:
V (f) =
(
1
n11
+1
n12
+1
n21
+1
n22
)
.
Assim, um I.C. para a OR, ao nıvel 100(1-α)% de confianca e dado por:
I.C.(OR) = exp(
f ± zα/2
√
V (f))
em que zα/2 denota o 100(1 − α/2) percentil da distribuicao Normal padrao.
Giolo, S. R. Analise de Dados Discretos 20
Para estudos prospectivos (Coorte e ensaios clınicos), uma outra quantidade
chamada risco relativo pode tambem ser obtida. O risco relativo (RR) fornece o
risco de desenvolvimento de uma determinada condicao (frequentemente uma doenca)
para um grupo comparado a outro grupo. Esta medida e expressa por:
RR =p11
p21
e pode ser mostrado que:
RR = OR ×[
1 + (n21/n22)
1 + (n11/n12)
]
.
Logo, a OR se aproxima do RR quando n11 e n21 sao pequenos relativamente a
n12 e n22, respectivamente. Essa situacao se verifica para o caso de doencas raras.
Um I.C. para o RR e tambem obtido tomando-se o logaritmo do RR (na base e),
isto e, f ∗ = log(RR) = log(p11) − log(p21) cuja variancia e dada por:
V (f ∗) =(1 − p11)
(n1+) (p11)+
(1 − p21)
(n2+) (p21)
e, portanto, um I.C. para o RR, ao nıvel 100(1-α)% de confianca e dado por:
I.C.(RR) = exp(
f ∗ ± zα/2
√
V (f ∗))
em que, zα/2 denota o 100(1 − α/2) percentil da distribuicao Normal padrao.
Exemplos: Para os dados apresentados na:
(i) Tabela 1: referente a um estudo realizado para testar um novo medicamento, em
que 2 amostras aleatorias foram selecionadas, e estabeleceu-se a hipotese nula H0: nao
existe associacao entre tratamento e a resposta do paciente, tem-se.
Q = 21, 53 (p < 0, 0001) e Qp = 21, 7 (p < 0, 0001)
d(novo−placebo) = (0, 667 − 0, 25) = 0, 417
IC(d)(95%) = (0, 24; 0, 594)
RRnovo|placebo = 2, 67
IC(RR)(95%) = (1, 68; 4, 22)
Giolo, S. R. Analise de Dados Discretos 21
Com base nesses resultados pode-se concluir, portanto, que tratamento e resposta
do paciente estao associados e, desse modo, as taxas de melhora para o placebo e para
o novo medicamento nao sao as mesmas. Para o novo medicamento estima-se que
41,7% a mais dos pacientes, em relacao ao placebo, apresentem melhora, estimativa
esta que pode variar, ao nıvel de confianca de 95%, entre 24% e 59,4%. Pode-se,
ainda, concluir que os pacientes submetidos ao novo medicamento sao 2,67 vezes mais
provaveis a apresentarem melhora do que os pacientes que recebem placebo, podendo
esta estimativa, ao nıvel de confianca de 95%, variar entre 1,68 a 4,22 vezes. O novo
medicamento e, portanto, recomendavel.
(ii) Tabela 4: referente a um estudo realizado para verificar a influencia da
cor da armadilha sobre a atracao de machos e femeas de modo que H0: nao existe
associacao entre a cor da armadilha e sexo, tem-se:
Q = 0, 0013 (p = 0, 9718) e Qp = 0, 0013 (p = 0, 9718)
OR = 1, 011
IC(OR)(95%) = (0, 55; 1, 857)
Nao ha, portanto, evidencias estatısticas para a rejeicao da hipotese nula e, desse
modo, pode-se concluir que a atracao de machos e femeas nao e influenciada pela cor
da armadilha. A atracao de machos e femeas, da especie coletada, e semelhante tanto
usando-se armadilhas alaranjadas quanto armadilhas amarelas sendo que, os machos,
apresentam, em media, atracao maior as armadilhas do que as femeas.
(iii) Tabela 6: referente a um estudo de coorte realizado para pesquisar a as-
sociacao do tabagismo e cancer de pulmao em que H0: nao existe associacao entre
tabagismo e cancer de pulmao, tem-se.
Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001)
d(fumantes - nao fumantes) = (0, 625 − 0, 2777) = 0, 3523
IC(d)(95%) = (0, 21; 0, 495)
Giolo, S. R. Analise de Dados Discretos 22
RR(fumantes | nao fumantes) = 2, 29
IC(RR)(95%) = (1, 55; 3, 38)
A conclusao, nesse exemplo, e de que existe associacao entre tabagismo e cancer
de pulmao. Para os fumantes estima-se que 35,23% a mais deles, em relacao aos nao
fumantes, desenvolverao cancer de pulmao, estimativa esta que pode variar, ao nıvel de
confianca de 95%, entre 21% e 49,5%. Pode-se, ainda, concluir que indivıduos fumantes
sao 2,29 vezes mais provaveis a apresentarem cancer de pulmao do que os nao fumantes
podendo esta estimativa, ao nıvel de confianca de 95%, variar entre 1,55 a 3,38 vezes.
O tabagismo pode, portanto, ser considerado um fator de risco para o cancer de pulmao.
(iv) Tabela 7: referente a um caso-controle realizado para pesquisar a asso-
ciacao do tabagismo e cancer de pulmao em que H0: nao existe associacao entre
tabagismo e cancer de pulmao.
Q = 23, 18 (p < 0, 0001) e Qp = 23, 29 (p < 0, 0001)
OR = 4, 44
IC(OR)(95%) = (2, 37; 8, 28)
Conclui-se, portanto, que tabagismo e cancer de pulmao estao associados, ou
seja, as taxas de desenvolvimento de cancer de pulmao para fumantes e nao fumantes
diferem. A chance dos indivıduos que fumam apresentarem a doenca e 4,44 vezes
maior do que a chance dos que nao fumam, chance esta que, ao nıvel de confianca de
95%, pode variar entre 2,37 e 8,28 vezes.
(v) Tabela 8: referente a um estudo transversal sobre doencas respiratorias
realizado com criancas em que deseja-se saber se sexo e doencas respiratorias estao
associadas. A hipotese nula a ser considerada e H0: nao existe associacao entre sexo e
doencas respiratorias e, para testa-la, obteve-se:
Giolo, S. R. Analise de Dados Discretos 23
Q = 4, 0803 (p = 0, 0434) e Qp = 4, 084 (p = 0, 0433)
OR(feminino|masculino) = 1, 3161
IC(OR)(95%) = (1, 008; 1, 718)
Com base nos resultados obtidos, e considerando-se um nıvel de significancia de
5%, pode-se concluir que existe associacao entre sexo e doencas respiratorias, ou seja,
as taxas de doencas respiratorias em criancas do sexo feminino e masculino diferem.
Observe, contudo, que a OR estimada nao se encontra tao distante do valor 1 (que
indicaria chances iguais para ambos os sexos). Este fato mostra que a chance das
criancas do sexo feminino apresentarem doencas respiratorias, nao e tao maior do que
a das criancas do sexo masculino. Essa chance e de 1,31 vezes podendo, ao nıvel de
confianca de 95%, variar entre 1,008 e 1,718 vezes.
(vi) Tabela 9: referente a um ensaio clınico realizado para comparar dois medica-
mentos usados no tratamento de infeccoes severas. Para esse estudo tem-se H0: nao
existe associacao entre tratamento e a resposta do paciente. Para testa-la, os seguintes
resultados das estatısticas de teste e medidas de associacao foram obtidos:
Q = 9, 9085(p = 0, 0016) e Qp = 10, 02(p = 0, 0015)
d(novo - padrao) = (0, 6444 − 0, 3111) = 0, 3333
IC(d)(95%) = (0, 114; 0, 552)
RR(novo | padrao) = 2, 07
IC(RR)(95%) = (1, 27; 3, 36).
Pode-se concluir, portanto, que existe associacao entre o tratamento e a resposta
do paciente o que implica que as taxas de respostas favoraveis para os tratamentos
novo e padrao diferem. Estima-se que 33,33% a mais dos pacientes que receberam
o novo tratamento, em relacao aos que receberam o tratamento padrao, apresentarao
resposta favoravel, estimativa esta que pode variar, ao nıvel de confianca de 95%, entre
11,4% e 55,2%. Conclui-se, ainda, que pacientes que receberam o novo tratamento sao
Giolo, S. R. Analise de Dados Discretos 24
2,07 vezes mais provaveis a apresentarem resposta favoravel do que os que receberam
o tratamento padrao, podendo esta estimativa, ao nıvel de confianca de 95%, variar
entre 1,27 a 3,36 vezes. O novo medicamento e, desse modo, preferıvel ao medicamento
padrao.
2.6.5 Sensibilidade e Especificidade
A sensibilidade e especificidade sao outras medidas usadas em particular quando
se deseja determinar a eficacia de um exame (teste) realizado para detectar a presenca,
ou nao, de uma doenca ou outro evento qualquer. O exame de DNA realizado para
saber se o indivıduo e, ou nao, pai de uma crianca e um exemplo desses testes. Outro
exemplo e o do exame de AIDS realizado para saber se o sujeito e, ou nao, soro positivo.
As medidas citadas determinam a eficiencia desses testes em detectar a verdade.
A sensibilidade e definida como a proporcao de resultados positivos que um teste apre-
senta quando realizado em sujeitos conhecidos terem a doenca, ou seja, e a proporcao de
verdadeiros positivos. A especificidade, por outro lado, e definida como a proporcao
de resultados negativos que um teste apresenta quando realizado em sujeitos conheci-
dos estarem livres da doenca (proporcao de verdadeiros negativos). O desejado de um
exame (teste) e que ele tenha, simultaneamente, alta sensibilidade e especificidade.
A sensibilidade e especificidade sao tambem usadas para testar se um novo exame,
alternativo ao ja existente, mas de custo inferior, e tao eficiente quanto aquele tido como
o melhor na literatura. O melhor teste e, geralmente, referenciado na literatura como
“teste ouro” ou “teste padrao”.
Considere a Tabela 10 representando os resultados positivos e negativos apresen-
tados em um exame realizado em 180 pacientes.
Para esses dados a sensibilidade e especificidade estimadas sao, respectivamente,
dadas por:
Sensibilidade =52
60= 0, 867 e Especificidade =
100
120= 0, 833.
O exame usado apresenta, portanto, boa sensibilidade e especificidade detectando
Giolo, S. R. Analise de Dados Discretos 25
Tabela 10. Resultados de um exame realizado em 180 pacientes para verificar a
presenca, ou nao, de uma doenca de pele.
Resultado do exame
Status + - Totais
Doenca presente 52 8 60
Doenca ausente 20 100 120
em torno de 87% dos casos positivos e 83% dos casos negativos. O exame deixou,
contudo, de detectar em torno de 13% dos casos positivos (taxa de falsos negativos =
8/60 = 0,1333) e em torno de 17% dos casos apresentou resultado positivo erronea-
mente (taxa de falsos positivos = 20/120 = 0,1667). A taxa bruta de concordancia
(poder preditivo) do exame foi de 152/180 = 0.844 (84.4%). Dos 72 resultados posi-
tivos apresentados pelo exame, 52 estavam corretos, ou seja, o poder preditivo positivo
do exame foi de 52/72 = 0,7222 (72,2%). Por outro lado, dos 108 resultados nega-
tivos apresentados pelo exame, 100 estavam corretos fornecendo, assim, para o poder
preditivo negativo do exame, um valor de 100/108 = 0,926 (92,6%).
Seria, desse modo, recomendavel que o teste fosse realizado mais de uma vez,
em cada paciente, para evitar que um paciente doente nao seja tratado ou que, um
paciente livre da doenca seja tratado indevidamente. Se, contudo, o medicamento a
ser utilizado nao apresenta efeitos colaterais, recomenda-se um segundo teste somente
para os pacientes que apresentarem resultado negativo. Como cada doenca apresenta
suas peculiaridades, deve-se analisar, para cada uma delas, o que e de fato relevante.
Em determinadas situacoes, por exemplo, ha um interesse maior em testes com alta
sensibilidade e, especificidade, relativamente inferior.
2.6.6 Teste de McNemar
As tabelas de contingencia 2 × 2 contem, em algumas situacoes, informacoes
pareadas. Por exemplo, situacoes em que sao realizadas duas perguntas relacionadas
Giolo, S. R. Analise de Dados Discretos 26
ou, a mesma pergunta e feita para um par de indivıduos relacionados (casal, gemeos
etc.) ou, ainda, informacoes tomadas antes e apos algum acontecimento (uso de um
medicamento, campanha publicitaria etc).
Nesses casos o interesse e testar se a proporcao dos pares respondendo sim para
a pergunta 1 e a mesma dos que respondem sim para a pergunta 2, ou seja, testar a
hipotese nula:
H0 :n+1
n=
n1+
n.
McNemar (1947) desenvolveu um teste qui-quadrado baseado na distribuicao bi-
nomial para testar a hipotese citada. Ele mostra que somente os elementos fora da
diagonal sao importantes para determinar se existe diferenca nessas proporcoes. A
estatıstica do teste e dada por:
QM =(n12 − n21)
2
(n12 + n21)
e tem aproximadamente distribuicao qui-quadrado com 1 grau de liberdade.
Exemplo: Considere a taxa de aprovacao de um determinado polıtico, antes e
apos o anuncio de certas medidas, descrita na Tabela 11.
Tabela 11. Resultados de um pesquisa realizada para verificar a taxa de aprovacao
de um polıtico antes e apos o anuncio de certas medidas.
Apos
Antes Aprova Reprova Totais
Aprova 20 5 25
Reprova 10 10 20
Totais 30 15 45
O teste da hipotese H0: proporcao de aprovacao do candidato antes e apos o
anuncio das medidas e a mesma, resultou em QM = 1,67 (valor p = 0,1967). Assim,
nao se rejeita H0 e, desse modo, nao e possıvel dizer que a taxa de aprovacao desse
polıtico se alterou apos o anuncio das medidas.
3 TABELAS DE CONTINGENCIA: OUTRAS DIMENSOES
3.1 Conjunto de tabelas de contingencia 2 × 2
Considere os dados da Tabela 12 provenientes de um ensaio clınico realizado para
comparar dois medicamentos usados no tratamento de infeccoes respiratorias severas,
medicamentos estes que foram testados em dois centros medicos.
Tabela 12. Resultados de um ensaio clınico realizado para comparar dois medica-
mentos usados no tratamento de infeccoes respiratorias severas.
Resposta
Centro Tratamento Favoravel Nao favoravel Totais
1 Novo 29 16 45
1 Padrao 14 31 45
Totais 43 47 90
2 Novo 37 8 45
2 Padrao 24 21 45
Totais 61 29 90
Note que a tabela acima e, na realidade, um conjunto de duas tabelas de con-
tingencia 2 × 2 e em que, as mesmas questoes de uma unica tabela, sao de interesse.
Ou seja, existe associacao entre tratamento e a resposta do paciente e, se existe, qual a
intensidade dessa associacao?
Como o interesse concentra-se na associacao global entre o tratamento e a resposta,
poder-se-ia pensar em somar as frequencias das linhas correspondentes a cada trata-
mento obtendo-se, assim, uma unica tabela de contingencia 2 × 2. Os pesquisadores
Giolo, S. R. Analise de Dados Discretos 28
notaram, contudo, que os pacientes apresentaram comportamentos acentuadamente di-
ferentes em cada centro e que este deveria ser, portanto, considerado na analise. Em
alguns casos, a estratificacao pode ter sido planejada, em outros surge apos a coleta dos
dados.
Uma analise estratificada e, desse modo, a estrategia a ser adotada nessas
situacoes. Em tal analise, examina-se a associacao entre as duas variaveis de interesse
controlando-se, ou ajustando-se, para o efeito de centro.
3.1.1 Teste de Mantel-Haenszel
Um metodo para verificar a associacao global das variaveis de interesse, con-
trolando (ou ajustando) para o fator de estratificacao, foi proposto por Mantel-Haenszel
(1959). Para a obtencao da estatıstica de teste proposta por esses autores, considera-se,
para cada uma das q tabelas 2 × 2 que compoem a tabela geral, a notacao apresentada
na Tabela 13.
Tabela 13. h-esima tabela de contingencia 2 × 2.
Coluna
Linha A B Totais
A nh11 nh12 nh1+
B nh21 nh22 nh2+
Totais nh+1 nh+2 nh
Sob a hipotese nula de nao diferenca entre os tratamentos, o valor esperado de
nh11 e sua respectiva variancia sao:
E(Nh11 | H0) =nh1+nh+1
nh
= mh11
V (Nh11 | H0) =(nh1+)(nh2+)(nh+1)(nh+2)
n2h(nh − 1)
= vh11.
Assim, a estatıstica de teste proposta por Mantel-Haenszel e dada por:
Giolo, S. R. Analise de Dados Discretos 29
QMH =
( q∑
h=1
nh11 −q∑
h=1
mh11
)2
q∑
h=1
vh11
=
( q∑
h=1
(nh1+ nh2+)
nh
(ph11 − ph21)
)2
q∑
h=1
vh11
em que phi1 = nhi1/nhi+ e QMH tem distribuicao aproximadamente qui-quadrado com 1
grau de liberdade quando∑q
h=1 nh for suficientemente grande (> 30). Em um certo sen-
tido, essa estrategia de analise e similar a uma analise de variancia de um experimento
fatorial em blocos aleatorizados.
QMH e eficaz para determinar padroes de associacao quando existir uma forte
tendencia de a maioria das diferencas (ph11 − ph21) apresentar o mesmo sinal. Assim,
QMH pode falhar em detectar a associacao quando as diferencas estiverem em direcoes
opostas (sinais diferentes) e apresentarem magnitudes similares.
Mantel e Fleiss (1980) propuseram um criterio para determinar se a aproximacao
qui-quadrado e apropriada para a distribuicao da estatıstica de Mantel-Haenszel para
q tabelas. Este criterio e dado por:
CMF = min
{[ q∑
h=1
mh11 −q∑
h=1
(nh11)L
]
,
[ q∑
h=1
(nh11)U −q∑
h=1
(mh11)
]}
> 5
em que (nh11)L = max(0, (nh1+ − nh11)) e (nh11)U = min(nh+1, nh1+).
Para os dados da Tabela 12 tem-se: QMH = 18, 41 (p < 0,0001). Assim,
existe uma forte associacao entre tratamento e a resposta do paciente, ajus-
tado para centro. Conclui-se, portanto, que o medicamento novo apresenta uma
taxa de resposta favoravel significativamente maior do que a do placebo. Ainda,
CMF = min{
(52 − 16), (88 − 52)}
= 16 ≥ 5 mostrando que, para esses dados, a
aproximacao qui-quadrado e apropriada para QMH .
3.1.2 Medidas de associacao
Para um conjunto de q tabelas 2 × 2 pode-se calcular a media das odds ratios.
Se as odds ratios sao homogeneas, o estimador de Mantel-Haenszel para a odds ratio
Giolo, S. R. Analise de Dados Discretos 30
comum e dado por:
ORMH =
∑qh=1
nh11 nh22
nh∑q
h=1nh12 nh21
nh
.
O intervalo de confianca a 100(1-α)% para a ORMH e:
(
ORMH exp(zα/2 σ), ORMH exp(−zα/2 σ))
em que,
σ2 =
∑
h(nh11 + nh22)(nh11 nh22)/n2h
2(∑
h(nh11 nh22)/nh)2
+
∑
h
[
(nh11 + nh22)(nh12 nh21) + (nh12 + nh21)(nh11 nh22)]
/n2h
2(∑
h(nh11 nh22)/nh)(∑
h(nh12 nh21)/nh)
+
∑
h(nh12 + nh21)(nh12 nh21)/n2h
2(∑
h(nh12 nh21)/nh)2.
No exemplo apresentado na Tabela 12 tem-se que as odds ratios sao ho-
mogeneas (OR1 = 4, 01 e OR2 = 4, 04) e, sendo assim, a odds ratio comum estimada
bem como seu respectivo I.C, ao nıvel de confianca de 95%, sao:
ORMH = 4, 028
IC(ORMH)(95)% = (2, 106; 7, 701).
Portanto, aqueles pacientes que receberam o novo tratamento apresentam, em
media, uma chance (odds) de apresentarem melhora de em torno de 4 vezes maior, em
relacao a odds dos que receberam placebo. Essa chance varia, ao nıvel de confianca de
95%, entre 2,1 e 7,7 vezes.
3.2 Conjunto de tabelas de contingencia 2 × r
Considere os dados da Tabela 14, referente a um ensaio clınico duplo-cego reali-
zado para investigar um novo tratamento para artrite reumatoide, em que a resposta
Giolo, S. R. Analise de Dados Discretos 31
Tabela 14. Resultado de um ensaio clınico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatoide.
Melhora
Sexo Tratamento Nenhuma Alguma Acentuada Totais
Feminino Ativo 6 5 16 27
Feminino Placebo 19 7 6 32
Totais 25 12 22 59
Masculino Ativo 7 2 5 14
Masculino Placebo 10 0 1 11
Totais 17 2 6 25
considerada foi se existiu nenhuma, alguma ou acentuada melhora nos sıntomas da
doenca.
Os dados sao, portanto, um conjunto de duas tabelas de contingencia 2 × 3 em
que o interesse esta na associacao entre tratamento e o grau de melhora, ajustado para
sexo. O grau de melhora e uma resposta ordinal uma vez que nenhuma, alguma e
acentuada sao gradacoes de melhora.
Mantel (1963) propos uma extensao da estrategia de Mantel-Haenszel para a
analise de tabelas 2 × r quando a resposta e ordinal. Essa extensao envolve escores
medios para a resposta e usa diferencas destes escores no calculo de uma estatıstica de
teste adequada.
Antes, porem, de discutir as estrategias usadas para acessar a associacao em um
conjunto de tabelas 2 × r, faz-se necessario discutir tal associacao em uma unica tabela
2 × r que apresenta resposta ordinal.
3.2.1 Associacao em uma unica tabela de contingencia 2 × r
Considere a Tabela 14 agrupando-se as frequencias dos sexos feminino e masculino,
respectivamente. A Tabela 15 mostra esse agrupamento.
Giolo, S. R. Analise de Dados Discretos 32
Tabela 15. Resultado de um ensaio clınico realizado com pacientes do sexo feminino
e masculino para investigar um tratamento para artrite reumatoide.
Melhora
Tratamento Nenhuma Alguma Acentuada Totais
Ativo 13 7 21 41
Placebo 29 7 7 43
Totais 42 14 28 84
Como e desejavel usar na estatıstica de teste a informacao de que a variavel
resposta e ordinal, sao assumidos escores para os nıveis dessa variavel. Obtem-se,
assim, medias (uma para cada linha da tabela) que sao, entao, comparadas. A media
para a i-esima linha (i = 1, 2) da Tabela 15 e definida como:
fi =3∑
j=1
aj nij
ni+
i = 1, 2
em que a = (a1, a2, a3) e o vetor de escores assumidos para os nıveis da variavel resposta.
Se a hipotese H0 e de nao associacao entre tratamento e grau de melhora, o que
significa que as frequencias sao similares para todos os nıveis, entao,
E(f1 | H0) =3∑
j=1
(
ajn1+ n+j
n1+ n
)
=3∑
j=1
ajn+j
n= µa
em que a variancia:
V (f1 | H0) =(n − n1+)
n1+(n − 1)
3∑
j=1
(aj − µa)2(n+j
n
)
=(n − n1+) va
n1+(n − 1)
sendo va =∑3
j=1(aj − µa)2(
n+j
n
)
.
A quantidade f1 tem distribuicao aproximadamente Normal, pelo teorema central
do limite, de modo que a quantidade:
QS =(f1 − µa)
2
[
(n − n1+)/(n1+(n − 1))]
va
tem distribuicao aproximadamente qui-quadrado com um grau de liberdade. QS e
chamada estatıstica escore medio. Por usar a informacao ordinal da variavel resposta,
Giolo, S. R. Analise de Dados Discretos 33
QS pode indicar onde as mudancas ocorrem. Assim, as estatısticas Q e Qp sao uteis para
detectar tipos gerais de associacao, mas nao sao tao eficientes quanto QS em detectar
a localizacao dessas mudancas.
Usando os escores a = (1, 2, 3) para os nıveis de melhora nenhum, algum e
acentuada, respectivamente, obteve-se QS = 12,859 (p = 0,0003). Conclui-se, desse
modo, que os tratamentos diferem e que o tratamento “Ativo” apresentou desempenho
melhor (grau de melhora mais acentuado) do que o placebo, uma vez que fA = 2, 195
e fP = 1, 488.
3.2.1.1 Escolha dos escores
As estrategias de analise de dados ordinais requerem a escolha dos escores a serem
atribuıdos aos nıveis da variavel resposta. Dentre as varias maneiras que tais escores
podem ser escolhidos, as duas mais usuais sao:
i) escores inteiros: estes sao definidos como aj = j, para j = 1, 2, · · · , r, e sao
uteis quando os nıveis da variavel resposta sao categorias ordenadas vistas como
igualmente espacadas. Sao tambem uteis, quando os nıveis da variavel resposta
correspondem a contagens inteiras. Os escores inteiros (0, 1, · · ·) e (1, 2, · · ·), em
termos de conclusoes, produzem resultados similares.
ii) escores padronizados (midranks): estes sao restritos a valores entre 0 e 1 e
sao definidos por:
aj =2(
∑jk=1 n+k
)
− n+j + 1
2(n + 1).
A vantagem desses escores sobre os escores inteiros e que o analista nao se respon-
sabiliza diretamente pela selecao dos escores. Ele usa os dados para obte-los.
Para muitos conjuntos de dados, a escolha dos escores apresentam pequeno efeito
nos resultados. Escolhas diferentes de escores inteiros usualmente fornecem resultados
similares. Isso pode, contudo, nao acontecer quando os dados sao muito desbalanceados,
tal como quando algumas categorias apresentam muito mais observacoes do que outras.
Giolo, S. R. Analise de Dados Discretos 34
Com os escores padronizados (midranks) isso tambem ocorre, uma vez que aquelas
categorias apresentando poucas observacoes, em relacao as demais, apresentarao escores
muito proximos. A consequencia disto e que as distancias entre os nıveis da variavel
resposta podem vir a ser consideradas muito mais proximas do que elas realmente sao.
Como pode ser visto, a escolha dos escores nao e uma tarefa tao simples. Agresti
(1990, 1996) recomenda que os dados sejam analisados usando diversos razoaveis con-
juntos de escores para determinar se conclusoes importantes dependem das escolhas
feitas. O pesquisador e, sem duvida, de fundamental importancia para o entendimento
das distancias entre os nıveis da variavel resposta e consequente escolha adequada dos
escores.
3.2.2 Associacao em um conjunto de tabelas de contingencia 2 × r
A associacao em um conjunto de tabelas 2 × r em que a resposta e ordinal tambem
envolve o calculo de medias baseadas em um conjunto de escores.
Considere ah = (ah1, ah2, · · · , ahr) o conjunto de escores assumidos para os r nıveis
da variavel resposta na h-esima tabela 2 × r. Assim, considerando-se as duas tabelas
2 × 3 da Tabela 14, tem-se para o tratamento “Ativo” a seguinte soma de escores:
f+1 =2∑
h=1
3∑
j=1
ahjnh1j =2∑
h=1
nh1+fh1
em quefh1 =
3∑
j=1
ahj nh1j
nh1+
e o escore medio para o tratamento Ativo na h-esima tabela. Sob a hipotese nula de
nao associacao f+1 tem valor esperado dado por:
E(f+1 | H0) =2∑
h=1
nh1+ µh = µ∗
e variancia,
V (f+1 | H0) =2∑
h=1
nh1+ (nh − nh1+)
(nh − 1)vh = v∗
em que µh =3∑
j=1
(ahj nh+j)
nh
e vh =3∑
j=1
(ahj − µh)2
(
nh+j
nh
)
.
Giolo, S. R. Analise de Dados Discretos 35
Se os tamanhos amostrais n+i+ =∑2
h=1
∑3j=1 nhij sao suficientemente grandes,
entao f+1 tem distribuicao aproximadamente normal e a quantidade
QSMH =(f+1 − µ∗)
2
v∗
tem distribuicao aproximadamente qui-quadrado com 1 grau de liberdade.
QSMH e conhecida como a estatıstica escore medio de Mantel-Haenszel esten-
dida e e eficiente para detectar padroes de diferencas quando (fh1 − fh2) apresentarem
predominantemente o mesmo sinal.
Para os dados da Tabela 14 e considerando-se os escores a = (1, 2, 3), obteve-se
QSMH = 14,63 (p < 0,001). Os tamanhos amostrais n+1+ = 41 e n+2+ = 43 sao tambem
suficientemente grandes, o que assegura que QSMH apresenta uma boa aproximacao da
distribuicao qui-quadrado, de modo que, pode-se concluir que tratamento e o grau de
melhora, controlando para sexo, sao associados.
3.3 Conjunto de tabelas de contingencia s × 2
Os dados apresentados na Tabela 16 referem-se a um estudo sobre o uso de tabaco
por adolescentes (Bauman et al., 1989). O interesse concentrou-se em fatores que
influenciam o uso do tabaco. Note, nesse exemplo, que a Tabela 16 e formada por um
conjunto de duas tabelas de contingencia 3 × 2 e que, o interesse, e testar a existencia,
ou nao, de associacao entre a variavel resposta (uso de tabaco) e o fator consciencia do
risco do uso do tabaco pelo adolescente controlando pelo fator uso de tabaco pelo pai.
Para esses dados observam-se, a variavel resposta (uso de tabaco) e o fator uso de
tabaco pelo pai, como sendo dicotomicas e o fator consciencia do risco, como ordinal.
Na pratica, as tres variaveis podem ser consideradas ordinais, uma vez que e comum
associar os escores 0 e 1 aos nıveis de uma variavel dicotomica.
Para acessar a associacao de interesse, sera, inicialmente, considerado uma unica
tabela de contingencia 3 × 2 para, entao, estender a ideia para um conjunto de tabelas
de contingencia 3 × 2.
Giolo, S. R. Analise de Dados Discretos 36
Tabela 16. Resultado de um estudo realizado com adolescentes para investigar fa-
tores que afetam o uso do tabaco.
Pai usa Consciencia do risco Nao usa tabaco Usa tabaco Totais
Nao Mınima 59 25 84
Nao Moderada 169 29 198
Nao Substancial 196 9 205
Totais 424 63 487
Sim Mınima 11 8 19
Sim Moderada 33 11 44
Sim Substancial 22 2 24
Totais 66 21 87
3.3.1 Associacao em uma unica tabela de contingencia s × 2
Considere somente a primeira tabela de contingencia 3 × 2 (relativa aos adoles-
centes cujos pais nao fumam) apresentada anteriormente. Como no caso das tabelas
de contingencia 2 × s, escores c = (c1, c2, c3) sao assumidos para os nıveis (mınima,
moderada e substancial) do fator ordinal “consciencia do risco”. Para a variavel res-
posta assume-se, como ja mencionado, os escores a = (a1, a2) = (0, 1) para as respostas
“nao usa” e “usa” tabaco, respectivamente. Assim, tem-se:
f =3∑
i=1
2∑
j=1
ci aj nij
n
em que, sob H0,
E(f | H0) =3∑
i=1
ci
(ni+
n
)
2∑
j=1
aj
(n+j
n
)
= µc µa
e
V (f | H0) =
{
3∑
i=1
(ci − aj)2(ni+
n
)
2∑
j=1
(aj − µa)2(n+j/n)
(n + 1)
}
A quantidade f tem distribuicao aproximadamente Normal para grandes amostras
Giolo, S. R. Analise de Dados Discretos 37
de modo que, para essas situacoes, usa-se a estatıstica de teste:
QCS =(f − µc µa)
2
V ar(f | H0)=
(n − 1)[
∑3i=1
∑2j=1(ci − µc)(aj − µa) nij
]2
[
∑3i=1(ci − µc)2 ni+
][
∑2j=1(aj − µa)2 n+j
] = (n − 1) r2ac
em que rac e o coeficiente de correlacao de Pearson. Por este fato QCS e denominada
estatıstica da correlacao. Ainda, QCS tem distribuicao aproximada Qui-quadrado com
1 grau de liberdade.
Para os dados da primeira tabela de contingencia 3 × 2 da Tabela 16 obteve-
se QCS = 34, 28 (p < 0,0001), concluindo-se, portanto, haver uma forte associacao
(correlacao) entre consciencia do risco de fumo e uso de tabaco.
3.3.2 Associacao em um conjunto de tabelas de contingencia s × 2
Mantel (1963) tambem propos uma estatıstica de teste para a associacao de duas
variaveis que sao ordinais em um conjunto de tabelas s × 2, baseada nos escores a e c
assumidos para as colunas e linhas das tabelas. Esta estatıstica e expressa por:
QCSMH =
[
∑qh=1 nh
(
fh − E(fh | H0))
]2
∑qh=1 n2
h var(fh | H0)=
[
∑qh=1 nh (vhc vha)
1/2 rca.h
]2
∑qh=1
[
n2h vhc vha/(nh − 1)
]
e e chamada estatıstica da correlacao de Mantel-Haenszel estendida. QCSMH
segue a distribuicao Qui-quadrado com 1 grau de liberdade quando o tamanho
amostral combinado das tabelas s× 2 for suficientemente grande, isto e,∑q
h=1 nh ≥ 40.
Para os dados da Tabela 16, tomando-se os escores inteiros c = (1, 2, 3),
obteve-se QCSMH = 40,6639 (p < 0,0001). Existe, portanto, uma forte associacao
(correlacao) entre consciencia do risco de fumar e uso de tabaco pelo adolescente,
controlando pelo fator uso de tabaco pelo pai.
Giolo, S. R. Analise de Dados Discretos 38
3.4 Tabelas de contingencia s × r
Os conceitos de associacao e medidas de associacao em tabelas 2 × 2 e associacao
em tabelas de contingencia 2 × r e s × 2 foram apresentados e discutidos ate o momento.
Nessa secao tais conceitos sao estendidos para as tabelas s × r.
3.4.1 Testes para associacao geral em tabelas s × r
A notacao de uma tabela de contingencia s × r, em que tem-se duas variaveis,
uma delas com s categorias e a outra com r categorias e apresentada na Tabela 17.
Tabela 17. Tabela de contingencia s × r.
Categorias da variavel resposta
Grupos 1 2 · · · r Totais
1 n11 n12 · · · n1r n1+
2 n21 n22 · · · n2r n2+
......
......
......
s ns1 ns2 · · · nsr ns+
Totais n+1 n+2 · · · n+r n
Para testar a hipotese nula de nao existencia de associacao geral em uma tabela
de contingencia s × r pode-se usar:
3.4.1.1 Situacao 1: variavel resposta nominal
i) a estatıstica qui-quadrado de Pearson, como definida para uma tabela de con-
tingencia 2 × 2, isto e,
QP =s∑
i=1
r∑
j=1
(nij − mij)2
mij
.
que, quando todas as caselas apresentarem valores esperados maiores que 5, tem
distribuicao aproximada Qui-quadrado com (s -1)(r - 1) graus de liberdade.
Giolo, S. R. Analise de Dados Discretos 39
ii) a estatıstica Q que, como para uma tabela de contingencia 2 × 2, e obtida por:
Q =(n − 1)
nQP
e tem, nesse caso, distribuicao aproximada Qui-quadrado com (s -1)(r - 1) graus
de liberdade.
3.4.1.2 Situacao 2: variavel resposta ordinal
As estatısticas Q e QP sao adequadas para a deteccao de associacao geral. Nao
sao, no entanto, tao adequadas quando a variavel resposta e ordinal e e de interesse
levar em conta tal ordenacao. Assim como para tabelas 2× r, a estatıstica escore medio,
QS, pode ser tambem usada para tabelas s × r, de modo que QS e expressa por:
QS =(n − 1)
∑si=1 ni+(fi − µa)
2
n va
em que fi =∑r
j=1aj nij
ni+, µa = E[fi | H0] =
∑rj=1
aj n+j
ne va =
∑rj=1(aj − µa)
2(
n+jn
)
.
Nesses casos, QS tem distribuicao aproximada Qui-quadrado com (s - 1) graus de
liberdade uma vez que os escores medios de s grupos estao sendo comparados.
3.4.1.3 Situacao 3: ambas as variaveis ordinais
Esta situacao ocorre, por exemplo, quando a variavel resposta e ordinal e os
tratamentos sendo comparados sao, na realidade, dosagens diferentes de um mesmo
medicamento. Em tais situacoes, escores sao assumidos para os nıveis da variavel
resposta e, tambem, para os nıveis do fator de interesse.
A estatıstica de teste apropriada para esta situacao, como visto para tabelas de
contingencia s × 2, e a estatıstica da correlacao QCS que, independente da dimensao
da tabela, tera sempre distribuicao aproximada Qui-quadrado com 1 grau de liberdade.
Tal estatıstica e expressa por:
QCS = (n − 1) r2ac
em que rac e o coeficiente de correlacao de Pearson (ver pgs. 36 e 37).
Giolo, S. R. Analise de Dados Discretos 40
3.4.2 Teste exato para associacao geral em tabelas s × r
Em alguns casos o tamanho amostral, em uma tabela de contingencia s × r,
nao e suficientemente grande e ocorrem diversos valores esperados menores que 5. As
estatısticas qui-quadrado discutidas anteriormente nao sao, portanto, recomendaveis.
Nessas situacoes, uma alternativa e o teste exato de Fisher para tabelas s × r. Esse
metodo segue os mesmos princıpios do teste exato de Fisher para uma tabela de con-
tingencia 2× 2, exceto que as probabilidades sao assumidas serem provenientes de uma
distribuicao Hipergeometrica multivariada, isto e.
P (Nij = nij) =
s∏
i=1
ni+!r∏
j=1
n+j!
n!s∏
i=1
r∏
j=1
nij!
.
3.4.3 Medidas de associacao em tabelas s × r
Algumas medidas de associacao encontram-se disponıveis quando ha interesse em
se obter a intensidade da associacao em uma tabela s × r. A escolha por uma dessas
medidas, dependera da escala de mensuracao das variaveis.
i) Medidas de associacao ordinal
Nos casos em que as categorias exibidas nas linhas e colunas de uma tabela de
contingencia s × r estiverem em uma escala intervalar ou apresentarem escores
que sao igualmente espacados, recomenda-se (Stokes et al., 2000), como medida
de associacao, o coeficiente de correlacao de Pearson. Nos casos, contudo, em
que as categorias sao de natureza ordinal mas nao apresentarem uma escala de
distancia obvia, sugere-se, entao, o coeficiente de correlacao de Spearman o qual
baseia-se nos ranks das categorias.
ii) Medidas de associacao nominal
Medidas de associacao nos casos em que uma, ou ambas, as variaveis de uma
tabela de contingencia s × r estiverem em uma escala de mensuracao nominal,
sao mais difıceis. Dois coeficientes propostos na literatura para essas situacoes
Giolo, S. R. Analise de Dados Discretos 41
sao: o coeficiente de incerteza (uncertainty coefficient) e o coeficiente lambda.
Agresti (1990) discute algumas dessas medidas.
3.4.4 Exemplos
3.4.4.1 Local de moradia e afiliacoes polıtico partidarias
Os dados apresentados na Tabela 18 referem-se a um estudo sobre a afiliacao
partidaria em uma determinada cidade (Stokes et al., 2000). O interesse e saber se
existe associacao entre partido polıtico e local (bairros) de moradia.
Tabela 18. Distribuicao polıtico partidaria nos bairros da cidade.
Local de Moradia
Partido Polıtico A B C D Totais
Democrata 221 160 360 140 881
Independente 200 291 160 311 962
Republicano 208 106 316 97 727
Totais 629 557 548 836 2570
Para esses dados, ambas as variaveis encontram-se na escala de mensuracao nomi-
nal e, desse modo, para testar a hipotese nula de nao associacao entre partido polıtico e
local de moradia pode-se usar a estatıstica qui-quadrado de Pearson (QP ) bem como a
estatıstica Q. Os resultados obtidos para elas foram: QP = 273,92 (p < 0,0001, g.l = 6)
e Q = 273, 81 (p < 0,0001, g.l. = 6). Note que Q e QP forneceram valores muito
proximos, o que ja era esperado uma vez que o tamanho amostral (n = 2570) e grande.
Dos resultados apresentados, conclui-se haver associacao entre partido polıtico e local
de moradia.
3.4.4.2 Medicamentos para dor de cabeca e perıodo sem dor
Os dados desse exemplo, que encontram-se apresentados na Tabela 19, sao de
um estudo sobre um novo medicamento utilizado para aliviar dores de cabeca. Os
Giolo, S. R. Analise de Dados Discretos 42
pesquisadores compararam tal medicamento com o tratamento padrao e um placebo
e mediram, para cada um deles, o numero (em horas) de substancial alıvio da dor de
cabeca.
Tabela 19. Estudo de um novo medicamento para o tratamento de dores de cabeca.
Horas de alıvio
Tratamento 0 1 2 3 4 Totais
Placebo 6 9 6 3 1 25
Padrao 1 4 6 6 8 25
Novo 2 5 6 8 6 27
Totais 9 18 18 17 15 77
Claramente, numero de horas e uma variavel resposta ordinal. Nesses casos, o teste
escore medio, como visto anteriormente, e indicado para testar a hipotese nula de nao
associacao entre medicamento e a intensidade do alıvio de dor de cabeca. Utilizando-se,
portanto, os escores a = (0, 1, 2, 3, 4) obteve-se QS = 13, 7346 ( p = 0,00104, g.l = 2).
Assim, ha evidencias estatısticas de associacao entre tratamento e o numero de horas
de dor de cabeca. Pode-se, desse modo, concluir que pelo menos dois tratamentos
diferem entre si. Quais deles diferem? Observe que f1 = 1, 36, f2 = 2, 64 e f3 = 2, 41
fornecendo indıcios de que o placebo difere dos tratamentos novo e padrao. Nao parece
haver indıcios, contudo, de diferencas entre os tratamentos novo e padrao.
Considerando-se, entao, a tabela com somente as linhas correspondentes aos trata-
mentos padrao e novo tem-se QS= 0,465 (p = 0,495, g.l. = 1). Conclui-se, desse modo,
que os tratamentos novo e padrao nao diferem entre si. Para as demais comparacoes
obtiveram-se: i) placebo versus novo: QS = 8, 6 (p = 0,0034, g.l. = 1)
ii) placebo versus padrao: QS = 11, 66 ( p = 0,0006, g.l. = 1).
Observe, neste exemplo, que existe varias caselas com numero esperado menores
que 5 o que inviabiliza a utilizacao das estatısticas Q e QP , mas nao inviabiliza o uso da
estatıstica QS. Este e, portanto, um exemplo que mostra a vantagem em se considerar
a escala ordinal dos dados utilizando-se uma estatıstica de teste mais apropriada.
Giolo, S. R. Analise de Dados Discretos 43
3.4.4.3 Produtos de limpeza de roupas e intensidade da limpeza
Uma companhia de tratamento de agua realizou um estudo para pesquisar como
os aditivos adicionados a agua afetam a limpeza das roupas. O estudo considerou:
agua sem nenhum aditivo, agua com tratamento padrao e agua com dose dupla do
tratamento padrao. Os resultados obtidos encontram-se na Tabela 20
Tabela 20. Influencia de aditivos na agua sobre limpeza das roupas.
Limpeza
Tratamento Baixa Media Alta Totais
Agua pura 27 14 5 46
Agua + trat. padrao 10 17 26 53
Agua + dose dupla trat. padrao 5 12 50 67
Totais 42 43 81 166
Ambas as variaveis sao, nesse caso, ordinais e como foi visto, a estatıstica da
correlacao QCS e indicada. Tomando-se, desse modo, os escores a = (1, 2, 3) e c = (1,
2, 3) para as categorias das variaveis limpeza e tratamento, respectivamente, obteve-se
QCS = 50,6 (p < 0,0001, g.l.= 1). Conclui-se, portanto, que o tratamento e limpeza
estao associados e que a limpeza aumenta com a dosagem de aditivo adicionado a agua.
3.4.4.4 Tipo de veıculo adquirido e fonte de propaganda.
Os dados desse exemplo referem-se a um estudo realizado para saber se o tipo
de carro que as pessoas tinham comprado nos ultimos meses em uma determinada
concessionaria estava associada com o tipo de anuncio publicitario dos mesmos. O
resultado do estudo encontra-se apresentado na Tabela 21.
Pode-se notar que os dados nao satisfazem as condiccoes de aplicabilidade dos
testes usuais Q e QP pois existem caselas com frequencia zero bem como algumas delas
com frequencias esperadas menores do que 5. O teste exato de Fisher para testar a
hipotese nula de nao associacao e, desse modo, a estrategia indicada. Utilizando-se
Giolo, S. R. Analise de Dados Discretos 44
Tabela 21. Escolha do carro e anuncio publicitario
Anuncio publicitario
Tipo de carro TV Revista Jornal Radio Totais
Sedan 4 0 0 2 6
Esportivo 0 3 3 4 10
Utilitario 5 5 2 2 14
Totais 9 8 5 8 30
tal teste para os dados desse exemplo obteve-se um valor p = 0,0473 (bilateral). Nao
existe teste exato de Fisher unilateral para tabelas s× r. Conclui-se, nesse caso, haver
evidencias de associacao ao nıvel de significancia de 5%. Para nıveis de significancia
menores nao e possıvel concluir pela existencia de associacao entre o tipo de carro
comprado e tipo de anuncio publicitario.
3.4.5 Concordancia entre observadores
3.4.5.1 Estatıstica Kappa
Pesquisadores nas areas de medicina, epidemiologia, psiquiatria, psicologia etc.
tem, ou deveriam ter, consciencia de que o observador e uma possıvel fonte de erro de
medicao. Em muitos casos, diferentes observadores, ou um mesmo observador em dife-
rentes tempos, podem, por exemplo, examinar um raio X, ou realizar um exame fısico,
e chegarem a diferentes conclusoes (diagnosticos). E importante, desse modo, avaliar
a concordancia entre os observadores. Os dados, em um estudo desse tipo, produzem,
em geral, uma tabela de contingencia s × s em que os nıveis nas colunas representam
a resposta de um observador e os nıveis nas linhas a resposta do outro observador. As
caselas na diagonal representam os casos em que os observadores concordam.
Certamente as estatısticas tratadas anteriormente para testar a associacao, ou nao,
entre as respostas dos observadores poderiam ser usadas. Com os resultados obtidos
nao se poderia, contudo, quantificar a concordancia dos observadores. Medidas de
Giolo, S. R. Analise de Dados Discretos 45
concordancia foram, entao, propostas.
O coeficiente Kappa, proposto por Cohen (1960), e uma dessas medidas e e
definido por:
κ =Π0 − Πe
1 − Πe
sendo Π0 =∑s
i=1 pii =∑s
i=1nii
na probabilidade de concordancia com, pii a probabi-
lidade de um indivıduo ser classificado na categoria i por ambos os observadores e,
Πe =∑s
i=1(pi+)(p+i) =∑s
i=1ni+
nn+i
na probabilidade de concordancia sob H0 em que
H0: nao ha concordancia entre os observadores.
Como Π0 = 1 quando existir concordancia perfeita (todos os elementos fora da
diagonal sao iguais a zero), κ sera igual a 1 quando existir concordancia perfeita entre
os observadores e, κ sera igual a 0 quando a concordancia for aquela esperada sob
H0. Assim quanto mais proximo de 1 for o valor de κ, maior concordancia existira
entre os observadores. E possıvel obter valores negativos para κ mas isto, raramente
ocorre. Considera-se, em geral, κ < 0,4 como concordancia fraca, κ entre [0,4; 0,8)
como concordancia moderada e κ ≥ 0,8 como concordancia forte.
A variancia assintotica do coeficiente Kappa pode ser estimada por:
var(κ) =(A + B − C)
((1 − Πe)2 n)
em que A =∑
i pii
[
1 − (pi+ + p+i)(1 − κ)]2
, B = (1 − κ)2)∑∑
i6=j pij(p+1 pj+)2 e
C =[
κ−Πe(1− κ)]2
. Um intervalo de confianca para κ pode, portanto, ser obtido por:
κ ± zα/2
√
(var(κ))
em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.
Para os casos em que a resposta e ordinal uma forma ponderada da estatıstica
Kappa foi proposta e esta e definida por:
κw =Π0(w) − Πe(w)
1 − Πe(w)=
∑si=1
∑sj=1 wij pij −
∑si=1
∑sj=1 wij pi+ p+j
1 −∑si=1
∑sj=1 wij pi+ p+j
Giolo, S. R. Analise de Dados Discretos 46
em que wij sao pesos com valores entre 0 e 1. Um possıvel conjunto de pesos e dado
por:
wij = 1 − | escore(i) − escore(j) |escore(dim) − escore(1)
em que escore(i) e o escore para a i-esima linha, escore(j) e o escore para a j-esima coluna
e dim e a dimensao da tabela s × s.
A variancia assintotica do coeficiente Kappa ponderado pode ser estimada por:
var(κw) =
∑
i
∑
j pij
[
wij − (wi+ + w+j)(1 − κw)]2 −
[
κw − Πe(w)(1 − κw)]2
(1 − Πe(w))2 n
em que wi+ =∑
j p+jwij e w+j =∑
j pi+wij.
Um intervalo de confianca para κw pode, portanto, ser obtido por:
κ(w) ± zα/2
√var(κw)
em que zα/2 e o 100(1-α/2) percentil da distribuicao normal padrao.
3.4.5.2 Exemplo: concordancia entre o diagnostico de dois neurologistas
Os dados apresentados na Tabela 22 referem-se a classificacao de pacientes com
esclerose multipla, em 4 classes de diagnostico, por dois neurologistas.
Tabela 22. Concordancia dos diagnosticos de dois neurologistas
Neurologista 1
Neurologista 2 1 2 3 4 Totais
1 38 5 0 1 44
2 33 11 3 0 47
3 10 14 5 6 35
4 3 7 3 10 23
Totais 84 37 11 17 149
Giolo, S. R. Analise de Dados Discretos 47
Para esses dados obteve-se:
κ =((38 + 11 + 5 + 10)/149) − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17))/1492)
1 − (((44 ∗ 84) + (47 ∗ 37) + (35 ∗ 11) + (23 ∗ 17)/1492))
κ = 0, 2079.
Ainda, var(κ) = 0, 00255 e, portanto, IC0,95(κ) = (0,109; 0,3068). De forma
analoga, κw = 0, 3797, var(κw) = 0, 002673 e IC0,95(κw) = (0,2785; 0,4810). Tais
resultados indicam uma fraca concordancia entre os neurologistas.
3.5 Conjunto de tabelas de contingencia s × r
Para um conjunto de tabelas s× r tem-se, para testar as associacoes de interesse,
as extensoes das estatısticas:
i) QMH , quando as variaveis forem nominais;
ii) QSMH , quando os nıveis da variavel resposta forem ordinais e,
iii) QCSMH , quando ambas as variaveis forem ordinais.
4 REGRESSAO LOGISTICA DICOTOMICA
Neste capıtulo, o modelo de regressao logıstica sera apresentado para descrever a
natureza da associacao entre um conjunto de fatores e a variavel resposta por meio de
um numero parcimonioso de parametros.
A regressao logıstica e frequentemente apropriada para variaveis respostas
categoricas e descreve a relacao entre esta variavel resposta e um conjunto de variaveis
explanatorias (covariaveis). A variavel resposta e usualmente dicotomica (tipicamente
sim e nao), mas pode tambem ser usada para variaveis resposta com mais do que duas
categorias (regressao logıstica politomica). As variaveis explanatorias, em regressao
logıstica, podem ser categoricas ou contınuas. Variaveis dummy sao usadas para a
incorporacao de variaveis qualitativas no modelo de regressao logıstica.
Considere, como exemplo inicial, os dados da Tabela 24 em que a relacao entre
idade e doenca coronaria esta sendo estudada. Pelos resultados apresentados nesta
tabela, observa-se que com o acrescimo da idade, cresce tambem a probabilidade de
ocorrencia de doenca coronaria. A Figura 1 apresenta graficamente tais resultados
considerando-se o ponto medio de cada intervalo de idade.
Uma diferenca importante entre o modelo de regressao logıstica e o modelo de
regressao linear pode ser notada e, esta, diz respeito a natureza da relacao entre a
variavel resposta e as variaveis independentes. Em qualquer problema de regressao a
quantidade sendo modelada e o valor medio da variavel resposta dado os valores das
variaveis independentes. Esta quantidade e chamada media condicional e sera expressa
por E(Y | x) em que Y denota a variavel resposta e x denota os valores das variaveis
independentes. Em regressao linear tem-se - ∞ < E(Y | x) < + ∞ e, em regressao
logıstica, devido a natureza da variavel resposta, 0 ≤ E(Y | x) ≤ 1 como pode ser
Giolo, S. R. Analise de Dados Discretos 49
Tabela 23. Dados sobre doenca coronaria por intervalo de idade
Doenca coronaria
Idade (X = x) Nao (Y = 0) Sim (Y = 1) Totais E(Y | x)
20-29 9 1 10 0,10
30-34 13 2 15 0,13
35-39 9 3 12 0,25
40-44 10 5 15 0,33
45-49 7 6 13 0,46
50-54 3 5 8 0,63
55-59 4 13 17 0,76
60-69 2 8 10 0,80
Totais 57 43 100 0,43
30 40 50 60
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
Idade(em anos)
E[Y
|x]
Figura 1: E(Y | x) versus idade.
observado na Figura 1. Observe ainda, nesta mesma figura, que a mudanca em E(Y | x)
por unidade de mudanca em x torna-se progressivamente menor quando E(Y | x) torna-
se proxima de zero ou de um. A curva em forma de “S” lembra a distribuicao acumulada
de uma variavel aleatoria, o que motivou o uso da distribuicao logıstica para fornecer
um modelo para E(Y | x).
Giolo, S. R. Analise de Dados Discretos 50
A funcao de distribuicao logıstica e descrita por:
F (x) =1
1 + exp{−x} =exp{x}
1 + exp{x}em que, para x = - ∞ e x = + ∞, tem-se F(- ∞) = 0 e F(+ ∞) = 1. Sua correspondente
representacao grafica e mostrada na Figura 2.
−20 −10 0 10 20
0.0
0.2
0.4
0.6
0.8
1.0
1.2
x
F(x)
Figura 2: Funcao de distribuicao logıstica.
A funcao de distribuicao logıstica toma valores entre zero e um; assume o valor
zero em uma parte do domınio das variaveis explicativas, um em outra parte do domınio
e cresce suavemente na parte intermediaria possuindo uma particular curva em forma
de “S”. Se comparada a Figura 1 pode-se notar as similaridades.
Outras funcoes de distribuicao possuem as caracterısticas acima mencionadas. A
funcao logıstica foi escolhida, no entanto, basicamente por duas razoes: (i) do ponto
de vista matematico e extremamente flexıvel e facil de ser usada e, (ii) conduz a in-
terpretacoes simples. Para descrever a variacao entre os θ(x) = E(Y | x), foi, entao,
proposto o modelo de regressao logıstico expresso por:
θ(x) = P (Y = 1 | x) =1
1 + exp
{
−(
β0 +p∑
k=1
βk xk
)
}
=
exp
{
β0 +p∑
k=1
βk xk
}
1 + exp
{
β0 +p∑
k=1
βk xk
} (7)
Giolo, S. R. Analise de Dados Discretos 51
em que Yi = 1 significa a presenca da resposta, x representa as covariaveis (fatores de
risco), isto e, x = (x1, x2, · · · , xp), o parametro β0 e o intercepto, e βk (k = 1, · · · , p)
sao os p parametros de regressao. Observe que este modelo retornara uma estima-
tiva da probabilidade do indivıduo ter a resposta dado que o mesmo possui, ou nao,
determinados fatores de risco. Consequentemente,
1 − θ(x) =
exp
{
−(
β0 +p∑
k=1
βk xk
)
}
1 + exp
{
(
− β0 +p∑
k=1
βk xk
)
}
=1
1 + exp
{
β0 +p∑
k=1
βk xk
}
retornara uma estimativa da probabilidade do indivıduo nao ter a resposta dado que o
mesmo possui ou nao determinados fatores de risco.
Observe, ainda, que fazendo-se:
log
(
θ(x)
1 − θ(x)
)
= β0 +p∑
k=1
βk xk
tem-se um modelo linear para o logito, isto e, para o logaritmo neperiano da razao entre
θ(x) e 1 - θ(x). O logito e, na realidade, o logaritmo de uma odds e, este fato, permitira
que odds ratios sejam, portanto, obtidas pelo modelo (sera tratado em detalhes mais
adiante).
No contexto de modelos lineares generalizados, uma funcao, monotona e derivavel,
que relaciona a media ao preditor linear e denominada de funcao de ligacao. Assim,
η = log(
θ(x)1−θ(x)
)
, e a funcao de ligacao canonica para a modelo Binomial.
Alem de apresentar uma forma linear, o modelo logıstico apresenta a propriedade
util de que todos os valores (β0 +∑p
k=1 βkxk), pertencentes ao intervalo (-∞, + ∞),
terem um correspondente, no intervalo (0, 1), para θ(x). Probabilidades preditas por
este modelo sao, desse modo, restritas a assumirem valores entre 0 e 1. O modelo,
portanto, nao produz probabilidades negativas bem como probabilidades maiores que 1.
Giolo, S. R. Analise de Dados Discretos 52
Outra diferenca importante entre um modelo de regressao linear e o modelo de
regressao logıstico refere-se a distribuicao condicional da variavel resposta. No modelo
de regressao linear e assumido que uma observacao da variavel resposta pode ser ex-
pressa por y = E(Y | x) + ε em que a quantidade ε e chamada erro e e assumida ter
distribuicao Normal com media zero e variancia constante. Este nao e o caso quando
a resposta e dicotomica ( Y = 1 ou 0 ). O valor da variavel resposta dado x e expresso
por y = θ(x) + ε e, como a quantidade ε pode assumir somente um de dois possıveis
valores, isto e, ε = 1 - θ(x) para y = 1 ou, ε = - θ(x) para y = 0, segue que ε tem
distribuicao com media zero e variancia dada por θ(x)(
1- θ(x))
, isto e, a distribuicao
condicional da variavel resposta segue uma distribuicao Binomial com probabilidade
dada pela media condicional θ(x).
4.1 Estimacao dos parametros
A estimacao dos parametros em regressao logıstica e, em geral, feita pelo metodo
da maxima verossimilhanca. Para aplicacao deste metodo e necessario construir ini-
cialmente a funcao de verossimilhanca a qual expressa a probabilidade dos dados ob-
servados como uma funcao dos parametros desconhecidos. Os estimadores de maxima
verossimilhanca dos parametros serao os valores que maximizam esta funcao.
Para encontrar esses valores no modelo de regressao logıstico, considere a variavel
resposta Y codificada como zero ou um. Da expressao (7) pode-se, entao, obter a
probabilidade condicional de que Y seja igual a 1 dado x, isto e, θ(x) = P(Y = 1 | x)
e, em consequencia, a probabilidade condicional de que Y seja igual a zero dado x,
isto e, 1 - θ(x) = P(Y = 0 | x). Assim, θ(xi) sera a contribuicao para a funcao de
verossimilhanca dos pares (yi, xi) em que yi = 1 e 1 - θ(xi), a contribuicao dos pares
em que yi = 0.
Assumindo-se que as observacoes sao independentes tem-se a seguinte expressao
para a funcao de verossimilhanca:
L(β) =n∏
i=1
(
θ(xi))yi
(
1 − θ(xi))1−yi
(8)
Giolo, S. R. Analise de Dados Discretos 53
As estimativas de β serao os valores que maximizam a funcao de verossimilhanca
dada em (8). Algebricamente e mais facil trabalhar com o logaritmo desta funcao, isto
e, com:
l(β) = log L(β) =n∑
i=1
yi log(
θ(xi))
+ (1 − yi) log(
1 − θ(xi))
Para obter os valores de β que maximizam l(β) basta diferenciar a respectiva
funcao com respeito a cada parametro βj (j = 0, 1,.., p) obtendo-se, assim, o sistema
de p + 1 equacoes,
n∑
i=1
(
yi − θ(xi))
= 0
n∑
i=1
xij
(
yi − θ(xi))
= 0 j = 1, · · · , p
que, quando igualadas a zero, produzem como solucao as estimativas de maxima
verossimilhanca de β. Os valores ajustados para o modelo de regressao logıstico sao,
portanto, obtidos substituindo-se as estimativas de β em (7).
As p + 1 equacoes sao chamadas equacoes de verossimilhanca e por serem nao-
lineares nos parametros βj (j = 0, 1,.., p), requerem metodos especiais para suas
solucoes. Os metodos iterativos de Newton-Raphson e o escore de Fisher sao algoritmos
numericos comumente utilizados com esta finalidade. Uma discussao geral de metodos
implementados em varios softwares pode ser encontrada em McCullagh e Nelder (1983).
O metodo de estimacao das variancias-covariancias dos coeficientes estimados
seguem da teoria de estimacao de maxima verossimilhanca a qual estabelece que os
estimadores sao obtidos pela matriz das derivadas parciais de segunda ordem do loga-
ritmo da funcao de verossimilhanca. Essas derivadas tem a seguinte forma geral:
∂2 log L(β)
∂β2j
= −n∑
i=1
x2ij θ(xi)
(
1 − θ(xi))
(9)
∂2 log L(β)
∂βj∂βl
= −n∑
i=1
xij xil θ(xi)(
1 − θ(xi))
(10)
para j, l = 0, 1, .., p.
A matriz contendo o negativo dos termos dados nas equacoes (9) e (10) sera
denotada por I(β) e e chamada matriz de informacao. As variancias e covariancias
Giolo, S. R. Analise de Dados Discretos 54
dos coeficientes estimados serao obtidas pela inversa dessa matriz e sera denotada por
Σ(β) = I−1(β). O j-esimo elemento da diagonal dessa matriz, denotado por σ2(βj),
corresponde a variancia de βj e, o elemento na j-esima linha e l-esima coluna, dessa
matriz, denotado por σ(βj, βl), corresponde a covariancia entre βj e βl. Os estimadores
das variancias e covariancias, denotados por Σ(β), sao obtidos por avaliar Σ(β) em β.
Em notacao matricial, a matriz de informacao I(β) = X’VX em que X e uma
matriz com n linhas e p + 1 colunas contendo um vetor de uns e as covariaveis
dos indivıduos, e V e uma matriz diagonal de n linhas e n colunas com elementos
θ(x)(1 − θ(x)) na diagonal. Isto e,
X =
1 x11 · · · x1p
1 x21 · · · x2p
......
......
1 xn1 · · · xnp
e
V =
θ(x1)(1 − θ(x1)) 0 · · · 0
0 θ(x1)(1 − θ(x2)) · · · 0...
......
...
0 0 · · · θ(xn)(1 − θ(xn))
.
Considerando-se o ponto medio para cada intervalo de idade, isto e, x = 25, 32,
38, 43, 47, 53, 57 e 65, e ajustando-se o modelo de regressao logıstica para os dados
da Tabela 23 foram obtidas as estimativas β0 = -5,123 (s.e. = 1,110) e β1 = 0,1058
(s.e. = 0,023).
4.2 Significancia das variaveis no modelo
Apos obtencao das estimativas dos coeficientes βj (j = 0, 1,..., p) faz-se necessario
avaliar a adequacao do modelo ajustado.
O primeiro interesse esta em acessar a significancia das covariaveis presentes no
modelo. O princıpio em regressao logıstica e o mesmo usado em regressao linear, ou
Giolo, S. R. Analise de Dados Discretos 55
seja, comparar os valores observados da variavel resposta com os valores preditos pelos
modelos com, e sem, a covariavel sob investigacao.
Em regressao linear esta comparacao e feita por meio de uma tabela chamada
analise de variancia em que atencao e dada a soma de quadrados devida a regressao.
Um grande valor da soma de quadrados da regressao sugere que pelo menos uma, ou
talvez todas as variaveis independentes, sejam importantes. Em regressao logıstica a
comparacao pode ser feita utilizando-se testes tal como, dentre outros, o teste da razao
de verossimilhancas em que, a funcao de verossimilhanca do modelo sem as covariaveis
(LSC) e comparada com a funcao de verossimilhanca do modelo com as covariaveis
(LCC). Formalmente, o teste e expresso por:
RV = −2 log
[
verossimilhanca do modelo sem as covariaveis
verossimilhanca do modelo com as covariaveis
]
= −2 log
[
LSC
LCC
]
= 2 log(LCC) − 2 log(LSC)
Note que a razao das verossimilhancas e multiplicada por −2 log. Isto e feito para
que se obtenha uma quantidade cuja distribuicao e conhecida (no caso a distribuicao
qui-quadrado) de modo que, tal quantidade, possa ser usada para a realizacao de testes
de hipoteses. Em regressao logıstica a estatıstica:
D = −2 log
[
verossimilhanca do modelo sob estudo
verossimilhanca do modelo saturado
]
e chamada deviance, em que, para um melhor entendimento, e conceitualmente util
pensar um valor observado da variavel resposta como sendo tambem um valor pre-
dito resultante do modelo saturado. Um modelo saturado e aquele que contem tantos
parametros quanto dados existirem. Assim, a estatıstica RV apresentada anterior-
mente, pode ser vista como a diferenca de duas deviances, isto e,
RV = Deviance do modelo sem covariaveis − Deviance do modelo com covariaveis
= −2 log
[
verossimilhanca do modelo sem covariaveis
verossimilhanca do modelo saturado
]
−[
− 2 log
[
verossimilhanca do modelo com as covariaveis
verossimilhanca do modelo saturado
]]
Giolo, S. R. Analise de Dados Discretos 56
o que resulta em:
RV = 2 log(LCC) − 2 log(LSC).
Sob a hipotese nula de que os p coeficientes associados as covariaveis no modelo
sao iguais a zero, a distribuicao de RV sera Qui-Quadrado com p graus de liberdade.
Rejeicao da hipotese nula neste caso tem interpretacao analoga aquela em regressao
linear, ou seja, pode-se concluir que pelo menos um, ou talvez todos, os p coeficientes
sao diferentes de zero.
4.2.1 Analise de Deviance e selecao de modelos
Uma tabela, similar a obtida em regressao linear, para a analise de deviance
(ANODEV) pode ser construıda. A ANODEV e uma generalizacao da analise de
variancia visando obter, a partir de uma sequencia de modelos encaixados, os efeitos de
fatores, covariaveis e suas interacoes.
Para uma sequencia de modelos encaixados, tendo estes a mesma distribuicao e
funcao de ligacao, utiliza-se a deviance como uma medida de discrepancia do modelo e
pode-se, entao, construir uma tabela das diferencas de deviances, como, por exemplo, a
apresentada na Tabela 24 em que e considerado um experimento com duas covariaveis
contınuas X1 e X2.
Tabela 24. Exemplo de uma tabela de Diferenca de Deviances para um experimento com duas
covariaveis contınuas X1 e X2.
Modelo g.l. Deviance Residual Diferenca Deviances Diferenca g.l.
Nulo g.l.N DN
X1 g.l.N - 1 DX1 DN - DX1 1
X1 e X2 g.l.N - 2 DX1+X2 DX1 - DX1+X2 1
X1, X2 e X1 ∗ X2 g.l.N - 3 DX1∗X2 DX1+X2 - DX1∗X2 1
Saturado 0 0
A partir das deviances e suas diferencas pode-se, entao, usando-se o teste da
Giolo, S. R. Analise de Dados Discretos 57
razao de verossimilhancas, descrito anteriormente, testar a significancia da inclusao de
determinadas covariaveis bem como interacoes no modelo. Em outras palavras, pode-
se avaliar o quanto da variacao dos dados e explicada pela inclusao de termos no modelo.
Para o exemplo apresentado na Tabela 23 em que deseja-se verificar a relacao
entre idade e doenca coronaria tem-se:
Tabela 25. Tabela de diferenca de deviances para os dados sobre doenca coronaria.
Modelo g.l. Deviance residual Dif. Deviance Dif. g.l.
Nulo 7 28,7015
X1: idade 6 0,5838 28,1177 1
bem como a correspondente analise de deviance (ANODEV),
Tabela 26. Analise de deviance para os dados sobre doenca coronaria.
Causa de variacao g.l. Deviances RV valor p
Regressao 1 28,1177 28,1177 1,142e-07
Resıduos 6 0,5838
Total 7 28,7015
Portanto, RV = 28,1177 (p = 1.142e-07) e, desse modo, rejeita-se a hipotese
H0: β1 = 0 concluindo-se, entao, que idade esta altamente associada a doenca coronaria
e deve, portanto, permanecer no modelo.
4.3 Qualidade do modelo ajustado
Uma vez selecionado o modelo, dentre os analisados, deseja-se avaliar o quao
bem ele se ajusta aos dados, ou seja, quao proximo os valores preditos pelo modelo
encontram-se de seus correspondentes valores observados. As estatısticas de teste usadas
para essa finalidade sao, em geral, denominadas estatısticas de qualidade do ajuste
Giolo, S. R. Analise de Dados Discretos 58
e comparam, de alguma maneira apropriada, as diferencas entre os valores observados
e preditos.
Duas estatısticas tradicionais de qualidade do ajuste sao: a qui-quadrado de
Pearson, QP , que e baseada nos resıduos de Pearson e a qui-quadrado da razao de
verossimilhancas, QL, tambem conhecida como deviance por basear-se nos resıduos
deviance, e estas sao expressas, respectivamente, por:
QP =∑
i,j
(
nij − mij
)2
mij
e
QL =∑
i,j
2nij log
(
nij
mij
)
em que mij sao as quantidades preditas pelo modelo e definidas por:
mij = ni+ θ(x) para j = 1
mij = ni+ (1 − θ(x)) para j = 2.
Sob a hipotese H0 de que o modelo se ajusta bem aos dados, QP e QL sao aproxi-
madamente qui-quadrado com graus de liberdade igual ao numero de linhas na tabela
de dados menos o numero de parametros no modelo. Na pratica, essas estatısticas serao
aproximadamente qui-quadrado se:
• cada ni+ > 10
• 80% das contagens preditas sao pelo menos 5
• todas as outras contagens esperadas sao maiores que 2, e nenhuma contagem e 0.
Para o modelo ajustado aos dados de doenca coronaria obtiveram-se: Qp = 0.59
(p = 0.9965, g.l. = 6) e QL = 0.58 (p = 0.9967, g.l. = 6). Conclui-se, desses resultados,
pela nao rejeicao da hipotese H0 e, portanto, pode-se dizer que o modelo escolhido se
ajusta satisfatoriamente aos dados.
Giolo, S. R. Analise de Dados Discretos 59
4.3.1 O modelo ajustado e interpretacoes
Para os dados da Tabela 23, foi ajustado, e considerado satisfatorio, o modelo:
θ(x) =
exp
{
− 5, 123 + 0, 1058 ∗ idade
}
1 + exp
{
− 5, 123 + 0, 1058 ∗ idade
}
podendo-se, entao, obter, a partir deste, algumas estimativas, tais como, por exemplo:
Tabela 27. Estimativas obtidas pelo modelo ajustado.
Idade (xi) θ(xi) 1 − θ(xi) logito
26 0,0853 0,9147 -2,3724
27 0,0939 0,9061 -2,2669
65 0,8524 0,1476 1,7535
Observe que exp{logito(θ(xi))} =θ(xi)
(1 − θ(xi))= odds (tratada anteriormente).
Pode-se, entao, obter a odds ratio para, por exemplo, os indivıduos com idades 65 e 26
anos, isto e,
OR =odds(65 anos)
odds(26 anos)=
exp{1, 7535}exp{−2, 3724} = 61, 9
concluindo-se, assim, que indivıduos com 65 anos de idade tem odds 61,9 vezes maior
de doenca coronaria do que a odds dos indivıduos com 26 anos.
4.4 Diagnostico da regressao logıstica
As estatısticas Qp e QL, descritas na secao anterior e usadas para verificar a
qualidade de ajuste do modelo de regressao logıstica, fornecem um unico numero o qual
resume a concordancia entre os valores observados e os ajustados. O problema com essas
estatısticas e que um unico numero e usado para resumir uma quantidade consideravel
de informacao. Portanto, antes de considerar que o modelo ajustado e satisfatorio,
e importante que outras medidas sejam examinadas para que se possa averiguar se
Giolo, S. R. Analise de Dados Discretos 60
o ajuste e valido sobre todo o conjunto de padroes (combinacoes das categorias) das
covariaveis.
Pregibon (1981) estendeu os metodos de diagnostico de regressao linear para a
regressao logıstica e argumenta que, como as estatısticas qui-quadrado de Pearson (Qp)
e deviance (QL) sao duas medidas usadas para verificar a qualidade do modelo ajustado,
faz sentido analisar os componentes individuais dessas estatısticas uma vez que estes
componentes sao funcoes dos valores observados e preditos pelo modelo
Assim, se em uma tabela de contingencia s×2, tem-se para cada uma das s linhas
ni+ sujeitos dos quais ni1 apresentam a resposta de interesse (sucesso) e θi1 denota a
probabilidade predita de sucesso para a i-esima linha (grupo), define-se o i-esimo resıduo
por:
ci =ni1 − ((ni+) θi1)
√
(ni+) θi1 (1 − θi1)i = 1, · · · , s.
Esses resıduos sao conhecidos como resıduos de Pearson, uma vez que a soma
deles ao quadrado resulta em QP . Exame dos valores residuais ci auxiliam a deter-
minar quao bem o modelo se ajusta aos grupos individuais. Frequentemente, resıduos
excedendo o valor 2,0 (ou 2,5) indicam falta de ajuste.
Similarmente, a deviance residual e um componente da estatıstica deviance e e
expressa por:
di = sinal(ni1 − yi1)
[
2 ni1 log
(
ni1
yi1
)
+ 2(ni+ − ni1) log
(
ni+ − ni1
ni+ − yi1
)]1/2
em que yi1 = (ni+) θi1. A soma das deviances residuais di ao quadrado resulta na
estatıstica deviance QL. A partir do exame dos resıduos deviance pode-se observar a
presenca de resıduos nao usuais (demasiadamente grandes) bem como a presenca de
outliers ou, ainda, padroes sistematicos de variacao indicando, possivelmente, a escolha
de um modelo nao muito adequado.
Para os dados da Tabela 23 obtiveram-se os resıduos de Pearson e resıduos
deviance apresentados a seguir.
Giolo, S. R. Analise de Dados Discretos 61
Covariavel Pearson Deviance Residual
IDADE Residual Value
1 25.0000 0.2677 | * | 0.2570 | | * |
2 32.0000 -0.1763 | * | -0.1791 | * | |
3 38.0000 0.0070 | * | 0.0070 | * |
4 43.0000 -0.2169 | * | -0.2182 | * | |
5 47.0000 -0.0051 | * | -0.0051 | * |
6 53.0000 0.0375 | * | 0.0376 | |* |
7 57.0000 0.4774 | * | 0.4870 | | * |
8 65.0000 -0.4662 |* | -0.4465 | * | |
Uma analise dos resıduos mostram que os mesmos apresentam-se satisfatorios,
podendo-se, entao, concluir que o modelo escolhido ajusta-se bem aos dados.
As estatısticas de diagnostico apresentadas permitem, ao analista, identificar aque-
les padroes de covariaveis que estao com um ajuste pobre. Depois destes padroes
serem identificados, pode-se, entao, avaliar a importancia que eles tem na analise. Esta
avaliacao e similar ao que e feito em regressao linear, ou seja, retira-se o(s) padrao(oes)
com ajuste pobre e verifica-se o impacto causado nas estimativas dos parametros bem
como nas estatısticas QP e QL, usadas para verificar a qualidade de ajuste do modelo.
Na Figura 3 encontram-se apresentados os valores observados e preditos pelo mo-
delo de regressao logıstico ajustado.
30 40 50 60
0.0
0.2
0.4
0.6
0.8
idade
E(Y
|x)
Figura 3: Valores observados e preditos pelo modelo.
Giolo, S. R. Analise de Dados Discretos 62
4.5 Exemplos
4.5.1 Exemplo 1
Os dados apresentados na Tabela 28 referem-se a um estudo realizado com pa-
cientes que procuraram uma determinada clınica para serem submetidos a um eletro-
cardiagrama (ECG). A variavel resposta, presenca ou ausencia de doenca coronaria
arterial, bem como as covariaveis sexo e ECG, sao dicotomicas.
Tabela 28. Estudo sobre doenca coronaria arterial.
Sexo (x1) ECG (x2) Presenca doenca Ausencia doenca Total
Feminino < 0,1 ST 4 11 15
Feminino ≥ 0,1 ST 8 10 18
Masculino < 0,1 ST 9 9 18
Masculino ≥ 0,1 ST 21 6 27
Assumindo-se que a variavel resposta apresenta distribuicao binomial (uma para
cada linha da tabela) de modo que tem-se, associado a tabela, o modelo produto de
binomias independentes, pode-se utilizar o modelo de regressao logıstico para descrever
a variacao entre os θi1(x), isto e,
θi1(x) =
exp
{
β0 + β1 x1 + β2 x2
}
1 + exp
{
β0 + β1 x1 + β2 x2
}
em que β0 e o intercepto e, β1 e β2, sao os parametros desconhecidos associados as
covariaveis sexo e ECG, respectivamente.
Assim, tem-se que:
log
(
θi1(x)
1 − θi1(x)
)
= logit(θi1(x)) = β0 + β1 x1 + β2 x2 (11)
o, que matricialmente corresponde a:
Giolo, S. R. Analise de Dados Discretos 63
logit(θ11)
logit(θ21)
logit(θ31)
logit(θ41)
=
β0
β0 + β2
β0 + β1
β0 + β1 + β2
=
1 0 0
1 0 1
1 1 0
1 1 1
β0
β1
β2
Esse tipo de parametrizacao e frequentemente denominada “parametrizacao de
efeito incremental”. Como a combinacao sexo feminino e ECG < 0,1 sao descritas
pelo intercepto, esse grupo e conhecido, nessa parametrizacao, como a combinacao de
referencia. O parametro β1 e o incremento no logito para o sexo masculino e β2 e o
incremento no logito para ECG ≥ 0,1. As probabilidades e odds preditas para esse
modelo sao, portanto, as apresentadas na Tabela 29
Tabela 29. Probabilidades e odds preditas para o modelo.
Sexo (x1) ECG (x2) θi1 Odds de doenca
Feminino < 0,1 eβ0/(1 + eβ0) eβ0
Feminino ≥ 0,1 eβ0+β2/(1 + eβ0+β2) eβ0+β2
Masculino < 0,1 eβ0+β1/(1 + eβ0+β1) eβ0+β1
Masculino ≥ 0,1 eβ0+β1/(1 + eβ0+β1+β2) eβ0+β1+β2
Pode-se, desse modo, obter a odds ratio para pacientes do sexo masculino versus
as do sexo feminino por:
eβ0+β1
eβ0= eβ1 ou
eβ0+β1+β2
eβ0+β2= eβ1 .
Similarmente, a odds ratio para alto ECG versus baixo ECG e determinado por:
eβ0+β1+β2
eβ0+β1= eβ2 ou
eβ0+β2
eβ0= eβ2 .
Em regressao logıstica, as odds ratio sao, portanto, funcoes dos parametros do
modelo. Para modelos com somente efeitos principais, cada odds, que compoem a odds
Giolo, S. R. Analise de Dados Discretos 64
ratio, e obtida simplesmente exponenciando as estimativas dos parametros. Contudo,
diferentemente das odds ratio obtidas de tabelas 2 × 2, estas sao ajustadas para todas
as outras covariaveis no modelo.
4.5.1.1 Resultados e conclusoes obtidas para os dados do exemplo 1
As estimativas de maxima verossimilhanca do modelo apresentado em (11) e
obtidas para os dados do exemplo 1 foram: β0 = -1,1747 (s.e.= 0,4854), β1 = 1,277
(s.e.= 0,4980) e β2 = 1,0545 (s.e.= 0,4980).
A Tabela 30 apresenta as diferencas de deviances e mostra a significancia das
variaveis sexo (p = 0,00762) e ECG (p = 0,03108).
Tabela 30. Tabela de diferenca de deviances para os dados do exemplo 1.
Modelos sequenciais g.l. Deviance residual Dif. Deviance Dif. g.l. valor p
Nulo 3 11,9835
X1: sexo 2 4,8626 7,1209 1 0,00762
X2: ECG 1 0,2141 4,6485 1 0,03108
A ANODEV apresentada na Tabela 31 mostra que o modelo de regressao logıstico,
com as covariaveis sexo e ECG, apresentou uma reducao na deviance residual de 11,7694
(de um total de 11,9835) evidenciando que ambas as covariaveis estao associadas a
variavel resposta e devem, portanto, permanecer no modelo uma vez que estas explicam
grande parte da variabilidade total dos dados.
Tabela 31. Analise de deviance para os dados do exemplo 1.
Causa de variacao g.l. Deviances RV valor p
Regressao 2 11,7694 11,7694 0,00278
Resıduos 1 0,2141
Total 3 11,9835
Giolo, S. R. Analise de Dados Discretos 65
Para o modelo ajustado e expresso por:
logit(θi1(x)) = −1, 1747 + 1, 277 sexo + 1, 0545 ECG
obtiveram-se QP = 0,2155 (p = 0,6425) e QL = 0,2141 (p = 0,6436) e, sendo assim,
nao se rejeita a hipotese nula H0 de que o modelo ajustado e satisfatorio.
Os valores θi1 observados e preditos pelo modelo bem como a deviance residual e
resıduos de Pearson sao apresentados na Tabela 32. Nota-se, desses resultados, que os
resıduos apresentam-se satisfatorios, podendo-se, entao, concluir que o modelo escolhido
ajusta-se bem aos dados.
Tabela 32. Valores θi1 observados e preditos pelo modelo, deviance residual e resıduo de Pearson.
θi1 θi1 (θi1 - θi1) di = deviance res. ci = res. de Pearson
0,2666667 0,2360103 0,03065632 0.2756894 0.2796124
0,4444444 0,4699914 -0,02554693 -0.2174355 -0.2171644
0,5000000 0,5255469 -0,02554693 -0.2169146 -0.2170564
0,7777778 0,7607465 0,01703129 0.2091855 0.2074342
Tem-se, entao, que a odds ratio dos pacientes do sexo masculino versus a dos
pacientes do sexo feminino pode ser estimada, como visto anteriormente, por OR(m/f) =
e1,277 = 3,586. Homens, nesse estudo, tem, portanto, odds 3,5 vezes maior de doenca
coronaria arterial do que a odds das mulheres. De modo analogo, a odds ratio estimada
de ECG ≥ 0,1 versus a de ECG < 0,1 e de OR = e1,0545 = 2,871. Entao, pacientes com
ECG ≥ 0,1 tem odds aproximadamente 3 vezes maior de doenca coronaria arterial do
que a odds daqueles pacientes com ECG < 0,1. De um modo geral, pacientes do sexo
masculino e com ECG ≥ 0,1 sao os mais propensos a apresentaram doenca coronaria
arterial.
Intervalos de confianca para as odds ratio podem ser obtidos usando-se as pro-
priedades assintoticas de βi. Assim, por exemplo, o I.C.95% para OR(m/f) e dado por
(e(1,277−1,96∗0,498), e(1,277+1,96∗0,498)) = (1,35; 9,51). Analogamente, para a odds ratio de
ECG ≥ 0,1 versus ECG < 0,1, tem-se o intervalo, a 95% de confianca, de (1,082; 7,618).
Giolo, S. R. Analise de Dados Discretos 66
A interacao entre sexo e ECG, quando incluıda no modelo, mostrou-se nao signi-
ficativa com correspondente valor p, associado ao teste da razao de verossimilhancas,
de 0,6436.
4.5.2 Exemplo 2
Neste exemplo dados de um estudo sobre infeccoes urinarias (Koch et al., 1985),
que encontram-se apresentados na Tabela 33, serao analisados.
Tabela 33. Estudo sobre tratamento de infeccoes urinarias.
Diagnostico(x1) Tratamento (x2) Curado Nao curado Total
Infeccao complicada A 78 28 106
Infeccao complicada B 101 11 112
Infeccao complicada C 68 46 114
Infeccao nao complicada A 40 5 45
Infeccao nao complicada B 54 5 59
Infeccao nao complicada C 34 6 40
Observe que tres tratamentos foram aplicados aos pacientes que apresentaram,
no diagnostico, infeccao urinaria complicada, ou nao, de ser curada. A resposta e,
portanto, dicotomica, a covariavel diagnostico apresenta duas categorias e a covariavel
tratamento tres categorias. E importante notar que uma covariavel com L categorias
deve ser representada por (L - 1 ) parametros.
O modelo com os efeitos principais (diagnostico e tratamento) e a interacao entre
eles sera, portanto, representado matricialmente por:
logit(θ11)
logit(θ21)
logit(θ31)
logit(θ41)
logit(θ51)
logit(θ61)
=
1 1 1 0 1 0
1 1 0 1 0 1
1 1 0 0 0 0
1 0 1 0 0 0
1 0 0 1 0 0
1 0 0 0 0 0
β0
β1
β2
β3
β4
β5
Giolo, S. R. Analise de Dados Discretos 67
Uma vez que o modelo considerado e o saturado, isto e, seu numero de parametros
e igual ao numero de grupos (linhas) da tabela de dados, o teste de qualidade de ajuste
nao se aplica a este modelo porque nao existem graus de liberdade disponıveis. Ajustar
esse modelo, contudo, permite que seja determinada a existencia, ou nao, do efeito
da interacao. Na Tabela 34 e apresentado as diferencas de deviances dos modelos
sequenciais ajustados.
Tabela 34. Tabela de Diferenca de Deviances para o estudo sobre infeccoes urinarias.
Modelo g.l. Deviance Residual Diferenca Deviances Diferenca g.l.
Nulo 5 44,473
X1 4 30,628 13,844 1
X1 e X2 2 2,515 28,114 2
X1, X2 e X1 ∗ X2 0 0,000 2,515 2
Da tabela de diferenca das deviances tem-se, portanto, que o teste da RV , relativo
a hipotese nula de que a interacao e nao significativa, o que equivale a testar a hipotese
H0: β4 = β5 = 0, resultou em RV = 2,515 (p = 0,2843, g.l.= 2). Desse modo, nao ha
evidencias para a rejeicao da hipotese H0. O modelo sem a interacao entre diagnostico
e tratamento sera, entao, a seguir analisado.
Para saber se ha, ou nao, efeito da covariavel tratamento, o que equivale a testar
a hipotese nula H0: β2 = β3 = 0, usou-se, novamente, o teste da RV obtendo-se
RV = 28,114 (p = 7,85e-07, g.l. = 2). A conclusao e, portanto, de que ha evidencias
de efeito dos tratamentos. Analogamente obteve-se, para o teste do efeito da covariavel
diagnostico (H0: β1 = 0), RV = 13,844 (p = 0,000198, g.l.= 1) concluindo-se, tambem,
haver evidencias de efeito do diagnostico.
O modelo a ser ajustado sera, portanto, aquele que considera os efeitos principais
de diagnostico e tratamento. Os respectivos parametros estimados, para este modelo,
encontram-se apresentados na Tabela 35.
Giolo, S. R. Analise de Dados Discretos 68
Tabela 35. Estimativas dos parametros obtidas para o modelo ajustado.
Parametros Estimativas e.p.
β0: intercepto 1,4184 0,2986
β1: diag = infeccao complicada -0,9616 0,2997
β2: tratamento A 0,5847 0,2641
β3: tratamento B 1,5608 0,3158
A ANODEV para esse modelo encontra-se na Tabela 36 e, desta tabela, pode-se
observar que as covariaveis diagnostico e tratamento sao altamente associadas a variavel
resposta (cura, ou nao, da infeccao urinaria).
Tabela 36. Analise de deviance para os dados do exemplo 2.
Causa de variacao g.l. Deviances RV valor p
Regressao 3 41,958 41,958 4.09e-09
Resıduos 2 2,515
Total 5 44,473
As estatısticas de qualidade de ajuste do modelo considerado resultaram em
QL = 2,515 (p = 0,2844, g.l. = 2) e QP = 2,7574 (p = 0,2519 g.l. = 2) fornecendo,
assim, evidencias de que o modelo apresenta ajuste satisfatorio aos dados. Ainda, dos
valores observados e preditos pelo modelo bem como da deviance residual e dos resıduos
de Pearson, apresentados na Tabela 37, nota-se que os resıduos apresentaram-se satis-
fatorios, podendo-se, desse modo, concluir que o modelo escolhido, e expresso por:
logit(θi1) = 1, 4184 − 0, 9616 diag + 0, 5847 tratA + 1, 5608 tratB
em que diag = 1 se infeccao urinaria foi diagnosticada como complicada e 0 em caso
contrario, tratA = 1 e tratB = 0 se o tratamento A foi utilizado, tratA = 0 e tratB = 1
se o tratamento B foi utilizado e tratA = tratB = 0 se o tratamento C foi utilizado,
ajusta-se bem aos dados.
Giolo, S. R. Analise de Dados Discretos 69
Tabela 37. Valores observados e preditos, deviance residual e resıduo de Pearson.
θi1 θi1 di = deviance res. ci = res. de Pearson
0,7358491 0,7391443 -0,07715904 -0,07726359
0,9017857 0,8826267 0,64598342 0,62995503
0,5964912 0,6122501 -0,34450962 -0,34533240
0,8888889 0,8811267 0,16244931 0,16088958
0,9152542 0,9516237 -1,18234402 -1,30201030
0,8500000 0,8050871 0,74055971 0,71706568
Do modelo ajustado pode-se, entao, obter as odds, apresentadas na Tabela 48,
para que se possa tirar algumas conclusoes de interesse do pesquisador.
Tabela 38. Logitos e odds obtidos a partir do modelo de regressao logıstico ajustado.
diagnostico tratamento logito odds de cura
inf. complicada A β0 + β1 + β2 = 1,0415 e1,0415 = 2,8335
inf. complicada B β0 + β1 + β3 = 2,0175 e2,0175 = 7,5198
inf. complicada C β0 + β1 = 0,4567 e0,4567 = 1,5789
inf. nao complicada A β0 + β2 = 2,0031 e2,0031 = 7,4123
inf. nao complicada B β0 + β3 = 2,9791 e2,9791 = 19,671
inf. nao complicada C β0 = 1,4184 e1,4184 = 4,1305
Pela Tabela 48 tem-se, por exemplo, que a odds ratio de diagnostico de infeccao
complicada versus a de infeccao nao complicada e de OR = eβ1 = 0,3822 e, portanto, a
odds de cura, se a infeccao for diagnosticada como nao complicada, e de (1/0,3822) = 2,6
vezes maior do que a odds de cura no caso de infeccoes diagnosticadas como complicadas.
Ainda, a odds de ser curado com o tratamento A, quando comparado ao tratamento C, e
de eβ2 = 1,79 vezes maior bem como, a odds de ser curado com o tratamento B, quando
comparado ao tratamento C, e de eβ3 = 4,76 vezes maior. De modo analogo, tem-se que
a odds de cura com o tratamento B, comparado ao tratamento A, e de eβ3−β2 = 2,65
vezes maior.
Giolo, S. R. Analise de Dados Discretos 70
4.5.3 Exemplo 3
Neste exemplo serao analisados os dados apresentados na Tabela 39 referente a
um estudo sobre doenca coronaria, similar ao analisado previamente no exemplo 1,
considerando-se, no entanto, alem das covariaveis sexo e eletrocardiograma (ECG), a
covariavel idade (em anos). Ainda, a covariavel ECG e considerada, nesse estudo, em
tres categorias: < 0,1, [0,1; 0,2) e ≥ 0,2 e foi considerada nos modelos como uma
variavel ordinal em que foram assumidos, para as categorias citadas, os escores 0, 1 e
2, respectivamente.
Tabela 39. Dados de pacientes observados em um estudo sobre doenca coronaria.
sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc sexo ECG idade dc
0 0 28 0 1 0 42 1 0 1 46 0 1 1 45 0
0 0 34 0 1 0 44 1 0 1 48 1 1 1 45 1
0 0 38 0 1 0 45 0 0 1 49 0 1 1 45 1
0 0 41 1 1 0 46 0 0 1 49 0 1 1 46 1
0 0 44 0 1 0 48 0 0 1 52 0 1 1 48 1
0 0 45 1 1 0 50 0 0 1 53 1 1 1 57 1
0 0 46 0 1 0 52 1 0 1 54 1 1 1 57 1
0 0 47 0 1 0 52 1 0 1 55 0 1 1 59 1
0 0 50 0 1 0 54 0 0 1 57 1 1 1 60 1
0 0 51 0 1 0 55 0 0 2 46 1 1 1 63 1
0 0 51 0 1 0 59 1 0 2 48 0 1 2 35 0
0 0 53 0 1 0 59 1 0 2 57 1 1 2 37 1
0 0 55 1 1 1 32 0 0 2 60 1 1 2 43 1
0 0 59 0 1 1 37 0 1 0 30 0 1 2 47 1
0 0 60 1 1 1 38 1 1 0 34 0 1 2 48 1
0 1 32 1 1 1 38 1 1 0 36 1 1 2 49 0
0 1 33 0 1 1 42 1 1 0 38 1 1 2 58 1
0 1 35 0 1 1 43 0 1 0 39 0 1 2 59 1
0 1 39 0 1 1 43 1 1 0 42 0 1 2 60 1
0 1 40 0 1 1 44 1
sexo = 0 se feminino e sexo = 1 se masculino; ECG = 0 se < 0,1, ECG = 1 se ∈ [0, 1; 0, 2) e ECG = 2 se ≥ 0,2;
dc = 1 se doenca coronaria presente e dc = 0 em caso contrario.
Observe que diversos valores da covariavel idade sao unicos o que implica que, na
construcao de uma tabela de contingencia considerando-se as 3 covariaveis, existirao
diversas caselas com somente uma observacao. Isso significa que o tamanho amostral
requerido pelas estatısticas de teste QL e QP nao serao atendidos e nao poderao, desse
modo, serem calculadas. Este fato e muito comum quando se tem a presenca de co-
variaveis contınuas. Para esses casos, estrategias alternativas encontram-se disponıveis.
Um modelo de interesse para os dados apresentados e aquele com os termos sexo,
Giolo, S. R. Analise de Dados Discretos 71
ECG e idade e, possivelmente, as interacoes entre eles. Um cuidado que se deve ter,
no entanto, e quanto ao numero de parametros envolvidos. Alguns analistas sugerem
que haja pelo menos 5 observacoes, da resposta que ocorre com menor frequencia, para
cada parametro sendo considerado. Nesse estudo tem-se 37 indivıduos que apresentaram
resposta nao e 41 que apresentaram resposta sim. Assim, tem-se 37/5 = 7,4 o que sugere
que em torno de 7 a 8 parametros podem ser considerados.
Na Tabela 40 e apresentado as diferencas de deviances dos modelos sequenciais
ajustados para os dados do estudo descrito.
Tabela 40. Tabela das diferencas de deviances dos modelos de regressao logıstica sequencias
ajustados ao estudo sobre doencas coronarias.
Modelo g.l. Deviance Residual Diferenca Deviances Diferenca g.l.
Nulo 77 107,926
X1 76 101,840 6,086 1
X1 e X2 75 95,080 6,760 1
X1, X2 e X3 74 86,811 8,626 1
X1, X2, X3 + int. duplas 71 85,522 1,289 3
X1, X2, X3 + int. duplas e tripla 70 85,414 0,108 1
X1 = sexo; X2 = ECG e X3 = idade.
Pela tabela de diferenca das deviances tem-se, portanto, que o teste da RV , rela-
tivo a hipotese nula de que a interacao tripla e nao significativa, o que equivale a testar
a hipotese H0: β7 = 0, resultou em RV = 0,108 (p = 0,7424, g.l.= 1). Desse modo,
nao ha evidencias para a rejeicao da hipotese H0. De modo analogo, para o teste da
hipotese nula H0: β4 = β5 = β6 = 0 (interacoes duplas) tem-se RV = 1,289 (p =
0,7317, g.l. = 3) e, assim, nao ha evidencias para a rejeicao da hipotese nula. Como ha
evidencias de que as interacoes tripla e duplas nao sao necessarias no modelo, testou-se
as hipoteses:
a) H0: β3 = 0 em que RV = 8,626 (p = 0,0033, g.l.= 1)
b) H0: β2 = 0 em que RV = 6,760 (p = 0,0093, g.l.= 1)
c) H0: β1 = 0 em que RV = 6,086 (p = 0,0136, g.l.= 1)
Giolo, S. R. Analise de Dados Discretos 72
concluindo-se, portanto, haver evidencias para rejeitar as tres hipoteses nulas testadas.
O modelo a ser ajustado sera, portanto, aquele que considera os efeitos princi-
pais de sexo, ECG e idade. Os respectivos parametros estimados, para este modelo,
encontram-se apresentados na Tabela 41.
Tabela 41. Estimativas dos parametros do modelo ajustado.
Parametros Estimativas e.p.
β0: intercepto -5,6417 1,8026
β1: sexo = masculino 1,3564 0,5458
β2: ECG 0,8732 0,3839
β3: idade 0,0928 0,0350
O modelo estimado ficou expresso, portanto, por:
logit(θi1) = −5, 6417 + 1, 3564 sexo + 0, 8732 ECG + 0, 0928 idade.
Para avaliar a qualidade do modelo ajustado, na presenca de variaveis contınuas,
Hosmer e Lemeshow (1989) propuseram uma estatıstica, denotada aqui por QHL, que
considera as contagens esperadas e observadas, para as respostas dc = 1 e dc = 0, em
cada decil das probabilidades preditas. Para esse estudo, tal estatıstica resultou em
4,776 (p = 0,7812, g.l. = 8 (# decis -2)). E possıvel, desse modo, concluir que o modelo
considerado ajusta-se satisfatoriamente aos dados. Os resıduos (deviance e de Pearson)
apresentaram-se, tambem, satisfatorios como pode ser observado na Figura 4.
0 20 40 60 80
−2−1
01
2
Index
resi
duos
de
Pea
rson
0 20 40 60 80
−2−1
01
2
Index
devi
ance
resi
dual
Figura 4: Resıduos de Pearson e deviance residual.
Giolo, S. R. Analise de Dados Discretos 73
A odds ratio para sexo, ajustado para ECG e idade, e, nesse estudo, estimada
por OR = e1,3564 = 3,882. Assim, a odds de doenca coronaria dos pacientes do sexo
masculino e de 3,882 vezes maior do que a odds de doenca coronaria dos pacientes do
sexo feminino. De modo analogo, a odds ratio para ECG, ajustado para sexo e idade,
e estimada por OR = e0,8732 = 2,395. Isto significa que a odds de doenca coronaria de
pacientes com ECG = 1 e 2,395 vezes maior do que a odds daqueles com ECG = 0 bem
como que, a odds dos pacientes com ECG = 2 e de 2,395 vezes maior do que a odds dos
pacientes com ECG = 1. Ainda, a odds ratio para a idade, ajustado para sexo e ECG,
dada por OR = e0,0929 = 1,097 significa que a odds de doenca coronaria de um paciente
com x+1 anos e 1,097 vezes maior do que a odds de um paciente com x anos. Para, por
exemplo, dois pacientes do mesmo sexo e mesmo ECG, mas em que um deles tenha 30
anos e outro 40, tem-se OR = e0,0929∗(40−30) = 2,53, ou seja, a odds de doenca coronaria
do paciente com 40 anos e de 2,53 vezes maior do que a odds do paciente com 30 anos.
De um modo geral pode-se concluir, desse estudo, que a presenca de doenca
coronaria encontra-se positivamente associada com a idade e com o resultado do ECG
bem como que, os pacientes do sexo masculino sao mais propensos a apresenta-la.
4.5.4 Metodos auxiliares no diagnotico do modelo ajustado
4.5.4.1 QQplot com envelope simulado
No caso em que a variavel resposta e assumida ser normalmente distribuıda, e
comum que afastamentos serios da distribuicao Normal sejam verificados por meio do
grafico de probabilidades Normal dos resıduos. No contexto de modelos lineares gene-
ralizados, em que distribuicoes diferentes da Normal sao tambem consideradas, graficos
similares com envelopes simulados podem ser tambem construıdos com os resıduos ge-
rados a partir do modelo ajustado. A inclusao do envelope simulado no QQplot auxilia
a decidir se o pontos diferem significativamente de uma linha reta (Atkinson, 1985).
Paula (2000) apresenta codigos em linguagem Splus, que podem ser utilizados no pa-
cote estatıstico R, para gerar tais graficos em: regressao gama, logıstica, Poisson e
Binomial Negativa, alem da Normal. Para que o modelo ajustado seja considerado
Giolo, S. R. Analise de Dados Discretos 74
satisfatorio, faz-se necessario que as deviances residuais caiam dentro do envelope si-
mulado. Para os dados desse exemplo, o QQplot obtido encontra-se apresentado na
Figura 5. Desta figura e possıvel observar que nao ocorreram afastamentos serios da
distribuicao Binomial para a variavel resposta uma vez que as deviances encontram-se
dentro do envelope.
−2 −1 0 1 2
−2−1
01
2
Normal Q−Q Plot
Percentis
Dev
ianc
eNormal Q−Q PlotNormal Q−Q PlotNormal Q−Q Plot
Figura 5: QQplot com envelope simulado para os dados do exemplo 3.
4.5.4.2 Poder preditivo do modelo e outras medidas auxiliares
O poder preditivo do modelo pode, ainda, ser obtido com a finalidade de avaliar
a qualidade do modelo ajustado. Para isso, faz-se necessario estabelecer uma probabi-
lidade, denominada “ponto de corte”, a partir da qual se estabeleca que:
- a variavel resposta receba o valor 1, isto e, Y = 1 para probabilidades estimadas
pelo modelo maiores ou iguais a esse ponto de corte e, ainda, que
- a variavel resposta receba o valor 0, isto e, Y = 0 para probabilidades estimadas
pelo modelo menores do que esse ponto de corte.
Giolo, S. R. Analise de Dados Discretos 75
Estabelecendo o ponte de corte pc = 0.50 obteve-se para os dados do exemplo 3,
os resultados apresentados na Tabela 42. Desta tabela tem-se que:
a) valor preditivo do modelo = 31+2578
= 0, 7179
b) valor preditivo + = 3143
= 0, 7209 e valor preditivo - = 2535
= 0, 7143
c) falsos positivos = 1237
= 0, 3243 e falsos negativos = 1041
= 0, 2439
d) sensibilidade do modelo = 3141
= 0, 7561
e) especificidade do modelo = 2537
= 0, 6757
Tabela 42. Classificacoes pelo modelo para pc = 0.5 vs. observado.
Classificado pelo modelo
Observado dc = 1 (+) dc = 0 (-) Totais
dc = 1 (+) 31 10 41
dc = 0 (-) 12 25 37
Totais 43 35 78
De um modo geral, e dos resultados apresentados, pode-se concluir que o modelo
ajustado apresenta-se satisfatorio.
5 REGRESSAO LOGISTICA POLITOMICA
A regressao logıstica tambem se aplica, como mencionado no capıtulo anterior, a
situacoes em que a variavel resposta apresenta mais do que duas categorias (respostas
politomicas), podendo, as categorias, serem ordinais ou nominais.
5.1 Resposta ordinal: modelo de odds proporcionais
Para tratar a situacao em que a resposta e ordinal, considere os dados apresentados
na Tabela 43 em que pacientes do sexo feminino e masculino receberam o tratamento
A, ou um placebo, para suas dores de artrite. A resposta, nesse estudo, foi a o grau de
melhora das dores: nenhuma, alguma e melhora acentuada.
Tabela 43. Dados sobre tratamentos para artrite
Grau de melhora
Sexo Tratamento Acentuada Alguma Nenhuma Totais
F A 16 5 6 27
F Placebo 6 7 19 32
M A 5 2 7 14
M Placebo 1 0 10 11
Uma possıvel estrategia de analise desses dados seria criar uma variavel resposta
dicotomica combinando duas das categorias de respostas. Contudo, visto que existe
uma ordem natural das categorias de resposta, faz sentido considerar uma estrategia
que leve em conta essa ordenacao. Considere, desse modo, as quantidades:
θhi1 = πhi1 e θhi2 = πhi1 + πhi2
Giolo, S. R. Analise de Dados Discretos 77
em que πhi1 denota a probabilidade de melhora acentuada, πhi2 a probabilidade de
alguma melhora e πhi3 a probabilidade de nenhuma melhora (h = 1 para sexo feminino,
h = 2 para sexo masculino, i = 1 para tratamento A e i = 2 para placebo). Assim, θhi1
e a probabilidade de melhora acentuada e θhi2 e a probabilidade de melhora acentuada
ou alguma melhora, ou seja, e uma probabilidade acumulada.
Para uma resposta dicotomica foi visto que, uma unica funcao logito e considerada
para cada subpopulacao (cada linha da tabela de contingencia). Ja para uma resposta
ordinal com L > 2 categorias, L − 1 logitos cumulativos, baseados nas probabilidades
acumuladas, sao considerados para cada subpopulacao. Para tres categorias de resposta,
como e o caso do exemplo apresentado na Tabela 43, os dois logitos cumulativos sao
expressos por:
logit(θhi1) = log
[
πhi1
πhi2 + πhi3
]
e logit(θhi2) = log
[
πhi1 + πhi2
πhi3
]
.
Esses logitos sao, respectivamente, o log(odds) de melhora acentuada para alguma
ou nenhuma melhora e o log(odds) de melhora acentuada ou alguma melhora para
nenhuma melhora. O modelo de odds proporcionais leva em consideracao ambas as
odds citadas.
Assumindo-se que os totais marginais nhi+ sao fixos, tem-se, associado a cada
subpopulacao (cada linha da tabela de contingencia), a distribuicao multinomial em
que∑3
j=1 πhij = 1. Um modelo, que se aplica a ambos os logitos simultaneamente, para
cada combinacao de sexo e tratamento, poderia, entao, ser escrito por:
logit(θhik) = β0k + β′kxhi
em que k = 1, 2 indexa os dois logitos. Nesse modelo, os interceptos sao distintos bem
como existem diferentes conjuntos de parametros de regressao para cada logito.
Com a suposicao de odds proporcionais tem-se que βk = β para todo k, simpli-
cando, assim, o modelo para:
logit(θhik) = β0k + β′xhi
Giolo, S. R. Analise de Dados Discretos 78
que tambem pode ser expresso por:
θhik =exp
{
β0k + β′xhi
}
1 + exp{
β0k + β′xhi
} =exp
{
β0k +∑p
g=1 xhig
}
1 + exp{
β0k +∑p
g=1 xhig
}
em que g = 1, ..., p refere-se as covariaveis. Esse modelo e similar ao modelo de regressao
logıstica dicotomico e e tambem ajustado por metodos de maxima verossimilhanca.
Os valores para πhij podem, usando-se esse modelo, ser determinados por meio
das apropriadas subtracoes de θhik, ou seja:
πhi1 = θhi1
πhi2 = θhi2 − θhi1
πhi3 = 1 − θhi2.
5.1.1 Regressao logıstica politomica ajustada aos dados sobre artrite
Sob a suposicao de odds proporcionais, o modelo de efeitos principais e um apro-
priado ponto de partida para a analise dos dados sobre artrite e, este modelo, em
notacao matricial, e expresso por:
logit(θ111)
logit(θ112)
logit(θ121)
logit(θ122)
logit(θ211)
logit(θ212)
logit(θ221)
logit(θ222)
=
β01 + β1 + β2
β02 + β1 + β2
β01 + β1
β02 + β1
β01 + β2
β02 + β2
β01
β02
=
1 0 1 1
0 1 1 1
1 0 1 0
0 1 1 0
1 0 0 1
0 1 0 1
1 0 0 0
0 1 0 0
β01
β02
β1
β2
Esse modelo e muito similar aos modelos descritos anteriormente, exceto pela
existencia de dois parametros de intercepto, correspondendo as duas funcoes logito
sendo modeladas para cada subpopulacao. O parametro β01 e o intercepto do primeiro
logito cumulativo e o parametro β02 e o intercepto do segundo logito cumulativo, β1 e
Giolo, S. R. Analise de Dados Discretos 79
o efeito (incremento) do sexo feminino e β2 e o efeito (incremento) do tratamento A.
Sexo masculino e o placebo compreendem a casela de referencia.
Na Tabela 44 sao apresentadas as diferencas de deviances dos modelos sequenciais
ajustados, podendo-se observar, desta tabela, que a interacao entre sexo e tratamento
e nao significativa uma vez que RV = 0,3084 (p = 0,5786, g.l. = 1). Ja para os efeitos
principais de sexo e tratamento obtiveram-se RV = 3,8053 (p = 0,051) e RV = 16,0812
(p = 6,06e−7), respectivamente, podendo-se, desse modo, concluir que ambos os efeitos
sao significativos e devem, portanto, permanecer no modelo.
Tabela 44. Tabela de Diferenca de Deviances para os dados sobre artrite.
Modelo Deviance Residual Diferenca Deviances Diferenca g.l.
Nulo 169,9159
X1 166,1106 3,8053 1
X1 e X2 150,0294 16,0812 1
X1, X2 e X1 ∗ X2 149,7210 0,3084 1
X1 = sexo, X2 = tratamento
Os respectivos parametros estimados, para o modelo com as covariaveis sexo e
tratamento, encontram-se apresentados na Tabela 45.
Tabela 45. Estimativas dos parametros obtidas para o modelo ajustado.
Parametros Estimativas e.p.
β01: intercepto 1 -2,6672 0,6065
β02: intercepto 2 -1,8128 0,5654
β1: sexo feminino 1,3187 0,5381
β2: tratamento A 1,7973 0,4718
A avaliacao da qualidade de ajuste do modelo de odds proporcionais e similar
a realizada para o modelo de regressao logıstica dicotomica. Se pelo menos 80% das
contagens observadas nas caselas for 5, entao pode-se usar as estatısticas QL e QP
Giolo, S. R. Analise de Dados Discretos 80
as quais, sob H0, tem distribuicao Qui-Quadrado com ((r − 1)(s − 1) − p) g.l. em
que r = numero de categorias da variavel resposta, s = numero de subpopulacoes e
p e o numero de covariaveis. Para os dados desse exemplo obtiveram-se QL = 2,7121
(p = 0,6071, g.l. = 4) e QP = 1,9099 (p = 0,7523, g.l. = 4) e, desse modo, conclui-se
que o modelo ajusta-se satisfatoriamente aos dados. O modelo ajustado e, portanto,
expresso por:
logit(θhik) = β0k + 1, 3187 sexo + 1, 7973 tratamento
ou, ainda,
θhik =exp
{
β0k + 1, 3187 sexo + 1, 7973 tratamento}
1 + exp{
β0k + 1, 3187 sexo + 1, 7973 tratamento} , k = 1, 2.
As probabilidades cumulativas preditas por tal modelo e, consequentemente, as
probabilidades nao-cumulativas, encontram-se apresentadas na Tabela 46.
Tabela 46. Probabilidades cumulativas (θhik) e nao-cumulativas (πhij) preditas pelo modelo.
Sexo Tratamento θhi1 θhi2 πhi1 = θhi1 πhi2 = θhi2 - θhi1 πhi3 = 1 - θhi2
F A 0,6104 0,7864 0,6104 0,1760 0,2136
F Placebo 0,2061 0,3789 0,2061 0,1728 0,6211
M A 0,2953 0,4961 0,2953 0,2008 0,5039
M Placebo 0,0649 0,1403 0,0649 0,0754 0,8597
Note, ainda, que as probabilidades observadas e preditas pelo modelo, apresen-
tadas na Tabela 5.1.1, encontram-se bastante proximas umas das outras indicando que
o modelo ajustado apresenta-se satisfatorio.
As odds ratio sao, tambem, obtidas de modo similar a regressao logıstica di-
cotomica. Na Tabela 48 sao apresentadas as odds para o modelo de odds proporcionais
ajustado. Desta tabela, pode-se, por exemplo, observar que a odds de melhora acen-
tuada versus alguma ou nenhuma melhora para pacientes do sexo feminino comparada
com a odds dos pacientes do sexo masculino e de OR = exp(β01+β1+β2)exp(β01+β2)
= exp(β01+β1)exp(β01)
=
Giolo, S. R. Analise de Dados Discretos 81
Tabela 47. Probabilidades observadas e preditas pelo modelo.
observadas preditas (observadas - preditas)
0.5925926 0.61036848 -0.017775889
0.1851852 0.17601388 0.009171310
0.2222222 0.21361764 0.008604579
0.1875000 0.20612474 -0.018624743
0.2187500 0.17281504 0.045934963
0.5937500 0.62106022 -0.027310220
0.3571429 0.29527688 0.061865982
0.1428571 0.20084884 -0.057991694
0.5000000 0.50387429 -0.003874287
0.0909091 0.06493692 0.025972174
0.0000000 0.07536270 -0.075362704
0.9090909 0.85970038 0.049390531
exp(β1). Assim, pacientes do sexo feminino tem odds e1,3187 = 3, 738 vezes maior de
mostrar melhora acentuada do que pacientes do sexo masculino. Ainda, pacientes re-
cebendo o tratamento A tem odds eβ2 = e1,8128 = 6,13 vezes maior de mostrar melhora
acentuada do que os pacientes recebendo placebo e, pela suposicao de odds propor-
cionais assumida para o modelo ajustado, esta e tambem a odds ratio para melhora
acentuada ou alguma melhora versus nenhuma melhora.
Tabela 48. Formulas das odds obtidas para o modelo de odds proporcionais ajustado.
Melhora acentuada versus Melhora acentuada ou alguma
Sexo Tratamento alguma ou nenhuma versus nenhuma
F A exp{β01 + β1 + β2} exp{β02 + β1 + β2}F Placebo exp{β01 + β1} exp{β02 + β1}M A exp{β01 + β2} exp{β02 + β2}M Placebo exp{β01} exp{β02}
Observe que a suposicao de odds proporcionais e necessaria para o uso do modelo
aqui apresentado. Assim, a hipotese de que existe um vetor comum de β, em vez de
distintos βk, deve ser testada, isto e, deve-se testar a hipotese nula H0: βk = β. Se esta
hipotese for rejeitada, uma outra abordagem deve ser considerada. Uma abordagem
Giolo, S. R. Analise de Dados Discretos 82
sugerida, nesses casos, e considerar os dados como nominais e, entao, ajustar um modelo
para os logitos generalizados (tratado na proxima secao).
Para o exemplo considerado, o teste da hipotese nula citada resultou em
QRS = 1,8833 (p = 0,39, g.l. = ((r − 1)(s − 1) − p) = 2), concluindo-se, portanto,
que a suposicao de odds proporcionais e razoavel para esses dados.
5.2 Resposta nominal: modelo de logitos generalizados
Um modelo de regressao logıstica tambem pode ser usado para modelar os dados
quando a variavel resposta for nominal. Nesses casos, contudo, ajusta-se um modelo
para os logitos generalizados e nao para os logitos cumulativos.
Para tratar este modelo, considere os dados apresentados na Tabela 49 referente
a um estudo realizado com criancas para determinar qual programa de aprendizado
elas preferem bem como se, tal preferencia, estaria associada com a escola e o perıodo
escolar (padrao ou com atividades em tempo integral).
Tabela 49. Dados sobre programa escolar.
Preferencia aprendizado
Escola Perıodo Individual Grupo Sala Aula Totais
1 Padrao 10 17 26 53
1 Integral 5 12 50 67
2 Padrao 21 17 26 64
2 Integral 16 12 36 64
3 Padrao 15 15 16 46
3 Integral 12 12 20 44
Uma vez que as categorias da variavel resposta nao apresentam uma ordenacao,
o modelo de odds proporcionais nao e apropriado. Assim, o logito generalizado, usado
nessas situacoes, e definido como:
logithij = log
[
πhij
πhir
]
Giolo, S. R. Analise de Dados Discretos 83
para j = 1, 2, · · · , (r − 1). Cada logito e, portanto, formado com a probabilidade de
cada categoria sobre a ultima categoria de resposta. Os logitos generalizados para uma
resposta com tres categorias, como e o caso do exemplo sobre o programa escolar, sao
expressos, portanto, por:
logithi1 = log
[
πhi1
πhi3
]
, logithi2 = log
[
πhi2
πhi3
]
para h = 1, 2, 3 (escolas) e i = 1, 2 (perıodos padrao e integral, respectivamente).
Desse modo, o modelo a ser ajustado para os logitos generalizados e expresso por:
logithij = β0k + β′kxhi
em que k indexa os 2 logitos. Note que para cada logito desse modelo, existem diferentes
interceptos e diferentes conjuntos dos parametros de regressao βk. Assim, enquanto
para o modelo de odds proporcionais estimam-se multiplos parametros de interceptos
para os logitos cumulativos mas um unico conjunto de parametros correspondendo as
covariaveis, para o modelo de logitos generalizados estimam-se multiplos conjuntos de
parametros tanto para o intercepto quanto para as covariaveis.
Como multiplas funcoes resposta (logitos) estao sendo modeladas para cada sub-
populacao (cada linha da tabela de contingencia), existe um numero maior de graus
de liberdade associados a cada efeito. A forma matricial do modelo e, tambem, um
tanto mais complicada devido a necessidade de se levar em consideracao tais funcoes
multiplas. Contudo, o procedimento de modelagem e o usual, isto e, ajusta-se o modelo,
examinam-se as estatısticas de qualidade de ajuste do modelo ajustado e, se necessario,
reduz-se o modelo. Note que, como mais de um logito esta sendo predito por subpo-
pulacao, o tamanho amostral necessita ser grande o suficiente para acomodar o numero
de logitos sendo modelados. Problemas de estimacao dos parametros serao certamente
encontrados em situacoes em que nao existem dados suficientes para justificar a analise
de logitos generalizados. Em tais situacoes, simplificar a estrutura da variavel resposta
para uma razoavel resposta dicotomica e proceder a uma analise de regressao logıstica
dicotomica pode ser uma alternativa plausıvel.
Giolo, S. R. Analise de Dados Discretos 84
5.2.1 Logitos generalizados ajustados aos dados do programa escolar
Os logitos generalizados, nesse exemplo, serao construıdos considerando-se a pro-
babilidade de preferencia de aprendizado individual com respeito ao aprendizado em
sala de aula (πhi1/πhi3) e a probabilidade de preferencia de aprendizado em grupo com
respeito ao aprendizado em sala de aula (πhi2/πhi3).
Na Tabela 50 sao apresentadas as diferencas de deviances dos modelos sequenciais
ajustados, podendo-se observar, desta tabela, que a interacao entre escola e perıodo e
nao significativa uma vez que RV = 1,7776 (p = 0,78, g.l. = 4). Ja para os efeitos
principais de escola e perıodo obtiveram-se RV = 17,3765 (p = 0,0016, g.l. = 4 ) e
RV = 11,094 (p = 0,0039, g.l.= 2 ), respectivamente, podendo-se, desse modo, concluir
que ambos os efeitos sao significativos e devem, portanto, permanecer no modelo.
Tabela 50. Tabela de Diferenca de Deviances para os dados do programa escolar.
Modelo g.l. Deviance Residual Diferenca Deviances Diferenca g.l.
Nulo 2 695,4043
X1 6 678,0278 17,3765 (6-2) = 4
X1 e X2 8 666,9338 11,0940 (8-6) = 2
X1, X2 e X1 ∗ X2 12 665,1562 1,7776 (12-8) = 4
X1 = escola, X2 = perıodo
Note que os graus de liberdade para modelar dois logitos sao duas vezes os graus de
liberdade esperados ao modelar-se um unico logito. Isso ocorre porque simultaneamente
sao modeladas duas funcoes resposta (logitos) em vez de uma e, consequentemente, o
numero de parametros a serem estimados sao duplicados. Assim, em um modelo de
logitos generalizados, os graus de liberdade associados aos efeitos sao determinados
multiplicando-se por (r -1) o numero de graus de liberdade esperado para modelar um
logito, sendo r o numero de categorias da variavel resposta.
Como a interacao apresentou-se nao significativa, o modelo de efeitos principais,
Giolo, S. R. Analise de Dados Discretos 85
em notacao matricial, fica expresso por:
logit111
logit112
logit121
logit122
logit211
logit212
logit221
logit222
logit311
logit312
logit321
logit322
=
1 0 1 0 0 0 1 0
0 1 0 1 0 0 0 1
1 0 1 0 0 0 −1 0
0 1 0 1 0 0 0 −1
1 0 0 0 1 0 1 0
0 1 0 0 0 1 0 1
1 0 0 0 1 0 −1 0
0 1 0 0 0 1 0 −1
1 0 −1 0 −1 0 1 0
0 1 0 −1 0 −1 0 1
1 0 −1 0 −1 0 −1 0
0 1 0 −1 0 −1 0 −1
β01
β02
β11
β12
β21
β22
β31
β32
Observe, na representacao matricial do modelo, que as linhas ımpares correspon-
dem ao primeiro logito e as linhas pares ao segundo logito. Similarmente, as colunas
ımpares correspondem aos parametros do primeiro logito e as pares aos do segundo lo-
gito. As estimativas dos parametros correspondente ao modelo ajustado encontram-se
apresentadas na Tabela 51 e, na Tabela 52, estes sao apresentados de acordo ao logito
a que se referem.
Tabela 51. Estimativas dos parametros do modelo ajustado.
Erro Chi-
Efeito Parametro Estimativa Padrao Quadrado valor p
Intercepto β01 -0,7979 0,1465 29,65 < 0, 0001
β02 -0,6589 0,1367 23,23 < 0, 0001
escola β11 -0,7992 0,2198 13,22 0,0003
β12 -0,2786 0,1867 2,23 0,1356
β21 0,2836 0,1899 2,23 0,1352
β22 -0,0985 0,1892 0,27 0,6028
perıodo β31 0,3737 0,1410 7,03 0,0080
β32 0,3713 0,1353 7,53 0,0061
Giolo, S. R. Analise de Dados Discretos 86
Tabela 52. Estimativas dos parametros do modelo ajustado por logito.
logito(indiv./sala aula) logito(grupo/sala de aula)
Covariavel Coeficiente e.p. Coeficiente e.p.
Intercepto -0,7979 0,1465 -0,6589 0,1367
Escola 1 -0,7992 0,2198 -0,2786 0,1867
Escola 2 0,2836 0,1899 -0,0985 0,1892
Perıodo 0,3737 0,1410 0,3713 0,1353
Pela Tabela 52 e possıvel observar que a escola 1 apresenta o maior efeito dentre
as escolas, particularmente para o logito comparando aprendizado individual ao apren-
dizado em sala de aula. O perıodo escolar apresenta efeitos similares em ambos os
logitos.
As odds ratios tambem podem ser usadas nos modelos de logitos generalizados para
facilitar a interpretacao do modelo. Para o modelo considerado, as odds encontram-se
apresentadas na Tabela 53.
Tabela 53. Odds preditas pelo modelo de logitos generalizados.
Odds
Escola Perıodo Individual/Sala aula Grupo/Sala aula
1 Padrao eβ01+β11+β31 eβ02+β12+β32
1 Integral eβ01+β11−β31 eβ02+β12−β32
2 Padrao eβ01+β21+β31 eβ02+β22+β32
2 Integral eβ01+β21−β31 eβ02+β22−β32
3 Padrao eβ01−β11−β21+β31 eβ02−β12−β22+β32
3 Integral eβ01−β11−β21−β31 eβ02−β12−β22−β32
As odds ratio de aprendizado individual, em relacao ao aprendizado em sala de
aula, de interesse sao:
i) entre perıodos: ORP/I =eβ01+β11+β31
eβ01+β11−β31= e2∗β31 = 2,11
Giolo, S. R. Analise de Dados Discretos 87
ii) entre escolas: OR2/1 =eβ01+β21+β31
eβ01+β11+β31= eβ21−β11 = 2,95
OR3/1 =eβ01−β11−β21+β31
eβ01+β11+β31= e−2∗β11−β21 = 3,72
OR3/2 =eβ01−β11−β21+β31
eβ01+β21+β31= e−2∗β21−β11 = 1,26
Assim, a odds de preferencia pelo aprendizado individual sobre a de aprendizado
em sala de aula foi de 2,11 vezes maior nas escolas com perıodo escolar padrao do que
nas escolas com perıodo escolar integral. Ainda, por exemplo, os alunos da escola 2, em
relacao aos da escola 1, preferem o aprendizado individual ao em sala de aula sendo,
esta preferencia, 2,95 vezes maior entre os alunos da escola 2 do que entre os alunos da
escola 1.
De modo analogo tem-se que as odds ratio de aprendizado em grupo, em relacao
ao aprendizado em sala de aula, sao:
i) entre perıodos: ORP/I =eβ02+β12+β32
eβ02+β12−β32= e2∗β32 = e2∗0,3713 = 2,10
ii) entre escolas: OR2/1 =eβ02+β22+β32
eβ02+β12+β32= eβ22−β12 = 1,19
OR3/1 =eβ02−β12−β22+β32
eβ02+β12+β32= e−2∗β12−β22 = 1,93
OR3/2 =eβ02−β12−β22+β32
eβ02+β22+β32= e−2∗β22−β12 = 1,61
Desse modo, tem-se que a odds de preferencia pelo aprendizado em grupo sobre a
de aprendizado em sala de aula foi de 2,10 vezes maior nas escolas com perıodo escolar
padrao do que nas escolas com perıodo escolar integral. Os alunos, por exemplo, da
escola 3, em relacao aos da escola 1, preferem o aprendizado em grupo ao em sala de
aula sendo, esta preferencia, 1,93 vezes maior entre os alunos da escola 3 do que entre
os alunos da escola 1.
Note, a partir dos resultados apresentados na Tabela 54, que as probabilidades
observadas e preditas pelo modelo encontram-se consideravelmente proximas, indicando
Giolo, S. R. Analise de Dados Discretos 88
que o modelo ajustado apresenta-se satisfatorio.
Tabela 54. Maximum Likelihood Predicted Values for Probabilities
--------------------------------------------------------------------------------------------
--------Observed------- -------Predicted-------
Standard Standard
escola periodo pref Probability Error Probability Error Residual
---------------------------------------------------------------------------------------------
1 pad ind 0.1887 0.0537 0.158 0.0403 0.0306
gr 0.3208 0.0641 0.3049 0.0527 0.0159
aula 0.4906 0.0687 0.5371 0.056 -0.047
1 int ind 0.0746 0.0321 0.0989 0.0279 -0.024
gr 0.1791 0.0468 0.1917 0.0393 -0.013
aula 0.7463 0.0532 0.7095 0.0459 0.0368
2 pad ind 0.3281 0.0587 0.3409 0.0515 -0.013
gr 0.2656 0.0552 0.2667 0.0469 -0.001
aula 0.4063 0.0614 0.3924 0.0509 0.0139
2 int ind 0.25 0.0541 0.2372 0.0444 0.0128
gr 0.1875 0.0488 0.1864 0.0389 0.0011
aula 0.5625 0.062 0.5764 0.0518 -0.014
3 pad ind 0.3261 0.0691 0.3436 0.0587 -0.017
gr 0.3261 0.0691 0.3429 0.0582 -0.017
aula 0.3478 0.0702 0.3136 0.0536 0.0343
3 int ind 0.2727 0.0671 0.2545 0.0521 0.0183
gr 0.2727 0.0671 0.2552 0.0517 0.0176
aula 0.4545 0.0751 0.4904 0.0608 -0.036
---------------------------------------------------------------------------------------------
BIBLIOGRAFIA
AGRESTI, A. Categorical data Analysis. New York: John Wiley & Sons, 1990.
AGRESTI, A. An Introduction to Categorical data Analysis. New York: John
Wiley & Sons, 1996.
BAUMAN, K.E., KOCH, G.G., LENTZ, M. Parent characteristics, perceived health
risk, and smokeless tobacco use among white adolescent males, NI Mono-
graphs 8, p.43-48, 1989.
DEMETRIO, C.G.B. Modelos Lineares Generalizados em Experimentacao
Agronomica. Piracicaba: Minicurso 46a Rbras e 9o SEAGRO, 2001.
FREEMAN, D. Applied Categorical Data Analysis. New York: Marcel Dekker,
1987.
HOSMER JR, D.W., LEMESHOW, S. Applied Logistic Regression. New York:
John Wiley & Sons, 1989.
McCULLACH, P., NELDER, J.A. Generalized Linear Models. London: Chapman
and Hall, 1989.
MANTEL, N. Chi-square tests with one degree of freedom: Extensions of the Mantel-
Haenszel procedure, Journal of the American Statistical Association, v.58,
p.690-700, 1963.
MANTEL, N., HAENSZEL, W. Statistical Aspects of the analysis of data from retro-
spective studies of disease, Journal of the National Cancer Institute, v.22,
p.719-748, 1959.
Giolo, S. R. Analise de Dados Discretos 90
MANTEL, N. FLEISS, J. Minimum expected cell size requirements for the Mantel-
Haenszel one-degree of freedom ch-square test and a related rapid procedure,
American Journal of Epidemiology, v.112, p.129-143, 1980.
PAULA, G. Analise de Regressao. 2000.
PREGIBON, D. Logistic regression diagnostics, Annals of Statistics, v.9, p.705-724,
1981.
SILVEIRA NETO, S., NAKANO, O., BARBIN, D., VILLA NOVA, N.A. Manual de
Ecologia dos Insetos. Sao Paulo: Agronomica Ceres, 1976, 419p.
STOKES, M. E., DAVIS, C. S., KOCH, G. G. Categorical Data Analysis using
the SAS System. SAS Institute Inc., Cary, NC. USA, 2000.
Recommended