Download pdf - ESTIMABILIDADE DE MEDIDAS DE ASSOCIAÇÃO E DE …leg.ufpr.br/lib/exe/fetch.php/pessoais:mtlima:projetematico.pdf · de acordo com níveis de exposição. A epidemiologia trabalha

ESTIMABILIDADE DE MEDIDAS DE ASSOCIAÇÃO E DERISCO EM ESTUDOS CASO-CONTROLE ESPACIAIS

Ricardo Cordeiro1 (coordenador)Laecio Carvalho de Barros2 (pesquisador principal)

Cláudia Torres Codeço3 (pesquisador)Paulo Justiniano Ribeiro Junior4 (pesquisador)

Trevor Charles Bailey5 (pesquisador)

1 Professor Associado do Departamento de Medicina Preventiva e Social daFaculdade de Ciências Médicas da Universidade Estadual de Campinas –UNICAMP

2 Professor Associado do Departamento de Matemática Aplicada do Instituto deMatemática e Ciências da Computação da Universidade Estadual de Campinas –UNICAMP

3 Professora Doutora do Programa de Computação Científica da FundaçãoOswaldo Cruz – FIOCRUZ

4 Professor Adjunto do Departamento de Estatística da Universidade Federal doParaná – UFPr

5 Professor Titular do Department of Mathematical Sciences, School ofEngineering, Computer Sciences & Mathematics, University of Exeter, UK.

CampinasOutubro de 2006

2

1. INTRODUÇÃO: A EVOLUÇÃO DOS ESTUDOS CASO-CONTROLE

O surgimento de uma série de casos de uma doença em quantidade maior do que

a esperada geralmente atrai a atenção. Na caracterização dessa situação, três

medidas de incidência são freqüentemente utilizadas. Talvez, a mais comum delas

seja a taxa de incidência43, entendida como a expressão da mudança do estado

saudável para doente dos indivíduos de uma população. Outra medida bastante

usada é a proporção de incidência43, definida como a proporção de indivíduos que

adoecem em uma população fechada sob risco durante um dado período de

tempo. Ainda um outro modo de medir a incidência pode ser obtido por meio do

odds de incidência43, entendido como a razão entre o número de indivíduos que

adoecem e o número de indivíduos que não adoecem em uma população fechada

sob risco durante um dado período de tempo.

Na tentativa de entender as origens de uma ocorrência não usual de casos (uma

epidemia), profissionais da saúde comumente buscam examinar a história

individual de cada um dos acometidos procurando exposições compartilhadas por

eles que não sejam freqüentes na população que deu origem a esses casos.

Na busca do entendimento dos mecanismos que governam o fenômeno em

questão, o próximo passo é verificar se há relação entre o surgimento dos casos e

as exposições eventualmente identificadas. Este é o campo da epidemiologia,

área do conhecimento que estuda relações entre exposições e fenômenos do

processo saúde/doença ocorrendo em populações humanas. Uma medida usual

dessa relação é o risco relativo (RR), definido como a razão entre a incidência

(medida de qualquer uma das maneiras acima mencionadas) de um agravo em

uma população exposta e em outra não exposta a um dado conjunto de

exposições de interesse, em um determinado intervalo de tempo36.

A relação entre exposição e doença em populações humanas também pode ser

avaliada por meio da medida fração atribuível (FA), definida como a porcentagem

3

de casos que deixariam de ocorrer, em uma população num dado intervalo de

tempo, caso fosse eliminado um determinado fator causal dessa doença28.

O entendimento de relações causais que poderiam explicar parcial ou totalmente o

surgimento de séries de casos, como o acima exemplificado, é obtido comumente

por meio da execução de estudos caso-controle. O desenvolvimento desses

estudos constitui a maior contribuição metodológica da epidemiologia9. Este tipo

de investigação propicia uma maneira eficiente de obter estimativas populacionais

de RR e FA. A razão desta eficiência advém da capacidade que o estudo

caso-controle tem, a um custo relativamente baixo, de estimar a distribuição

populacional de exposições a partir do seu grupo controle. Esta propriedade

dispensa o consumo de tempo, bem como recursos financeiros e administrativos,

na enumeração e seguimento de um grande conjunto de indivíduos, classificados

de acordo com níveis de exposição.

A epidemiologia trabalha com relações causais entre exposições e doenças, que

ocorrem em populações humanas. Os casos surgem em uma população, nem

sempre facilmente identificável, chamada população fonte. A pedra de toque da

eficiência do estudo caso-controle é a seleção dos controles. Para garantir a

estimabilidade das medidas RR e FA, à parte flutuações randômicas, a

distribuição de exposições entre controles deve ser a mesma da população fonte

de casos.

Os primeiros estudos caso-controle começaram a ser realizados na década de

1920, nos Estados Unidos48. Cole refere que até o final dos anos 1950 eles eram

“raramente executados, pobremente entendidos e pouco conceituados”8. A essa

época, Mantel e Haenszel referiram que “estatísticos têm se mostrado um pouco

relutantes em analisar dados gerados em estudos caso-controle, possivelmente

porque seu treinamento enfatiza a importância em se definir um universo e

especificar regras de contagem de eventos ou de obtenção de amostras

probabilísticas nesse universo. Para os estatísticos, caminhar do efeito para a

causa, com sua conseqüente perda de especificidade da população sob risco,

parece uma aproximação pouco natural”31.

4

A década de 1950 foi decisiva para o desenvolvimento metodológico dos estudos

caso-controle40. Em 1951, Cornfield publica o primeiro estudo sobre este

método10, demonstrando que as freqüências de exposição entre casos e controles,

medidas de fácil obtenção, podem estimar um parâmetro de grande interesse

epidemiológico: “razão da freqüência de doença entre indivíduos expostos relativa

àquela entre indivíduos não expostos”10. Este parâmetro ganhou vários nomes e

diferentes interpretações nos anos subseqüentes, sendo hoje amplamente

identificado como risco relativo. Neste texto, Cornfield argumenta que a razão do

odds de exposição entre casos e controles é um bom estimador do risco relativo,

contanto que a freqüência da doença estudada seja rara. Em 1954, Cochran

fornece as bases da análise estratificada e mostra como é possível combinar duas

ou mais tabelas 2x2 em um único indicador sumariante de associação7. Em 1955,

Wolf propõe as bases da análise do odds ratio (OR) utilizando a transformação

logarítmica55. Em 1956, Cornfield deduz um método de obtenção de intervalos de

confiança para OR11, procedimento rotineiramente executado nos dias de hoje por

pacotes estatísticos. Em 1959, Mantel e Haenszel sistematizam alguns dos

pressupostos dos estudos caso-controle e indicam dois métodos para a estimativa

de OR em estudos estratificados31, largamente utilizados até o presente.

Estas análises, que conferiram credibilidade aos estudos caso-controle, tinham

como referência um desenho com seleção de casos prevalentes. Daí o termo

“razão de freqüência de doença”, cunhado por Cornfield, ao invés de “razão de

incidência de doença”, que seria mais adequado à idéia de risco relativo. Sob este

desenho, onde os controles são alocados após a ocorrência de todos os casos

(isto é, entre os “sobreviventes” da doença), e sem considerações a respeito da

população fonte de casos, a raridade da doença estudada é um pressuposto

necessário para que o OR obtido estime a razão de proporções de incidência

buscada na população base do estudo36. Isto porque na população fonte de casos,

em condições estacionárias, a proporção de expostos a um fator causal que não

adoecem decresce durante o estudo. Desse modo, controles amostrados apenas

no final do período de estudo subestimam a freqüência da exposição na

população fonte, produzindo, conseqüentemente, uma estimativa de associação

5

exposição/doença superestimada42, que pode ser negligenciada apenas se a

doença for rara. Uma outra maneira de entender esse viés é lembrar que um dos

princípios dos estudos caso-controle estabelece que os controles devem ser

amostrados de modo independente da exposição em estudo43. Entretanto, as

pessoas que sobrevivem à doença têm maior probabilidade de não terem sido

expostas, o que torna o número de controles não expostos maior do que o

esperado, inflacionando o OR estimado42. A necessidade de pressuposição da

raridade da doença para que as estimativas OR obtidas em estudo caso-controle

estimem de modo adequado o RR se difundiu amplamente na literatura

epidemiológica mundial, sendo incorporado de modo erroneamente restritivo a

livros texto clássicos, como o de Macmahon e Pugh30, ecoando inclusive até hoje

na literatura nacional, como pode ser visto, por exemplo, no livro texto de

Rouquayrol e Almeida Filho44, amplamente difundido no Brasil.

Dando prosseguimento ao refinamento metodológico dos estudos caso-controle,

além de considerações importantes a respeito da identificação e do controle de

vieses, novas abordagens amostrais foram incorporadas na década de 1970. A

essa época, Thomas51 e Kupper & colaboradores27 sugeriram a conveniência de,

em estudos caso-controle, amostrar os controles a partir de toda a população base

no início do estudo, antes de os casos incidirem. Esse procedimento amostral

passou a ser conhecido como “case-base sampling”34 ou “case-cohort design”39.

Miettinen em 1976, no trabalho “Estimability and estimation in case-referent

studies”, argumenta que em estudos caso-controle com esse desenho amostral,

que abre a possibilidade de um mesmo indivíduo ser amostrado como controle no

início do estudo e como caso no seu decorrer, o OR obtido é um estimador não

enviesado da razão de proporção de incidência na população base do estudo,

sem que seja necessária a pressuposição de raridade da doença estudada. Esta

propriedade pode ser vista pormenorizadamente em Cordeiro9 (2005).

Alguns anos mais tarde, já na década de 1980, consolida-se um outro modo de

amostrar controles em estudos caso-controle de base populacional. Neste formato

– conhecido como “risk-set sampling”41, “sampling from the study base”33 e

6

“density sampling”26 – os controles vão sendo aleatoriamente amostrados da

população fonte de casos, na medida em que os casos estudados incidem, o que

torna a probabilidade de ser amostrado proporcional ao tempo em que cada

indivíduo esteve sob risco nesta população. Em estudos caso-controle com este

desenho amostral, que de modo semelhante possibilita a um mesmo indivíduo

participar do estudo tanto como caso, quanto como controle, o OR obtido estima

sem viés a razão de taxa de incidência na população base do estudo, também

sem que seja necessária nenhuma pressuposição sobre a raridade da doença

estudada. Esta propriedade pode ser vista pormenorizadamente em Cordeiro9

(2005).

Dando um fecho à discussão metodológica que esses novos desenhos amostrais

ensejaram, no início da década de 1990 Pearce36 afirma que o significado das

estimativas de OR obtidas em estudos caso-controle de base populacional difere

se os controles são amostrados a partir das pessoas em risco no início do

seguimento, da experiência pessoa-tempo da população fonte de casos ou da

população não doente ao final do seguimento. Estudos caso-controle utilizando

esses três métodos de seleção de controles estimam razão de proporção de

incidência (RPI), razão de taxa de incidência (RTI) e OR, respectivamente.

Nenhuma dessas estimativas depende de qualquer pressuposição sobre a

raridade da doença estudada. A pressuposição de raridade é necessária apenas

para que a estimativa de OR seja uma aproximação do risco relativo em estudos

com o desenho tradicional de Cornfield, Mantel e Haenszel, isto é, com

amostragem de controles entre não doentes, após já identificados todos os

casos9.

A estimação da distribuição de exposições na população fonte, que em estudos

caso-controle é feita a partir do grupo controle, geralmente envolve considerável

esforço. Por essa razão, à época da síntese acima mencionada, já apareciam na

literatura epidemiológica propostas de desenhos de estudo envolvendo apenas

casos de doença. São exemplos dessas propostas os desenhos “case-genotype

studies”15;18;25;46;47;49;50;52, “case-cross-over study”16;17;29;32, “case-specular study”56,

7

entre outros4;35;38. Estes estudos foram genericamente chamados por Greenland20

de “case-distribution studies” ou “case-only studies”. O que eles trazem de avanço

são tentativas, em situações particularmente favoráveis, de construir hipotéticas

distribuições de exposições em populações fonte, ou, equivalentemente,

hipotéticas séries de controles, a partir de informação externa ao estudo20. A

validade das estimativas de estudos “case-only” depende da validade das

pressuposições utilizadas para a construção da distribuição de exposições em

populações fonte. Por exemplo, para os “case-genotype studies”, depende do

modelo de prevalência genotípica adotado; para os “case-cross-over studies”,

depende de condições estacionárias das exposições dos casos ao longo do

tempo; para os “case-specular studies”, depende da suposta intercambialidade

entre exposições na residência do caso e na casa à frente no outro lado da rua20.

Também a essa época, na medida em que o desenvolvimento da microinformática

torna viável o desenvolvimento e a popularização do uso de sistemas de

informação geográfica (SIG) e de ferramentas de análise espacial de dados, a

dimensão espacial começa a ser incorporada ao método caso-controle.

Em certos lugares o risco de adoecer é maior do que em outros. A incidência de

um determinado agravo também pode ser função do espaço. Nos anos 1990

começa a se desenvolver uma especialização dos estudos caso-controle que

incorpora explicitamente o espaço ao conjunto de covariáveis que modulam o

risco. São os chamados estudos caso-controle espaciais, que então passam a

contribuir com a incorporação de métodos de análise espacial de dados ao

instrumental analítico da epidemiologia. Este é o campo onde se aninha este

projeto de pesquisa.

2. METODOLOGIA DOS ESTUDOS CASO-CONTROLE ESPACIAIS

A preocupação com a distribuição espacial de casos de uma doença parece ser

uma constante na epidemiologia desde o seu nascimento enquanto disciplina.

8

Entretanto, apenas nas duas últimas décadas a análise espacial de pontos

começou a se consolidar enquanto método em estudos epidemiológicos, sendo

ainda um campo do conhecimento novo e em consolidação54. Formalmente, um

padrão espacial de pontos pode ser entendido como um conjunto de localizações

numa determinada região de estudo representando o registro de eventos de

interesse19. Tais localizações podem estar acompanhadas de informações

adicionais relativas aos eventos registrados, entre elas, de particular importância,

o tempo associado a cada ocorrência.

De um ponto de vista estatístico, um padrão observado de pontos pode ser

modelado como a realização de um processo estocástico. O modelo mais simples

de uma distribuição de pontos é o da aleatoriedade espacial completa, no qual os

eventos se distribuem de forma independente entre si sobre uma região de

interesse. Esse modelo tem pouca aplicação epidemiológica (exceção feita a

estudos em escalas grandes) uma vez que as populações fontes de caso

distribuem-se elas próprias em aglomerados espaciais determinados por fatores

ambientais e sociais. Na ausência de associação entre espaço e doença, hipótese

nula, a ocorrência de casos espelha a heterogeneidade espacial da população

fonte. A incorporação dos métodos de análise espacial de dados ao instrumental

epidemiológico se deu a partir da indagação sobre o quanto um aglomerado

observado de casos se deve à aglomeração de base da população fonte.

Um modo intuitivo de incorporar a dimensão espacial aos estudos caso-controle

pode ser encontrado em Bithell5 e em Gatrell e colaboradores19. Estes autores

utilizaram a razão entre a densidade espacial de casos e de controles, obtidas por

estimação kernel2, área a área, como um estimador da distribuição espacial de

risco relativo.

Cuzick & Edwards12 propuseram um modo de investigar a existência de

aglomerados espaciais de doença, comparando a distribuição observada de casos

e controles em um dado estudo com distribuições hipotéticas geradas a partir da

rotulação aleatória (casos ou controles) dos pontos observados.

9

Usando uma variação do método do “vizinho mais próximo”2, Vieira e

colaboradores53 propuseram um algoritmo para estimação da distribuição espacial

de OR em estudos caso-controle que, basicamente, dado um conjunto de

localizações de casos e controles, consiste em calcular o odds caso/controle em

pequenas áreas arbitrariamente estabelecidas cobrindo inteiramente uma região

de interesse e fazer a razão desses valores pelo odds caso/controle da região

como um todo.

Os métodos acima citados apresentam limitações importantes, tais como a

dependência de escolha arbitrária de largura de banda a ser utilizada, e a

dificuldade em incorporar covariáveis à análise. Uma alternativa promissora é o

desenvolvimento de estudos caso-controle espaciais, que parecem ser úteis para

verificação de variabilidade espacial do risco, identificação de confundimento

espacial, avaliação da influência no mapa de risco da utilização de tempo de

latência no estudo, bem como sugerir hipóteses causais para futuras

investigações. Abaixo, são descritos os pressupostos teóricos e metodológicos

que embasam os estudos caso-controle espaciais.

Para uma determinada doença e uma delimitada região ℜ de interesse (uma

cidade, um distrito, um bairro), seja a função risco relativo espacial, conforme

definida por Bithell5, uma função bivariada descrita da seguinte forma:

)1()()()(

xxx

πλθ =

onde x é um vetor de coordenadas geográficas em ℜ, λ(x) é a função densidade

espacial de ocorrência de casos da doença em ℜ (número de ocorrências por

unidade de área na localização x) e π(x) é a função densidade espacial da

população fonte de casos em ℜ. A função θ(x) integra 1 sobre ℜ, se usada a

densidade da população fonte como função ponderadora6, isto é:

( ) ( ) 1 (2)dθ πℜ

ℜ=∫∫ x x

10

O risco relativo assim definido em uma dada localização x ∈ ℜ representa o risco

de ocorrência de um caso em x relativo ao risco médio de ocorrência em ℜ. Se

este for conhecido, pode ser usado para se obter o risco absoluto em x, conforme

será visto adiante.

A partir de um conjunto observado de casos e controles, Kelsall & Diggle24 e

Diggle14 propuseram um modo interessante de estimar θ(x), abaixo descrito.

Seja C e P os conjuntos de localizações (coordenadas geográficas) de casos e

população fonte em estudo, respectivamente. Assume-se que as localizações em

C e P sejam realizações de dois processos planares de Poisson13;22, com

intensidade λ(x) e π(x), respectivamente.

Seja xi, i = 1, 2, ..., n1, n1 localizações observadas do conjunto C.

Seja xi, i = n1+1, n1+2, ..., n1+n2, n2 localizações observadas do conjunto P, onde

n = n1 + n2.

Seja yi um indicador associado ao ponto xi, tal que yi = 1 se xi ∈ C, yi = 0 se xi ∈ P.

Assume-se que os casos e os controles incluídos no estudo são amostras

aleatórias de todos os casos ocorridos (C) em ℜ e da população fonte (P)

existente em ℜ no período de estudo, nas proporções q1 e q2, respectivamente.

Desse modo, condicional aos pontos xi, yi são realizações mutuamente

independentes de uma variável aleatória de Bernoulli13, onde a probabilidade de

qualquer ponto, observado no conjunto de casos e controles, ser um caso [isto é,

p(x) = Pr(yi = 1 \ xi = x)] é dada por:

1

1 2

( )( ) (3)( ) ( )qp

q qλ

λ π=

+xx

x x

A partir das equações 1 e 3, com álgebra simples demonstra-se que p(x) está

relacionado ao risco espacial θ(x) conforme a expressão abaixo:

11

[ ] [ ]2

1

( )ln ( ) ln ln logit ( ) ( ) (4)1 ( )

qp p cp q

θ ρ

= + = + = −

xx x xx

Desse modo, o logaritmo da função risco relativo espacial, ρ(x), aparte uma

constante aditiva c, depende apenas do logito da função p(x), definido na equação

3.

Assim, a tarefa de modelar θ(x) se reduz efetivamente à modelagem do logit[p(x)]

a partir de um conjunto observado de desfechos Bernoulli caso/controle, yi,

associados às suas localizações espaciais, xi. Em essência, este é um problema

trivial de regressão logística23, embora aqui, dado o provável comportamento não

linear da superfície espacial de risco a ser estimada, o uso de um método não

paramétrico seja mais apropriado do que a usual abordagem paramétrica. Para

tanto, Kelsall & Diggle24 propuseram o uso do modelo aditivo generalizado21

(GAM) como ferramenta básica, onde:

( ) ( ) (5)c gρ α= + +x x

sendo c uma constante conhecida, α um intercepto a ser estimado e g(x) uma

função bivariada suave do vetor de localização x que pode ser não

parametricamente estimada por vários algoritmos iterativos bem estabelecidos21,

tais como regressão de kernel45, regressão polinomial local45 ou regressão spline

penalizada45.

Uma extensão bastante conveniente deste método é a incorporação de

covariáveis não espaciais, o que resulta no modelo semiparamétrico:

( , ) ( ) (6)c gρ α= + + +x z βz x

onde z é um vetor de covariáveis de interesse e β representa seu vetor de efeitos.

O log-risco ρ(x,z) é assim modelado como linearmente dependente de um

componente não espacial paramétrico representando o efeito das covariáveis

incorporadas ao modelo, associado ao componente espacial não paramétrico e

possivelmente não linear g(x). Estimativas de α, β e g(x), bem como seus erros

12

padrão associados, são obtidas segundo a aplicação do modelo aditivo

generalizado21 acima mencionado. Se o risco estimado for invariante no espaço,

g(x) é constante e o modelo (equação 6) se reduz a uma regressão logística

trivial23.

( ) (7)cρ α= + +z βz

Finalmente, a estimativa da função risco relativo espacial (equação 1) em ℜ é

obtida como:

ˆ ( , )ˆ( , ) (8)eρθ = x zx z

onde ˆ ( , )ρ x z representa a estimativa obtida no ajuste da equação 6. Se desejado,

a estimativa da distribuição espacial da incidência de casos em ℜ pode ser obtida

como:

ˆ ( , )ˆˆ ˆ ˆ( , ) ( , ) (9)I i i eρθ= = x zx z x z

onde î representa a estimativa da proporção média de incidência de casos em ℜ.

A significância dos componentes paramétricos estimados na equação 6 são

obtidas de modo usual, como nos modelos lineares generalizados, com base na

magnitude da razão entre estimativas e seus respectivos erros padrão. Para testar

a significância da variação espacial do risco estimada na equação 6, não foram

ainda descritos métodos analíticos. Para tanto, Kelsall & Diggle24 propuseram um

procedimento de Monte Carlo, abaixo descrito:

a) O modelo completo expresso pela equação 6 é ajustado aos dados via GAM.

Desse modo, predições de respostas são obtidas para cada ponto de uma

grade previamente definida (200 x 200, por exemplo) cobrindo ℜ.

b) O modelo reduzido (hipótese nula) expresso pela equação 7, que omite o

componente espacial g(x), é ajustado aos dados por meio de uma regressão

logística usual. Desse modo, predições da probabilidade de ser caso são

13

geradas para cada um dos sujeitos estudados (casos e controles), de acordo

com o componente não espacial (βz) individual.

c) Para cada um dos sujeitos estudados é determinado um novo status de caso

ou controle de modo aleatório usando-se as probabilidades preditas no passo b

acima.

d) O modelo completo expresso pela equação 6 é ajustado aos dados

modificados no passo c via GAM, e assim novas predições de respostas são

obtidas para cada ponto da mesma grade previamente definida no passo a.

e) Os passos c e d são repetidos um grande número de vezes (por exemplo, 500

vezes) produzindo simulações de superfícies resposta sob H0 (isto é, sob a

hipótese de homogeneidade espacial do risco).

f) Ponto a ponto sobre a grade definida em a, a resposta predita em a é

comparada com a distribuição de simulações sob H0 produzidas em e. Se

aquela se situa entre os percentis (α/2)100% e (1 - α/2)100% desta, a

correspondente localização na grade é rotulada “não significante”. Caso

contrário, é rotulada “significante”.

g) Finalmente, um conjunto de mapas é produzido a partir da distribuição espacial

da incidência de casos predita na equação 9, de acordo com valores pré-

definidos de interesse do componente não espacial (z), excluindo-se todas as

posições na grade rotuladas “não significantes” no passo f. Esses mapas,

portanto, mostram apenas as estimativas que diferem significativamente da

incidência média em ℜ, para a configuração escolhida de z (p<α).

3. OBJETIVOS

Face o grande desenvolvimento metodológico dos estudos caso-controle nos

últimos 50 anos, bem como a contribuição analítica que os sistemas de

14

informação geográfica e os métodos de análise espacial de dados trazem para a

epidemiologia, este projeto tem como objetivos, em estudos caso-controle

espaciais:

a) verificar o comportamento e o significado epidemiológico da função

risco-relativo espacial5 em função dos desenhos amostrais “case-base

sampling”34, “risk-set sampling”41 e amostragem a partir de “sobreviventes”

da doença estudada36.

b) desenvolver modelos computacionais que simulem, para um conjunto de

parâmetros demográficos, geográficos e epidemiológicos pré-definidos,

cenários de dinâmica espaço-temporal de ocorrência de casos e o

processo de execução de estudos caso-controle espacial nesta população.

Estas simulações permitirão a avaliação do comportamento e da precisão

do estimador da função risco relativo espacial obtido a partir dos desenhos

amostrais acima citados, em situações que simulem a complexidade do

processo gerador de casos.

c) aplicar o modelo de regressão logística multinomial23 para a estimação da

distribuição espacial do risco de ocorrências quando estas são

classificadas de acordo com sua “gravidade”, isto é, em contraposição ao

modelo binário acima descrito, que classifica os indivíduos estudados em

casos ou controles, desenvolver um tratamento multinomial, que possibilite

a estimação da distribuição espacial do risco de ocorrência de casos, em

função de sua gravidade.

d) desenvolver testes de significância para os componentes não-lineares da

equação 6 que possam ser utilizados paralelamente ou em substituição ao

procedimento Monte-Carlo acima descrito.

e) testar os resultados metodológicos obtidos, particularmente o explicitado no

item c acima, na reanálise de dois estudos caso-controle espaciais:

“Distribuição espacial do risco de acidentes do trabalho no mercado

15

informal de Piracicaba (FAPESP 05/03491-9)” e “Distribuição espacial do

risco de dengue na região sul do município de Campinas (FAPESP

06/01224-6).

4. MÉTODO

Os objetivos enunciados nos itens 3.a, 3.b, 3.c e 3.d acima serão obtidos por meio

de:

i) constituição de um grupo de trabalho composto por todos os pesquisadores

do projeto, quatro alunos bolsistas de pós-doutorado e quatro alunos

bolsistas de doutorado, quatro alunos bolsistas de mestrado e quatro

alunos bolsistas de iniciação científica.

ii) leitura de toda a bibliografia publicada nos últimos 16 anos sobre o tema,

por parte do grupo de trabalho constituído, tomando como marco inicial o

texto de Hastie & Tibshirani21: Generalized additive models.

iii) realização de seminários semanais descentralizados (isto é, nas cidades

onde trabalham os pesquisadores do projeto) para a discussão e integração

dos conceitos apreendidos na leitura realizada, bem como a discussão e o

desenvolvimento do método analítico para a obtenção de estimativas de

significância mencionadas no item 3.d acima e o desenvolvimento da

abordagem multinomial mencionada no item 3.c acima.

iv) realização de seminários trimestrais reunindo todo o grupo de trabalho

constituído para a apresentação, discussão e consolidação dos resultados

obtidos nos seminários semanais (item 4.iii), bem como a programação do

trabalho durante o próximo trimestre. O pesquisador da instituição

estrangeira (Dr. Bailey) deverá participar de um desses seminários a cada

ano.

16

v) anualmente, o pesquisador da instituição estrangeira deverá trabalhar

pessoalmente com o restante do grupo de pesquisadores durante um

período de um mês no Brasil, na sede do projeto.

vi) realização de seminários especiais sobre tópicos relacionados aos objetivos

do projeto com os professores visitantes convidados de instituições

nacionais e internacionais.

vii) visitas de trabalho a departamentos universitários nacionais e internacionais

onde se desenvolve pesquisa sobre tópicos relacionados aos objetivos

deste projeto.

viii) com relação aos modelos de simulação mencionados no objetivo 3.b

acima, a modelagem computacional passará por três etapas.

1. Definição das condições iniciais: o modelo requer como

entrada, um conjunto de parâmetros que represente a

distribuição espacial da população em risco (e seus atributos

individuais associados ao risco), e a distribuição espacial de

fatores de risco ecológicos (associados ao lugar). Estes

parâmetros deverão ser representativos do conjunto de

problemas aos quais os estudos de caso-controle pretendem

ser aplicados. Estas distribuições espaciais serão utilizadas

para a criação de 'populações de risco sintética', isto é, um

conjunto de indivíduos com atributos pessoais e associados a

um local no espaço.

2. Definição do processo gerador de eventos: dois processos

geradores de eventos serão considerados. O primeiro é um

processo contagioso, onde a probabilidade de um indivíduo

sofrer um evento é função do contato com indivíduos que o

sofreram. Este processo gera estruturas de correlação

espaciais e temporais. Eventos que se encaixam nesta

17

categoria são, por exemplo, doenças transmissíveis e são

modelados por processos estocásticos do tipo SIR1. A forma

da força de infecção pode ser alterada para contemplar

diferentes padrões de transmissão, incluindo vias de

transmissão diretas e indiretas, além de variações temporais e

espaciais na força de infecção, etc. O segundo processo

gerador é não contagioso, onde a probabilidade de um

indivíduo sofrer o evento é função de características do

próprio indivíduo ou do lugar onde ele está. Neste caso, a

ocorrência de um evento não interfere na probabilidade de

ocorrência de outro. Independente do caso, o processo

gerador será realizado a partir da associação de

probabilidades de transição 'não caso' - 'caso' a cada

indivíduo da população de risco sintética em função das

características do indivíduo e de seu ambiente. Séries

temporais serão assim simuladas.

3. Simulação do processo amostral: Uma vez o processo de

ocorrência de eventos seja simulado, pode-se aplicar

procedimentos amostrais que obterão informações de uma

amostra dos indivíduos sintéticos, em determinados

momentos no tempo. A partir destas amostras, calcula-se os

estimadores que poderão ser comparados com os 'valores

verdadeiros' obtidos da população como um todo, ou a partir

do conhecimento do próprio processo gerador.

Os modelos de simulação serão implementados em linguagem Python e

operados em linux.

Ainda como método de obtenção do objetivo 3.b acima mencionado, será

desenvolvido um modelo matemático, sob uma estrutura de incerteza, a

partir de técnicas de autômatos celulares37 combinadas com lógica fuzzy3,

simulando o espalhamento espacial de doenças, num ambiente criado para

18

a execução simulada de estudos caso-controle espaciais, como mais uma

abordagem para o estudo do comportamento e da precisão do estimador da

função risco-relativo espacial em função dos desenhos amostrais acima

citados.

Na fase final da realização do projeto, como “teste de campo” e ilustração dos

resultados obtidos, serão reanalizados os dados produzidos nas duas pesquisas

referidas no item 3.e acima. Tratam-se de dois grandes estudos caso-controle

espaciais atualmente em andamento (com previsão de término em 2008),

financiados pela FAPESP e coordenados pelo coordenador deste projeto. Os dois

estudos têm método amostral diferentes entre si. Na coleta dos dados, os casos

de ambos foram também classificados quanto a gravidade. Isto torna bastante

interessante e informativo a reanálise desses resultados com as ferramentas e

métodos produzidos neste projeto.

5. RESULTADOS ESPERADOS

O produto esperado deste projeto é desenvolvimento metodológico. Espera-se ao

final do estudo:

a) saber como as propriedades dos estimadores de risco nos estudos

caso-controle espacial variam em função da estratégia amostral;

b) saber como levar em consideração a gravidade dos casos na estimação da

distribuição espacial do risco em estudos caso-controle utilizando-se um modelo

multinomial;

c) saber como dimensionar as flutuações amostrais dos estimadores de efeito nos

estudos caso-controle espaciais (questão vital pois diretamente relacionada à

verificação da significância estatística das estimativas obtidas) de um modo

melhor do que o atualmente disponível na literatura;

19

d) produzir um ambiente computacional de simulação de ocorrências epidêmicas,

útil, entre outras coisas, para a simulação de realizações de estudos caso-controle

espaciais visando estudar empiricamente a eficiência de diferentes estratégias de

planejamento do estudo;

Os objetivos propostos neste projeto são inéditos na literatura. Ao atingi-los, em

suma, o projeto contribuirá para que avanços metodológicos obtidos no

desenvolvimento dos estudos caso-controle sejam estendidos e incorporados à

análise espacial de dados epidemiológicos.

Espera-se também que o desenvolvimento deste projeto contribua para a

consolidação de um grupo de pesquisa e desenvolvimento de método

epidemiológico em nosso meio, voltado para a análise espacial de dados, bem

como para o fortalecimento do Laboratório de Análises Espacial de Dados

Epidemiológicos (EpiGeo) do Departamento de Medicina Preventiva e Social da

Faculdade de Ciências Médicas da Unicamp.

6. CRONOGRAMA DE ATIVIDADES

Este é um projeto temático cujo tema é a incorporação de avanços metodológicos

dos estudos caso-controle à análise espacial de dados epidemiológicos.

Diferentemente da maioria dos projetos de pesquisa epidemiológica (que

envolvem amostragem, recrutamento e treinamento de equipe de campo, coleta

de dados, controle de qualidade, digitação, e dezenas de outras etapas), as

atividades serão leitura, reflexão, discussão, seminários internos e seminários com

pesquisadores visitantes, desenvolvimento computacional e visitas científicas a

centros de pesquisa. Dada a complexidade e a originalidade dos objetivos

propostos e resultados previstos, prevê-se que o projeto se estenda por quatro

anos, da seguinte maneira:

ATIVIDADE SEMESTRE

20

1º 2º 3º 4º 5º 6º 7º 8º

Levantamento bibliográfico

extensivo

X X

Seminários semanais

descentralizados

X X X X X X X X

Seminários trimestrais X X X X X X X X

Seminários especiais com

professor(es) convidado(s)

X X X X

Visitas a centros internacionais de

pesquisa

X X X X

Desenvolvimento de método

analítico para estimativas de

significância e aplicação do

modelo multinomial

X X X X X X

Desenvolvimento de modelos de

simulação

X X X X X X X

Reanálise de estudos caso-

controle espaciais

X X X X

Redação de artigos científicos X X X X

7. ASPECTOS ÉTICOS

Este projeto não envolve experimentação com humanos ou animais, bem como a

geração de resíduos químicos. Os estudos que serão reanalizados durante a

execução deste projeto receberam pareceres favoráveis da Comissão de Ética em

Pesquisa da Faculdade de Ciências Médicas da Unicamp.

21

8. APRESENTAÇÃO DA EQUIPE

Para o desenvolvimento do projeto, formou-se uma equipe multidisciplinar de

pesquisadores com experiência nas áreas de epidemiologia, matemática aplicada,

estatística espacial e modelagem da dinâmica do espalhamento de doenças.

Abaixo, são apresentados os pesquisadores do projeto.

8.1. Ricardo Cordeiro (Coordenador)

Possui graduação em Medicina pela Universidade de São Paulo (1983), mestrado

em Medicina Concentração Saúde Coletiva pela Universidade Estadual de

Campinas (1991), doutorado em Saúde Coletiva pela Universidade Estadual de

Campinas (1995), Pós-Doutorado em Epidemiologia na University of California at

Los Angeles (1999-2000) e Livre-Docência em Epidemiologia na Universidade

Estadual Paulista (2001). Atualmente é Professor Associado (MS-5) da

Universidade Estadual de Campinas. Tem experiência em Epidemiologia, com

ênfase em métodos quantitativos, atuando principalmente nos seguintes temas:

análise espacial de dados, acidente do trabalho, saúde do trabalhador, vigilância

em saúde.

Coordenou a realização de quatro Auxílios Individuais à Pesquisa (FAPESP

95/4342-3, 96/7583-4, 97/12782-9 e 00/09105-0) e um Auxílio à Pesquisa Políticas

Públicas (FAPESP 00/13719-3). Atualmente coordena a realização de dois

estudos caso-controle espaciais financiados na forma de Auxílios Individuais à

Pesquisa (FAPESP 05/03491-9 e 06/01224-6).

Nos últimos cinco anos tem se dedicado a projetos de investigação incorporando a

análise espacial de dados epidemiológicos. Em 2005, como Bolsista do Programa

de Aperfeiçoamento Científico no Exterior da FAPESP (processo 04/09859-5),

trabalhou no projeto “"Semiparametric modelling of the spatial distribution of

occupational accident risk in the casual labor market, Piracicaba, Southeast Brazil"

conjuntamente com o Professor Trevor Bailey, um dos participantes da equipe

deste projeto. Atualmente, coordena o Laboratório de Análise Espacial de Dados

22

Epidemiológicos – EpiGeo, do DMPS/FCM/Unicamp.

Responsabilidades no Projeto: Coordenação, objetivos 3.a e 3.e.

8.2. Laecio Carvalho de Barros (Pesquisador Principal)

Possui graduação em Matemática pela Universidade de São Paulo (1979),

mestrado em Matemática Aplicada pela Universidade Estadual de Campinas

(1992) e doutorado em Matemática Aplicada pela Universidade Estadual de

Campinas (1997). Atualmente é professor adjunto da Universidade Estadual de

Campinas, atuando principalmente nos seguintes temas: biomatemática, sistemas

dinâmicos, conjuntos fuzzy, controladores fuzzy, sistemas dinâmicos fuzzy. Desde

2001 é revisor dos periódicos Fuzzy Sets and Systems (0165-0114) e IEEE

Transactions on Fuzzy Systems (1063-6706).

Responsabilidades no Projeto: objetivos 3.b. (determinista) e 3.e.

8.3. Cláudia Torres Codeço (Pesquisadora)

Possui graduação em Ciências Biológicas pela Universidade Federal do Rio de

Janeiro (1992), mestrado em Engenharia Biomédica pela Universidade Federal do

Rio de Janeiro (1995) e doutorado em Quantitative Biology - University Of Texas

At Arlington (1998). Atualmente é pesquisadora associada da Fundação Oswaldo

Cruz - Programa de Computação Científica. Tem experiência na área de Dinâmica

de Populações, com ênfase em Modelagem Matemática de Dinâmica de Doenças

Infecciosas. Atuando principalmente nos seguintes temas: biomatemática,

epidemiologia, dinâmica de processos infecciosos, ecologia populacional e análise

de sobrevida.

Responsabilidade no Projeto: objetivos 3.b. (estocástico) e 3.e.

8.4. Paulo Justiniano Ribeiro Junior (Pesquisador)

Possui graduação em Agronomia pela Universidade Federal de Lavras (1989) ,

mestrado em Agronomia pela Universidade de São Paulo (1992) e doutorado em

Statistics pela University of Lancaster (2002) . Atualmente é Professor adjunto da

Universidade Federal do Paraná. Tem experiência na área de Probabilidade e

23

Estatística , com ênfase em Estatística. Atuando principalmente nos seguintes

temas: geostatistics, spatial statistics, statistical software, Bayesian inference.

Atualmente é o Presidente da Região Brasileira da Sociedade Internacional de

Biometria (RBRAS), membro do Conselho da Associação Brasileira de Estatística

(ABE) e membro do Conselho da International Biometric Society (IBS).

Responsabilidades no Projeto: objetivos 3.c, 3.d. e 3.e.

8.5. Trevor Charles Bailey (Pesquisador)

Academic Qualifications: BSc., Mathematics, Hons., 1st Class, (Lond.), 1975;

MSc., Mathematical Statistics, (Lond.), 1976; PhD., (Exon.), 1981. Joined the

University of Exeter in 1986, having formerly lectured for four years at the

Australian Graduate School of Management, University of New South Wales,

Sydney, Australia. Research interests: computational statistics, applied statistical

modelling, spatial statistics, spatial epidemiology. Current administrative

responsibilities: Associate Dean - Faculty of Undergraduate Studies; Director of

Undergraduate Studies - School Engineering, Computer Science and Mathematics;

Programme Coordinator (Mathematics Programmes) - School Engineering,

Computer Science and Mathematics.

Obs: O professor Bailey não tem currículo cadastrado na base Lattes. Seu

currículo pode ser consultado em

http://www.secamlocal.ex.ac.uk/~tcb/HomePage.html

Responsabilidades no Projeto: objetivos 3.c e 3.d.

Além dos pesquisadores acima, também fazem parte da equipe de pesquisa,

como pesquisadores colaboradores, os professores Marília Sá Carvalho

(epidemiologista, Professora Associada da FIOCRUZ), Carlos Alberto de

Bragança Pereira (estatístico, Professor Titular do IME/USP) e Miguel Antônio

Vieira Monteiro (engenheiro, Pesquisador Senior do INPE).

24

9. REFERÊNCIAS

1. Anderson RM, May RM. Infectious diseases of humans. Dynamics and

control. Oxford: Oxford University Press, 1991.

2. Bailey TC, Gatrell AC. Interactive spatial data analysis. Harlow, UK: Longman,

1995.

3. Barros LC, Bassanezi RC. Tópicos de lógica fuzzy e biomatemática.

Campinas: Coleção IMECC - Textos didáticos 5., 2006.

4. Begg CB, Zhang Z. Statistical analysis of molecular epidemiology studies

employing case series. Cancer Epidemiology, Biomarkers, and Prevention

1994;3:173-5.

5. Bithell J. An application of density estimation to geographical epidemiology.

Statistics in Medicine 1990;9:691-701.

6. Bithell JF. Disease mapping using the relative risk function estimates from

areal data. In Lawson A, Biggeri A, Bohning D, Lesaffre E, Viel JF, Bertillini R,

eds. Disease mapping and risk assessment for public health., pp 248-55.

Chichester: John Wiley & Sons, 1999.

7. Cochran WG. Some methods for strengthening the common X2 tests.

Biometrics 1954;10:417-51.

8. Cole P. Introduction. In Breslow NE, Day NE, eds. Statistical methods in

cancer research., pp 14-40. Geneve: IARC, 1980.

9. Cordeiro R. O mito da doença rara. Revista Brasileira de Epidemiologia

2005;8:111-6.

10. Cornfield J. A method of estimating comparative rates from clinical data.

Applications to cancer of the lung, breast and cervix. Journal of the National

Cancer Institute 1951;11:1269-75.

25

11. Cornfield, Jerome. A statistical problem arising from retrospective studies.

Neyman, J. Proceedings of The Third Berkeley Symposium. IV. 56. Berkeley,

University of California.

12. Cuzick J,.Edwards R. Spatial clustering for inhomogeneous populations (with

discussion). Journal of the Royal Statistical Society B 1990;52:73-104.

13. DeGroot MH. Probability and statistics, 2nd ed. Reading, MA: Addison-

Wesley Publishing Company, 1986.

14. Diggle PJ. Statistical analysis of spatial point patterns, 2nd ed. London:

Arnold, 2003.

15. Falk CY, Rubinstein P. Haplotype relative risk: an easy reliable way to

construct a proper controls sample for risk calculations. Annals of Human

Genetics 1987;51:227-33.

16. Feldman U. Design and analysis of drug safety studies. Journal of Clinical

Epidemiology 1993;46:237-44.

17. Feldman U. Epidemiologic assessment of adverse reactions associated with

intermittent exposure. Biometrics 1993;49:419-28.

18. Flanders WD, Khoury MJ. Analysis of case-parental control studies: method

for the study of associations between disease and genetic markers. American

Journal of Epidemiology 1996;144:696-703.

19. Gatrell AC, Bailey TC, Diggle PJ, Rowlingson BS. Spatial point pattern

analysis and its application in geographical epidemiology. Transactions -

Institute of British Geographers 1996;NS 21:256-74.

20. Greenland S. A unified approach to the analysis of case-distribution (case-

only) studies. Statistics in Medicine 1999;18:1-15.

21. Hastie TJ, Tibshirani RJ. Generalized additive models. London: Chapman and

26

Hall, 1990.

22. Hogg RV, Craig AT. Introduction to mathematical statistics, 4th ed. New York:

Macmillan Publishing Co, 1978.

23. Hosmer Jr, David W and Lemeshow, Stanley. Applied logistic regression.

2000. New York, John Wiley & Sons.

24. Kelsall JE, Diggle PJ. Spatial variation in risk of disease: a nonparametric

binary regression approach. Applied Statistics 1998;47:559-73.

25. Khoury MJ, Flanders WD. Nontraditional epidemiologic approaches in the

analysis of gene-environment interactions: case-control studies with no

controls! American Journal of Epidemiology 1996;144:207-13.

26. Kleinbaum DG, Kupper Ll, Morgenstern H. Epidemiologic research - principles

and quantitative methods. Belmont, CA: Lifetime Learning Publications, 1982.

27. Kupper LL, McMichael AJ, Spirtas R. A hybrid epidemiologic design useful in

estimating relative risk. Journal of the American Statistical Association

1975;70:524-8.

28. Levin ML. The occurrence of lung cancer in man. Acta Unio Internationalis

Contra Cancrum 1953;9:531-41.

29. Maclure M. The case-crossover design: a method for studying transient

effects on the risk of acute events. American Journal of Epidemiology

1991;133:144-53.

30. MacMahon B, Pugh JF. Epidemiology. Principles and methods. Boston: Little,

Brown and Co., 1970.

31. Mantel N, Haenszel W. Statistical aspects of the analysis of data from

retrospective studies of disease. Journal of the National Cancer Institute

1959;22:719-48.

27

32. Marshall RJ, Jackson RT. Analysis of case-crossover designs. Statistics in

Medicine 1993;12:2333-41.

33. Miettinen OS. Theoretical epidemiology - Principles of occurrence research in

medicine. New York: John Wiley, 1985.

34. Miettinen OS. Designs options in epidemiologic research: un up-date.

Scandinavian Journal of Work, Environment and Health 1982;9:7-14.

35. Mittleman MA, Maclure M, Robins JM. Controls sampling strategies for case-

crossover studies: an assessment of relative efficiency. American Journal of

Epidemiology 1995;142:91-8.

36. Pearce N. What does the odds ratio estimate in a case-control study?

International Journal of Epidemiology 1993;22:1189-92.

37. Peixoto, M S. Sistemas dinâmicos e controladores fuzzy. Um estudo da

dispersao da morte súbita dos citrus no estado de São Paulo. Tese de

doutorado. 2005. Campinas, UNICAMP.

38. Piegorsch WW, Weinberg CR, Taylor JA. Non-hierarchical logistic models and

case-only designs for assessing susceptibility in population-based case-

control studies. Statistics in Medicine 1994;13:153-62.

39. Prentice RL. A case-cohort design for epidemiological cohort studies and

disease prevention trials. Biometrika 1986;73:1-11.

40. Rego MAV. Aspectos históricos dos estudos caso-controle. Cadernos de

Saúde Pública 2001;17:1017-24.

41. Robins JM, Gail MH, Lubin JH. More on biased selection of controls for case-

control analysis of cohort studies. Biometrics 1986;42:1293-9.

42. Rothman KJ. Epidemiology. An introduction. Oxford: Oxford University Press,

2002.

28

43. Rothman KJ, Greenland S. Modern epidemiology. Philadelphia, PA:

Lippincott-Raven, 1998.

44. Rouquayrol MZ, Almeida Filho N. Introdução a epidemiologia moderna, 6a

edição. Rio de Janeiro: MEDSI, 2003.

45. Ruppert D, Wand MP, Carroll RJ. Semiparametric regression. Cambridge:

Cambridge University Press, 2003.

46. Schaid DJ, Sommer SS. Genotype relative risks: methods for design and

analysis of candidate-gene association studies. American Journal of Human

Genetics 1993;53:1114-26.

47. Schaid DJ, Sommer SS. Comparison of statistics for candidate-gene

associations studies using case and parents. American Journal of Human

Genetics 1994;55:402-9.

48. Schlesselman JJ. Case-control studies - Design, conduct, analysis. New York:

Oxford University Press, 1982.

49. Self SG, Longton G, Kopecky KJ, Liang KY. On estimating HLA/disease

association with application to a study of aplastic anaemia. Biometrics

1991;47:53-61.

50. Thomas D, Pitkäniemi J, Langholz B, Tuomilehto-Wolf E, Tuomilehto J.

Variation in HLA-associated risks of childhood insulin-dependent diabetes in

the Finnish population: II. Haplotype effects. Genetic Epidemiology

1995;12:455-66.

51. Thomas DB. The relationship of oral contraceptives to cervical

carcinogenesis. Obstetrics and Gynecology 1972;40:508-18.

52. Umbach DM, Weinberg CR. Designing and analysing case-control studies to

exploit independence of genotype and exposure. Statistics in Medicine

1997;16:1731-43.

29

53. Vieira V, Webster T, Aschengrau A, Ozonoff D. A method for spatial analysis

of risk in a population-based case-control study. International Journal of

Hygiene and Environmental Health 2002;205:115-20.

54. Vieira V, Webster T, Weinberg J, Aschengrau A, Ozonoff D. Spatial analysis

of lung, colorectal, and breast cancer on Cape Cod: an application of

generalized additive models to case-control data. Environmental health: a

global access science source. 2005. Biomed Central. 2006.

[http://www.ehjournal.net/content/4/1/11, accessed on 4 Sep 2006]

55. Woolf B. On estimating the relatiion between blood group and disease.

Annals of Human Genetics 1955; 19:251-3.

56. Zaffanella LE, Savitz DA, Greenland S, Ebi KL. The residential case-specular

method to study wire codes, magnetic fields, and disease. Epidemiology

1998;9 :16-20.