1 Aspectos metodológicos do método de linkage probabilístico Carla Jorge Machado - UFMG

Preview:

Citation preview

1

Aspectos metodológicos do

método de linkage probabilístico

Carla Jorge Machado - UFMG

2

Roteiro para apresentação1. Motivações

1. Breve Histórico

1. O relacionamento de registros: Determinístico Probabilístico

1. Metodologia – Relacionamento probabilístico

1. Desafios

3

1. MOTIVAÇÃO

• Estudo de coortes reais ao longo do tempo.

• Estudo de associações de exposição com doença/morte

• Recuperar informação, em caso de informação não declarada

4

1. MOTIVAÇÃO

• Correção da informação quando acredita-se na validade desta em um banco de dados, mas não na validade desta em outro.

• Adicionar informação de um banco de dados a outro banco de dados.

5

2. HISTÓRICO

• O Relacionamento de dados não é uma idéia recente

• No Século XVIII, Edward Jenner descobriu a associação entre a varíola bovina e a varíola humana através do relacionamento de registros.

6

2. HISTÓRICO

• Jenner relacionou as vacas de todos os tipos às pessoas, após injetar material bovino nos seres humanos.

7

2. HISTÓRICO

• Os registros de dados relacionados de Jenner foram utilizados como forma de evidência de que a intervenção havia sido eficaz.

8

2. HISTÓRICO

• No Século XX, o termo relacionamento de registros (record linkage) apareceu pela primeira vez na literatura em Dunn(1946) - AJPH.

• Os estudos utilizando relacionamento de registros começam a surgir na literatura com mais freqüência a partir da década dos 80.

9

3. RELACIONAMENTO DETERMINÍSTICO

• O Relacionamento Determinístico implica a procura de concordância exata no processo de pareamento de registros.

• Por exemplo, se temos acesso ao CPF ou RG dos indivíduos em dois ou mais bancos de dados podemos relacionar esses indivíduos com base nessa informação.

10

3. RELACIONAMENTO DETERMINÍSTICO

• Um problema é que se o identificador (CPF e/ou RG) está em erro em um banco de dados nós refutamos pares que podem pertencer a mesmos indivíduos.

11

3. RELACIONAMENTO DETERMINÍSTICO

• Além disso, acesso à informações deste tipo em larga escala é difícil.

• Pode-se dizer, então, que se um registro concordar com outro com base em identificadores gerais (sexo, idade, data de nascimento, estado civil) considera-se o par de registros como de um mesmo indivíduo.

12

3. RELACIONAMENTO DETERMINÍSTICO

• Problema: O relacionamento determinístico (exato), é incapaz de levar em conta incertezas que podem existir para alguns pares relacionados:

-- Erros na declaração em um ou outro banco;-- Problemas de informação não declarada em um ou outro banco.

-- Erros na declaração em um ou outro banco;-- Problemas de informação não declarada em um ou outro banco.

13

3. RELACIONAMENTO Determinístico X Probabilístico

• Logo, a solução...

Relacionamento Probabilístico de

RegistrosRelacionamento Probabilístico de

Registros

14

3. RELACIONAMENTO PROBABILÍSTICO

• Utiliza-se o relacionamento probabilístico para ponderar diferentemente as informações utilizadas no pareamento.

• Essas diferenças na ponderação são inviáveis no caso de relacionamento determinístico.

15

3. RELACIONAMENTO PROBABILÍSTICO

• Intuitivamente, na busca de evidência se o pareamento se refere ao mesmo indivíduo....

16

3. RELACIONAMENTO PROBABILÍSTICO

• ... a concordância no identificador ‘sexo’ não adiciona tanta informação quanto às concordâncias nos identificadores ‘nome’ ou ‘CPF’, ou seja...

17

3. RELACIONAMENTO PROBABILÍSTICO

• ... Concordâncias em ‘nome’ ou CPF são mais sugestivas de um pareamento correto do que concordância em ‘sexo’.

18

3. RELACIONAMENTO PROBABILÍSTICO - histórico

• Howard Newcombe e colaboradores (Newcombe et al, 1959) publicaram um artigo em 1959 na Revista Science.

• A primeira menção de registro probabilísitico na literatura.

19

3. RELACIONAMENTO PROBABILÍSTICO - histórico

• Os autores relacionaram dados de trabalhadores expostos a baixos níveis de radiação para estudar:

–causas de mortalidade

–impactos na fecundidade

–deformações genéticas posteriores

20

3. RELACIONAMENTO PROBABILÍSTICO - histórico

• Dez anos mais tarde Fellegi & Sunter - estatísticos Canadenses - publicaram um artigo no JASA

• Estabeleceram as bases matemáticas e estatísticas para o relacionamento probabilístico de registros (Fellegi & Sunter, 1969).

21

4. RELACIONAMENTO PROBABILÍSTICO

METODOLOGIA (clássica)

22

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS

(1)

A freqüência de ocorrência de uma característica deveria ser utilizada para computar um escore para cada par formado;

23

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS

(2)

Pares podem ser caracterizados em pares corretos, pares incorretos e pares possíveis, que requerem algum tipo de revisão;

24

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS(3)

Na procura de pares os registros devem ser comparados apenas se concordarem em um identificador, válido e altamente discriminatório.

25

4. RELACIONAMENTO PROBABILÍSTICO - METODOLOGIA -

• IDÉIAS FUNDAMENTAIS

(4)

A idéia é de se particionar ambos os arquivos em sub-conjuntos exclusivos e e exaustivos e procurar pares dentro de cada sub-conjunto.

–Essa estratégia é chamada de blocagem

26

4. RELACIONAMENTO PROBABILÍSTICO

- METODOLOGIA -

O processo de estimação dos escores para cada identificador

utilizado na comparação

27

Quando um identificador concorda (em um bloco) atribuímos o seguinte escore (wi)

wi = log2(m/u) =

log2((probabilidade de concordância do identificador dado que o pareamento é correto) / (probabilidade de concordância do identificador, dado que o pareamento é incorreto))

28

Quando um identificador NÃO concorda (em um bloco) atribuímos o seguinte escore (wi)

wi =

log2(1-m/1-u) = log2(probabilidade de discordância do identificador dado que o pareamento é correto) / (probabilidade de discordância do identificador, dado que o pareamento é incorreto))

29

4. RELACIONAMENTO PROBABILÍSTICO

Estimação dos Parâmetros: Considere sexo

fácil de codificar, mas......discrimina pouco

30

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em sexo

quando 2 registros pareados se referem ao mesmo indivíduo...

...estimada em torno de 0,95

Probabilidade M = 0,95Probabilidade M = 0,95

31

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em sexo

quando 2 registros pareados não se referem ao mesmo indivíduo...

...estimada em torno de 0,50

Probabilidade U = 0,50Probabilidade U = 0,50

32

4. RELACIONAMENTO PROBABILÍSTICO

- Estimação dos Parâmetros: Exemplo com sexo

wi para concordância = log2(m/u) =

log2(0,95/0,5)

= 0,93wi para discordância =

log2[(1-m)/(1-u)] =log2(0,05/0,5)

= -3,32

33

4. RELACIONAMENTO PROBABILÍSTICO

Estimação dos Parâmetros: Considere nome raro

mais difícil de codificar, mas......discrimina mais

34

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em nome

raro

quando 2 registros pareados se referem ao mesmo indivíduo

estimada em torno de 0,85

Probabilidade M = 0,85Probabilidade M = 0,85

35

4. RELACIONAMENTO PROBABILÍSTICO

Probabilidade de concordância em nome

raro

quando 2 registros pareados não se referem ao mesmo indivíduo

estimada em torno de 0,01

Probabilidade U = 0,01Probabilidade U = 0,01

36

4. RELACIONAMENTO PROBABILÍSTICO

Estimação dos Parâmetros: Exemplo com nome raro

wi para concordância = log2(m/u) =

log2(0,85/0,01)

= 6,41wi para discordância =

log2[(1-m)/(1-u)] =log2(0,15/0,99)

= -2,72

37

4. RELACIONAMENTO PROBABILÍSTICO Possibilidades

• Par 1: Concorda em sexo, não concorda em nome raro.

• + 0,93 + (-2,72) =

-1,80 (escore par 1)

• Par 2: Concorda em nome raro, não concorda em sexo

• + 6,41 + (-3,32) =

+3,09 (escore par 2)

Se eu tenho que escolher, fico com o Par 2

38

4. RELACIONAMENTO PROBABILÍSTICO – METODOLOGIA

Log na Base 2...A Idéia das Urnas

Idênticas

39

40

A diferença é que...

41

• Só argolas brancas

• Argolas brancas e vermelhas

42

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2?

O Evento de Interesse é

o número consecutivo de bolas brancas retiradas

43

• 2 hipóteses sobre o conteúdo da urna: todas são brancas / metade é branca.

• Bolas brancas retiradas → Evidência → urna é de argolas brancas

• A razão de verossimilhança de ‘todas brancas’ em relação a ‘metade brancas’: (1)b/(1/2)b = 2b

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

44

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

• Uma razão de verossimilhança de x corresponde a b bolas brancas da seguinte maneira

xlogln2

lnxb

ou

2x

2

b

45

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

• Considere então que:

(m)/(u) x onde

xlogln2

lnxwb

:então

wb

2i

i

46

4. Relacionamento probabilístico - metodologia

Por qual motivo uso log na base 2 ?

• Por exemplo: Concordância em sexo e nome raro com peso 6;

• ‘6’ representa evidência favorecendo ‘todas brancas’ versus ‘metade brancas’ em 6 bolas brancas consecutivas retiradas.

47

Escores limiares, curva bimodal: zona cinzenta

Gráfico freqüência dos escores X escores

4. RELACIONAMENTO PROBABILÍSTICO

0

10

20

30

40

50

60

70

80

90

1 4 7 10 13 16 19 22

48

Análise de Dados Pareados (o fantasma da incerteza...)

um estimador da incerteza que possa ser incorporarado no modelo de análise de resultados

5. DESAFIOS

49

“O Relacionamento Probabilístico de Registros pode auxiliar uma sociedade no sentido de avançar no conhecimento sobre o bem-estar e saúde de seus cidadãos. A literatura epidemiológica é repleta de estudos sobre saúde que fazem uso dos mais variados procedimentos de relacionamento de registro para produzir Ciência.”(Scheuren, 1997)

50