19
Record Linkage Record Linkage 21.05.2008 21.05.2008 Record Linkage Methode Blockvariable Matchvariable Übereinstimmungsgewicht Verteilung der Übereinstimmungsgewichte Grenzen Beispiel Aufruf eines Record Linkage Manuelle Nachbearbeitung

Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Embed Size (px)

Citation preview

Page 1: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Record Linkage

• Methode

• Blockvariable

• Matchvariable

• Übereinstimmungsgewicht

• Verteilung der Übereinstimmungsgewichte

• Grenzen

• Beispiel

• Aufruf eines Record Linkage

• Manuelle Nachbearbeitung

Page 2: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Voraussetzungen

Verfügbare Merkmale

Pseudonyme (19)

Name, Vorname, Geburtsname, früherer Name, Titel, Geburtstag

Klartexte (4)

Geburtsmonat, Geburtsjahr, Postleitzahl, Wohnort, Geschlecht

Page 3: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (1) neue Meldung Datenbank

Meldungen bekannter Personen

Paare

neue Meldung

X

alle vorhandene Meldungen

Prüfung auf Identität

Bei 2.000 neuen Meldungen pro Tagund 1.000.000 bekannten Meldungen

mehr als 2.000.000.000 Prüfungen pro Tag

Page 4: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (2) neue Meldung Datenbank

Meldungen bekannter Personen

Paare

neue Meldung

X

alle vorhandene Meldungen, die in bestimmten Merkmalen

mit der neuen Meldung übereinstimmen Blockvariable

Prüfung auf Identität

=

Berechnung des Übereinstimmungsgewichts

für jedes Meldungspaar

neue Meldung

bekannte Meldung 1 …. n

Vergleich bestimmter

Merkmalsausprägungen der neuen Meldung und der bekannten Meldung

Matchvariable

Entscheidung

identisch, nicht identisch, fraglich

Page 5: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (3)

Blockvariable

Lauf 1 Name, Vorname, Geburtsdatum

Lauf 2 Name, Geschlecht, Wohnort

Lauf 3 Vorname, Geburtstag

Lauf 4 Vorname, Geburtsmonat

Lauf 5 Vorname, Geburtsjahr

Lauf 6 Geburtsdatum

Lauf 7 Geburtsdatum, Geschlecht

Page 6: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (4)

Matchvariable

1. alle Teile des Namens

2. alle Teile des Vornamens

3. alle Teile des Geburtsnamens

4. Geburtstag

5. Geburtsmonat

6. Geburtsjahr

7. Geschlecht

8. Wohnort

Page 7: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (5)

Übereinstimmungsgewicht

∑=

=n

iiGUEG

1

Das Übereinstimmungsgewicht ergibt sich als Summe der Übereinstimmungsgewichte für alle

Matchvariable i = 1 bis n

Page 8: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (6)

Übereinstimmungsgewicht

Das Übereinstimmungsgewicht einer Matchvariable ergibt sich zu(ln(m/u))/ln(2)

wenn die Matchvariable der neuen Meldung mit der Matchvariablen der bekannten Meldung identisch ist

und zuln((1-m)/(1-u))/ln(2)

wenn die Matchvariable der neuen Meldung nicht mit der Matchvariablen der bekannten Meldung identisch ist

)2ln(

)ln(um

G =+ )2ln(

))1()1(ln(

um

G −−

=−

Page 9: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (7)

Wahrscheinlichkeiten u und m

m = Wahrscheinlichkeit, dass identische

Merkmalsausprägungen vorliegen, wenn es sich um identische Personen handelt

u = Wahrscheinlichkeit, dass identische

Merkmalsausprägungen vorliegen, wenn es sich um unterschiedliche Personen handelt

Page 10: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (8)

Wahrscheinlichkeiten u und m

Die Wahrscheinlichkeiten m können aus den vorliegenden Meldungen geschätzt werden:

Page 11: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (9)

Wahrscheinlichkeiten u und m

Die Wahrscheinlichkeiten u können aus den vorliegenden Meldungen geschätzt werden:

Die Wahrscheinlichkeit u ergibt sich als Quotient der Häufigkeit der aktuellen Ausprägung dividiert

durch die Summe aller Ausprägungen

Page 12: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (10)

Wahrscheinlichkeiten u und m

1 51.790 .086145524225

2 48.940 .081404942181

3 54.882 .091288639902

4 51.155 .085089289278

5 51.444 .085570000931

6 47.830 .079558610227

7 54.109 .090002860982

8 49.424 .082210009447

9 50.306 .083677094838

10 48.268 .080287162836

11 45.750 .076098817016

12 47.294 .078667048131

Häufigkeitsverteilung des Geburtsmonats Alle Wahrscheinlichkeiten u bewegen sich um den Wert

0.0833 (=1/12) herum.

Page 13: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (11)

Wahrscheinlichkeiten u und m

Häufigkeitsverteilung der häufigsten Namen

.ekPU>LV\EjF+fS1AZJEx16 2.845 .004732336077

de7:Oe'GS'1$e4Sr//S/x16 2.584 .004298192064

6dfn)alcYbEka8e<rmDex16 1.719 .002859362290

,\$)VF3IE\#fJ<0:c'fbx16 1.566 .002604864076

5P9Mm3G.fr$aWkL+@##Xx16 1.428 .002375316667

o\/b)AfRD=H`uO?YQH#lx16 1.410 .002345375700

]7*R17.#IcRkN2n'RAa9x16 1.392 .002315434734

\tr2!'9f?/`NL(fEeZ"Hx16 1.389 .002310444573

:$G%F:B?3Kjq1Ou&isk5x16 1.308 .002175710224

n>_a*0GR>P7Q;aOO(u;nx16 1.245 .002070916842

^I'^Ge.Gq&f8j0\<</aTx16 1.222 .002032658940

#oo:9UB<Tq]9H)B`.nS+x16 1.139 .001894597817

A.cuS[U[#l5?!af#-,upx16 1.075 .001788141048

S&[]3JItj@4!j:j,f23sx16 1.064 .001769843791

?A#OnikpOQ=-J'LgO8CWx16 1.055 .001754873308

/&)ca0]j4/&+7[knS_DYx16 1.022 .001699981536

Page 14: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (12)

Übereinstimmungsgewicht

Wenn die Ausprägung der neuen Meldung mit der Ausprägung der bekannten Meldung identisch ist, gilt

u < mDadurch ist G+ immer positiv

)2ln(

)ln(um

G =+ )2ln(

))1()1(ln(

um

G −−

=−

Wenn die Ausprägung der neuen Meldung mit der Ausprägung der bekannten Meldung nicht identisch ist, gilt

(1-u) > (1-m)Dadurch ist G- immer negativ

Page 15: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (13)

Übereinstimmungsgewicht

Häufigkeitsverteilung des Übereinstimmungsgewichts

0

50

100

150

200

250

300

350

400

450

0 5 10 15 20 25 30 35 40

Page 16: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (14)

Entscheidungsgrenzen

Page 17: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (15)

Entscheidungsgrenzen

Page 18: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Grundsätzliches Vorgehen (16)

Entscheidungsgrenzen

Page 19: Record Linkage 21.05 - Krebsregister NRW: Willkommen · Record Linkage 21.05.2008. Grundsätzliches Vorgehen (1) neue Meldung. Datenbank. Meldungen bekannter Personen. Paare. neue

Record LinkageRecord Linkage

21.05.200821.05.2008

Beispiel

Beispiel eines Record Linkage

Programm KRNWRoutine\Record Linkage – AufrufAuswahl der Meldestellen 223, 4695 und 6600Dauer ca. 1 Minute

Manuelle Nachbearbeitung

Programm KRNWRoutine\Record Linkage – Nachbearbeitung