View
216
Download
0
Category
Preview:
Citation preview
Record LinkageRecord Linkage
21.05.200821.05.2008
Record Linkage
• Methode
• Blockvariable
• Matchvariable
• Übereinstimmungsgewicht
• Verteilung der Übereinstimmungsgewichte
• Grenzen
• Beispiel
• Aufruf eines Record Linkage
• Manuelle Nachbearbeitung
Record LinkageRecord Linkage
21.05.200821.05.2008
Voraussetzungen
Verfügbare Merkmale
Pseudonyme (19)
Name, Vorname, Geburtsname, früherer Name, Titel, Geburtstag
Klartexte (4)
Geburtsmonat, Geburtsjahr, Postleitzahl, Wohnort, Geschlecht
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (1) neue Meldung Datenbank
Meldungen bekannter Personen
Paare
neue Meldung
X
alle vorhandene Meldungen
Prüfung auf Identität
Bei 2.000 neuen Meldungen pro Tagund 1.000.000 bekannten Meldungen
mehr als 2.000.000.000 Prüfungen pro Tag
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (2) neue Meldung Datenbank
Meldungen bekannter Personen
Paare
neue Meldung
X
alle vorhandene Meldungen, die in bestimmten Merkmalen
mit der neuen Meldung übereinstimmen Blockvariable
Prüfung auf Identität
=
Berechnung des Übereinstimmungsgewichts
für jedes Meldungspaar
neue Meldung
bekannte Meldung 1 …. n
Vergleich bestimmter
Merkmalsausprägungen der neuen Meldung und der bekannten Meldung
Matchvariable
Entscheidung
identisch, nicht identisch, fraglich
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (3)
Blockvariable
Lauf 1 Name, Vorname, Geburtsdatum
Lauf 2 Name, Geschlecht, Wohnort
Lauf 3 Vorname, Geburtstag
Lauf 4 Vorname, Geburtsmonat
Lauf 5 Vorname, Geburtsjahr
Lauf 6 Geburtsdatum
Lauf 7 Geburtsdatum, Geschlecht
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (4)
Matchvariable
1. alle Teile des Namens
2. alle Teile des Vornamens
3. alle Teile des Geburtsnamens
4. Geburtstag
5. Geburtsmonat
6. Geburtsjahr
7. Geschlecht
8. Wohnort
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (5)
Übereinstimmungsgewicht
∑=
=n
iiGUEG
1
Das Übereinstimmungsgewicht ergibt sich als Summe der Übereinstimmungsgewichte für alle
Matchvariable i = 1 bis n
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (6)
Übereinstimmungsgewicht
Das Übereinstimmungsgewicht einer Matchvariable ergibt sich zu(ln(m/u))/ln(2)
wenn die Matchvariable der neuen Meldung mit der Matchvariablen der bekannten Meldung identisch ist
und zuln((1-m)/(1-u))/ln(2)
wenn die Matchvariable der neuen Meldung nicht mit der Matchvariablen der bekannten Meldung identisch ist
)2ln(
)ln(um
G =+ )2ln(
))1()1(ln(
um
G −−
=−
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (7)
Wahrscheinlichkeiten u und m
m = Wahrscheinlichkeit, dass identische
Merkmalsausprägungen vorliegen, wenn es sich um identische Personen handelt
u = Wahrscheinlichkeit, dass identische
Merkmalsausprägungen vorliegen, wenn es sich um unterschiedliche Personen handelt
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (8)
Wahrscheinlichkeiten u und m
Die Wahrscheinlichkeiten m können aus den vorliegenden Meldungen geschätzt werden:
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (9)
Wahrscheinlichkeiten u und m
Die Wahrscheinlichkeiten u können aus den vorliegenden Meldungen geschätzt werden:
Die Wahrscheinlichkeit u ergibt sich als Quotient der Häufigkeit der aktuellen Ausprägung dividiert
durch die Summe aller Ausprägungen
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (10)
Wahrscheinlichkeiten u und m
1 51.790 .086145524225
2 48.940 .081404942181
3 54.882 .091288639902
4 51.155 .085089289278
5 51.444 .085570000931
6 47.830 .079558610227
7 54.109 .090002860982
8 49.424 .082210009447
9 50.306 .083677094838
10 48.268 .080287162836
11 45.750 .076098817016
12 47.294 .078667048131
Häufigkeitsverteilung des Geburtsmonats Alle Wahrscheinlichkeiten u bewegen sich um den Wert
0.0833 (=1/12) herum.
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (11)
Wahrscheinlichkeiten u und m
Häufigkeitsverteilung der häufigsten Namen
.ekPU>LV\EjF+fS1AZJEx16 2.845 .004732336077
de7:Oe'GS'1$e4Sr//S/x16 2.584 .004298192064
6dfn)alcYbEka8e<rmDex16 1.719 .002859362290
,\$)VF3IE\#fJ<0:c'fbx16 1.566 .002604864076
5P9Mm3G.fr$aWkL+@##Xx16 1.428 .002375316667
o\/b)AfRD=H`uO?YQH#lx16 1.410 .002345375700
]7*R17.#IcRkN2n'RAa9x16 1.392 .002315434734
\tr2!'9f?/`NL(fEeZ"Hx16 1.389 .002310444573
:$G%F:B?3Kjq1Ou&isk5x16 1.308 .002175710224
n>_a*0GR>P7Q;aOO(u;nx16 1.245 .002070916842
^I'^Ge.Gq&f8j0\<</aTx16 1.222 .002032658940
#oo:9UB<Tq]9H)B`.nS+x16 1.139 .001894597817
A.cuS[U[#l5?!af#-,upx16 1.075 .001788141048
S&[]3JItj@4!j:j,f23sx16 1.064 .001769843791
?A#OnikpOQ=-J'LgO8CWx16 1.055 .001754873308
/&)ca0]j4/&+7[knS_DYx16 1.022 .001699981536
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (12)
Übereinstimmungsgewicht
Wenn die Ausprägung der neuen Meldung mit der Ausprägung der bekannten Meldung identisch ist, gilt
u < mDadurch ist G+ immer positiv
)2ln(
)ln(um
G =+ )2ln(
))1()1(ln(
um
G −−
=−
Wenn die Ausprägung der neuen Meldung mit der Ausprägung der bekannten Meldung nicht identisch ist, gilt
(1-u) > (1-m)Dadurch ist G- immer negativ
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (13)
Übereinstimmungsgewicht
Häufigkeitsverteilung des Übereinstimmungsgewichts
0
50
100
150
200
250
300
350
400
450
0 5 10 15 20 25 30 35 40
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (14)
Entscheidungsgrenzen
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (15)
Entscheidungsgrenzen
Record LinkageRecord Linkage
21.05.200821.05.2008
Grundsätzliches Vorgehen (16)
Entscheidungsgrenzen
Record LinkageRecord Linkage
21.05.200821.05.2008
Beispiel
Beispiel eines Record Linkage
Programm KRNWRoutine\Record Linkage – AufrufAuswahl der Meldestellen 223, 4695 und 6600Dauer ca. 1 Minute
Manuelle Nachbearbeitung
Programm KRNWRoutine\Record Linkage – Nachbearbeitung
Recommended