127
Christian-Albrechts-Universität zu Kiel Institut für Informatik Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling geb. am 16.12.1988 in Hildesheim Betreuer: Prof. Dr. Hans-Joachim Klein, Dipl.-Inf. Tsvetelin Polomski Christian-Albrechts-Universität zu Kiel Institut für Informatik Arbeitsgruppe Technologie der Informationssysteme Olshausenstr. 40, 24098 Kiel Germany September 2013

Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Christian-Albrechts-Universität zu KielInstitut für Informatik

Masterarbeit

Datenqualität in Pharmakovigilanzdaten

Verfasser:

Christian Eggelinggeb. am 16.12.1988 in Hildesheim

Betreuer:

Prof. Dr. Hans-Joachim Klein,Dipl.-Inf. Tsvetelin Polomski

Christian-Albrechts-Universität zu KielInstitut für Informatik

Arbeitsgruppe Technologie der InformationssystemeOlshausenstr. 40, 24098 Kiel

Germany

September 2013

Page 2: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 3: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Kurzfassung

Die vorliegende Arbeit mit dem Thema „Datenqualität in Pharmakovigilanzdaten“ beschäftigtsich mit der Qualität der durch die FDA im Rahmen ihres Spontanmeldesystems zur Verfügunggestellten Daten. Mit Hilfe von Spontanmeldesystemen können mögliche Zusammenhängezwischen unerwünschten Ereignissen und eingenommenen Medikamenten aufgedeckt werden,welches als Teil der Pharmakovigilanz zur Sicherheit von Medikamenten beitragen soll. ImRahmen dieser Arbeit werden die Daten bzgl. ihrer Qualität analysiert und dabei entdeckteSchwächen aufgezeigt. Weiterhin werden Möglichkeiten zur Verbesserung jener Daten vorge-stellt. Zum Teil wurden diese im Rahmen einer Neuentwicklung des Programms OpenVigil,welches es ermöglicht, die von der FDA zur Verfügung gestellten Daten zu analysieren, umge-setzt.Neben den allgemeinen Ansätzen zur Vervollständigung und Korrektur der Daten konnte,speziell durch den neuen Ansatz der eindeutigen Zuordnung von Einträgen aus dem Spontan-meldesystem zu einzelnen Arzneimitteln und -stoffen, nicht nur ein Qualitäts-, sondern auch einInformationsgewinn erreicht werden. Durch die beschriebenen Möglichkeiten zur Entfernungvon Duplikaten kann die Qualität der mit Hilfe von OpenVigil erstellten Statistiken verbessertund damit deren Verlässlichkeit gesteigert werden.

iii

Page 4: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 5: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Inhaltsverzeichnis

1. Einleitung 31.1. Pharmakovigilanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1.1. Der Zulassungsprozess . . . . . . . . . . . . . . . . . . . . . . . . . 31.1.2. Methoden zur Datensammlung . . . . . . . . . . . . . . . . . . . . . 5

1.2. Data Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.2.1. Grundbausteine des Data Mining . . . . . . . . . . . . . . . . . . . . 71.2.2. Der Prozess des Data Mining . . . . . . . . . . . . . . . . . . . . . . 9

1.3. Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101.4. Struktur der Arbeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2. Datenqualität 132.1. Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.2. Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3. Dimensionen von Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . 14

2.3.1. Fehlerfreiheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3.2. Vollständigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3.3. Zeitabhängigkeit von Daten . . . . . . . . . . . . . . . . . . . . . . 172.3.4. Konsistenz und Integrität . . . . . . . . . . . . . . . . . . . . . . . . 172.3.5. Weitere Dimensionen . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.4. Abhängigkeiten zwischen einzelnen Datenqualitätsdimensionen . . . . . . . 212.5. Relevanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3. Qualität der FDA-Daten 233.1. FDA AERS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.1.1. Anzahl Meldungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 243.1.2. Meldungen nach Quelle . . . . . . . . . . . . . . . . . . . . . . . . 243.1.3. Meldungen nach Art der Übermittlung . . . . . . . . . . . . . . . . . 253.1.4. Meldungen nach Herkunftsland . . . . . . . . . . . . . . . . . . . . 26

3.2. Aufbau der Dateien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3. Bereitgestellte Datensätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.4. Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.4.1. Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.2. Demo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.4.3. Drug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 413.4.4. Indi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.4.5. Outc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

v

Page 6: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Inhaltsverzeichnis

3.4.6. Reac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4.7. Rpsr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.4.8. Ther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 513.4.9. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

4. OpenVigil 554.1. Technische Produktumgebung . . . . . . . . . . . . . . . . . . . . . . . . . 554.2. Entwicklungsumgebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 574.3. Datenbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.4. Benutzergruppen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.5. Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 614.6. Import von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5. Methoden zur Verbesserung der Datenqualität 655.1. Vervollständigung von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.1.1. Vervollständigung durch Daten des gleichen Falls . . . . . . . . . . . 655.1.2. Vervollständigung auf Basis von Annahmen . . . . . . . . . . . . . . 65

5.2. Konsistenz und Integrität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 665.3. Korrektur von fehlerhaften Datumsangaben . . . . . . . . . . . . . . . . . . 665.4. Dosenermittlung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.4.1. Einnahme einmal am Tag . . . . . . . . . . . . . . . . . . . . . . . . 675.4.2. Einnahme zweimal am Tag . . . . . . . . . . . . . . . . . . . . . . . 685.4.3. Einnahme dreimal am Tag . . . . . . . . . . . . . . . . . . . . . . . 695.4.4. Einnahme viermal am Tag . . . . . . . . . . . . . . . . . . . . . . . 695.4.5. Nicht verwertbare Angaben . . . . . . . . . . . . . . . . . . . . . . 70

5.5. Drugnamezuordnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705.5.1. Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.5.2. Manuelle Zuordnung von Drugnames . . . . . . . . . . . . . . . . . 74

5.6. Duplikate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.6.1. Korrigierte Meldungen . . . . . . . . . . . . . . . . . . . . . . . . . 765.6.2. Doppelte Übermittlung . . . . . . . . . . . . . . . . . . . . . . . . . 76

6. Fazit 81

7. Ausblick 83

A. Anhang 87A.1. Allgemein . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

A.1.1. Anzahl Meldungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 87A.1.2. Meldungen nach Quelle . . . . . . . . . . . . . . . . . . . . . . . . 88A.1.3. Meldungen nach Art der Übermittlung . . . . . . . . . . . . . . . . . 89A.1.4. Meldungen nach Herkunftsland . . . . . . . . . . . . . . . . . . . . 90A.1.5. Bereitgestellte Datensätze . . . . . . . . . . . . . . . . . . . . . . . 92

vi

Page 7: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Inhaltsverzeichnis

A.2. Demo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94A.2.1. Anfangs- und Folgemeldungen . . . . . . . . . . . . . . . . . . . . . 94A.2.2. Altersangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95A.2.3. Angaben zum Geschlecht . . . . . . . . . . . . . . . . . . . . . . . 97A.2.4. Gewichtsangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99A.2.5. Beruf des Meldenden . . . . . . . . . . . . . . . . . . . . . . . . . . 100A.2.6. Todesdatum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

A.3. Drug . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102A.3.1. Rolle des Medikaments . . . . . . . . . . . . . . . . . . . . . . . . . 102A.3.2. Validierte und wortwörtliche Drugnames . . . . . . . . . . . . . . . 103

A.4. Outc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104A.5. Rpsr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105A.6. Ther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

A.6.1. Unvollständige Angaben zur Dauer der Medikamenteneinnahme . . . 106

B. Inhalt der CD 107

Literatur 113

Abbildungsverzeichnis 116

Tabellenverzeichnis 117

Abkürzungsverzeichnis 119

Selbstständigkeitserklärung 121

1

Page 8: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 9: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1. Einleitung

Diese Einleitung soll zunächst einen Überblick über die Hauptthemengebiete geben, in denendiese Arbeit angesiedelt ist. Dies ist sowohl der Bereich der Pharmakovigilanz als auch derBereich des Data Mining. Anschließend folgt eine Einordnung dieser Arbeit in diese beidenBereiche.

1.1. Pharmakovigilanz

Pharmakovigilanz beschäftigt sich mit der Untersuchung von Risiken, die durch die Einnah-me von Medikamenten auftreten können. Neben der gewünschten, heilenden Wirkung einesMedikaments kann es vorkommen, dass auch weitere Effekte, die i. d. R. unerwünscht sind,auftreten. Ein Medikament, auch Arzneimittel genannt, kann durch Patienten eingenommenwerden. Es besteht aus einem oder mehreren Wirkstoffen, auch Arzneistoffe genannt, undmöglichen weiteren Hilfsstoffen. Pharmakovigilanz ist die Disziplin, unerwünschte Effekteaufzuspüren, zu untersuchen und bei Bedarf präventive Maßnahmen zu ergreifen [Eva00]. DieWeltgesundheitsorganisation (WHO) definiert Pharmakovigilanz daher als die Wissenschaftund die Aktivitäten zur Entdeckung und Bewertung, zum Verständnis und zur Vermeidungunerwünschter Ereignisse und anderen medikamentenbezogenen Problemen [HG08].Ein unerwünschtes Ereignis ist dabei ein auftretendes Ereignis, das möglicherweise im Zu-sammenhang mit der Einnahme eines Medikaments steht und daher möglicherweise eineNebenwirkung dieses Medikaments darstellt. Unterschieden werden muss hierbei, ob es sichum eine spezifische Nebenwirkung des Medikaments oder allgemein des Wirkstoffs han-delt [PRPP12].Ziel der Pharmakovigilanz ist es, Gefahren für Patienten durch auftretende Nebenwirkungenabzuwenden und damit das Risiko bei der Einnahme von Medikamenten zu verringern [Eva00].An den einzelnen Schritten der Pharmakovigilanz sind viele Akteure beteiligt. Hierzu zäh-len u. a. Behörden, die Arzneimittelindustrie und Forschungsinstitutionen, sowie Ärzte undApotheker [HG08].

1.1.1. Der Zulassungsprozess

1.1.1.1. Vor der Zulassung

Die für die Zulassung von Medikamenten zuständigen Behörden sind u. a. die Food and DrugAdministration (FDA) in den USA, die European Medicines Agency (EMA) für Europa unddas Bundesinstitut für Arzneimittel und Medizinprodukte (BfArM) in Deutschland. Vor derZulassung eines Arzneimittels durch die jeweils zuständige Behörde muss ein Unternehmen

3

Page 10: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1. Einleitung

der Behörde Materialien vorlegen, die die Unbedenklichkeit des Medikaments bestätigen.Insbesondere müssen hier die Kriterien Sicherheit, Qualität und Wirksamkeit betrachtet undnachgewiesen werden [Eva00].Um dies umzusetzen, werden vor der Zulassung klinische Studien durch das verantwortli-che Pharmaunternehmen durchgeführt. Diese sollen Daten liefern, die die Wirksamkeit undUnbedenklichkeit des Arzneimittels bestätigen. Allerdings werden für die klinischen StudienTestpopulationen ausgewählt, die nicht unbedingt der späteren Zielgruppe entsprechen müssen.Die ausgewählten Personen haben beispielsweise nur die durch das Medikament zu behan-delnde Krankheit, aber keine anderen Krankheiten, und sind jünger als die typischen, nachder Zulassung zu behandelnden Patienten. Auch haben diese klinischen Studien Nachteile aufGrund der geringen Größe der Testpopulation. Diese ist i. d. R. nicht größer als 2000 Personen.Die Dauer dieser Studien ist ebenfalls begrenzt. Nur ein geringer Anteil der Probanden wirdein Jahr oder länger mit dem zu testenden Medikament behandelt [Eva00].Vor der Zulassung können nicht alle durch das Medikament verursachten Nebenwirkungenidentifiziert werden. Dies liegt zum einen daran, dass manche Nebenwirkungen nur sehr selten,d. h. einmal bei mehr als 1000 Behandlungen oder seltener, auftreten. Diese können währendder Studien keine statistische Relevanz erreichen. Zum anderen liegt dies an den oben beschrie-benen methodischen Nachteilen der Studien. Nebenwirkungen, die erst durch die Interaktionvon mehreren Arzneimitteln auftreten, können deshalb ebenso wenig identifiziert werden wieNebenwirkungen, die nur bei einer bestimmten Gruppe von Patienten auftreten [Eva00].

1.1.1.2. Die Zulassung

Die Zulassung für ein Medikament erfolgt nach der Prüfung der vorgelegten Unterlagen. In-nerhalb der EU wird die Zulassung zunächst für eine Dauer von 5 Jahren erteilt und kannanschließend für unbegrenzte Zeit verlängert werden (Verordnung (EG) Nr. 726/2004). In denUSA erfolgt die Zulassung ohne zeitliche Beschränkung.Die Zulassung kann nach ihrer Erteilung nachträglich verändert werden, z. B. um neue Befundezu ergänzen, zu deren Behandlung das Medikament eingesetzt werden kann. Die Zulassungkann unter der Voraussetzung erfolgen, dass das produzierende Pharmaunternehmen uner-wünschte Ereignisse zeitnah an die zuständige Behörde meldet und regelmäßige Berichte überdie Sicherheit des Medikaments erstellt [Eva00].

1.1.1.3. Nach der Zulassung

Da vor der Zulassung nicht alle Nebenwirkungen entdeckt werden können, müssen die Medika-mente auch nach ihrer Zulassung beobachtet werden. Hierzu sind u. a. die Hersteller gesetzlichverpflichtet. Ziel dieser Beobachtung ist es, Hinweise auf potenzielle Abhängigkeiten zwischenArzneimitteln und unerwünschten Ereignissen zu identifizieren, sog. Signale [PRPP12].Die WHO definiert ein Signal wie folgt:

„Reported information on a possible causal relationship between an adverse event and a drug,the relationship being unknown or incompletely documented previously.“ [Wor11]

4

Page 11: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1.1. Pharmakovigilanz

Meldungen zu neuen Signalen treten regelmäßig auf. Nach einer Untersuchung muss dannjeweils entschieden werden, ob das Medikament zurückgezogen werden muss, ob das Risiko-Nutzen-Verhältnis trotz des nun höheren Risikos nach wie vor positiv ist und damit die mögli-cherweise auftretende Nebenwirkung hingenommen werden kann, oder ob das Signal unbe-gründet war [HG08].Unterstützt werden diese Untersuchungen durch die Sammlung von Daten für jedes einzelneMedikament. Je nach Art der Untersuchung und Anforderungen an die Einsatzmöglichkei-ten kommen unterschiedliche Methoden zur Datensammlung zum Einsatz. Diese sollen imFolgenden kurz vorgestellt werden.

1.1.2. Methoden zur Datensammlung

1.1.2.1. Klinische Studien

Klinische Studien dienen der systematischen Erprobung und Überprüfung neuer Arzneimittel,um deren Wirksamkeit und Verträglichkeit zu belegen. Durchgeführt wird eine klinischeStudie mit zwei Gruppen. Dabei erhält eine Gruppe das zu testende Medikament und eineKontrollgruppe erhält ein Placebo oder ein alternatives Medikament. Um den Einfluss äußererFaktoren, wie z. B. dem allgemeinen Gesundheitsbewusstsein der Teilnehmer, zu begrenzen,werden die Probanden der Studie per Zufall einer der beiden Gruppen zugeordnet [SS09].Klinische Studien haben den Vorteil, dass die Daten der Teilnehmer sehr detailliert erfasstwerden und damit eine spätere ausführliche Auswertung möglich ist [PRPP12]. Sie unterliegenaber auch den bereits weiter oben beschriebenen methodischen Nachteilen.Neben dem Einsatz klinischer Studien vor der Zulassung eines Arzneimittels können dieseauch nach der Zulassung genutzt werden, um Hypothesen über mögliche Nebenwirkungenzu beweisen oder zu widerlegen. Hierbei kann bspw. die Wirkung des Medikaments auf einebestimmte Gruppe von Patienten geprüft werden, indem nur diese an der Studie teilnehmen[HG08].

1.1.2.2. Spontanmeldesysteme

Spontanmeldesysteme wurden entwickelt und eingeführt, nachdem Anfang der 1960er Jahredas Beruhigungsmittel Contergan mit dem Wirkstoff Thalidomid als Ursache für viele Miss-bildungen bei Neugeborenen ausgemacht wurde [Mai01]. Sie sollten helfen, das Auftretenvon unbekannten, schwerwiegenden Nebenwirkungen frühzeitig erkennen zu können, umnotwendige Maßnahmen einzuleiten [HG08]. Sie sind das für diesen Zweck am häufigsteneingesetzte Mittel [PRPP12].Mit Hilfe von Spontanmeldesystemen werden Informationen über unerwünschte Ereignisseund mit ihnen im Zusammenhang stehende Arzneimittel gesammelt. Neben Herstellern, die zurMeldung verpflichtet sind, können je nach bereitstellender Institution auch Ärzte, Apothekerund sonstige im Gesundheitswesen tätige Personen, sowie Patienten Meldungen über Ver-dachtsfälle abgeben [PRPP12]. Meldungen über schwerwiegende Verdachtsfälle werden auchzwischen den einzelnen Behörden, speziell zwischen den USA und Europa, sowie innerhalbEuropas zwischen den einzelnen nationalen Behörden, ausgetauscht [Eva00].

5

Page 12: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1. Einleitung

Beispiele für eingerichtete Spontanmeldesysteme sind u. a. das in den USA von der FDA einge-führte Adverse Event Reporting System (AERS), die von der EMA entwickelte EudravigilanceDatenbank (European Union Drug Regulating Authorities Pharmacovigilance) [PRPP12], dievom BfArM geführte UAW-Datenbank (Unerwünschte Arzneimittelwirkung) [Arz13] und dievon der WHO am Uppsala Monitoring Centre (UMC) geführte Vigibase [PRPP12].Neben der FDA stellt auch Health Canada die Daten ihrer Canada Vigilance Adverse ReactionOnline Database frei zum Download zur Verfügung [PRPP12]. Weitere Datenbanken, derenInhalte online durchsucht werden können, sind neben der UAW-Datenbank der BfArM die Da-tenbanken der niederländischen Lareb und der englischen Medicines and Healthcare productsRegulatory Agency (MHRA) [HG08].Hauptkritikpunkt an der Sammlung von Daten mit Hilfe von Spontanmeldesystemen ist dieschwankende Wahrscheinlichkeit, dass eine mögliche Nebenwirkung eines Medikaments alssolche erkannt und gemeldet wird. So werden unkritische Nebenwirkungen möglicherweise aufGrund dessen, dass sie kein Risiko für den Patienten darstellen, nicht gemeldet. Andererseitswerden mögliche Nebenwirkungen mit schwerwiegenden Auswirkungen sehr zeitnah gemeldet.Es findet also eine Vorauswahl statt [HG08]. Diese Vorauswahl führt dazu, dass die wirklichenAuswirkungen einer Nebenwirkung nicht erkannt werden können [PRPP12]. Andererseits kanndiese Vorauswahl aber auch helfen, die schwerwiegenden Nebenwirkungen eines Medikamentsschneller zu erkennen, um dann notwendige Maßnahmen einleiten zu können [HG08]. DieseVorauswahl durch den behandelnden Arzt unterliegt zusätzlichen externen Einflüssen. Bei-spielsweise werden direkt nach der Markteinführung mögliche Nebenwirkungen eher gemeldet,als wenn das Arzneimittel schon längere Zeit auf dem Markt ist. Der Einsatz eines schon längererhältlichen Medikaments zur Behandlung weiterer Symptome, die vorher nicht mit diesemMedikament behandelt wurden, oder neue Dosierungen können ebenfalls zu einer Erhöhungder Meldewahrscheinlichkeit führen. Weitere Einflussfaktoren sind die Aufmerksamkeit derMedien und damit eine verstärkte Aufmerksamkeit durch die Öffentlichkeit, sowie mögli-che regulatorische Aktivitäten, wie Warnungen, von Behörden. All diese Faktoren könnenzusätzlichen Einfluss auf die Meldungen anderer Medikamente haben. Beispielsweise kann dieWarnung vor einem Medikament dazu führen, dass andere Arzneimittel zur Behandlung dessel-ben Symptoms verstärkt eingesetzt werden und damit die Aufmerksamkeit diesen gegenüberansteigt [PRPP12].Trotz der genannten Nachteile sind Spontanmeldesysteme ein gutes Mittel, um Sicherheitsrisi-ken frühzeitig erkennen zu können, da sie sehr zeitnah Informationen über die Anwendung vonArzneimitteln liefern können [PRPP12].

1.1.2.3. Prescription Event Monitoring (PEM)

Das Prescription Event Monitoring hat das Ziel, ein konkretes Medikament genau zu beobach-ten und dabei möglichst alle auftretenden unerwünschten Ereignisse zu erfassen. Dazu werdendie Ärzte, die das Medikament verordnet haben, angeschrieben und um Meldung eventuellaufgetretener, unerwünschter Ereignisse gebeten. Dabei wird eine große Datenmenge zu diesemeinen Medikament gesammelt. Das wesentliche Problem des PEM ist, dass es keine Kontroll-gruppe gibt, die mögliche Assoziationen zwischen Medikament und einem unerwünschtenEreignis widerlegen kann [Eva00].

6

Page 13: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1.2. Data Mining

Eingesetzt wird PEM besonders in England. Dort werden bei neuen Medikamenten regel-mäßig die Ärzte, welche die ersten 10.000 Verschreibungen durchgeführt haben, angeschrie-ben [MWP+97].

1.2. Data Mining

Data Mining beschäftigt sich mit der Analyse von und Informationsgewinnung aus Datenmen-gen, die auf Grund ihrer Größe bzw. ihres Umfangs nicht mit Hilfe klassischer, von Menschendurchgeführten Methoden ausgewertet werden können [Gor11]. Zum einen, da eine manuelleAuswertung zu langsam, zu teuer und ggf. zu subjektiv wäre, aber auch da sie ab einer ge-wissen Datenmenge für Menschen in nicht automatisierten Verfahren nicht mehr handhabbarist [FPsS96].Data Mining im engeren Sinne bezieht sich nur auf die Analyse eines Datenbestands, und damitden Gewinn von Informationen aus Daten, wie z. B. komplexe Muster, die Abhängigkeitenbeschreiben [Gor11]. Im allgemeineren Sinne wird Data Mining auch als Bezeichnung für einenganzen Prozess, der auch als Knowledge Discovery bezeichnet wird, verwendet. Dieser Prozessbeinhaltet nicht nur die Analyse selbst sondern auch die Vor- und Nachbereitungen [FPsS96].Dieser Prozess wird in Abschnitt 1.2.2 noch genauer beleuchtet.Data Mining im engeren Sinne lässt sich definieren als:

„Applying data analysis and discovery algorithms that, under acceptable computationalefficiency limitations, produce a particular enumeration of patterns (or models) over the

data.“ [FPsS96]

Wohingegen Data Mining im weiteren Sinne, und damit im Sinne des Knowledge Discovery,sich wie folgt definieren lässt:

„The nontrivial process of identifying valid, novel, potentially useful, and ultimatelyunderstandable patterns in data.“ [FPsS96]

Im Folgenden sollen nun zunächst die Grundbausteine und anschließend der gesamte Prozessdes Data Mining beschrieben werden.

1.2.1. Grundbausteine des Data Mining

Die Techniken des Data Mining basieren im Wesentlichen auf den folgenden drei Säulen[Gor11]:

• Statistik

• Künstliche Intelligenz

• Datenbanksysteme

7

Page 14: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1. Einleitung

Statistics

Artificial Intelligence

Machine Learning

Natural Computing

DATAMINING

Databasesystems

Abbildung 1.1.: Data mining roots [Gor11]

1.2.1.1. Statistik

Statistik ist die Grundlage des Data Mining im engeren Sinne. Sie ermöglicht die Auswertungvon Daten anhand bekannter und bewährter Berechnungsverfahren [Gor11].Die deskriptive Statistik beschreibt die vorhandenen Daten sowohl anhand von tabellarischenund grafischen Darstellungen als auch mit Hilfe von aggregierten Werten [Ste07]. Hierzu gehö-ren etwa Mittelwerte und Streuungsmaße [Gor11]. Auch bisher unbekannte Zusammenhängeund Strukturen lassen sich mit Hilfe der deskriptiven Statistik erkennen, die sich anschlie-ßend auf ihre Allgemeingültigkeit mit Hilfe von wahrscheinlichkeitstheoretischen Methodenuntersuchen lassen [Ste07].

1.2.1.2. Künstliche Intelligenz

Künstliche Intelligenz ergänzt Data Mining um Methoden, mit denen Informationen ausgewertetwerden können, wobei versucht wird, das menschlichen Denken zu immitieren. Hierzu gehörtauch das maschinelle Lernen, bei dem der Computer für einen bestimmten Zweck trainiertwird. Ebenfalls in diesen Bereich fällt das Natural Computing [Gor11].

1.2.1.3. Datenbanksysteme

Datenbanksysteme stellen die Daten bereit, in denen nach Informationen gesucht werdensoll [Gor11]. Sie stellen Techniken zur Verfügung, mit denen auch große Datenmengen effizientausgewertet werden können. Hierzu gehören die Verwaltung der Daten und die Optimierungvon Zugriffen auf diese Daten, insbesondere wenn diese nicht vollständig in den Hauptspeicher

8

Page 15: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1.2. Data Mining

geladen werden können. Außerdem stellen sie Methoden zum Gruppieren und Sortieren bereitund optimieren Anfragen, die an sie gestellt werden, damit diese auch beim Zugriff auf großeDatenmengen effizient abgearbeitet werden können [FPsS96].

1.2.2. Der Prozess des Data Mining

Im weiteren Sinne bezeichnet Data Mining den gesamten Prozess des „Knowledge Discovery“.Dieser besteht neben der Vorbereitung auch aus der Analyse der Daten, dem Data Mining imengeren Sinne, und der Validierung der Ergebnisse [Gor11].Im Folgenden sollen die einzelnen Schritte des Knowledge Discovery, wie sie in Abbildung 1.2zu sehen sind, beschrieben werden.

Target Data

TransformedData

Selection

Preprocessing

Transformation

Data Mining

Interpretation /Evaluation

Patterns

Preprocessed Data

Data

Knowledge

Abbildung 1.2.: Schritte des Knowledge Discovery [FPsS96]

1.2.2.1. Selektion

Nachdem ein grundsätzliches Verständnis über die zu untersuchende Domäne entwickelt wurdeund das Ziel, das mit Hilfe von Data Mining erreicht werden soll, festgelegt wurde, musszunächst der Datenbestand, der ausgewertet werden soll, definiert werden. Dies kann ein bereitsexistierender Datenbestand sein, eine Teilmenge davon [FPsS96] oder eine neu zu erstellendeDatenbasis, die z. B. durch Umfragen gewonnen werden kann [ES00].

1.2.2.2. Vorverarbeitung

Bevor der im vorherigen Schritt ausgewählte Datenbestand ausgewertet werden kann, müssenzunächst Fehler und Inkonsistenzen bereinigt werden. Hierzu gehören Entscheidungen über denUmgang mit verrauschten oder fehlenden Daten [FPsS96], Duplikaten, falsch aufgenommenenDaten und veralteten Daten [Gor11]. Weiterer Bestandteil ist das Aufbereiten der Daten inein einheitliches Format, wie z. B. Angaben über Daten, Namen und Adressen, falls derDatenbestand sich aus unterschiedlichen Quellen zusammensetzt. Der Umgang mit fehlerhaftenDaten ist ebenfalls Bestandteil dieses Schritts [RD00].Mehr zu diesen Qualitätsproblemen findet sich in Kapitel 2.

9

Page 16: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1. Einleitung

1.2.2.3. Transformation

Nach der Vorverarbeitung des Datenbestandes folgt die Transformation. Dieser Schritt bein-haltet die Reduktion und Projektion der Daten, um den Datenbestand für die im nächstenSchritt folgende eigentliche Analyse zu verringern [FPsS96]. Hierzu gehört die Aggregationvon Daten, die mehrere Attribute oder mehrere Datensätze zusammenfasst. Dies kann z. B.das Zusammenfassen von täglichen Einkaufszahlen in wöchentliche oder monatliche Sum-men oder von Städten zu Regionen sein. Weiterer Bestandteil ist die Diskretisierung mit derUmwandlung von kontinuierlichen Daten in diskrete Daten, oder sonstige weitere Zusammen-fassungen von Daten in Kategorien [Gor11]. Die Dimensionsreduktion ist ebenfalls Teil derTransformation [FPsS96].

1.2.2.4. Data Mining

In diesem Schritt wird das Data Mining im engeren Sinne durchgeführt, und dabei der Daten-bestand, welcher das Ergebnis der vorherigen Schritte ist, analysiert.Am Anfang des Data Mining steht die Auswahl einer Methode, die am besten das Erreichen dergewünschten Ziele ermöglicht. Passende Methoden können z. B. Clustering, Klassifizierungund Regression sein. Entsprechend der gewählten Methode folgt dann die Auswahl des am bes-ten passenden Algorithmus und die Festlegung der Parameter, mit denen dieser ausgeführt wird.Im Falle der Regression kann beispielsweise zwischen einer linearen Regression, einer nicht-linearen Regression oder einer Form der Zeitreihenanalyse gewählt werden [FPsS96], wobeihier entsprechend Parameter wie Glättungsfaktoren und Startwerte festzulegen sind [Tho10].Nach der Festlegung der Methode, des Algorithmus und ggf. der für den Algorithmus notwen-digen Parameter folgt dann die Ausführung des Algorithmus, bevor im nächsten Schritt danndie Ergebnisse ausgewertet werden [FPsS96].

1.2.2.5. Interpretation, Evaluierung

Nachdem die Ausführung des gewählten Data Mining-Algorithmus ein Ergebnis gelieferthat, muss dieses ausgewertet und interpretiert werden [FPsS96]. Hierzu ist die Anwendungfachlichen Wissens der jeweiligen Domäne notwendig, um Fehlinterpretationen und darausfolgende falsche Schlussfolgerungen zu vermeiden [PRPP12]. Bei Bedarf kann hier auch einRücksprung auf die vorherigen Schritte vorgenommen werden. Dies kann u. a. notwendig sein,wenn der im vorherigen Schritt gewählte Algorithmus mit anderen Parametern noch einmalausgeführt werden muss, oder wenn in den anderen, vorherigen Schritten Korrekturen oderVerbesserungen vorzunehmen sind [FPsS96].

1.3. Motivation

Das im Rahmen dieser Arbeit behandelte Thema der Datenqualität in Pharmakovigilanzdatenordnet sich in die nach der Zulassung erfolgende Beobachtung von Arzneimitteln im Rahmender Pharmakovigilanz ein. Bei diesen Beobachtungen fällt speziell im Bereich der Spontanmel-desysteme (siehe 1.1.2.2) eine erhebliche Datenmenge durch die Meldungen von möglichen

10

Page 17: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

1.4. Struktur der Arbeit

Nebenwirkungen an. Um mögliche Zusammenhänge zwischen Arzneimitteln und unerwünsch-ten Ereignissen ermitteln zu können, ist die Anwendung entsprechender Algorithmen aus demBereich des Data Mining notwendig. Die Anwendung dieser Algorithmen ist nicht Bestandteildieser Arbeit, jedoch die Aufbereitung jener Daten, um die spätere Analyse zu ermöglichen. ImBereich des Data Mining ordnet sich diese Arbeit also im Bereich der Vorverarbeitung (siehe1.2.2.2) ein.Diese Arbeit beschäftigt sich mit der Qualität der Daten, die im Rahmen des von der FDAgeführten Spontanmeldesystems AERS frei verfügbar sind, und deren Einbindung in das Ana-lysetool OpenVigil, welches im Folgenden noch ausführlich vorgestellt werden wird (sieheKapitel 4). Im Rahmen dieser Arbeit soll beleuchtet werden, wie es um die Datenqualität inden von der FDA zur Verfügung gestellten Daten bestellt ist und wie diese verbessert werdenkann. Ziel ist es, eine möglichst gute Qualität des Datenbestandes als Ausgangsgrundlage fürdie Ausführung der Algorithmen durch OpenVigil zu ermöglichen und dadurch die Qualität derdurch OpenVigil generierten Ergebnisse zu verbessern, wodurch mögliche Nebenwirkungenvon Medikamenten besser erkannt und dadurch Risiken durch die Einnahme von Medikamentengesenkt werden können.

1.4. Struktur der Arbeit

Nachdem nun in diesem Kapitel die grundlegende Thematik, innerhalb derer sich diese Arbeiteinordnet, vorgestellt wurde, werden im nächsten Kapitel zunächst theoretische Grundlagenzum Thema Datenqualität erläutert. Auf Basis der dort vorgestellten Datenqualitätsdimensionenfolgen anschließend die Ergebnisse der Analyse der Daten aus dem Spontanmeldesystem AERS,welches durch die FDA betrieben wird. Anschließend wird das Programm OpenVigil vorgestellt,welches es ermöglicht, die Daten aus AERS zu analysieren. Im letzten Kapitel werden dannMöglichkeiten aufgezeigt, wie die im dritten Kapitel beschriebenen Qualitätsmängel teilweisebehoben werden können.

11

Page 18: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 19: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2. Datenqualität

Dieses Kapitel soll eine Einführung in das Thema der Datenqualität geben. Zunächst wird derBegriff Daten gegenüber den Begriffen Informationen und Wissen abgegrenzt werden. Nacheiner Definition von Datenqualität werden dann einzelne Datenqualitätsdimensionen beleuchtetwerden. Zum Abschluss dieses Kapitels soll noch auf die Relevanz von Datenqualität für diePraxis eingegangen werden.

2.1. Daten

Daten sind die Abbildung von realen Objekten in ein Format, das gespeichert, abgerufen undverarbeitet werden kann. Die Verarbeitung von Daten findet dabei innerhalb von Software-systemen statt [BS06]. Es handelt sich bei Daten zunächst um eine Sammlung von Zeichen,die nach bestimmten Syntaxregeln zusammengesetzt wurden. Sie werden zu Informationen,wenn die Daten um einen Kontext ergänzt werden, in dem sie stehen. Durch die passende Ver-knüpfung von Informationen, und damit das Einbringen von Wissen über den Zusammenhangder Informationen, entsteht Wissen. Die Abgrenzung von Daten zu Informationen und vonInformationen zu Wissen ist dabei nicht immer genau möglich, vielmehr ist der Übergangzwischen den einzelnen Zuständen teilweise fließend. Allgemein nimmt die Strukturiertheitmit der Wandlung von Daten zu Wissen ab und die Kontextabhängigkeit nimmt, ebenso wieder Einfluss auf von Menschen getätigte Handlungen, zu [Bod06].

Daten lassen sich kategorisieren in strukturierte, teil-strukturierte und unstrukturierte Da-ten. Strukturierte Daten liegen beispielsweise in relationalen Datenbanken vor, deren Tabellendurch die vorhandenen Spalten eine konkrete Struktur aufweisen. Aber auch XML-Dateien, diedurch ein Schema eine konkrete definierte Struktur aufweisen, gehören hierzu. TeilstrukturierteDaten hingegen haben eine flexible Struktur, welche nur teilweise definiert ist. Hierzu gehörenXML-Dateien, insofern sie nicht über ein Schema verfügen, aber auch einfache CSV-Dateien.Merkmale von unstrukturierten Daten sind, dass ein einzelnes Datum auf unterschiedliche Artund Weise repräsentiert werden kann. Es kann beispielsweise auf mehrere Felder aufgeteiltsein, aber auch in einem einzigen Feld zusammengefasst werden. Ein Beispiel hierfür ist eineAdresse, die aufgeteilt nach Straße, Hausnummer, Postleitzahl und Ort abgespeichert, aberauch in einem Feld zusammengefasst werden kann. Weiterhin ist bei teil-strukturierten Datendie Anzahl der Felder nicht von vornherein festgelegt und kann sich jederzeit ändern. ImGegensatz zu strukturierten und teil-strukturierten Daten fehlt unstrukturierten Daten jedeArt von Struktur. Dies kommt beispielsweise vor, wenn Daten innerhalb eines Textes oder ingesprochener Sprache wiedergegeben werden [BS06].

13

Page 20: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2. Datenqualität

Neben ihrer Struktur lassen sich Daten auch nach ihrer Beständigkeit klassifizieren. Dabei kannzwischen beständigen Daten, sich selten ändernden Daten und sich häufig ändernden Datenunterschieden werden [BS06].Beständige Daten sind Daten, bei denen es sehr unwahrscheinlich ist, dass sie sich än-dern [BS06]. Ein Beispiel hierfür ist das Geburtsdatum einer Person. Der einzige Fall, indem dies sich innerhalb einer Datenbank ändert, ist, dass dieses auf Grund einer Fehleingabekorrigiert werden muss. Daten mit sehr geringer Änderungshäufigkeit sind beispielsweise dieNamen von Personen. Zwar können diese sich grundsätzlich ändern, allerdings ist dies einVorgang, der eher selten und mit größeren zeitlichen Abständen auftritt. In die letzte Kategorieder sich häufig ändernden Daten lassen sich beispielsweise Aktienkurse einordnen.

2.2. Definition

Datenqualität bezieht sich auf die Qualität der einzelnen Daten, die innerhalb einer Datei odereiner Datenbank abgelegt sind. Sie bezieht sich auf den eigentlichen Inhalt und ist damit abzu-grenzen von der Schema-Qualität, bei der die Qualität der Struktur einer Datei oder Datenbankim Mittelpunkt steht. Maße für die Qualität eines Schemas sind u. a. die erste, zweite, dritteund Boyce-Codd-Normalform [BS06].Datenqualität lässt sich definieren als die Tauglichkeit von Daten für den Einsatz durch Da-tenkonsumenten [SLW97]. Die Qualität von Daten ergibt sich dabei aus unterschiedlichenDimensionen. Die Qualität eines konkreten Datensatzes lässt sich je nach Dimension mitunterschiedlichem Aufwand ermitteln [BS06]. Mehr dazu im folgenden Abschnitt, in demeinzelne Dimensionen vorgestellt werden.

2.3. Dimensionen von Datenqualität

Im Folgenden sollen nun Dimensionen von Datenqualität vorgestellt und deren Auswirkungenbeschrieben werden.

2.3.1. Fehlerfreiheit

Fehlerfreiheit bezieht sich auf die Übereinstimmung der in einer Datenbank gespeichertenDaten gegenüber den realen Objekten, die sie abbilden. Auf Attributebene ist Fehlerfreiheit zuunterscheiden in syntaktische und semantische Fehlerfreiheit [BS06].Syntaktische Fehlerfreiheit bezieht sich auf den Wertebereich, aus dem ein Wert kommen kann.Sie bezieht sich also nicht auf den Vergleich mit dem Wert des realen Objektes der reprä-sentiert werden soll, sondern allein darauf, ob der Wert innerhalb seiner Domäne Gültigkeitbesitzt [BS06]. Die Übereinstimmung des Wertes mit dem real repräsentierten Objekt ist fürdie syntaktische Korrektheit nicht entscheidend.Insofern es sich bei den erlaubten Werten um Zeichenketten handelt, bietet sich zum Messender syntaktischen Fehlerfreiheit eine Funktion an, die Abstände zwischen einzelnen Zeichen-ketten ermittelt [BS06]. Diese Funktionen sind u. a. „Edit distance“, „Affine gap distance“,

14

Page 21: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2.3. Dimensionen von Datenqualität

„Smith-Waterman distance“, aber auch komplexere Funktionen wie „Q-Grams“ oder „Soun-dex“ [EIV07]. Syntaktisch falsche Werte entstehen häufig durch Fehler bei der Eingabe vonDaten in ein System durch Benutzer [EIV07].Semantische Fehlerfreiheit bezieht sich auf die Übereinstimmung eines Wertes mit dem Wertdes realen Objektes, das repräsentiert werden soll. Für die Stadt Kiel wäre „Hamburg“ zwarein syntaktisch korrekter Wert da er aus dem gleichen Wertebereich kommt, semantisch wäreer aber falsch. Ausdrücken lässt sich die semantische Fehlerfreiheit nur in richtig oder falsch.Hierfür muss der richtige Wert des Objektes jedoch bekannt sein. Sollte er nicht bekannt sein,lässt er sich bei allgemein bekannten Daten mit anderen Datenquellen vergleichen. Hierfür istallerdings ein eindeutiger Identifikator notwendig [BS06].

Fehlerfreiheit lässt sich nicht nur in Bezug auf einzelne Attribute bestimmen, sondern auch inBezug auf Tupel, Tabellen und ganze Datenbanken. Hierzu wird üblicherweise das Verhältniszwischen korrekten und insgesamt verfügbaren Einheiten gemessen [BS06].In Bezug auf ganze Tabellen ist auch der Aspekt der Duplikate zu nennen [BS06]. Auf dasProblem der Duplikate soll im folgenden Abschnitt eingegangen werden.

2.3.1.1. Duplikate

Duplikate sind mehrere Tupel, die dasselbe reale Objekt in der gleichen Weise abbilden. Siekönnen daher in ein einzelnes Tupel zusammengefasst werden [DN09].

Þ

RWDS RWDS

Abbildung 2.1.: Duplikate

Abbildung 2.1 zeigt dies grafisch. Links ein reales Objekt, das von zwei Tupeln repräsentiertwird und rechts, nach der Zusammenführung, ein reales Objekt, das von einem Tupel repräsen-tiert wird.Duplikate sind ein Qualitätsproblem [NOBE07], das auftritt, wenn eine Datenquelle nicht odernur unzureichend über Schlüssel verfügt, die Eindeutigkeit gewährleisten [BS06]. Bei der Inte-gration unterschiedlicher Datenquellen wird dieses Problem besonders deutlich, da hier ohneentsprechende Schlüssel die einzelnen Datensätze, die das gleiche reale Objekt repräsentieren,nicht oder nur schwer als identisch erkannt werden können [SB02]. Noch schwieriger wirddies, wenn in den zu integrierenden Datenquellen unterschiedliche Formate und Definitionengenutzt werden [EIV07].In relationalen Datenbanken können Duplikate eins-zu-eins Joins verhindern, wenn diese überAttribute, die wegen fehlender Duplikatelimination nicht eindeutig sind, durchgeführt wer-den [EIV07]. Duplikate können nicht nur innerhalb einer Tabelle, sondern auch in Bezug aufeine ganze Datenbank existieren. Hierbei handelt es sich um Kopien eines Datensatzes und

15

Page 22: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2. Datenqualität

aller seiner zugehörigen Elemente in anderen Tabellen, wobei Identifikatoren neu vergebenwurden und somit die Gleichheit nicht offensichtlich ist.

2.3.2. Vollständigkeit

Vollständigkeit von Daten lässt sich definieren als die ausreichende Breite und Tiefe einesDatenbestands für die Anwendung in einem konkreten Kontext [WS96].Allgemein lässt sich Vollständigkeit in drei Kategorien aufteilen. Die Vollständigkeit desSchemas gibt an, ob alle für den Anwendungsbereich notwendigen Objekttypen mit ihrenBeziehungen vorhanden sind und über die notwendigen Attribute verfügen [PLW02]. EinEntitätstyp der Personen beschreiben soll, dem aber das Attribut Geburtsdatum fehlt, wäre fürdie Berechnung des Durchschnittsalters aller Personen unvollständig.Unter der Vollständigkeit einer Spalte versteht man, zu wie vielen Datensätzen der Wert einesAttributs vorhanden ist [PLW02]. In einer Relation zur Beschreibung von Personen wäre dieVollständigkeit für das Attribut Geburtsdatum gegeben, wenn dieses zu jeder Person erfasstwurde.Im Zusammenhang mit der Vollständigkeit einer Spalte steht in relationalen Datenbankendie Bedeutung des NULL-Wertes. Der SQL-Standard legt die Bedeutung des NULL-Wertesals „a special value or mark, that is used to indicate the absence of any data value“ [ISO92]fest. Dies bedeutet, dass der NULL-Wert keine Information über den Wert eines Attributsliefert [Kle03]. Im konkreten Anwendungsbezug hat der NULL-Wert meist eine von dreiBedeutungen. Zunächst kann er bedeuten, dass der Wert für ein Attribut in einem Tupel nichtexistiert. Zweitens kann er besagen, dass der Wert existiert, aber zum aktuellen Zeitpunktnicht bekannt ist. Und zuletzt kann er bedeuten, dass der Wert für ein Attribut möglicherweiseexistiert, aber unbekannt ist, ob er existiert und falls ja, welchen Wert er hat [BS06].Auf Grund dieser unterschiedlichen Bedeutungen sollte für eine Datenbank immer festgelegtwerden, welche Bedeutung dem NULL-Wert zukommt. Ist die Abbildung aller drei Bedeutun-gen notwendig, so können auch Werte, die außerhalb des erlaubten Wertebereichs liegen, aberim jeweils gewählten Datentypen abgespeichert werden können, zur Abbildung einer der dreiBedeutungen genutzt werden.Bei der Messung der Vollständigkeit einer Datenbank, bezogen auf die drei oben genanntenDimensionen, sollte die jeweilige Bedeutung des NULL-Wertes beachtet und entsprechendberücksichtigt werden [BS06].Die Vollständigkeit des Datenbestandes gibt an, ob alle nötigen Tupel im Vergleich zu einerGrundgesamtheit vorhanden sind [PLW02]. Soll eine Datenbank über Beschäftigte einer Firmageführt werden, wären diese Beschäftigten die Grundgesamtheit. Der Datenbestand wäre voll-ständig, wenn zu jedem Mitarbeiter ein Datensatz vorhanden wäre.Bei der Messung der Vollständigkeit des Datenbestandes kann zwischen einer Messung unter„closed world assumption“ und einer Messung unter „open world assumption“ unterschiedenwerden. Die Annahme einer geschlossenen Welt besagt, dass nur die Werte, die in einer relatio-nalen Datenbank vorhanden sind, existieren. Alles, was nicht in dieser Datenbank vorkommt,existiert nach dieser Annahme nicht. Wohingegen die Annahme einer offenen Welt davonausgeht, dass weder belegt werden kann, dass Daten, die nicht in einer relationalen Datenbankgespeichert sind, existieren, noch dass dies widerlegt werden kann. Nur über die Daten, die in

16

Page 23: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2.3. Dimensionen von Datenqualität

der Datenbank vorkommen, kann eine klare Aussage getroffen werden [BS06].Ein Datenbestand unter der Annahme einer geschlossenen Welt ist per Definition vollständig.Um die Vollständigkeit eines Datenbestandes unter Annahme einer offenen Welt zu ermitteln,ist es notwendig, die Anzahl an Tupeln in der Referenz-Relation zu kennen. Die Referenz-Relation enthält alle Tupel, die für eine Relation in Frage kommen. Die Vollständigkeit istdann die Anzahl von Einträgen in der Relation im Verhältnis zur Anzahl von Einträgen in derReferenz-Relation [BS06].

2.3.3. Zeitabhängigkeit von Daten

Daten lassen sich nach der Häufigkeit ihrer Änderungen klassifizieren in beständige, sich seltenändernde und sich häufig ändernde Daten. Diese Klassifikation von Daten wurde bereits in2.1 ausführlicher vorgestellt. Die Häufigkeit, wie oft sich Daten ändern, sagt alleine allerdingsnoch nichts über die aktuelle Qualität eines Datensatzes aus. Diese ergibt sich erst aus demzeitlichen Kontext der Nutzung.Die bereits beschriebene Klassifizierung drückt die Volatilität der Daten, d. h. die Änderungsfre-quenz aus. Beständige Daten haben eine Volatilität von 0. Je häufiger sich Daten ändern, destohöher ist ihre Volatilität. Je höher die Volatilität, desto kürzer ist die Zeit, in der ein Datumgültig ist [BS06].Umso größer die Zeitnähe von Daten ist, d. h. je schneller sich ändernde Daten aktualisiert unddamit aus der realen Welt in den Datenbestand übernommen werden, desto geringer ist dasQualitätsproblem, das die Volatilität verursachen kann. Dieses Qualitätsproblem entsteht dann,wenn ein Datum nicht mehr aktuell ist, weil sich das Objekt der realen Welt, das repräsentiertwird, bereits geändert hat, diese Änderung aber noch nicht übernommen wurde. Sich änderndeDaten lassen sich entsprechend ihrer Aktualität in aktuelle und nicht aktuelle Daten einordnen.Bei sich in regelmäßigen Abständen ändernden Daten kann die Aktualität anhand der letztenÄnderung ermittelt werden [BS06].Sollten Daten benötigt werden, diese aber nicht aktuell sein, so stellt dies ein Qualitätsproblemdar. Hierauf bezieht sich die Rechtzeitigkeit, mit der Daten zur Verfügung stehen. Sie beziehtnicht nur die Aktualität der Daten an sich mit ein, sondern auch, dass diese rechtzeitig, d. h. vorihrer Nutzung, bereit stehen [BS06].

2.3.4. Konsistenz und Integrität

Konsistenz ist die Widerspruchsfreiheit einer Menge von Daten gegenüber semantischen Re-geln. Diese semantischen Regeln können sich sowohl auf einzelne oder mehrere Attributeeiner Relation, aber auch auf einzelne oder mehrere Tupel einer oder mehrerer Relationengleichzeitig beziehen. Entsprechend lassen sie sich einteilen in „intrarelation constraints“, d. h.Bedingungen die sich auf einzelne oder mehrere Attribute oder Tupel einer Relation beziehen,und „interrelation constraints“, die sich auf Beziehungen zwischen Tupeln einzelner Relationenbeziehen [BS06].Intrarelationale Bedingungen können Eingrenzungen des Wertebereichs von einzelnen Attribu-ten sein. Beispielsweise hat eine deutsche Postleitzahl fünf Stellen. Eine vierstellige Zahl wärealso nicht zulässig [BS06].

17

Page 24: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2. Datenqualität

Eine weitere Möglichkeit, die Werte eines Attributs einzuschränken, ist, nur bestimmte Wertezuzulassen, die vorher definiert wurden. Dies können auch alphanumerische Werte sein, die sichnicht über eine einfache Bereichsfestlegung definieren lassen, sondern nur über eine Auflistungder zulässigen Werte [Vos08].Entsprechend kann eine Abhängigkeit zwischen mehreren Attributen bestehen, wenn ein Attri-but die Postleitzahl und ein zweites Attribut den dazugehörigen Ort darstellt [RD00]. Hätte diePostleitzahl den Wert „31141“ und der Ort wäre „Kiel“, so wäre dies eine Inkonsistenz, da diegegebene Postleitzahl nicht zu Kiel, sondern zu Hildesheim gehört.Auch kann eine Abhängigkeit der Form bestehen, dass zwei Attribute, die ähnliche Daten enthal-ten, nicht identisch sein dürfen. Dies gilt beispielsweise für Telefon- und Faxnummern [Vos08].Schlüsselabhängigkeiten innerhalb einer Relation besagen, dass eine Menge von Attributen, dieSchlüssel einer Relation ist, eindeutig sein muss. In Datenbanken lassen sich diese Schlüssel inForm von Primärschlüsseln und Unique-Constraints abbilden, wobei je Relation nur ein Primär-schlüssel, aber mehrere Unique-Constraints möglich sind [Vos08]. Die sinnvolle Anwendungvon Schlüsseln kann helfen, die in 2.3.1.1 beschriebenen Duplikate zu vermeiden.Allgemein lassen sich Abhängigkeiten zwischen Attributen einer Relation mit Hilfe von funk-tionalen Abhängigkeiten definieren. Funktionale Abhängigkeiten legen fest, dass ein Attributoder eine Attributmenge über eine Funktion ein oder mehrere Attribute bestimmen. Allgemeinwerden funktionale Abhängigkeiten in der Form f : X → Y geschrieben, wobei Y von X ab-hängt und X und Y Mengen von Attributen repräsentieren. Daraus folgt, dass wenn die Werteder Attribute in X gleich sind, auch die Werte der Attribute in Y gleich sind [Vos08].

Interrelationale Bedingungen beziehen sich auf Attributmengen aus mehreren Relationen[BS06]. Zu den interrelationalen Bedingungen gehören Inklusionsabhängigkeiten, mit Fremd-schlüsselbedingungen als spezielle Form der Inklusionsabhängigkeit, und Exklusionsbedingun-gen [Vos08].Inklusionsabhängigkeiten legen fest, dass die Werte einer Teilmenge von Attributen einerRelation auch in den Werten einer Teilmenge von Attributen einer anderen Relation vorkom-men müssen. Für Inklusionsabhängigkeiten allgemein gibt es dabei keine Bestimmungen, auswelchen Attributen der Relationen die Attributmenge besteht, auf die sich die definierte Abhän-gigkeit bezieht. Es gibt jedoch mit Fremdschlüsselbeziehungen auch eine spezielle Form derInklusionsabhängigkeiten. Fremdschlüsselbeziehungen definieren Teilmengen von Attributeneiner Relation, die Schlüssel einer anderen Relation sind [Vos08].Exklusionsabhängigkeiten sind das Gegenteil zu Inklusionsabhängigkeiten. Sie besagen, dassWerte einer Teilmenge von Attributen einer Relation nicht in den Werten einer Teilmengevon Attributen einer anderen Relation vorkommen dürfen. Sie müssen disjunkt sein. Ein Bei-spiel hierfür sind Is-A-Beziehungen zwischen einzelnen Relationen, wobei eine Exklusivitätzwischen den einzelnen Subtypen besteht [Vos08].

2.3.5. Weitere Dimensionen

In den letzten Abschnitten wurden die nach [BS06] und [FG12] wichtigsten Dimensionen vonDatenqualität vorgestellt. Diese beziehen sich auf die interne Qualität der Daten [Bq07].Abbildung 2.2 zeigt eine Übersicht über einige Datenqualitäts-Dimensionen.

18

Page 25: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2.3. Dimensionen von Datenqualität

Data Quality

Dimensions

Quality of the

management of data by

the system

Quality of the

representation of data

by the system

Intrinsic Data Quality

Dimensions

Relative Data Quality

Dimensions

User-dependent quality

dimensions

Application-dependent

quality dimensions

Time-dependent

quality

dimensions

Knowledge-dependent

quality dimensions

Reliability

Operability

Portability

Responsiveness

Reusability

Conformity

Accessibility

Acces Security

Availability

Compressibility

Ease of Exchange

Ease of Maintenance

Minimality

Understandability

Well-documented

Ability to represent null values

Presentation appropriateness

Adaptability

Clarity

Concision

Flexibility

Interpretability

Suitability

Consistency

Conformance to schema

Format Appropriateness

Accuracy

Completeness

Consistency

Uniqueness

Correctness

Relevance

Currency

Lineage

Timeliness

Variability

Focus of Interest

Preferences

Conformance to business rules

Appropriateness

Cost

Criticallity

Credibility

Objectivity

Source reputation

Verifiability

Abbildung 2.2.: Übersicht über Datenqualitäts-Dimensionen [Bq07]

Sie lassen sich einordnen in die vier Bereiche Qualität des Datenmanagements durch dasSystem, Qualität der Datenrepräsentation im System, interne Qualität der Daten und Qualitäts-dimensionen mit Bezug auf den Benutzer, die Anwendung, Zeit oder Wissen [Bq07].Die Einordnung und Gewichtung der einzelnen Dimensionen ist dabei in der Literatur nichteinheitlich. Die vier wichtigsten Dimensionen Fehlerfreiheit, Vollständigkeit, Zeitabhängigkeitund Konsistenz wurden bereits in den Abschnitten 2.3.1, 2.3.2, 2.3.3 und 2.3.4 erläutert [Bq07].Im Folgenden sollen nun weitere Qualitätsdimensionen vorgestellt werden, die zum Teil nurBezug auf einzelne Domänen haben oder nur unter bestimmten Bedingungen Relevanz ha-ben [BS06].

2.3.5.1. Glaubwürdigkeit

Die Glaubwürdigkeit von Daten gibt an, ob die Daten für einen Benutzer verlässliche Informa-tionen bieten können. Dieser Aspekt hängt zusammen mit der in Abschnitt 2.3.1 beschriebenenFehlerfreiheit der Daten. Diese Dimension spiegelt eine Sicht von außen auf die Daten wider,da vom Benutzer abhängt, ob er sich auf die Daten und den aus ihnen ermittelten Informationverlassen kann oder nicht [WW96]. Es handelt sich hier also nicht um eine objektive, sonderneine eher subjektiv wahrgenommene Qualität von Daten [PLW02].

19

Page 26: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2. Datenqualität

2.3.5.2. Exaktheit

Exaktheit von Daten gibt an, wie detailliert diese aufgenommen wurden [FLR94]. WerdenDaten in Kategorien eingeteilt, so kann die Anzahl der Kategorien und Unterkategorien dieDetailliertheit der Einteilungen angeben. Gibt ein Attribut ein Datum an, so kann die Genau-igkeit dieser Datumsangabe sehr grob sein, wenn nur das Jahr angegeben wird, oder genau,wenn nicht nur das Jahr, sondern auch der Monat und der Tag angegeben werden. In rela-tionalen Datenbanken wird diese erwartete Genauigkeit bereits durch den Typ des Attributsdefiniert [FLR94].

2.3.5.3. Zugänglichkeit

Die Zugänglichkeit von Daten für Benutzer lässt sich in zwei Bereiche aufteilen: erstens derphysikalische Zusammenhang mit dem Zugriff auf Daten und zweitens die Fähigkeit desBenutzers, die Daten in ihrer Darstellungsform aufzunehmen.Der physikalische Zusammenhang der Zugänglichkeit für den Benutzer stellt dar, wie lange esdauert, bis der Benutzer angeforderte Daten erhält [PLW02] und wie einfach er diese anfordernkann [BS06]. In diesem Zusammenhang steht auch der Schutz von Daten durch passendeSchutzmaßnahmen, die dem Benutzer ggf. den Zugang erschweren [Bq07].Der zweite Punkt der Zugänglichkeit von Daten für den Benutzer zielt auf die Darstellungsformab. Dabei ist entscheidend, ob dem Benutzer verständlich ist, was dargestellt wird. Dabei istauch zu berücksichtigen, dass nicht alle Menschen gut sehen und hören können. Auch für diesesollte im Idealfall eine barrierefreie Möglichkeit bestehen, auf die Daten zuzugreifen [BS06].

2.3.5.4. Interpretierbarkeit

Um vorhandene Daten und aus ihnen gewonnene Informationen interpretieren zu können,benötigt der Benutzer Informationen darüber, was dargestellt wird und welche Bedeutung eshat. Dies kann ermöglicht werden, indem dem Benutzer eine Dokumentation zur Verfügunggestellt wird. Diese Dokumentation sollte sowohl die Bedeutung einzelner Attribute, als auchZusammenhänge zwischen Attributen und Relationen beinhalten, wie sie in 2.3.4 beschriebenwurden. Weiterhin kann sie Informationen über die Herkunft und Entwicklung der Datenbereitstellen, so z. B. wann die Daten aufgenommen wurden und durch wen sie erfasst oderimportiert und bearbeitet wurden [BS06].

2.3.5.5. Qualität fremder Datenquellen

Die Qualität von Datenquellen ist eine Zusammenfassung mehrerer Qualitätsdimensionen. Siesoll dazu dienen, fremde Datenquellen vor der eigenen Nutzung bewerten zu können [BS06].Zunächst einmal gelten sämtliche bereits genannten Dimensionen wie z. B. Korrektheit, Voll-ständigkeit und Konsistenz. Zusätzlich ist allerdings noch die Quelle an sich, d. h. der Urheber,und die Art der Datenerfassung zu bewerten [BS06]. Dies ist auch deshalb notwendig, da dieinterne Qualität der Daten nicht immer abschließend bewertet werden kann.Dies korrespondiert mit der bereits in 2.3.5.1 vorgestellten Dimension der Glaubwürdigkeit.Um die Qualität der Datenaufnahme bewerten zu können, ist eine Abschätzung notwendig, ob

20

Page 27: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2.4. Abhängigkeiten zwischen einzelnen Datenqualitätsdimensionen

diese Datenaufnahme unter objektiven Gesichtspunkten stattgefunden hat. Sollte dies nichtder Fall sein, so kann die Datenquelle Daten bereit stellen, die zu subjektiv und daher nichtbrauchbar sind [BS06].Allgemein zu bewerten ist auch die Reputation derer, welche die Daten bereitstellen. Habendiese ein hohes Ansehen, ist eher davon auszugehen, dass es sich um brauchbare Daten han-delt [BS06]. Sollten die Daten aus einer unbekannten Quelle stammen, so ist entsprechend einegenauere Überprüfung der internen Datenqualität notwendig. Diese sollte allerdings auch beieiner Quelle mit hoher Reputation nicht vernachlässigt werden.

2.4. Abhängigkeiten zwischen einzelnenDatenqualitätsdimensionen

Hohe Datenqualität kann selten in allen Dimensionen auf einmal erreicht werden. Dies begrün-det sich durch die Abhängigkeiten, die zwischen den einzelnen Datenqualitätsdimensionenbestehen [BS06].Zunächst als wichtigste Abhängigkeit zu nennen ist die Aktualität auf der einen sowie dieDimensionen Fehlerfreiheit, Vollständigkeit und Konsistenz auf der anderen Seite. Das Erfüllender drei genannten Dimensionen benötigt Zeit, indem zunächst entsprechende Überprüfungenneuer Daten durchgeführt werden. Entsprechend können neue Daten erst mit einer gewissenZeitverzögerung in den Datenbestand aufgenommen werden [BS06].Weiterhin besteht ein Zusammenhang zwischen Konsistenz und Fehlerfreiheit. So könnenInkonsistenzen, z.B. bei funktionaler Abhängigkeit zwischen zwei Attributen, gleichzeitigbedeuten, dass für ein Tupel fehlerhafte Werte abgelegt wurden [FG12].Es muss also je nach Anwendung abgewogen werden, welche Datenqualitätsdimension Prioritäthat [BS06]. Entsprechend sollte immer die Datenqualität als Gesamtes behandelt werden undnicht nur ein einziger Aspekt [FG12].

2.5. Relevanz

Nachdem in den vorherigen Abschnitten auf Datenqualität an sich eingegangen wurde, sollenzum Abschluss dieses Kapitels kurz die Folgen von schlechter Datenqualität beleuchtet werden.Eine gute Datenqualität ist Voraussetzung, um Analysen mit guten Ergebnissen durchführen zukönnen [NOBE07], speziell im Bereich des Data Mining. Die hier existierenden Algorithmensind für Daten von guter Qualität ausgelegt, aber nicht dafür, mit schlechten Daten umzuge-hen [Bq07]. Fehlende und fehlerhafte Daten, sowie Duplikate können die Ergebnisse dieserBerechnungen verfälschen. Hier kann auch das Vorhandensein einer geringen Anzahl vonDuplikaten bereits Auswirkungen auf die Ergebnisse haben [NOBE07]. Dadurch entstehendefehlerhafte oder irreführende Statistiken [RD00] können dazu führen, dass durch daraus folgen-de fehlerhafte Annahmen hohe Kosten entstehen [BS06].Aber nicht nur im Bereich des Data Mining, sondern auch in der allgemeinen Verwendungvon Daten kann schlechte Datenqualität ein Hindernis darstellen. So können Daten schlechterQualität den Ablauf von Prozessen innerhalb einer Organisation behindern [WW96] oder

21

Page 28: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

2. Datenqualität

unvollständige Daten ggf. gar nicht genutzt werden [FLR94]. In der Optimierung von Ge-schäftsprozessen können schlechte Daten eine Hürde zur weiteren Verbesserung dieser Prozessedarstellen [FLR94].Im Kontext der Pharmakovigilanz kann es vorkommen, dass mit Hilfe statistischer Metho-den Abhängigkeiten zwischen Arzneimitteln oder -stoffen und möglichen Nebenwirkungenermittelt werden, bei denen kein realer Zusammenhang besteht. Es ist hier also besonderswichtig, dass Informationen, die aus einem Datenbestand gesammelt werden, später durchFachleute untersucht und bewertet werden [PRPP12]. Ansonsten kann es vorkommen, dassfälschlicherweise Warnungen vor Nebenwirkungen von Medikamenten ausgesprochen werden,bei denen das Medikament nicht ursächlich für die Nebenwirkung ist [AB11].

22

Page 29: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

Nachdem im letzten Kapitel einzelne Datenqualitätsdimensionen vorgestellt wurden, soll indiesem Kapitel nun eine Untersuchung der Daten, welche von der FDA aus ihrem Spontanmel-desystem AERS zur Verfügung gestellt werden, durchgeführt werden.

3.1. FDA AERS

AERS ist das Spontanmeldesystem der FDA. Es wird von der FDA eingesetzt, um Informatio-nen über unerwünschte Ereignisse zu sammeln, die auf Grund von gesetzlichen Vorschriftenvon Herstellern pharmazeutischer Produkte an die FDA gemeldet werden. Weiterhin werdenauch freiwillige Meldungen von Privatpersonen und von im Gesundheitswesen tätigen Personengesammelt [The12c].Innerhalb der FDA wird AERS genutzt, um die Aktivitäten im Rahmen der Beobachtung vonMedikamenten nach ihrer Marktzulassung zu unterstützen [The12c].Meldungen von unerwünschten Ereignissen an die FDA können sowohl in Schriftform, alsauch elektronisch getätigt werden. Der Großteil der an die FDA getätigten Meldungen wirdin AERS erfasst. Nicht erfasst werden Meldungen von Herstellern, die in Schriftform getä-tigt werden und keine gravierenden Ereignisse melden, da mit deren Erfassung ein gewisserAufwand für die manuelle Eingabe ins System verbunden ist. Grundsätzlich erfasst werdenMeldungen, die in elektronischer Form getätigt werden, oder die nicht von Herstellern, d. h. vonPrivatpersonen oder im Gesundheitswesen tätigen Personen, wie Ärzten und Krankenpflegern,stammen [The12d].Die Rohdaten des AER-Systems werden quartalsweise [The13], mit einer Verzögerung vonsechs Monaten [PRPP12], von der FDA veröffentlicht. Dies geschieht auf Grund des Freedom ofInformation Act (FOIA), der jeder Person erlaubt, Einsicht in die Daten von amerikanischen Be-hörden zu nehmen, insofern diese nicht einem speziellen Schutzanspruch unterliegen [Uni11].Neben den von der FDA gesammelten Meldungen aus den USA enthält AERS auch Meldungenaus anderen Ländern [The12b]. Dies sind allerdings primär Meldungen zu kritischen Ereignis-sen, die noch nicht innerhalb des Beipackzettels des Medikaments Erwähnung finden [PRPP12].

In den folgenden Unterabschnitten soll nun untersucht werden, wie die Verteilung der Meldun-gen auf die einzelnen Quellen aussieht, in welcher Art die Meldungen getätigt wurden und obsie in AERS aufgenommen wurden, und zuletzt wie sich die Meldungen auf die einzelnen Her-kunftsländer verteilen. Zuvor soll noch ein kurzer Überblick über die allgemeine Entwicklungbei der Anzahl Meldungen, die in AERS aufgenommen wurden, gegeben werden.

23

Page 30: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.1.1. Anzahl Meldungen

Abbildung 3.1 zeigt je Quartal die Anzahl der in AERS aufgenommenen Meldungen. Es istein Verlauf zu erkennen, der zeigt, dass die Anzahl der je Quartal in AERS übernommenenMeldungen seit 2004 ansteigt. Mögliche Gründe dafür sollen im Folgenden noch aufgezeigtwerden.

0

50.000

100.000

150.000

200.000

250.000

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

Abbildung 3.1.: In AERS aufgenommene Meldungen

Die genauen Zahlen zur Abbildung 3.1 befinden sich im Anhang in Tabelle A.1, wie auch zuallen folgenden Diagrammen die zu Grunde liegenden Zahlen im Anhang einzusehen sind.

3.1.2. Meldungen nach Quelle

Wie bereits in 3.1 beschrieben, werden nicht alle an die FDA getätigten Meldungen übernom-men. In AERS aufgenommen werden die Meldungen, die eine hohe Relevanz haben, da diegemeldete mögliche Nebenwirkung eines Medikaments bisher unbekannt ist. Des Weiterenwerden grundsätzlich alle Meldungen aufgenommen, die elektronisch übermittelt werden, undMeldungen, die von Patienten, von im Gesundheitswesen tätigen Personen oder von sonstigenQuellen, außer den Herstellern von Pharmaprodukten, direkt an die FDA getätigt werden.Abbildung 3.2 zeigt für jedes Jahr zum einen die Anzahl der Meldungen, die direkt an die FDAgetätigt wurden, aber nicht von Herstellern stammen (blaue Balken), und die Gesamtanzahl dervon Herstellern stammenden Meldungen, aufgeteilt in Meldungen mit hoher Relevanz (brauneBalken) und Meldungen mit geringerer Relevanz (rote Balken). Zudem zeigt sie, wie viele vondiesen Meldungen in AERS aufgenommen wurden (jeweils heller-farbene Balken) [The12d].Zu erkennen ist zum einen, dass immer mehr Meldungen insgesamt an die FDA getätigt werden,aber andererseits auch, dass der Anteil der Meldungen, die in AERS aufgenommen werden,gemessen an den insgesamt getätigten Meldungen, angestiegen ist. Eine mögliche Ursache

24

Page 31: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.1. FDA AERS

2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 (Q1/Q2)

0

100.000

200.000

300.000

400.000

500.000

600.000

700.000

800.000

900.000

1.000.000

Abbildung 3.2.: Meldungen nach Quelle [The12d]

dafür kann die Zunahme an elektronisch getätigten Meldungen sein, wie der folgende Abschnittzeigt.

3.1.3. Meldungen nach Art der Übermittlung

Wie bereits erwähnt, ist die Art der Übermittlung einer Meldung an die FDA ein Faktor, ob diesein AERS aufgenommen wird oder nicht. Abbildung 3.3 zeigt die Entwicklung der Anzahl derMeldungen die in Schriftform an die FDA getätigt wurden (rote Linien), und der Meldungen,die elektronisch übermittelt und dann in AERS aufgenommen wurden (blaue Linien). Dabeiist im linken Bereich die Entwicklung in absoluten Zahlen dargestellt, während im rechtenBereich der relative Anteil der jeweiligen Meldungsart dargestellt ist.

0

50.000

100.000

150.000

200.000

250.000

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

Abbildung 3.3.: Meldungen nach Art der Übermittlung

25

Page 32: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

Zu erkennen ist, dass die absolute Zahl der Meldungen in Schriftform im Laufe der Zeitleicht zurückgegangen ist, wohingegen die Anzahl der Meldungen, die elektronisch übermitteltwurden, stark angestiegen ist. Entsprechend wächst der relative Anteil der elektronischenMeldungen beständig an. Dies erklärt dann auch den ständigen Anstieg der Meldungen, dieje Quartal in AERS aufgenommen werden, da sämtliche elektronischen Meldungen erfasstwerden.

3.1.4. Meldungen nach Herkunftsland

Die folgende Abbildung 3.4 zeigt den Anteil der Meldungen nach ihrer Herkunft je Kontinent,insofern diese nicht aus den USA stammen.

0%

10%

20%

30%

40%

50%

60%

70%

80%

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

Afrika

Asien

Europa

Nordamerika

Ozeanien

Südamerika

USA

Unbekannt

Abbildung 3.4.: Meldungen nach Herkunftsland

Dieses Diagramm beginnt, im Gegensatz zu den anderen bereits gezeigten Diagrammen undden folgenden Diagrammen, erst im dritten Quartal 2005, da die Information, aus welchemLand eine Meldung stammt, erst ab diesem Quartal von der FDA zur Verfügung gestellt wird.Zu erkennen ist, dass trotz der in 3.1.1 gezeigten Zunahme der Anzahl an getätigten Meldungen,die Niveaus relativ konstant bleiben. Der Hauptteil der Meldungen stammt aus den USA selbst.Der Großteil an Meldungen, die nicht aus den USA stammen, kommt aus Europa, gefolgt vonAsien. Alle anderen Kontinente nehmen eine eher untergeordnete Rolle ein, wobei auch diesesich auf einem relativ konstanten, niedrigen Niveau bewegen.Aus anderen Ländern als den USA nimmt die FDA nur solche Meldungen auf, die kritischeEreignisse melden [PRPP12]. Daraus, dass es in den Anteilen zwischen den Kontinenten keineVerschiebungen gibt, lässt sich schließen, dass der Anteil an kritischen Meldungen im Laufeder Zunahme an insgesamt getätigten Meldungen gleich geblieben ist.

26

Page 33: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.2. Aufbau der Dateien

Nachdem in den letzten Abschnitten allgemeine Entwicklungen aufgezeigt wurden, soll nunim Folgenden zunächst der Aufbau der von der FDA zur Verfügung gestellten Daten be-schrieben werden. Anschließend folgt eine allgemeine Statistik über die Anzahl der bereitgestellten Datensätze, woran sich die Analyse der Daten bzgl. der in Kapitel 2 beschriebenenDatenqualitätsdimensionen anschließt.

3.2. Aufbau der Dateien

Die quartalsweise von der FDA veröffentlichten Rohdaten können auf der Webseite der FDAin Form von ZIP-Dateien heruntergeladen werden. Die FDA stellt die Rohdaten sowohl alsASCII-Dateien, als auch in Form von SGML-Dateien zur Verfügung [The13].Folgende Dateien sind im Falle der ZIP-Dateien, welche die Rohdaten in Form von ASCII-Dateien beinhalten, enthalten [U.S12b]:

• eine allgemeine Informationsdatei

• eine Datei, die Informationen über die Anzahl der Datensätze je Teildatei und derenphysischer Größe beinhaltet

• eine Dokumentationsdatei, in der sämtliche Felder und ihre Bedeutung beschrieben sind

• die eigentlichen Datendateien

Die Rohdaten stammen aus einer relationalen Datenbank [The13]. Diese enthält sieben Tabellen,deren Struktur durch die Datendateien wiedergegeben wird [EZ13b]:

• DEMO - enthält grundlegende Daten über den Patienten und administrative Informatio-nen und bildet damit die Basis jedes Reports

• DRUG - enthält die Informationen über eingenommene Medikamente

• INDI - enthält die Befunde, auf Grund derer Medikamente verordnet wurden

• OUTC - enthält den Ausgang der jeweiligen Behandlung

• REAC - enthält die im Zusammenhang mit einer Medikamenteneinnahme aufgetretenenEreignisse

• RPSR - enthält Informationen über die Quelle der Daten eines Reports

• THER - enthält, zusätzlich zu den Daten aus DRUG, Angaben über den Zeitraum unddie Dauer der Einnahme eines Medikaments

Abbildung 3.5 zeigt die verwendete Datenstruktur noch einmal in Form eines relationalenDatenbankschemas, basierend auf den Informationen aus [U.S12a].

27

Page 34: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

demo

ISR INT(10)

CASE INT(10)

I_F_COD CHAR(1)

FOLL_SEQ CHAR(2)

IMAGE CHAR(12)

EVENT_DT INT(8)

MFR_DT INT(8)

FDA_DT INT(8)

REPT_COD CHAR(3)

MFR_NUM CHAR(100)

MFR_SNDR CHAR(60)

AGE DECIMAL(7,2)

AGE_COD CHAR(3)

GNDR_COD CHAR(3)

E_SUB CHAR(1)

WT DECIMAL(11,5)

WT_COD CHAR(3)

REPT_DT INT(8)

OCCP_COD CHAR(2)

DEATH_DT INT(8)

TO_MFR CHAR(1)

CONFID CHAR(1)

REPORTER_COUNTRY CHAR(50)

Indexes

drug

ISR INT(10)

DRUG_SEQ INT(10)

ROLE_COD CHAR(2)

DRUGNAME CHAR(70)

VAL_VBM INT(1)

ROUTE CHAR(28)

DOSE_VBM CHAR(100)

DECHAL CHAR(1)

RECHAL CHAR(1)

LOT_NUM CHAR(35)

EXP_DT INT(8)

NDA_NUM CHAR(7)

Indexes

indi

ISR INT(10)

DRUG_SEQ INT(10)

INDI_PT CHAR(100)

Indexes

outc

ISR INT(10)

OUTC_CODE CHAR(2)

Indexes

reac

ISR INT(10)

PT CHAR(100)

Indexes

rpsr

ISR INT(10)

RPSR_COD CHAR(3)

Indexes

ther

ISR INT(10)

DRUG_SEQ INT(10)

START_DT INT(8)

END_DT INT(8)

DUR INT(5)

DUR_COD CHAR(3)

Indexes

Abbildung 3.5.: FDA AERS - relationales Datenbankschema

3.3. Bereitgestellte Datensätze

Im Folgenden soll die Anzahl der bereitgestellten Datensätze je Datei begutachtet werden.Abbildung 3.6 zeigt in absoluten Zahlen den Verlauf der Anzahl an Datensätzen. Im Wesent-lichen korreliert die Anzahl der Datensätze in allen Dateien mit der Anzahl an Meldungen(Anzahl Datensätze in Demo). Ausnahme sind hier die Angaben zur Person oder Firma, die dieMeldung getätigt hat. Hier nimmt die Anzahl an Datensätzen, trotz des allgemein gegenläufigenTrends, ab. Dies führt dann auch dazu, dass die durchschnittliche Anzahl an Datensätzen jeMeldung, wie sie Abbildung 3.7 zeigt, abnimmt. Im Gegensatz dazu bleibt bei den anderenTypen das Niveau relativ konstant.Dabei liegen zu einer Meldung durchschnittlich knapp vier Datensätze zu aufgetretenen Ereig-nissen und ebenfalls knapp vier zu eingenommenen Medikamenten vor. Trotz der durchschnitt-lich vier angegebenen Medikamenten liegen im Schnitt nur zwischen ein und zwei Angabenzu Zeitraum und Dauer der Medikamenteneinnahme vor. Zwischen ein und zwei Einträgeliegen je Meldung zum Befund, der zur Medikamenteneinnahme führte, vor. Hier ist eine leichtzunehmende Tendenz zu erkennen. Im Schnitt liegt knapp eine Angabe zum Ausgang derBehandlung vor. Dass diese Angabe nicht zu jeder Meldung gegeben ist, resultiert sicherlichdaraus, dass viele Meldungen bereits vor Ende der Behandlung getätigt werden.

28

Page 35: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

0

100.000

200.000

300.000

400.000

500.000

600.000

700.000

800.000

900.000

1.000.000

demo

drug

indi

outc

reac

rpsr

ther

Abbildung 3.6.: Anzahl bereitgestellter Datensätze

0

1

2

3

4

5

6

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

20

12

q3

drug

indi

outc

reac

rpsr

ther

Abbildung 3.7.: Anzahl bereitgestellter Datensätze je Meldung

3.4. Analyse

Im Folgenden sollen nun die Ergebnisse der Datenanalyse bzgl. der in 2 vorgestellten Qualitäts-dimensionen beschrieben werden. Dabei werden zunächst die Tabellen und ihre Felder isoliertbetrachtet, bevor anschließend tabellenübergreifende Qualitätsaspekte beleuchtet werden.

29

Page 36: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.4.1. Allgemein

Allgemein ist festzuhalten, dass die Aspekte der in 2.3.3 vorgestellten Zeitabhängigkeit vonDaten bei allen Tabellen identisch sind.Die Daten sind als stabil zu bezeichnen, da einmal getätigte Meldungen nicht ständig verändertwerden. Möglich ist lediglich eine Korrektur, insofern eine Meldung fehlerhaft veröffentlichtwurde. Bei Ergänzungen, z. B. Informationen über den Ausgang der Behandlung, folgt eineweitere Meldung als Nachfolge-Meldung. Die vorherige Meldung bleibt dabei allerdings unbe-rührt [U.S12b]. Die Volatilität ist damit also sehr gering.Auf Grund der verzögerten Veröffentlichung ist die Aktualität des Gesamtdatenvolumens nichtsehr hoch. Dadurch kann es dazu kommen, dass mögliche Abhängigkeiten zwischen Arznei-mitteln bzw. -stoffen und möglichen Nebenwirkungen erst verspätet ermittelt werden können.

Nicht überprüft werden kann, ob die angegebenen Werte in Bezug auf die Abbildung derrealen Daten eines Patienten bzw. einer Behandlung, korrekt sind.

Es existieren Meldungen, welche von mehreren Quellen eingereicht wurden. Diese erhal-ten durch die FDA jeweils einen eigenen Identifikator, beschreiben aber den gleichen Fall,d. h. den gleichen Patienten, der sich in einer Behandlung befindet. Mögliche Gründe hierfürsind zum einen, dass Meldungen, die direkt an die FDA getätigt wurden, vom Meldendenauch gleichzeitig beim Hersteller des Produktes eingereicht wurden. Dieser ist wiederumverpflichtet, bei ihm eingehende Meldungen an die FDA weiterzuleiten. Zum zweiten kann esdurch den Transfer von Meldungen von Institutionen aus anderen Ländern, welche dort dieAufgaben erfüllen, die in den USA die FDA inne hat, dazu kommen, dass Meldungen mehrfachvorkommen [PRPP12].

3.4.2. Demo

3.4.2.1. isr

Die „individual safety report number“ (ISR number) ist ein eindeutiger Identifikator für einebei der FDA eingegangene Meldung.Die ISR ist für alle Einträge in den Datendateien der FDA vorhanden. Innerhalb eines Quartalsist die ISR in der Tabelle „Demo“ jeweils eindeutig. Allerdings folgen im nächsten Quartalnach ihrer ersten Verwendung teilweise Korrekturen. Bei Aufnahme aller veröffentlichtenDaten ist die ISR damit nicht eindeutig. Es ist also eine entsprechende Korrekturmaßnahmenotwendig, um die von der FDA veröffentlichten Korrekturen zu übernehmen und damit denjeweils aktuellsten Stand einer Meldung aufzunehmen und gleichzeitig Duplikate zu vermeiden.Die Bereinigung der Daten ist Inhalt von Abschnitt 5.6.1 im folgenden Kapitel.

3.4.2.2. case_no

Die Fallnummer (case_no) ordnet eine Meldung einem Fall zu. Es kann vorkommen, dass zueinem Fall mehrere Meldungen vorliegen [U.S12a]. Ein Fall bezeichnet dabei die Behandlungeines Patienten. Folgemeldungen liefern dabei weitere Informationen über den Fortgang einer

30

Page 37: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

Behandlung, die möglicherweise zu Beginn noch nicht vorgelegen haben. Dies ist bspw. beimAusgang der Behandlung der Fall.Da jeder Meldung eine Fallnummer zugeordnet wird, sollte diese auch zu jeder Meldungvorliegen. Außer bei sieben Meldungen aus dem ersten Quartal 2004 ist dies auch der Fall, unddamit sind die Angaben zu Fallnummern weitgehend vollständig.

3.4.2.3. i_f_cod

Das Feld „i_f_cod“ gibt an, ob es sich bei einer Meldung um eine Anfangsmeldung oder eineFolgemeldung handelt. Diese Angabe basiert auf Angaben des Herstellers und ist unabhängigvon der Fallzuordnung der FDA, welche über die Fallnummer erfolgt [U.S12a].Zu diesem Feld liegen lediglich im Zeitraum vom ersten Quartal 2004 bis einschließlich demersten Quartal 2006 eine sehr geringe Anzahl Datensätze vor, zu denen dieser Status unbekanntist (vergleiche hierzu auch Tabelle A.8).

0

20.000

40.000

60.000

80.000

100.000

120.000

140.000

160.000

180.000

Followup

Initial

Unknown

Abbildung 3.8.: Anfangs- und Folgemeldungen

Abbildung 3.8 zeigt die Verteilung der Meldungen auf Anfangs- und Folgemeldungen. Zuerkennen ist, dass die Anzahl der Anfangsmeldungen durchschnittlich mindestens doppelt sogroß ist, wie die Anzahl an Folgemeldungen. Die Anzahl der Anfangsmeldungen nimmt dabeimehr zu als die Anzahl der Folgemeldungen.Bis auf die wenigen Einträge mit „unbekannt“ als Angabe am Anfang des Betrachtungszeit-raums ist zu allen Meldungen die Angabe, ob es sich um eine Anfangs- oder Folgemeldunghandelt, vorhanden.

31

Page 38: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.4.2.4. foll_seq

Im Zusammenhang mit dem im vorigen Abschnitt beschriebenen Feld „i_f_cod“ steht dasFeld „foll_seq". Es handelt sich hierbei um ein Freitextfeld, welches Angaben des Herstellerszu einer nicht näher spezifizierten laufenden Nummer enthält. Eine sehr geringe Anzahl anMeldungen enthält neben numerischen Zeichen auch Buchstaben und Sonderzeichen [U.S12a].

3.4.2.5. image

Das Feld „image“ enthält einen eindeutigen Identifikator der für Anfragen an die FDA imRahmen des FOIA genutzt werden soll. Dieser Identifikator ist für jede Meldung eindeutigund enthält die ISR inklusive eines alphanumerischen Prüfsymbols [U.S12a]. Da das Berech-nungsverfahren für die Prüfsumme nicht bekannt ist, konnte dieser Identifikator nur auf denBestandteil der ISR überprüft werden. Im Rahmen dieser Überprüfung traten keine Fehler auf.Die Angaben für diesen Identifikator sind vollständig.

3.4.2.6. event_dt

Wann ein unerwünschtes Ereignis aufgetreten ist, gibt das Feld „event_dt“ an [U.S12a]. Ab-bildung 3.9 zeigt die Verteilung der aufgetretenen Ereignisse im Zeitraum vom 01.01.2004bis zum 30.06.2012. Zwar enthalten die für diesen Zeitraum veröffentlichten Auszüge derRohdaten aus AERS auch Ereignisse bis zurück ins 20. Jahrhundert, allerdings ist deren Anzahlnicht signifikant.

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

40.000

45.000

50.000

Abbildung 3.9.: Datum des unerwünschten Ereignisses

Zu erkennen sind die sehr großen Peaks jeweils am 1. Januar eines Jahres und etwas kleinerePeaks jeweils zum 1. eines Monats. Dies ergibt sich daraus, dass die FDA Angaben zum Datum

32

Page 39: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

des Ereignisses, insofern diese nicht auf den Tag genau sind, jeweils auf den ersten eines Monatsbei Angabe von Monat und Jahr und auf den 1. Januar datiert, insofern nur das Jahr angegebenwurde [NOBE07]. Dies führt dazu, dass eine Exaktheit (vgl. 2.3.5.2) suggeriert wird, die nichtgegeben ist. Daher sollte grundsätzlich davon ausgegangen werden, dass Datumsangaben zum1. Januar nur in Bezug auf das Jahr und Angaben zum ersten eines Monats nur auf Jahr undMonat genau sind. Hierbei ist zu beachten, dass Angaben, die ursprünglich auf Jahr und Monatgenau waren, aber im Januar liegen, nur auf das Jahr genau angenommen werden können.Das Datum des Ereignisses ist zu 65,9% aller Meldungen angegeben. In diesen 65,9% sind73 Einträge mit eindeutig ungültigen Datumsangaben enthalten. Diese ungültigen Datumsan-gaben liegen entweder sehr weit in der Vergangenheit oder in der Zukunft. Zum Teil lassensich diese Angaben auf Tippfehler zurückführen. So könnte die Angabe „16.10.1007„ aufden „16.10.2007“ zurückzuführen sein, welches im konkreten Fall auch durch die weiterenDatumsangaben dieser Meldung unterstützt wird. Hier ist allerdings je Eintrag eine Einzelfall-betrachtung notwendig.Allgemein sollte hier eine einfache Validitätsprüfung durchgeführt werden, die solche Fehlein-gaben von vornherein eliminiert.

3.4.2.7. mfr_dt

Meldungen, die zunächst beim Hersteller eines Medikaments eingehen und erst von diesem andie FDA weitergeleitet werden, enthalten, als Information wann die Meldung beim Herstellereingegangen ist, eine Datumsangabe im Feld „mfr_dt“ [U.S12a].

0

1.000

2.000

3.000

4.000

5.000

6.000

7.000

Abbildung 3.10.: Datum der Übermittlung an den Hersteller

Die Vollständigkeit der Angaben liegt bei 94,7%, wobei die restlichen gut 5% zum Großteil aufMeldungen zurückzuführen sind, die direkt an die FDA übermittelt wurden. 1374 Meldungenwurden von Herstellern an die FDA getätigt und enthalten keine Angabe, wann die Meldung

33

Page 40: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

beim Hersteller eingegangen ist. Wie auch bei den Daten zum Auftreten der Ereignisse gibt eshier Meldungen, deren Datumsangabe zum Eingang der Meldung beim Hersteller bis ins 20.Jahrhundert zurückreicht. Außerdem gibt es ebenfalls eindeutig fehlerhafte Datumsangaben.Wie in Abbildung 3.10 zu erkennen, gibt es einzelne Peaks. Diese unterliegen allerdings nichteinem strengen Muster, wie dies bei den im vorherigen Abschnitt analysierten Daten derEreignisse der Fall ist. Eine mögliche Ursache für diese Peaks könnte das Einreichen derErgebnisse von klinischen Studien sein.

3.4.2.8. fda_dt

Das Feld „fda_dt“ gibt an, wann eine Meldung bei der FDA eingetroffen ist [U.S12a]. Wiein Abbildung 3.11 zu erkennen, gibt es hier einzelne Peaks. Diese haben allerdings nicht dasAusmaß wie in 3.4.2.6. Die Vollständigkeit dieser Angabe liegt bei 100% und es gibt auchkeine Ausreißer. Die Peaks am Monatsanfang haben ein geringes Ausmaß. Am Jahresanfangtreten im Vergleich zu den Monatsanfängen keine ungewöhnlich hohen Peaks auf. Der leichteAnstieg an Meldungen jeweils am Monatsanfang ist nicht auf mangelhafte Exaktheit zurückzu führen, sondern auf die periodisch von Herstellern getätigten Meldungen, die unkritischeEreignisse melden, welche nicht einer strengen Auflage zur sofortigen Meldung bei der FDAunterliegen [The12d].

0

1.000

2.000

3.000

4.000

5.000

6.000

7.000

8.000

9.000

10.000

Abbildung 3.11.: Datum der Übermittlung an die FDA

3.4.2.9. rept_cod

Wie bereits weiter oben beschrieben unterscheidet die FDA zwischen freiwilligen Meldungen,die direkt an sie getätigt werden, und Meldungen von Herstellern, die zum einen dringende

34

Page 41: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

Meldungen und zum anderen weniger dringende Meldungen tätigen [U.S12a]. Zu allen Mel-dungen liegt diese Einordnung vor. Da auf die Verteilung bereits in 3.1.2 eingegangen wurde,soll diese hier nicht weiter untersucht werden.

3.4.2.10. mfr_num

Die von Herstellern verwendeten Identifikatoren zur internen Identifizierung von Meldungenwerden von der FDA im Feld „mfr_num“ gespeichert. Sollte es sich nicht um eine Meldung voneinem Hersteller handeln, so wird dieses Feld für eine interne Identifikationsnummer der FDAverwendet [U.S12a]. In 99,999% der Meldungen, welche von Herstellern stammen (rept_cod!= ’DIR’), ist diese Identifikationsnummer vorhanden, also weitgehend vollständig. Im Fallevon direkt an die FDA getätigten Meldungen (rept_cod = ’DIR’) ist diese Angabe vollständig.

3.4.2.11. mfr_sndr

Der Name des Herstellers, welcher eine Meldung an die FDA übermittelt hat, wird im Feld„mfr_sndr“ vermerkt. Es handelt sich hierbei um ein Freitextfeld [U.S12a]. Entsprechend variiertdie Bandbreite der Schreibweisen zur gleichen Firma. Speziell Kürzel wie „Inc“ und „Ltd“werden hier in einer Vielzahl von Varianten an den Namen einer Firma angehängt, wobei meisteine Schreibweise dominierend ist. Weiterhin treten, wenn auch nur in einem sehr geringenAusmaß, wenig sinnstiftende Einträge wie "///////äuf. Der Name des Herstellers ist in ca. 94%der Meldungen angegeben. Lediglich bei 371 Meldungen, welche von Herstellern stammen, istder Name des sendenden Herstellers nicht angegeben.

3.4.2.12. age und age_cod

Altersangaben in AERS bestehen aus zwei Feldern. Zunächst aus einem numerischen Wertim Feld „age“ und weiterhin aus einem Feld „age_cod“, welches die Einheit des in „age“angegebenen Wertes bestimmt [U.S12a].Die im Feld „age_cod“ angegebenen Einheiten sind, insofern es sich nicht um NULL-Wertehandelt, gültig. Ausnahme ist hier eine Meldung aus dem vierten Quartal 2010, in der dasAlter als „1 MIN“ angegeben ist. Diese Angabe ist in Bezug auf die Spezifikation der FDAsyntaktisch falsch, würde allerdings allgemein als gültig angesehen werden.Auf Grund von Umstellungen seitens der FDA bzgl. der Berechnung von Altersangaben ausdem Geburtsdatum, insofern kein Alter in der Meldung angegeben wurde, ist die Anzahl anVorkommen, bei denen nur „age“ oder nur „age_cod“ einen Wert aufweisen, erheblich gestiegen.Ende 2008 ergänzte die FDA Altersberechnungen auf Basis des Geburtsdatums, insofern dasAlter nicht direkt angegeben wurde, auch in ihren Datenexporten. Diese Berechnung nutztedie FDA vorher bereits intern und stellte damit der Öffentlichkeit genauere Informationen zurVerfügung. Auf Grund eines Fehlers in dieser Berechnung wurde zunächst vom vierten Quartal2008 bis einschließlich zum ersten Quartal 2010 bei automatischen Berechnungen der Wert für„age_cod“ nicht auf „YR“ gesetzt, wie es eigentlich korrekt gewesen wäre. Ab dem zweitenQuartal wurde dies so korrigiert, dass „YR“ nun der Standardwert für „age_cod“ ist, was dazuführt, dass „age_cod“ fast keine NULL-Werte mehr beinhaltet, sondern auch den Wert „YR“

35

Page 42: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

aufweist, wenn keine Altersberechnung stattgefunden hat [U.S12b].Negative Altersangaben bedeuten, dass eine Meldung sich auf ein ungeborenes Kind bezieht[U.S12a]. Es liegen aber auch Altersangaben wie z. B. „-11 YR“ oder sogar „-933 YR“ vor.Bei diesen Angaben ist auch ohne Kenntnis des konkreten Falls davon auszugehen, dass siefehlerhaft sind.

0

20.000

40.000

60.000

80.000

100.000

120.000

140.000

160.000

180.000

Jahrzehnte

Tage

Stunden

Monate

Wochen

Jahre

Ungültige Angabe

Abbildung 3.12.: Altersangaben

Abbildung 3.12 zeigt die Verteilung der gültigen Altersangaben auf die einzelnen Zeiteinheitenund die Anzahl Meldungen ohne gültige Altersangabe. Die zusätzliche Berechnung des Altersauf Basis des Geburtsdatums und die korrigierte Angabe der Zeiteinheit ab dem zweitenQuartal 2010 sind hier deutlich zu erkennen. Weniger deutlich lässt sich jedoch die zuvorerhöhte Häufigkeit von Altersangaben ohne Zeiteinheit ablesen.Des Weiteren ist zu erkennen, dass die meisten Altersangaben in Jahren erfolgen. Alle anderenZeiteinheiten spielen fast keine Rolle. Ihr Vorkommen liegt regelmäßig jeweils unter 1000, wieauch Tabelle A.10 zeigt.

3.4.2.13. gndr_cod

Abbildung 3.13 zeigt die Verteilung auf die einzelnen möglichen Angaben zum Geschlecht desPatienten, wie sie das Feld „gndr_cod“ enthält. Neben der Unterscheidung zwischen männlichund weiblich finden sich hier drei weitere Möglichkeiten: Unbekannt, nicht spezifiziert undNULL [U.S12a]. Welche konkrete Bedeutung der NULL-Wert an dieser Stelle hat, bleibt offen.Die Unterscheidung zwischen unbekannt und nicht spezifiziert ist auf Grund der geringenAnzahl Meldungen, bei denen das Geschlecht hiermit angegeben wurde, im Vergleich zu dergroßen Anzahl Meldungen mit NULL-Wert, wenig informativ (vergleiche hierzu auch TabelleA.11 im Anhang).Im Schnitt ist bei mehr als 90% der Meldungen angegeben, ob der Patient männlich oder

36

Page 43: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

0

20.000

40.000

60.000

80.000

100.000

120.000

140.000

160.000

weiblich

männlich

nicht spezifiziert

unbekannt

NULL

Abbildung 3.13.: Angaben zum Geschlecht

weiblich war. Der Anteil Meldungen zu weiblichen Patienten ist durchgehend höher als derAnteil zu männlichen Patienten. Die Angaben unbekannt und nicht spezifiziert spielen mitweniger als 1% fast gar keine Rolle (vergleiche Tabelle A.12).

3.4.2.14. e_sub

Das Feld „e_sub“ ist ein boolesches Feld, in dem angegeben wird, ob eine Meldung aufelektronischem Wege erfolgte oder nicht. Meldungen, die nicht elektronisch erfolgten, wurdenin Papierform eingereicht [U.S12a].Die Verteilung der Meldungen auf elektronische und schriftliche Übermittlung wurde bereits in3.1.3 beleuchtet. Die Angaben zur Art der Übermittlung sind vollständig.

3.4.2.15. wt und wt_cod

Die Angabe des Gewichts ist, ähnlich wie die Angabe des Alters, aufgeteilt auf zwei Felder.Zum einen ein numerischer Wert im Feld „wt“ und zum anderen im Feld „wt_cod“ die Ge-wichtseinheit. Mögliche Einheiten sind Gramm, Kilogramm und Pfund [U.S12a].Abbildung 3.14 zeigt die Verteilung auf die einzelnen Einheiten. Angaben in Gramm spielenfast keine Rolle und kommen in einigen Quartal gar nicht vor. Angaben in Pfund gehen zurück,trotz der insgesamt steigenden Anzahl an Meldungen. Die Anzahl der Angaben in Kilogrammnimmt etwas weniger zu als die Gesamtanzahl an Meldungen. Der Anteil an Meldungen, zuwelchen keine Gewichtsangabe des Patienten vorliegt, liegt jeweils über 60% mit einer leichtzunehmenden Tendenz.Anders als bei den Altersangaben, bei welchen zum Teil nur „age“ oder nur „age_cod“ einenWert enthielten, bzw. zum Teil eindeutig fehlerhafte Angaben vorlagen, sind die Gewichtsanga-

37

Page 44: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

0

20.000

40.000

60.000

80.000

100.000

120.000

140.000

160.000

180.000

keine Angabe

Gramm

Kilogramm

Pfund

Abbildung 3.14.: Einheiten von Gewichtsangaben

ben durchweg stimmig. Entweder liegt weder in „wt“, noch in „wt_cod“, ein Wert vor, oder inbeiden. Inkonsistenzen gibt es hier nicht. Auch fehlerhafte Gewichtsangaben, wie z. B. negativeAngaben, liegen nicht vor. Es wurden nur die vorgesehenen Einheiten verwendet.

3.4.2.16. rept_dt

Das Datum, an welchem eine Meldung abgesendet wurde, enthält das Feld „rept_dt“ [U.S12a].Diese Angabe ist zu 99,998% vollständig. Der Großteil der Meldungen, zu denen dieses Datumfehlt, sind direkte Meldungen an die FDA.Gehäufte Vorkommen zum Monats- oder Jahresbeginn sind nicht zu erkennen. Die unregelmä-ßig auftretenden Peaks decken sich zum Großteil mit den unregelmäßigen Peaks, welche auchbeim Feld „fda_dt“ auftreten.

3.4.2.17. occp_cod

Die Information, welcher Berufsgruppe derjenige angehört, welcher eine Meldung direkt andie FDA oder auch zunächst an einen Hersteller getätigt hat, enthält das Feld „occp_cod“.Hier wird unterschieden zwischen Ärzten, Apothekern, anderen im Gesundheitswesen Tätigen,Rechtsanwälten und Patienten [U.S12a].Abbildung 3.16 zeigt die Verteilung der Meldenden zu den einzelnen Gruppen. Zunächstgehen die meisten Meldungen von Ärzten aus. Dies ändert sich im Zeitverlauf zugunsten derMeldungen, die direkt von Patienten stammen. Dies liegt möglicherweise an einem erhöhtenBewusstsein der Patienten über die Möglichkeit, dass Arzneimittel Nebenwirkungen habenkönnen. Der Anteil der von Apothekern gemeldeten möglichen Nebenwirkungen liegt aufrelativ niedrigem Niveau und steigt nur leicht an, während die Anzahl der Meldungen von

38

Page 45: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

0

2.000

4.000

6.000

8.000

10.000

12.000

Abbildung 3.15.: Datum des Absendens einer Meldung

Ärzten und Patienten entsprechend der allgemeinen Zunahme an Meldungen erheblich stärkerzunimmt. Die Anzahl der von Anwälten getätigten Meldungen liegt im Schnitt unter dervon Apothekern. Andere im Gesundheitswesen tätige Personen melden ebenfalls zunehmendVerdachtsfälle. Ihre Anzahl liegt aber ständig unter der von Ärzten.Der Anteil der Meldungen, die keine Angabe zur meldenden Person haben, nimmt ab. IhrAnteil ist von ca. 26% zu Beginn des Betrachtungszeitraums auf unter 5% gefallen.

0

20.000

40.000

60.000

80.000

100.000

120.000

Patient

Anwalt

Arzt

Andere

Apotheker

Unbekannt

Abbildung 3.16.: Beruf des Meldenden

39

Page 46: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.4.2.18. death_dt

Das Feld „death_dt“ gibt das Todesdatum des Patienten an, insofern dieser im Laufe dergemeldeten Behandlung verstorben ist. Dieses Feld wurde bis einschließlich des zweitenQuartals 2010 geführt. Anschließend wurde es von der FDA auf Grund von Datenschutzgründennicht weiter gefüllt, blieb aber aus Kompatibilitätsgründen bestehen [U.S12a]. Die folgendeBetrachtung bezieht sich daher nur auf den Zeitraum vom ersten Quartal 2004 bis einschließlichdes zweiten Quartals 2010.

0

5.000

10.000

15.000

20.000

25.000

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

ohne Behandlungsausgang

ohne Todesdatum

Gesamt

Abbildung 3.17.: Angaben zum Todesdatum

Ob ein Patient gestorben ist, ergibt sich zum einen aus dem Todesdatum und zum anderenaus dem Ausgang der Behandlung, welche in „Outc“ angegeben wird. Abbildung 3.17 zeigtdie Anzahl der Meldungen, welche anhand der zwei genannten Kriterien wiedergeben, dassder Patient gestorben ist. Weiterhin zeigt sie den Anteil der Meldungen, bei welchen dasTodesdatum nicht eingetragen wurde, obwohl der Tod als Ausgang der Behandlung angegebenwurde und die Anzahl der Meldungen, bei denen ein Todesdatum, aber nicht der Tod alsBehandlungsausgang, angegeben wurde.Der allgemeine Verlauf folgt jeweils dem allgemeinen Trend der Zunahme an Meldungen. DerAnteil der Fälle mit Todesfolge, bei denen das Todesdatum des Patienten nicht angegeben wurdeliegt im Schnitt bei knapp 53%. Sie bilden den Großteil der Einträge, die nicht beide Angabenaufweisen. Der Anteil der Meldungen, welche nicht über die Angabe des Behandlungsausgangsverfügen, ist sehr gering.

3.4.2.19. to_mfr

Das Feld „to_mfr“ gibt an, ob jemand, der direkt an die FDA eine Meldung abgegeben hat,gleichzeitig auch den Hersteller informiert hat. Es hat also nur für direkt an die FDA getätigte

40

Page 47: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

Meldungen Relevanz und ist für Meldungen, die von Herstellern stammen, leer [U.S12a]. ImSchnitt haben ca. 10% der Meldenden angegeben, auch den Hersteller informiert zu haben. Dierestlichen ca. 90% haben dies nicht getan.

3.4.2.20. confid

Ob die Identität desjenigen, der direkt an die FDA eine Meldung abgegeben hat, an denHersteller weitergegeben werden darf oder nicht, gibt das Feld „confid“ an. Dieses ist, wie dasFeld „to_mfr“, bei von Herstellern getätigten Meldungen leer [U.S12a]. Gut zwei Drittel derMeldenden hat nichts gegen die Weitergabe der persönlichen Daten einzuwenden, das andereDrittel der Meldenden möchte dies nicht. Die beiden Anteile verhalten sich relativ konstant.

3.4.2.21. reporter_country

Das Feld „reporter_country“ nennt das Land, aus welchem derjenige stammt, der die Meldungabgegeben hat. Dies ist nicht zwingend das Land, in dem das Ereignis auftrat, meistens stimmtes aber überein [U.S12a].Die Verteilung wurde bereits in 3.1.4 aggregiert auf Kontinente betrachtet. Die Vollständigkeitdieser Angabe liegt im Schnitt bei 98,4%, seitdem dieses Feld im dritten Quartal 2005 ergänztwurde.

3.4.3. Drug

3.4.3.1. isr

Die ISR dient hier als Fremdschlüssel zur Tabelle „demo“ [U.S12a]. Sie ist vollständig angege-ben und die Integritätsbedingungen werden erfüllt.

3.4.3.2. drug_seq

Der Primärschlüssel zur Identifikation eines Eintrags in „drug“ ist nach Angaben der FDA dieKombination aus „isr“ und „drug_seq“, der „drug sequence number“ [U.S12a]. Berücksichtigtman doppelte Vorkommen auf Grund komplett doppelt vorkommender Meldungen wie siebereits in 3.4.2.1 beschrieben wurden, so ist bereits die drug sequence number alleine eindeutig.Die „isr“ ist also als Teil des Primärschlüssels nicht notwendig. Das Feld „drug_seq“ istvollständig.

3.4.3.3. role_cod

Der Meldende kann bei den von einem Patienten eingenommenen Medikamenten eine Ein-schätzung abgeben, ob er das Medikament für primär bzw. sekundär verantwortlich hält, obdas Medikament möglicherweise in Wechselwirkung mit einem anderen eingenommenenMedikament steht oder ob es seiner Meinung nach nur begleitend eingenommen wurde, abernicht Ursache des unerwünschten Ereignisses ist. Diese Einschätzung wird im Feld „role_cod“gespeichert [U.S12a].

41

Page 48: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

0

50.000

100.000

150.000

200.000

250.000

300.000

350.000

400.000

450.000

500.000

Begleitend

Wechselwirkung

Primär

Sekundär

Abbildung 3.18.: Rolle des Medikaments

Abbildung 3.18 zeigt die Verteilung auf die einzelnen Einschätzungen. Alle vier Typen ha-ben eine zunehmende Tendenz, welche sich durch die allgemeine Zunahme an Meldungenerklären lässt. Die Zunahme der interagierenden Medikamente ist hierbei allerdings erheblichgeringer als die der anderen Arten. Die Zunahme der primär oder sekundär als verantwortlicheingestuften Medikamente nimmt gleichmäßig zu, während die Anzahl der nur begleitendeingenommenen Medikamente die größte Zunahme aufweist.Die Angaben zur Einstufung eines Medikaments sind vollständig. Insofern ein Medikament alssekundär verantwortlich eingestuft wurde, liegt auch eine Einstufung für ein anderes Medika-ment als primär verantwortlich vor. Je Meldung gibt es nur ein Medikament, das als primärverantwortlich eingeschätzt wird. Als sekundär verantwortlich eingeschätzte Medikamenteliegen pro Meldung zum Teil mehrere vor.

3.4.3.4. drugname

Welche Medikamente ein Patient während seiner Behandlung eingenommen hat, ergibt sichaus den einzelnen Einträgen in „drug“ und jeweils dem Feld „drugname“. Das Feld „drugname“enthält Angaben zum Arzneimittel und/oder Arzneistoff [U.S12a].Die Angabe, was eingenommen wurde, ist bis auf 59 Einträge vorhanden. Allerdings sinddie Angaben teilweise von geringer Qualität. So gibt es Angaben, aus denen eindeutig daseingenommene Medikament hervorgeht, wie bspw. „ASPIRIN“. Teilweise ist nicht nur das ein-genommene Medikament sondern auch dessen Wirkstoff(e) angegeben, wie bspw. „ASPIRIN(ACETYLSALICYLIC ACID)“ oder „YASMIN (DROSPIRENONUM, ETHINYLESTRA-DIOLUM)“, wobei Yasmin zwei Wirkstoffe enthält, welche hier beide angegeben sind [Dru13a].Weiterhin gibt es Angaben wie „ACETYLSALICYLIC ACID“, bei denen nicht ein konkretesMedikament, sondern nur ein Wirkstoff angegeben wurde.

42

Page 49: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

Neben diesen klaren Angaben kommt es vor, dass die Angaben zum Teil neben dem Medika-ment zusätzlich Angaben zur Dosis, zum Einnahmeweg des Medikaments, zum Hersteller undanderen Dingen enthalten oder ungenau sind. Beispielhaft soll hier erst einmal nur eine kleineAnzahl an Beispielen für diese Art von Angaben genannt werden:

Tabelle 3.1.: Angaben im Feld „drugname“

Drugname Problem

UNKNOWN HYPERLIPIDEMIA MEDI-CATIONS

es wird nur die behandelte Krankheit, aberkein Medikament oder Wirkstoff angege-ben

MUCINEX (GUAIFENESIN) (GUAIFE-NESIN)

doppelte Angabe des Wirkstoffs

FLAGYL (METRONIDAZOLE) TWICEDAILY

Angabe der Einnahmehäufigkeit

BUDEPRION XL 300 MG ONCE DAILY enthält zusätzlich zum Medikament eineDosierungsangabe

POTASSIUM INTRAVENOUS Angabe der VerabreichungsformEXCEDRIN MIGRAINE (THOMAPHY-RIN N) (TABLETS)

zusätzliche Angabe der Verpackungsform

BAYER (ACETYLSALIC ACID) (UN-KNOWN)

Angabe des Herstellers und des Wirkstof-fes, aber nicht des Medikaments

CARBOCISTEINE (UNKNOWN) Angabe etwas UnbekanntenUNSPECIFIED Angabe aus der gar keine Information her-

vorgeht

Neben den ordentlichen Angaben gibt es also auch viele unsaubere Angaben. Weiterhinexistieren zum Teil Rechtschreibfehler, welche eine genaue Gruppierung von Meldungennach Medikamenten erschweren [PRPP12]. Da dieses Feld die für die Pharmakovigilanzentscheidende Angabe enthält, welches Arzneimittel bzw. welcher Arzneistoff eingenommenwurde, ist dies besonders problematisch. In Abschnitt 5.5 soll daher darauf eingegangen werden,wie die einzelnen Werte, soweit möglich, korrekt den einzelnen Arzneimitteln und -stoffenzugeordnet werden können.

3.4.3.5. val_vbm

Ob das Feld „drugname“ eine von der FDA überprüfte und korrekte Angabe enthält oder nicht,beinhaltet das Feld „val_vbm“. Diese Angabe ermöglicht zwei Werte: 1 bedeutet, dass es sichum eine überprüfte und gültige Angabe handelt, 2 bedeutet, dass die Angabe der Meldungwortwörtlich übernommen wurde [U.S12a].Abbildung 3.19 zeigt die Verteilung auf überprüfte (blaue Linie) und wortwörtlich (rote Linie)übernommene Angaben. Die Zunahmen folgen zunächst dem allgemeinen Trend. Zum Endeergibt sich allerdings eine leichte Entwicklung dahingehend, dass vermehrt gültige Angaben

43

Page 50: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

0

100.000

200.000

300.000

400.000

500.000

600.000

700.000

800.000

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

Abbildung 3.19.: Validierte und wortwörtliche Drugnames

in AERS aufgenommen werden. Zu erklären ist dies möglicherweise durch eine verbesserteVerarbeitung der Angaben bei der FDA.Diese Angabe ist vollständig und NULL-Werte sind nicht vorhanden.

3.4.3.6. route

Auf welchem Wege ein Arzneimittel eingenommen wurde, enthält das Feld „route“ [U.S12a].Diese Angabe ist in 48,9% der Einträge vorhanden, wovon 6,4% auf „unknown“ oder „other“entfallen und damit keine genaue Angabe beinhalten. Die restlichen Angaben beinhalten jeweilsdie genaue Art der Einnahme bzw. Verabreichung des Medikaments. Insgesamt sind in derDatenbank 65 verschiedene Formen der Aufnahme eines Medikaments vorhanden.

3.4.3.7. dose_vbm

Die Angabe der Dosierung eines Medikaments enthält das Feld „dose_vbm“. Es handelt sichhierbei um ein Freitextfeld für Dosis, Einnahmehäufigkeit und Verabreichungsform und wirdgenau so übernommen, wie es gemeldet wird [U.S12a]. Diese Angabe ist in 34,8% der Einträgevorhanden.Da es sich um ein Freitextfeld handelt und damit kein einheitliches Format vorhanden ist,existiert ist eine Vielzahl von Varianten, in der die Dosis, Einnahmehäufigkeit und Verabrei-chungsform angegeben werden. Zunächst gibt es Angaben, aus denen eine genaue Dosis undEinnahmehäufigkeit hervorgeht, wie z. B. „10 MG, 2X/DAY“ [EZ13b] oder „1 G EVERY 48HOURS“. Aus anderen Angaben lässt sich erst im konkreten Kontext eine genaue Dosierungableiten, wie bspw. bei „3 TABLETS / DAY“ oder „2-3 DOSAGE FORM“. Teilweise liegenzu komplexeren Dosierungen und Einnahmehäufigkeiten sehr genaue Angaben vor, wie z. B.„ADMINISTERED ON DAY 2 OVER 1 HOUR IN 2 DOSES AT HOURS ZERO AND 12DOSE:2 GRAM(S)/SQUARE METER’ ’4 MG -25 MG“ oder „UNK-16OCT:20MG,17OCT-10NOV:10MG (25D),6-19JAN10:10MG(14D),20JAN10-ONG:20MG“. Manche Angaben wie„UNKNOWN PRN DOSE“ oder „FOR ABOUT 2 YEARS.“ sind ungenau und haben keineAussagekraft über die tatsächliche Dosierung.Angaben, die Informationen zur Verabreichungsform beinhalten, sind u. a. „10 MG;4 TIMES A

44

Page 51: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

DAY; INTRAVENOUS“ und „7 MG, WEEKLY, SUBCUTANEOUS“. Der Anteil der Angaben,welche neben der Dosis Informationen über die Verabreichungsform beinhalten, liegt bei 5,4%1.Auf Grund der Vielzahl von Angabevarianten ist es schwierig, die in diesem Feld angegebenenInformationen auszuwerten. Ein Ansatz hierzu wird in Abschnitt 5.4 behandelt.

3.4.3.8. dechal

Ob die unerwünschte Wirkung des Medikaments zurückging, nachdem es abgesetzt wurde, gibtdas Feld „dechal“ an. „Ja“ und „nein“ geben hier den entsprechenden Verlauf der Behandlung an.„Trifft nicht zu“ beschreibt Behandlungen, in deren Verlauf das Medikament möglicherweisetrotz Nebenwirkung weiterhin eingenommen wurde, bspw. da die Nebenwirkung unkritischund die weitere Einnahme zur Behandlung der indizierten Krankheit weiter notwendig war.Zuletzt gibt es noch „unbekannt“ welches Unkenntnis des Meldenden über den weiteren Verlaufsignalisiert [U.S12a]. Außerdem existieren hier wieder NULL-Werte, welche komplett fehlendeAngaben widerspiegeln.Trotz der zunehmenden Gesamtanzahl an Einträgen in „drug“ nimmt die Anzahl der Einträgemit den vier genannten Werten ab. Zunehmen tut lediglich die Anzahl der NULL-Werte.Insgesamt ist diese Angabe nur in 11,7% der Einträge vorhanden.

3.4.3.9. rechal

Im vorigen Abschnitt wurde ein Feld beschrieben, in dem gespeichert wird, was passierte,als das Medikament vom Patienten nicht mehr eingenommen wurde. Ergänzend hierzu gibtes das Feld „rechal“. Hier wird gespeichert, ob die Nebenwirkung, nachdem der Patient dasMedikament nach einer Pause erneut einnahm, wieder aufgetreten ist. Die Werte sind hier dieselben wie zuvor. Vorgesehen sind „ja“, „nein“, „trifft nicht zu“ und „unbekannt“ [U.S12a].Ergänzend kommt ebenfalls wieder der NULL-Wert dazu.Auch wenn die erneute Einnahme eines Medikaments zuvor das Absetzen des Medikamentsbedingt, kommt es vor, dass „dechal“ keinen Wert beinhaltet, „rechal“ hingegen schon, wobeiin „rechal“ eine klare Aussage getroffen wird, d. h. nicht „trifft nicht zu“ oder „unbekannt“ ist.Die Angaben zu diesem Feld sind, ähnlich wie zuvor auch, größtenteils unvollständig. Nur in11,1% der Einträge wurde dies angegeben. Ebenfalls rückläufig ist hier das Vorkommen derAngabe im Verhältnis zu den insgesamt vorhandenen Einträgen.

3.4.3.10. lot_num

Zur genauen Rückverfolgung des eingenommenen Medikaments über den gesamten Herstellungs-und Verkaufsprozess hinweg kann die Chargennummer des Medikaments im Feld „lot_num“angegeben werden [U.S12a]. Die Chargennummer ist nur in 9,5% der Einträge in „drug“vorhanden.

1Alle Werte in „dose_vbm“, die als Bestandteil eine Angabe aus „route“ haben.

45

Page 52: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.4.3.11. exp_dt

Insofern angegeben enthält das Feld „exp_dt“ das Haltbarkeitsdatum eines Medikaments[U.S12a]. Da dieses Datum nur in 1% der Einträge vorhanden ist, sollte es nicht für Vergleicheeingesetzt werden.

3.4.3.12. nda_num

Zur Zulassung von neuen Medikamenten nutzt die FDA Zulassungsanträge, sogenannte „NewDrug Applications“. In diesen gibt der Hersteller eines Medikaments alle für die Zulassungnotwendigen Informationen und Dokumente ab. Zur internen Identifikation erhält jeder Zulas-sungsantrag eine Nummer, wobei jedes Medikament mehrere Nummern haben kann, wennmehrere Anträge für unterschiedliche Dosierungs- und Darreichungsformen eingereicht wur-den [The12a]. Das Feld „nda_num“ enthält, insofern angegeben, die Nummer des zugehörigenAntrags [U.S12a]. Die Angaben hierzu sind zu 22,5% vorhanden.

3.4.4. Indi

In der Tabelle „Indi“ werden die Indikationen angegeben, die zur Einnahme des zugehörigen,in „Drug“ angegebenen Arzneimittels geführt haben. Die Tabelle besteht lediglich aus dreiFeldern: „isr“, „drug_seq“ und „indi_pt“ (Preferred Term), wobei die Kombination aus „isr“und „drug_seq“ den Fremdschlüssel zur Tabelle „Drug“ darstellt [U.S12a].

3.4.4.1. isr und drug_seq

Der Fremdschlüssel, der auf die Tabelle „Drug“ verweist [U.S12a], ist vollständig angegebenund verweist auf Einträge, welche existieren. Die Angaben sind damit konsistent.

3.4.4.2. indi_pt

Die Angabe der Indikation erfolgt über den Preferred Term [U.S12a], eine Ebene des Medi-cal Dictionary for Regulatory Activities (MedDRA). MedDRA ist ein Wörterbuch, welchesstandardisierte Begriffe für Krankheiten, Syndrome, Diagnosen, Symptome, Labor- und kli-nische Untersuchungen beinhaltet. MedDRA stellt dabei fünf Ebenen zur Verfügung, welcheunterschiedliche Genauigkeit in der Beschreibung des jeweiligen Begriffs aufweisen. Der hiergenutzte Preferred Term ist die zweitgenauste Ebene, wobei in der darunter angeordneten Ebenezum Teil lediglich Synonyme vorkommen und damit nicht zwingend ein weiterer Informations-gewinn vorliegt [PRPP12]. Insgesamt werden im Feld „indi_pt“ 10122 verschiedene Begriffegenutzt. Diese reichen von einfachen Angaben wie „PAIN“ oder „DEPRESSION“ zu komplexe-ren Angaben wie bspw. „CEREBRAL AUTOSOMAL DOMINANT ARTERIOPATHY WITHSUBCORTICAL INFARCTS AND LEUKOENCEPHALOPATHY“. Am Häufigsten kommendie beiden Begriffe „DRUG USE FOR UNKNOWN INDICATION“ und „PRODUCT USEDFOR UNKNOWN INDICATION“ vor. Hierbei handelt es sich lediglich um Platzhalter, welchenicht Teil von MedDRA sind. Einige Angaben enthalten auch Rechtschreibfehler [STKO13]und lassen sich daher nicht korrekt auswerten.

46

Page 53: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

8.371.085

6.989.211

61.363

6.913

929

158

39

9

8

1

2

1

0 1.000.000 2.000.000 3.000.000 4.000.000 5.000.000 6.000.000 7.000.000 8.000.000 9.000.000

0

1

2

3

4

5

6

7

8

11

13

15

An

zah

l In

dik

atio

ne

n

Abbildung 3.20.: Häufigkeiten Preferred Terms je eingenommenes Medikament

Insgesamt sind zu 45,7% der Einträge in „Drug“ ein oder mehrere Einträge in „Indi“ vorhanden.Wie Abbildung 3.20 zeigt, liegt zu den meisten Einträgen ein Befund vor, der zur Einnahmedes zugehörigen Medikaments führte. Zu einer geringen Anzahl liegen auch mehrere Befundevor, wobei es sich entweder bei den zugehörigen Medikamenten um Kombipräparate handeltoder aber der Befund sehr ausführlich in allen Einzelheiten beschrieben wurde.

3.4.5. Outc

Wie die Behandlung für den Patienten nach Auftreten des unerwünschten Ereignisses ausging,enthält die Tabelle „Outc“. Diese Tabelle besteht aus zwei Feldern: der ISR als Fremdschlüsselzur Zuordnung zu einer Meldung und „outc_cod“ welches einen Code für den jeweiligenAusgang enthält [U.S12a].

3.4.5.1. isr

Die Meldungen aus der Tabelle „Demo“, auf die die ISR verweist [U.S12a], existieren. DieISR ist für jeden Eintrag angegeben und gültig.

3.4.5.2. outc_cod

Die FDA hat für den Ausgang einer Behandlung die folgenden sieben Codes festgelegt:

47

Page 54: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

Tabelle 3.2.: Codes zum Ausgang einer Behandlung [U.S12a]

Code Bedeutung

DE TodLT LebensbedrohendHO Krankenhausaufenthalt - anfänglich oder verlängertDS InvaliditätCA GeburtsfehlerRI Eingriff notwendig, um dauerhafte Schäden zu vermeidenOT Andere

Wie oft die einzelnen Behandlungsausgänge vorliegen zeigt Abbildung 3.21.

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

90.000

100.000

20

04

q1

20

04

q2

20

04

q3

20

04

q4

20

05

q1

20

05

q2

20

05

q3

20

05

q4

20

06

q1

20

06

q2

20

06

q3

20

06

q4

20

07

q1

20

07

q2

20

07

q3

20

07

q4

20

08

q1

20

08

q2

20

08

q3

20

08

q4

20

09

q1

20

09

q2

20

09

q3

20

09

q4

20

10

q1

20

10

q2

20

10

q3

20

10

q4

20

11

q1

20

11

q2

20

11

q3

20

11

q4

20

12

q1

20

12

q2

CA DE DS HO LT OT RI

Abbildung 3.21.: Behandlungsausgänge

Die einzelnen Vorkommen steigen im Wesentlichen mit dem Trend der zunehmenden Anzahlan Meldungen. Prozentuale Verschiebungen liegen nicht vor.Abbildung 3.22 zeigt die Anzahl der je Meldung vorliegenden Behandlungsausgänge. Zuden meisten Meldungen liegt ein Ausgang vor. Die Anzahl der Meldungen, welche einezunehmende Anzahl an Behandlungsausgängen enthalten, nimmt stetig ab. Der Anteil derMeldungen ohne Angabe eines Behandlungsausganges liegt bei 25,5%, wobei es sich bei 84,4%dieser Meldungen um Anfangsmeldungen handelt, zu denen möglicherweise eine Folgemeldungvorliegt, die dann den entsprechenden Ausgang der Behandlung beinhaltet. Nicht von der FDAvorgesehene Codes wurden nicht angegeben.

48

Page 55: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

1.057.155

2.416.223

551.393

102.467

14.622

1.902

179

49

0 500.000 1.000.000 1.500.000 2.000.000 2.500.000 3.000.000

0

1

2

3

4

5

6

7

An

zah

l Be

han

dlu

ngs

ausg

änge

Abbildung 3.22.: Häufigkeiten Behandlungsausgänge je Meldung

3.4.6. Reac

Die Tabelle „Reac“ enthält die aufgetretenen unerwünschten Ereignisse. Sie ist ähnlich auf-gebaut wie die zuvor beschriebenen Tabellen „Indi“ und „Outc“. Zunächst enthält sie dieISR zur Zuordnung zu einer Meldung und weiterhin einen Preferred Term (Feld „pt“) ausMedDRA [U.S12a].

3.4.6.1. isr

Die ISR als Fremdschlüssel zur Tabelle „Demo“ [U.S12a] ist bei allen Einträgen in „Reac“angegeben und gültig.

3.4.6.2. pt

Wie bereits in 3.4.4.2 beschrieben ist MedDRA ein Wörterbuch für medizinische Begriffe. Dasunerwünschte Ereignis wird anhand des Preferred Term aus MedDRA klassifiziert [U.S12a].Zu lediglich 10 Meldungen liegt keine Angabe zu einem unerwünschten Ereignis vor, wobei zu6 dieser 10 Meldungen eine Meldung im gleichen Fall vorliegt, welche das Ereignis spezifiziert.Die meisten Meldungen haben lediglich eine oder eine sehr geringe Anzahl an unerwünschtenEreignissen. Es existieren aber auch einige Meldungen, zu welchen über 100 Ereignisseangegeben wurden.Wie auch zuvor bei „Indi“ treten hier in den Preferred Terms Rechtschreibfehler auf [STKO13].

49

Page 56: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.4.7. Rpsr

Die Tabelle „Rpsr“ enthält Informationen über die Quelle einer Meldung. Sie hat den gleichenAufbau wie „Outc“ [U.S12a].

3.4.7.1. isr

Die ISR dient erneut als Fremdschlüssel zur Tabelle „Demo“ [U.S12a]. Zu allen Einträgen istdie ISR vorhanden und existiert in der Tabelle „Demo“.

3.4.7.2. rpsr_cod

Für das Feld „rpsr_cod“ hat die FDA die in Tabelle 3.3 angegebenen Codes vorgesehen. Dieeinzelnen Codes schließen sich dabei nicht gegenseitig aus. Entsprechend zeigt Abbildung 3.23die Häufigkeiten der einzelnen Quellen, wobei die Summe über der Anzahl Meldungen liegt,welche eine Quelle angegeben haben.

0

5.000

10.000

15.000

20.000

25.000

30.000

35.000

20

04

q1

2

00

4q

2

20

04

q3

2

00

4q

4

20

05

q1

2

00

5q

2

20

05

q3

2

00

5q

4

20

06

q1

2

00

6q

2

20

06

q3

2

00

6q

4

20

07

q1

2

00

7q

2

20

07

q3

2

00

7q

4

20

08

q1

2

00

8q

2

20

08

q3

2

00

8q

4

20

09

q1

2

00

9q

2

20

09

q3

2

00

9q

4

20

10

q1

2

01

0q

2

20

10

q3

2

01

0q

4

20

11

q1

2

01

1q

2

20

11

q3

2

01

1q

4

20

12

q1

2

01

2q

2

CR

CSM

DT

FGN

HP

LIT

OTH

SDY

UF

Abbildung 3.23.: Quellen von Meldungen

Abbildung 3.24 zeigt, wie oft Meldungen vorliegen, zu denen eine entsprechende Anzahl Quel-len angegeben wurde. Zu erkennen ist, dass zum Großteil der Meldungen keine Quellenangabevorhanden ist. Der Anteil Meldungen, zu denen eine oder mehrere Quellenangaben vorliegen,liegt bei nur 23,3%. Nicht vorgesehene Codes existieren nicht.

50

Page 57: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

Tabelle 3.3.: Codes zur Quelle einer Meldung [U.S12a]

Code Bedeutung

FGN FremderSDY StudieLIT LiteraturCSM KonsumentHP GesundheitsfachkraftUF AnwenderCR UnternehmensvertreterDT HändlerOTH Andere

3177170

442879

294914

169770

56734

2501

21

1

0 500000 1000000 1500000 2000000 2500000 3000000 3500000

0

1

2

3

4

5

6

7

An

zah

l Qu

elle

n

Abbildung 3.24.: Häufigkeiten Quellen je Meldung

3.4.8. Ther

Diese Tabelle enthält Informationen über Start- und Enddatum bzw. die Dauer der Einnahmeeines Medikaments durch einen Patienten [U.S12a].

3.4.8.1. isr und drug_seq

Der Fremdschlüssel, welcher auf die Tabelle „Drug“ verweist, besteht aus den Feldern „isr“und „drug_seq“ [U.S12a]. Zu allen Einträgen in „Ther“ ist dieser Fremdschlüssel vollständigangegeben und die zugehörigen Einträge in „Drug“ existieren.

51

Page 58: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

3.4.8.2. start_dt und end_dt

Die Felder „start_dt“ und „end_dt“ geben den Zeitraum an, in dem der Patient das zugehö-rige Medikament eingenommen hat. Zu einem in „Drug“ angegebenen Medikament könnenmehrere Einträge in „Ther“ existieren, insofern ein Arzneimittel wiederholt eingenommenwurde [U.S12a].

0

10.000

20.000

30.000

40.000

50.000

60.000

70.000

80.000

Abbildung 3.25.: Startdatum der Medikamenteneinnahme

Wie in Abbildung 3.25 und 3.26 zu erkennen, häufen sich die Datumsangaben jeweils zumErsten eines Monats und erheblich zum Ersten eines Jahres. Ähnlich wie im Feld „event_dt“ inder Tabelle „Demo“ liegt dies an nur monats- bzw. jahresgenauen Angaben.Sowohl Start- als auch Enddatum sind in 46,6% der Einträge vorhanden. Weitere 46% weisennur das Startdatum auf. Nur das Enddatum ist in 5,2% der Einträge angegeben, die restlichenEinträge weisen weder Start- noch Enddatum auf, wobei im Großteil der Fälle hier die Dauerangegeben ist. Insgesamt relativiert sich dies allerdings auf Grund der großen Anzahl anEinträgen in „Drug“, zu denen keine Angabe in „Ther“ vorliegt.

3.4.8.3. dur und dur_cod

Wie bereits bei den Alters- und Gewichtsangaben zu einem Patienten teilt sich die Angabe derDauer einer Medikamenteneinnahme in einen numerischen Wert und eine dazugehörige Einheitauf [U.S12a].Zu einem Großteil der Einträge, bei denen Start- und Enddatum eingetragen wurden, existiertdie Angabe der Dauer nicht. Zum Teil liegt dies an ungenauen Datumsangaben, zu denen keinegenaue Einnahmedauer angegeben werden konnte.Ein Teil der Angaben zur Dauer liegt unvollständig vor. Entweder wurde nur in „dur“ der nu-merische Wert eingetragen, aber nicht die zugehörige Einheit in „dur_cod“, oder in „dur_cod“

52

Page 59: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3.4. Analyse

wurde eine Einheit eingetragen, aber kein dazugehöriger Wert in „dur“. Die Anzahl dieserunvollständigen Einträge geht allerdings zurück (vergleiche Tabelle A.20).

Wie oben bereits angedeutet, existieren nicht zu allen Einträgen in „Drug“ auch Einträgein „Ther“. Zu 60,8% der Einträge in „Drug“ existiert kein Eintrag in „Ther“. Zu 38,5% existiertein Eintrag in „Ther“. Zwei Einträge in „Ther“ können 0,5% der Einträge in „Drug“ aufweisen.In Einzelfällen existieren bis zu 77 Einträge.

0

5.000

10.000

15.000

20.000

25.000

30.000

Abbildung 3.26.: Enddatum der Medikamenteneinnahme

3.4.9. Zusammenfassung

Die wesentlichen Probleme in den von der FDA zur Verfügung gestellten Daten bestehen inmal mehr und mal weniger unvollständigen Daten und in den Freitextfeldern. Inwieweit dieFelder der einzelnen Tabellen unvollständig sind wurde im jeweiligen Abschnitt betrachtet. Indiesem Zusammenhang ist die Bedeutung des NULL-Wertes nicht immer erkennbar, da meisteine spezielle Angabe wie „unbekannt“ oder „nicht spezifiziert“ existiert.Freitextfelder, wie „drugname“, „dose_vbm“ oder „mfr_sndr“ haben kein einheitliches Formatda keine Konvention zur Angabe des jeweiligen Datums vorhanden ist bzw. im Falle des Feldes„dose_vbm“ dieses Feld für mehrere Angaben verwendet werden kann.Datumsangaben sind zum Teil ungenau. Die Felder „event_dt“ der Tabelle „Demo“ und dieFelder „start_dt“ und „end_dt“ wurden teilweise um Tages- und Monatsangaben ergänzt, umAngaben, die nur monats- oder jahresgenau waren, abspeichern zu können.Zuletzt zu nennen sind Duplikate, welche zum einen durch das Nachreichen von Korrekturenzu einzelnen Meldungen entstehen, zum anderen durch Meldungen die an unterschiedlicheStellen gleichzeitig getätigt und von dort an die FDA weitergeleitet werden.

53

Page 60: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

3. Qualität der FDA-Daten

Im Folgenden soll nun zunächst das Programm OpenVigil vorgestellt werden, bevor im darauffolgenden Kapitel beschrieben wird, wie einige der aufgezeigten Qualitätsmängel behobenwerden können.

54

Page 61: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4. OpenVigil

OpenVigil ist ein Programm zur Analyse der von der FDA im Rahmen ihres Spontanmelde-systems AERS zur Verfügung gestellten Daten. Version 1 wurde von Böhm et. al. [BHCH12]entwickelt und über die Server der Christian-Albrechts-Universität zu Kiel zur freien Benutzungzur Verfügung gestellt. Zusätzlich wurde der Quellcode unter der GNU General Public License(GPL) freigegeben [BHCH12].Innerhalb von OpenVigil 1 wurde die Datenstruktur der von der FDA veröffentlichten Da-ten verwendet. Anpassungen oder ähnliches wurden nicht vorgenommen. Hauptproblem inOpenVigil 1 war die Laufzeit, welche bei komplexeren Anfragen mehrere Stunden betrug.Dies lag zum Teil auch daran, dass keine Optimierungen der Daten vorgenommen wurden,sondern direkt in den Rohdaten gesucht wurde. Weiterhin fehlten in Version 1 Möglichkeitenzur weitergehenden Analyse ausgehend von einem unerwünschten Ereignis, da OpenVigil 1nur Auswertungen ausgehend von Arzneimitteln- bzw. -stoffen ermöglichte. Weiterhin wurdenicht zwischen Arzneimitteln und Arzneistoffen unterschieden und durch die unterschiedlichenAngaben, wie bereits in 3.4.3.4 gezeigt, wurden nicht immer alle zutreffenden Meldungen indie Auswertungen mit einbezogen, da die Analyse eines Wirkstoffes nicht die Medikamentemit einbezog, die diesen enthalten [EZ13b].Um diesen Problemen Herr zu werden, wurde eine Neuentwicklung notwendig. Hierbei wurdeauf eine Trennung zwischen Medikamenten und Wirkstoffen gesetzt, welche es ermöglicht,sowohl explizit nach einem Medikament zu suchen, als auch nach einem Wirkstoff, wobeihier auch berücksichtigt wird, wenn in den Daten der FDA nur der Name des Medikamentsgenannt wird, aber bekannt ist, dass das Medikament den entsprechenden Wirkstoff beinhaltet.Um dies zu ermöglichen, ist eine Verarbeitung des Feldes „drugname“ aus der Tabelle „Drug“notwendig, welche Inhalt von Abschnitt 5.5 ist. Weiterhin ist in der neuen Version die Suchenach ATC-Codes oder chemischen Teilstrukturen möglich. Abbildung 4.1 zeigt die neu ent-wickelte Oberfläche. Neben der dargestellten Analysemöglichkeit kann der Benutzer sich dieDaten einer Meldung anzeigen lassen, eigene lesende SQL-Abfragen ausführen, eine Listeder bekannten unerwünschten Ereignisse und das Verzeichnis zu bekannten Arzneimitteln und-stoffen, inklusive Detailinformationen, anzeigen lassen.Durch die Vorverarbeitung konnten Freitextsuchen bei der Auswertung vermieden und Indizesdadurch effizient eingesetzt werden [EZ13b].

4.1. Technische Produktumgebung

OpenVigil 2.0 wird als Webanwendung entwickelt und stellt daher keine speziellen Anforde-rungen an den Client. Lediglich ein Webbrowser mit Anbindung zum Server ist notwendig.Auf Serverseite ist neben den konkreten Programmen wie Web-Applikations-Server und Da-

55

Page 62: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4. OpenVigil

Abbildung 4.1.: OpenVigil 2.0

tenbankmanagementsystem vor allem zu erwähnen, dass genug Speicherplatz notwendig ist,um alle Daten speichern zu können, und genug Rechenleistung zur Bearbeitung der Anfragenbenötigt wird.Im Folgenden eine kurze Auflistung der technischen Produktumgebung [EZ13a]:

Software

Client

• Betriebssystem: beliebig

• aktueller Internet-Browser (Referenzbrowser: Mozilla Firefox 17)

Laufzeitumgebung: Web-Applikations-Server

• Betriebssystem: Beliebig

• JRE 7

• Tomcat 7

56

Page 63: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4.2. Entwicklungsumgebung

Datenbank

• PostgreSQL 9.2

Hardware

Client

• Internetfähiger Rechner

Server

• Internetfähiger Rechner

• Ausreichend Festplattenspeicher für Software und Datenbank

• Rechnerleistung zur Bearbeitung der Anfragen

• Organisation von Datensicherungen

Orgware

Internetanbindung

Produkt-Schnittstellen

Datenimport der Daten von FDA, Drugbank und Drugs@FDA

4.2. Entwicklungsumgebung

Entwickelt wurde OpenVigil 2.0 mit Eclipse, welches für die Entwicklung von Java-Anwendungeneine sehr gute Umgebung bietet. Für die Verwaltung und den Austausch des Quellcodes wurdedie Versionsverwaltung SVN genutzt. Die folgende Auflistung enthält alle zur Entwicklunggenutzten Programme [EZ13a]:

Software

• beliebiges Betriebssystem

• Eclipse 4.2

• SVN

• Mantis Bug Tracker

• Tomcat 7

57

Page 64: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4. OpenVigil

• Tomcat Plug-In für Eclipse

• PostgreSQL 9.2

• JDK / JavaEE

Hardware

PC

Orgware

Keine

Entwicklungs-Schnittstellen

Keine

4.3. Datenbank

Entsprechend der neuen Anforderungen wurde eine neue Datenbankstruktur entwickelt, diesowohl die Daten der FDA, als auch ein Verzeichnis zu Arzneimitteln und -stoffen aufnimmt.Die Abbildungen 4.2 und 4.3 zeigen die neu entwickelte Struktur einmal in Form eines Entity-Relationship-Diagramms und einmal in Form eines relationalen Datenbankschemas wie esspäter innerhalb der Datenbank umgesetzt wurde.Zu erkennen sind in der unteren Hälfte die Daten aus AERS, welche sich primär um den Reportals Abbildung einer Meldung anordnen, und im oberen Bereich das Verzeichnis zu Medikamen-ten und Wirkstoffen. Dieses Verzeichnis enthält neben den einzelnen Namen der Arzneimittelund -stoffe auch deren Zuordnung zueinander, d. h. die Information, welche Wirkstoffe ineinem Medikament enthalten sind, und weiterhin Informationen zu Arzneistoffen, wie Syn-onyme, zugeordnete ATC-Codes oder chemische Teilstrukturen. Die Synonyme werden dabeibei der Zuordnung einzelner Einträge in „Drug“ zu den zugehörigen Wirkstoffen verwendet.ATC-Codes und chemische Teilstrukturen hingegeben können zur Analyse der Daten durchden Benutzer verwendet werden [EZ13b].

4.4. Benutzergruppen

Innerhalb von OpenVigil 2.0 gibt es zwei Benutzergruppen. Zum einen die Benutzergruppe„openvigil_sql“, die den Zugriff auf die generische SQL-Schnittstelle erlaubt, und zum anderendie Gruppe „openvigil_admin“ für Administratoren. Administratoren allein sind für den Importneuer Daten und die Verwaltung bestehender Daten zuständig.

58

Page 65: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4.4. Benutzergruppen

SUBSTRUCTURES

PK Name

SYNONYMS

PK Name

PHARMAPRODUCT

PK BrandName

Form Salt Enantiomer_dl Type Biologic Enantiomer_rs Enantiomer-plusminus

ATC-CODE

PK Code

THERAPY

PK T_id

Start_dt End_dt Durability Code dur_years dur_days dur_seconds

INDICATION

PK indi_pt

Anatomgrp

OUTCOME

PK OUTC_COD

Meaning

DRUG

PK Drugname

Lastupdate Drugbank_ID DDD

PP_APPL PRODUCT

IDENTIFIER CLASSIFICATION COMPONENT

PRODUCER

PK nameMANUFACTURE

USED

DRUGUSAGE

PK Drug-Seq

ROLE_CODE VAL_VBM ROUTE DOSE_VBM DECHAL RECHAL LOT_NUM EXP_DT NDA_NUM Daily_Dosis Drugname_Orig

RESULT

CASE

PK CASE_ID

EVENT

PK PT

Sysorgclass

RPSR

PK RPSR_COD

Meaning

INCLUDES

REPORT

PK ISR

FOLL_SEQ Event_DT MFR_DT FDA_DT REPT_CODE MFR_NUM MFR_SNDR GNDr_Code E_SUB OCCP_COD DEATH_DT TO_MFR CONFID REPORTER_COUNTRY Age Age_Code Age_Years Age_Days Age_Hours I_F_CODE Image WT WT_Code REPT_DT

(0,*)

(0,1)

(0,1)

(0,*)

(0,*)

(1,1)

(0,*)

(1,1)

(1,*)

(0,*)

(0,*)

(0,*)

(0,*)

D_APPL

(0,*)

(0,*)

(1,*)

(1,*)

(0,1)

(0,*)

(0,*)

UNCLASSIFIEDINCOMPLETE

PK name

(0,*) (1,*)

REP_RPSR

(0,*)

(0,*)

REP_OUTCOME

(0,*)

(0,*)

REP_EVENT(0,*) (0,*)

xorCODES

PK namePK code

meaning

Abbildung 4.2.: ER-Schema zu OpenVigil 2 [EZ13b]

59

Page 66: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4. OpenVigil

Abbildung 4.3.: Relationales Datenbankschema von OpenVigil 2

60

Page 67: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4.5. Architektur

Zum Schutz vor ungewollten Zugriffen von außen wurde in der Entwicklungsphase das gesamteProgramm zusätzlich durch einen Gastaccount geschützt.Die Definition der Benutzergruppen erfolgt über die Datei web.xml, welche Teil der Anwendungist. Die Verwaltung der Benutzeraccounts und die Authentifizierung erfolgt über die vomTomcat bereitgestellten Funktionen. Verwendet wird hier der BASIC-Login mit der in denTomcat integrierten Benutzerverwaltung.

4.5. Architektur

Im Folgenden soll nun die interne Architektur der Anwendung beschrieben werden. Wie be-reits beschrieben ist OpenVigil 2.0 eine javabasierte Webanwendung. Einstiegspunkt für alleAnfragen des Benutzers ist jeweils die für die gewünschte Aktion zuständige jsp-Datei. Dieseleitet zunächst die Anfrage an die zuständige Controller-Klasse weiter, die die eigentlicheVerarbeitung der Anfrage vornimmt und das Ergebnis bereitstellt. Insofern durch den Controllernicht eine Weiterleitung an eine andere Adresse stattfindet wird anschließend innerhalb derjsp-Datei die Ausgabe generiert.

Abbildung 4.4.: Paketdiagramm zu OpenVigil 2

Abbildung 4.4 zeigt die einzelnen Pakete die innerhalb von OpenVigil 2.0 existieren. Innerhalbdes Hauptpakets befinden sich die Controller-Klassen, die für die Funktionen zuständig sind,die für normale Benutzer zur Verfügung stehen. Dies sind alle Funktionen von OpenVigil, diesich auf die Auswertung der Daten oder die Auflistung einzelner Daten beziehen.Die models-Pakete enthalten jeweils zu den in der Hierarchie über ihnen stehenden Paketen dieentsprechenden Model-Klassen zur Abbildung der Datenbank.Das Paket interfaces enthält abstrakte Klassen, die damit sowohl zu implementierende Me-thoden vorgeben und gleichzeitig bereits Funktionalität bereitstellen. Reine Interfaces findenin OpenVigil 2.0 keine Anwendung. Neben zwei abstrakten Models, eine allgemeine Form

61

Page 68: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4. OpenVigil

und eine Spezialform mit einer künstlichen ID als Primärschlüssel, ist eine abstrakte KlasseImporter, welche im Importprozess neuer Daten genutzt wird, und die zentrale abstrakte KlasseServlet, welche als Elternklasse zu allen Controllern dort benötigte allgemeine Funktionenbereitstellt. Als erstes sind die Methoden zum Herstellen einer Verbindung zur Datenbank undzum Trennen der Verbindung zu nennen. Weiterhin beinhaltet die Servlet-Klasse eine Methodezum Auslesen von Einstellungen aus der verwendeten Property-Datei bereit. Methoden zumLaden von häufig genutzten Parametern aus dem HTTP-Request oder zum Schreiben vonMeldungen, welche später an den Benutzer ausgegeben werden, in die Session, sind ebenfallsBestandteil der Servlet-Klasse.Das Paket openvigil.misc enthält zum einen Klassen zur Sammlung von Daten, wie die Dateneiner Kontingenztabelle, zum anderen diverse Enum-Klassen. Außerdem enthält sie Klassenmit Hilfsfunktionen, die allgemein von allen Klassen genutzt werden können. Speziell zunennen sind hier die HtmlHelper- und FormHelper-Klasse, welche Methoden zur Generie-rung von HTML-Code bereitstellen. Die HtmlHelper-Klasse stellt Methoden zur Ausgabevon unterschiedlichen Variablentypen bereit. Diese bieten zum einen die sichere Ausgabe vonParametern an, die aus der Anfrage des Benutzers stammen, mit dem Ziel Cross-Site-Scriptingzu verhindern, zum anderen kann hierüber für einige Attribute eine erweiterte Ausgabe erfolgen,beispielsweise durch das Ergänzen eines Links auf eine andere Ressource. Die Klasse Form-Helper stellt Methoden zur Generierung von Formularfeldern zur Verfügung und kapselt damitsich wiederholende Aufgaben, wie den Abgleich, ob ein Element innerhalb einer Auswahllistegrade ausgewählt wurde oder nicht.Im Paket admin sind zunächst die Controller-Klassen zu den Auflistungen der berechnetenDaten, welche im Administrationsbereich einsehbar sind, enthalten. Der Controller, welcherdie Funktionen zur manuellen Zuordnung von Einträgen zu Arzneimitteln und -stoffen bereit-stellt, ist ebenfalls hier enthalten. Die Funktionen zum Import von Daten aus neuen Dateienstellt der Upload-Controller bereit. Dieser ruft je nach der vom Benutzer ausgewählten Quelleden zugehörigen Importer, welcher die abstrakte Klasse Importer aus dem Paket interfacesimplementieren muss, auf. Der Upload-Controller sorgt zunächst für die Bereitstellung derzu importierenden Datei, indem er diese von der angegebenen Quelle lädt, insofern die Dateinicht direkt vom Benutzer hochgeladen wurde. Nach der Initialisierung mit der Übergabe einerReferenz auf die zu importierende Datei ruft der Upload-Controller die Funktion doImport desImporters auf, und erwartet von diesem als Rückgabewert die Angabe, ob der Import erfolgreichwar oder nicht. Die Importer liegen jeweils im zur Datenquelle gehörenden Paket, d. h. derImporter zum Import von Daten der FDA im aers-Paket, zum Import von Daten der Drugbankim drugbank-Paket und zum Import von Daten von Drugs@FDA im drugsAtFDA-Paket. Inden Paketen drugbank und drugsAtFDA sind jeweils nur die Importer-Klassen vorhanden. DasPaket aers enthält hingegen auch alle Klassen, welche im weiteren Importprozess von Datenaus AERS benötigt werden. Dies sind zum einen Klassen, welche Funktionalitäten bereitstellendie im Rahmen der Vorverarbeitung benötigt werden, und zum anderen die Controller zurAbwicklung der einzelnen Prozessschritte.

62

Page 69: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4.6. Import von Daten

4.6. Import von Daten

Der Import von Daten aus AERS erfolgte in OpenVigil 1 durch direktes Einlesen in die Daten-bank. In OpenVigil 2 wurde dies dahingehend optimiert, dass Daten erst in eine Zwischenda-tenbank eingelesen werden und von dort nach einer Vorverarbeitung in die Produktivdatenbankübertragen werden [EZ13b]. Abbildung 4.5 soll dies noch einmal veranschaulichen.

FDA Rohdaten

Zwischen-datenbank

Produktiv-datenbank

Vorverarbeitung

Abbildung 4.5.: Vorverarbeitung in OpenVigil 2

Die Zwischendatenbank hat eine ähnliche Struktur wie die Datenbank von OpenVigil 1. Siebesteht im Wesentlichen aus den Tabellen, wie sie von der FDA vorgegeben werden. Weiterhinbeinhaltet sie einige Tabellen, in denen die Ergebnisse der Vorverarbeitung abgespeichertwerden bzw. Tabellen die zur Berechnung eben dieser benötigt werden [EZ13b].

Nach dem Einlesen der Dateien in die Zwischendatenbank muss der Administrator zunächsteingelesene Zeilen, die unvollständig waren, korrigieren bzw. zusammenführen. Dies liegtdaran, dass in den bereitgestellten Dateien teilweise Datensätze, die eigentlich je Zeile voll-ständig sein müssten, auf zwei Zeilen aufgeteilt sind. Diese kann der Benutzer hier, soweitmöglich, automatisch wieder zusammenfügen lassen. Ist dies nicht automatisch möglich, kannder Administrator hier manuelle Korrekturen vornehmen [EZ13b].Anschließend folgt die Entfernung von Duplikaten, welche durch nachgereichte Korrekturenentstehen. Diese kann automatisch oder manuell vorgenommen werden [EZ13b].Als nächstes folgt die Vorverarbeitung, welche nach ihrem Start automatisch durchläuft. In-nerhalb der Vorverarbeitung werden, wie bereits beschrieben, die einzelnen Einträge aus derTabelle „Drug“ anhand der Angabe im Feld „drugname“ mit den bekannten Medikamentenund Wirkstoffen verknüpft (vergleiche Abschnitt 5.5) und einige der im Folgenden Kapitelbeschriebenen anderen Optimierungen durchgeführt. Weiterhin werden hier Normierungen vongültigen Altersangaben und Angaben zur Dauer der Einnahme eines Medikaments vorgenom-men, die die Angaben in ein einheitliches Zeitformat übertragen [EZ13b].

63

Page 70: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

4. OpenVigil

Nach Abschluss der Vorverarbeitung gelangt der Benutzer zum letzten Schritt des Importpro-zesses: die Übernahme in die Produktivdatenbank. Zunächst werden hier alle Daten überprüft.Hierzu gehört u. a. die Überprüfung auf korrekte Datentypen. Wenn zusätzlich die Einträgeder Tabelle „Drug“ jeweils einem Arzneimittel oder Arzneistoff zugeordnet werden konnten,folgt abschließend das Kopieren in die Produktivdatenbank und das Entfernen der übertragenenDaten aus der Zwischendatenbank. Nach der Übernahme in die Produktivdatenbank stehen dieDaten zur Analyse durch den Benutzer bereit [EZ13b].

Im Folgenden sollen nun die Möglichkeiten zur Optimierung der Datenqualität erläutert wer-den.

64

Page 71: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung derDatenqualität

In diesem Kapitel sollen nun Möglichkeiten aufgezeigt werden, wie die Qualität der von derFDA zur Verfügung gestellten Daten verbessert und damit deren Nutzung im Rahmen vonOpenVigil optimiert werden kann.

5.1. Vervollständigung von Daten

5.1.1. Vervollständigung durch Daten des gleichen Falls

Daten, die sich im Laufe einer Behandlung nicht ändern, lassen sich, insofern nicht vorhanden,aus Angaben anderer Meldungen des gleichen Falls vervollständigen.Möglich ist dies bei dem Feld „gndr_cod“ in der Tabelle „Demo“. Dieses Feld gibt dasGeschlecht des Patienten an [U.S12a]. Zwar ist die Änderung des Geschlechts grundsätzlichmöglich, aber unwahrscheinlich. Hier lässt sich bei Meldungen, deren Angabe unbekannt (2582Meldungen), nicht spezifiziert (318 Meldungen) oder NULL (32007 Meldungen) ist, die Angabezum Geschlecht des Patienten im Falle von damit insgesamt 34907 Meldungen durch einekonkrete Geschlechtsangabe ersetzen. Um dies umzusetzen, ist der Einbezug von Meldungen,welche sich bereits in der Produktivdatenbank befinden und von Meldungen, die sich noch inder Zwischendatenbank befinden notwendig. Grundsätzlich kann diese Vervollständigung aberauch allein auf Basis der Meldungen in der Produktivdatenbank durchgeführt werden.Bei weiteren Feldern ist eine Vervollständigung durch Daten des gleichen Falles nicht möglich,da ein Fall sich auch über einen längeren Zeitraum erstrecken kann. Entsprechend kann sichdas Alter und das Gewicht des Patienten ändern oder Datumsangaben sich entsprechend desZeitverlaufs ändern. Diese Angaben könnten wenn überhaupt nur als Näherungswerte genutztwerden und währen dann mit entsprechender Vorsicht und manueller Überprüfung anwendbar.Eine Einzelfallbetrachtung ist allerdings auf Grund der Menge an Meldungen nicht realistisch.

5.1.2. Vervollständigung auf Basis von Annahmen

Wie in Abschnitt 3.4.2.12 gezeigt wurde, liegen speziell vom 4. Quartal 2008 bis zum 1. Quartal2010 viele Altersangaben ohne Angabe des zugehörigen Codes in „age_cod“ vor. Wie von derFDA ab dem 2. Quartal 2010 praktiziert [U.S12a], kann für Angaben ohne Code die EinheitJahr angenommen werden. Sämtliche Angaben ohne Code enthalten Werte in „age“, die dieseAnnahme erlauben. Um möglicherweise in Zukunft auftretende Ausreißer zu erkennen und diesnicht auf diese anzuwenden, empfiehlt sich eine Überprüfung, ob der Wert in „age“ im Bereich

65

Page 72: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

zwischen 0 und 100-120 (je nach maximal angenommenen Alter) liegt. In den Quartalen, indenen die Felder durch die Berechnung des Alters auf Basis des Geburtsdatums von der FDAfehlerhaft gefüllt wurden, können so 195.607 Altersangaben ergänzt werden.

5.2. Konsistenz und Integrität

Wie in Abschnitt 3.4.2.18 gezeigt werden konnte, existiert zum Teil eine Inkonsistenz zwischender Angabe des Todesdatums im Feld „death_dt“ in der Tabelle „Demo“ und der Existenz desBehandlungsausgangs in der Tabelle „Outc“. Ist ein Todesdatum angegeben, so ist der Tod einBehandlungsausgang, welcher in der Tabelle „Outc“ angegeben werden müsste.Da dies nicht immer der Fall ist, kann in einer einfachen Überprüfung festgestellt werden, ob,wenn das Todesdatum angegeben wurde, in der Tabelle „Outc“ das entsprechende Behand-lungsergebnis vorhanden ist. Sollte dies nicht der Fall sein, so kann hier ein entsprechenderEintrag ergänzt werden.

Altersangaben, die außerhalb eines sinnvollen Bereichs liegen, wie beispielsweise „525 YR“,lassen sich durch Integritätsbedingungen erkennen und isolieren [EIV07]. In der Normierungder Altersangaben sollten diese nicht berücksichtigt werden.

In der Tabelle „Ther“ existieren zum Teil Einträge, in denen zwar das Start- und das Endda-tum der Medikamenteneinnahme angegeben ist, aber nicht die Dauer. Dies ist bei insgesamt1.792.774 Einträgen der Fall. Da sowohl in „start_dt“, als auch in „end_dt“, ungenaue Angabenexistieren, kann die Dauer nur für 1.006.812 Einträge berechnet werden. Hierbei handelt essich um 56% aller Einträge, welche diese Inkonsistenz aufweisen, und um 16% aller in „Ther“existierenden Einträge. Alle anderen Einträge mit dieser Inkonsistenz weisen Daten auf, derenAngabe ungenau ist, weshalb hieraus nur eine grobe Näherung der Dauer berechnet werdenkönnte.

5.3. Korrektur von fehlerhaften Datumsangaben

In allen Datumsfeldern, die nicht von der FDA selbst gefüllt werden, existieren Ausreißer indie Vergangenheit als auch Einträge, die in der Zukunft liegen. Konkret sind dies die Felder„event_dt“, „mfr_dt“, „rept_dt“ und „death_dt“ aus der Tabelle „Demo“, sowie die Felder„start_dt“ und „end_dt“ aus der Tabelle „Ther“. In den meisten Fällen ist dabei das Jahrfehlerhaft. In den meisten Fällen dürfte es sich um Zahlendreher und Tippfehler oder eineKombination daraus handeln. So existieren Jahresangaben wie „1010“, wobei es sich sehrwahrscheinlich um einen Tippfehler handelt, wobei statt der zwei auf der Tastatur die einsgedrückt wurde. Ähnliche Fehler gibt es auch mit Angaben wie „3005“, wobei anzunehmen ist,dass hier statt der zwei die drei gedrückt wurde. Auf Grund offensichtlich fehlender Integritäts-bedingungen in AERS gelangen solche Angaben in die Datenbank. Weiterhin gibt es Angabenwie „2050“, wobei es sich vermutlich um einen Zahlendreher handelt. Solche Fehler könntengrößtenteils ebenfalls durch entsprechende Integritätsbedingungen abgefangen werden.

66

Page 73: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.4. Dosenermittlung

Neben diesen Fehlern existieren allerdings auch Jahresangaben, die eindeutig fehlerhaft sind,sich aber nicht direkt durch Zahlendreher oder Tippfehler erklären lassen. Ein Beispiel isthier die Datumsangabe „20.08.7682“, welche sich auch nicht durch ein Verdreher der Jahres-,Monats- und Tagesangabe erklären lässt.In den meisten Fällen dürfte sich ein entsprechender Fehler auch durch einen Vergleich dereinzelnen Datumsangaben innerhalb einer Meldung ausfindig machen können.Die Korrektur von fehlerhaften Datumsangaben kann zum Teil automatisch durchgeführt wer-den. Jahresangaben wie die oben genannten „1010“ oder „3005“ lassen sich durch verschiebenum ein Jahrtausend automatisch korrigieren. Teilweise ist aber doch eine manuelle Korrekturnotwendig, wobei hier der Aufwand für Einzelfallbetrachtungen berücksichtigt werden sollte.

5.4. Dosenermittlung

Das Feld „dose_vbm“ in der Tabelle „Drug“ ist ein Freitextfeld, in dem die Dosis des einge-nommenen Medikaments, die Einnahmehäufigkeit und die Form der Verabreichung angegebenwerden kann [U.S12a]. Um in Zukunft Auswertungen auch in Bezug auf die eingenommeneDosis zu ermöglichen, müssen diese Daten entsprechend aufbereitet werden, damit ihre Infor-mationen in einfacher Form zugänglich sind [EZ13b].Um dies zu erreichen, werden die Angaben mit Hilfe von regulären Ausdrücken geparst. Zielist es, die Angabe der Dosis auf die an einem Tag eingenommene Menge des Wirkstoffs inMilligramm zu normieren. Da hier vornehmlich auf Qualität anstatt auf Quantität gesetzt wer-den soll, muss zur Berechnung der täglichen Dosis sowohl die Menge, als auch der Zeitraumangegeben sein. Sollte der Zeitraum nicht angegeben sein, so könnte zwar angenommen werden,dass es sich bei der Angabe um die tägliche Dosis handelt, dies hätte allerdings zu Folge, dasmöglicherweise auch Dosen, die fälschlicherweise als tägliche Dosis angenommen würden,berechnet werden würden [EZ13b].Zunächst wurde eine Erkennung für Dosen, die angeben, dass der Patient das Medikamenteinmal, zweimal, dreimal oder viermal am Tag einnimmt, implementiert. Zu jeder Häufigkeitwurde ein regulärer Ausdruck entwickelt, der jeweils eine Vielzahl von Angabevarianten erfasst.Im Folgenden sollen nun diese vier regulären Ausdrücke kurz vorgestellt und Beispiele gezeigtwerden, von denen die Dosis ermittelt wurde.

5.4.1. Einnahme einmal am Tag

Zunächst werden die einzelnen möglichen Schreibweisen der Einheit Milligramm angegeben.Anschließend folgt, ggf. durch ein Zeichen getrennt, die Angabe, dass die Dosis einmal am Tageingenommen werden soll. QD steht dabei für lat. quaque die, jeden Tag. Die am Anfang desAusdrucks stehende Zahl, eine Ganzzahl oder optional auch eine Dezimalzahl, wird hier direktübernommen, eine Multiplikation ist nicht notwendig.

Ausdruck: ^[0-9]+([.,]{1}[0-9]+)?[]*(MG|MILIGRAM|MILIGRAMS|MILLIGRAM|MILLIGRAMS) [ ,;]*((1 DAY)|(ONE

DAILY MORNING)|(ONCE A DAY)|(QD)|(ONCE DAILY)|(DAILY( []*[[.(.]]?(1/D)[[.).]]?)?)|(PER DAY)|(1X/DAY))+$ [EZ13b]

67

Page 74: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

Angaben, zu denen hiermit die Dosis ermittelt werden konnte sind u. a.

• 312.5 MG, QD

• 1900 MG, DAILY (1/D)

• 13 MG DAILY

• 185MG PER DAY

• 35 MG;QD

• 55.2 MG, 1X/DAY

• 50 MG ONCE A DAY

Insgesamt konnte hiermit zu 576.231 Einträgen (10,7% der Einträge mit einer Angabe in„dose_vbm“ im Zeitraum 2004 bis einschließlich 2. Quartal 2012) die Dosis ermittelt werden.

5.4.2. Einnahme zweimal am Tag

Dieser Ausdruck ist ähnlich aufgebaut wie der Ausdruck zuvor, bis auf den Faktor der Einnah-mehäufigkeit. Die hiermit ermittelte Zahl gibt die Dosis je Einnahme an und muss daher mitdem Faktor zwei multipliziert werden, um die tägliche Dosis anzugeben.

Ausdruck: ^[0-9]+([.,]{1}[0-9]+)?[]*(MG|MILIGRAM|MILIGRAMS|MILLIGRAM|MILLIGRAMS)[ ,;]*(((TWICE)

(PER|A|(IN A)) DAY)|((TWICE) DAILY)|(DAILY[]*[[.(.]]?(2/D)[[.).]]?)|(2X/DAY))+$ [EZ13b]

Zu folgenden Beispielen konnte u. a. die Dosis ermittelt werden:

• 200.2 MG, 2X/DAY

• 3.25MG TWICE PER DAY

• 300 MG, TWICE A DAY

• 100MG TWICE DAILY

• 5 MILLIGRAM TWICE DAILY

Hiermit konnte zu 79.685 Einträgen (1,4%) die Dosis hiermit ermittelt werden.

68

Page 75: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.4. Dosenermittlung

5.4.3. Einnahme dreimal am Tag

Dieser Ausdruck weißt denselben Aufbau auf wie die regulären Ausdrücke zuvor. Um dietägliche Dosis anzugeben, muss die Dosis einer Einnahme mit dem Faktor drei multipliziertwerden.

Ausdruck: ^[0-9]+([.,]{1}[0-9]+)?[]*(MG|MILIGRAM|MILIGRAMS|MILLIGRAM|MILLIGRAMS)[ ,;]*(((THRICE)

(PER|A|(IN A)) DAY)|((THRICE) DAILY)|(DAILY[]*[[.(.]]?(3/D)[[.).]]?)|(3X/DAY))+$ [EZ13b]

Hiermit konnte die Dosis u. a. zu den folgenden Beispielen ermittelt werden:

• 62.5 MG, 3X/DAY

• 125 MG THRICE A DAY

• 25 MG, THRICE DAILY

Bei 16.472 Einträgen (0,3%) konnte hiermit die Dosis ermittelt werden.

5.4.4. Einnahme viermal am Tag

Dieser Ausdruck verhält sich wie die Ausdrücke zuvor. Der Faktor zur täglichen Dosis beträgtvier.

Ausdruck: ^[0-9]+([.,]{1}[0-9]+)?[]*(MG|MILIGRAM|MILIGRAMS|MILLIGRAM|MILLIGRAMS)[ ,;]*((((FOUR TIMES))

(PER|A|(IN A)) DAY)|(((FOUR TIMES)) DAILY)|(DAILY[]*[[.(.]]?(4/D)[[.).]]?)|(4X/DAY))+$ [EZ13b]

Angaben, zu denen hiermit die Dosis ermittelt werden konnte sind u. a.

• 75MG FOUR TIMES PER DAY

• 350 MG, FOUR TIMES A DAY

• 0.63 MG, 4X/DAY

• 130 MG FOUR TIMES DAILY

Die Dosis konnte hiermit zu nur noch 4.383 Einträge (0,0008%) ermittelt werden.

69

Page 76: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

5.4.5. Nicht verwertbare Angaben

Nicht verwertbare Angaben sind, wie bereits beschrieben, Angaben, aus denen sich keinegenaue Tagesdosis ermitteln lässt. Dies trifft zu auf mindestens 1.118.393 Einträge (20,8%).Ermittelt wurde dies mit Hilfe der folgenden drei Ausdrücke:

^(((DAILY)|(TEXT)|(DOSE))[: ]*)*((UNK)|(UKN)|(UNKNOWN)|(UNKNOWN DO-SE)|(UNSPECIFIED)|(DOSING INFORMATION UNKNOWN)|(DOSAGE IS UNCER-

TAIN)|(AS NEEDED)|(AS REQUIRED)|(NOT REPORTED)|(NOT PROVI-DED)|(DF OTHER)|,|\\.| |\\(|\\)|;)+$

^[ .,-]*$

^[0-9]+([.,]1[0-9]+)?[ ]*(MG|MILIGRAM|MILIGRAMS|MILLIGRAM|MILLIGRAMS)$

5.5. Drugnamezuordnung

Um die in OpenVigil 2 neue Zuordnung zu Arzneimitteln und -stoffen zu realisieren, ist esnotwendig aus dem Feld „drugname“ der Tabelle „Drug“ auszulesen, welche Medikamente bzw.Wirkstoffe angegeben wurden. In 3.4.3.4 wurden bereits einige Formen der Angabe genanntund zum Teil Probleme aufgezeigt. Im Folgenden sollen nun die einzelnen Schritte beschriebenwerden, mit denen die angegebenen Arzneimittel und -stoffe ausgelesen werden.

Aufsplitten

Zunächst werden die Angaben, die aus mehreren Teilen bestehen, wie z. B. „ASPIRIN (ACE-TYLSALICYLIC ACID)“ oder „YASMIN (DROSPIRENONUM, ETHINYLESTRADIO-LUM)“ in ihre einzelnen Bestandteile zerlegt. Dies erfolgt in drei Schritten: Zunächst werdenextra eingeklammerte Angaben, wie im eben genannten Fall die Acetylsalicylsäure, als ei-gener Bestandteil in einer Zwischentabelle abgelegt. Im Falle des Yasmin würde in dieserZwischentabelle als ein Eintrag „YASMIN“ und als zweiter Eintrag „DROSPIRENONUM,ETHINYLESTRADIOLUM“ gespeichert werden. Aufteilungen an Komma oder ähnlichenTrennzeichen finden hier also noch nicht statt. Zunächst werden nur die geklammerten Be-standteile auseinander genommen. Neben den beiden bereits genannten Beispielen gibt esauch Angaben mit mehreren geklammerten Bestandteilen. Ein Beispiel hierfür ist „EPIVAL(DEPAKOTE) (DIVALPROEX SODIUM) (DIVALPROEX SODIUM)“. Dieses würde in seineBestandteile „EPIVAL“, „DEPAKOTE“ und „DIVALPROEX SODIUM“ zerlegt. Das doppeltvorkommende „DIVALPROEX SODIUM“ wird nur einmal in der Zwischentabelle gespeichert,da Doppelnennungen ignoriert werden. Nicht in allen Angaben werden runde Klammern ge-nutzt. In einigen Angaben werden auch eckige Klammern genutzt, wie bspw. in „’PIRONAL[ALLOBARBITAL,AMINOPHENAZONE]’“. Diese Angaben sind allerdings in der Unterzahl.Das Zerlegen solcher Angaben erfolgt analog zu Angaben, in denen runde Klammern verwendetwurden [EZ13b].

70

Page 77: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.5. Drugnamezuordnung

Im zweiten Schritt werden Endungen entfernt, die für die Zuordnung zu Medikamenten undWirkstoffen keine Bedeutung haben. Konkret sind die Angaben von Zahlen, welche mög-licherweise eine Identifikationsnummer darstellen, deren Bedeutung aber nicht bekannt ist.Diese werden von Schrägstrichen umrahmt angegeben und werden entfernt. In der gleichenWeise erscheinen dreistellige Länderkürzel. Diese werden ebenfalls in diesem Schritt entfernt.Beispiele für solche Angaben sind „TRAMADOL /00599201/“ (teilweise mit einer erheblichenAnzahl Leerzeichen zwischen der Angabe des Arzneimittels bzw. -stoffs) oder auch „DELIX/00885601/ (RAMIPRIL)“, wo die Nummer nicht am Ende des Wertes im Felde „drugname“auftaucht, sondern mittendrin. Angaben zu Länderkürzeln existieren analog. Das Zwischener-gebnis dieses Schritts wird in einer weiteren Tabelle gespeichert [EZ13b].

Im letzten Schritt werden Angaben, wie das weiter oben genannte „DROSPIRENONUM,ETHINYLESTRADIOLUM“ in ihre Einzelteile aufgeteilt. Die Strings werden hier mit Hilfedes regulären Ausdrucks

([ ]+(and|with|\+)[ ]+|[,/](?!([0-9]|ml|mg|m2|kg))| w/)

zerlegt. Dieser teilt bei „and“, „with“ und „+“ wenn sie von einem Leerzeichen umgebensind, Komma und Schrägstrich wenn darauf nicht eine Zahl oder eine Maßeinheit folgen oderbei „w/“, welches eine Abkürzung für „with“ ist. Die hieraus gebildeten Einzelteile werdenwiederrum in einer weiteren Tabelle abgelegt [EZ13b].

In all diesen Teilschritten, werden Angaben, die nicht verändert werden, weiter mit über-nommen. Dadurch bilden die einzelnen verwendeten Tabellen jeweils die Gesamtmenge allerAngaben ab, die keine Sonderzeichen enthalten die nicht weiter verarbeitet werden.

Zuordnung zu Arzneimitteln und -stoffen

Nachdem die Angaben in ihre einzelnen Bestandteile zerlegt wurden, folgt die Zuordnung zuden einzelnen Arzneimitteln und -stoffen. Um zu vermeiden, dass einzelnen konkreten Produk-ten ein Eintrag zugeordnet wird, da dieses Produkt den gleichen Namen trägt wie der Wirkstoffden es beinhaltet, wird die Zuordnung zunächst zu Arzneistoffen und erst anschließend zuArzneimitteln versucht vorzunehmen [EZ13b].

Um Zuordnungen vorzunehmen, musste zunächst ein Verzeichnis mit Namen von Arznei-mitteln und ihrer Wirkstoffe aufgebaut werden. Dieses wurde auf Basis der Drugbank, einerfreien Datenbank der University of Alberta zu pharmazeutischen Wirkstoffen erstellt. Die Datender Drugbank sind frei zum Download in Form einer XML-Datei verfügbar und konnten sorelativ einfach integriert werden. Neben den Namen zu Wirkstoffen und Medikamenten diediese beinhalten, stellt die Drugbank auch Informationen zu ATC-Codes [EZ13b] (ein Codezur Klassifizierung innerhalb des Anatomisch-therapeutisch-chemischen Klassifikationssys-tems [PRPP12]) und chemischen Strukturen innerhalb der Wirkstoffe zur Verfügung. Weiterhinstellt sie zu den einzelnen Wirkstoffen Synonyme bereit. Dies sind zum Teil standardisierteBezeichner [EZ13b], z. B. der durch die FDA vergebene USAN (United States Accepted Na-mes) oder der INN (International Nonproprietary Name), welcher durch die WHO vergeben

71

Page 78: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

wird und teilweise zusätzlich mit sprachspezifischen Anpassungen existiert [Wor07]. Aktuellbeinhaltet die Drugbank Informationen zu 6825 Wirkstoffen [Dru13b].Zusätzlich wird die Datenbank der FDA, Drugs@FDA, verwendet, um bei Bedarf sinnvolleEinträge hieraus zu ergänzen. Dies geschieht dynamisch bei Bedarf, d. h. insofern übereinstim-mende, nicht zuordenbare Einträge vorliegen, da die Datenqualität von Drugs@FDA nicht sohoch ist wie die der Drugbank.

Auf Basis dieses Verzeichnisses wird versucht, die einzelnen Bezeichner einem Arzneimitteloder -stoff zuzuordnen. Dabei werden zunächst die primären Bezeichner für Arzneistoffeabgeglichen. Die Überprüfung findet dabei immer auf Gleichheit des Namens statt. Wurde eineÜbereinstimmung gefunden, so wird in einer Tabelle der Zwischendatenbank diese Zuordnungals Ergebnis abgespeichert, aus der beim anschließenden Import in die Produktivdatenbankdann die entsprechende Verknüpfung erstellt wird. Als nächstes werden aber zunächst dieSynonyme abgeglichen. Sollte hier eine Übereinstimmung gefunden werden, so wird in derErgebnistabelle ein Eintrag zum Primärbezeichner des Wirkstoffes angelegt. Anschließendwerden, bevor Verknüpfungen zu Arzneimitteln ermittelt werden, etwaige Rechtschreibfehlerüberprüft. Diese befinden sich in einer eigenen Tabelle der Produktivdatenbank und werden nurzum Matching der Drugnames verwendet, finden ansonsten innerhalb von OpenVigil 2 aberkeine Anwendung [EZ13b].Anschließend werden die Namen von Produkten verglichen. Gefundene Übereinstimmungenwerden schließlich in derselben Tabelle gespeichert wie zuvor auch die übereinstimmendenWirkstoffe. Um eine Unterscheidung zu ermöglichen und anschließend eine Verknüpfung in derrichtigen Tabelle zu erstellen, wird markiert, ob es sich um ein Medikament oder einen Wirkstoffhandelt. Mit Rechtschreibfehlern wird anschließend analog vorgegangen wie bei Arzneistoffen.Übereinstimmungen werden nur für Einträge gesucht, zu denen in der Ergebnistabelle nochkein Eintrag existiert [EZ13b].

Konsolidierung

Nachdem die Zuordnung abgeschlossen ist werden die Einträge aus der Tabelle, welche dieErgebnisse des Aufsplittens enthält, entfernt. Alle Einträge, die sich nicht zuordnen ließen,werden in einer eigenen Tabelle gesammelt, welche Grundlage für die folgenden Schritte ist.

Behandlung von Salzen

In diesem Schritt wird versucht, die in Salzform auftretenden Wirkstoffe auf ihren Basisnamenzu reduzieren und entsprechend zuzuordnen. Beispielsweise wird „METFORMIN HYDRO-CHLORIDE“ dem Wirkstoff Metformin zugeordnet, wobei dieses in Salzform als Hydrochloridvorliegt.Für alle nicht zuordenbaren Einträge wird überprüft, ob es einen bekannten Salzbezeichnerenthält und der angegebene Basisname in der Datenbank existiert und damit eine entsprechendeZuordnung vorgenommen werden kann. Sollte dies der Fall sein, so wird der VollständigeBezeichner, inklusive Salzbestandteil, als Synonym in der Datenbank ergänzt. Auf Basis hierauf

72

Page 79: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.5. Drugnamezuordnung

wird dann in einem weiteren Mapping-Durchlauf die jeweilige Zuordnung in der Ergebnissta-belle für Zuordnungen gespeichert.Um die entsprechenden Namen inklusive Salzbezeichner zu ermitteln, existiert in der Datenbankeine Tabelle, welche typische Bezeichner von Salzen, wie das bereits genannte „Hydrochloride“oder auch „Bromide“, „Iodide“ und „’Sulfide’“, enthält. Zunächst werden die auf Basis derSalzbezeichner die Einträge aufgeteilt in ihren Basisnamen und ihren Salzbestandteil. Diesgeschieht durch einfache Überprüfung, ob der Eintrag mit einem Salzbezeichner endet undkein weiterer Salzbezeichner existiert, auf den dies auch zutrifft, der aber länger ist. Dies istnotwendig, damit beispielsweise Dihydrochloride nicht als Hydrochlorid erkannt werden, waszur Folge hätte, dass der angenommene Basisname dann auf „Di“ enden würde. Da Einträgeexistieren, die zwei Salzbezeichner beinhalten, wird dieser Schritt anschließend erneut ausge-führt um beide Salzbestandteile zu erkennen und damit den Basisnamen ohne Salzbestandteilzu ermitteln. Ergebnis dieser beiden Schritte ist jeweils eine Auflistung von Basisnamen undSalzbestandteilen, wobei im zweiten Schritt Teile des Basisnamen, welche als Salzbezeichnererkannt wurden, hier entfernt und bei den Salzbestandteilen ergänzt wird.Abschließend werden die Einträge dieser Liste ermittelt, deren Basisname innerhalb der Da-tenbank als Wirkstoff oder Synonym bekannt ist. Diese werden in der ursprünglichen Form,d. h. im Ganzen als Kombination von Basisname und Salzbezeichner, als Synonym für denjeweiligen Arzneistoff gespeichert.

Drugs@FDA

Wie bereits beschrieben, werden Einträge aus der Datenbank der FDA zu Medikamenten undWirkstoffen nur bei Bedarf übernommen. Nachdem beim Import der Daten von Drugs@FDAbereits eine Zuordnung zu Salzen analog zu dem oben beschriebenen Vorgehen vorgenommenwurde, werden nun die passenden Einträge übernommen. Hierzu werden zunächst die Haupt-namen der Arzneistoffe hinzugefügt und anschließend in Salzform vorliegende Inhaltsstoffeder Produkte als Synonyme ergänzt. Als Inhaltsstoffe angegebene Wirkstoffe, welche nichtfür die Zuordnung notwendig sind, werden der Vollständigkeit wegen in einer extra Tabelleals weitere Inhaltsstoffe erfasst, fließen damit aber nicht in andere Funktionen innerhalb vonOpenVigil ein. Dies dient ebenfalls der Wahrung der Qualität der Daten. Medikamente werdenabschließend in die entsprechende Tabelle übernommen und mit den Inhaltsstoffen verknüpft.

Weitere Zuordnungen

Für die nicht zuordenbaren Einträge wird nun ein erneutes Matching wie oben beschriebendurchgeführt. Die nach den Ergänzungen des Verzeichnisses jetzt zugeordneten Bestandteiledes Drugnames werden anschließend gelöscht.

Bereinigung

Zum Abschluss werden die zuvor als nicht zuordenbar in der entsprechenden Zwischentabellegesammelten Einträge gelöscht, die nach der Salzbehandlung zugeordnet werden konnten.Weiterhin werden gefundene Verbindungen zu Wirkstoffen, die in einem Produkt enthalten sind,

73

Page 80: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

welches dem gleichen Eintrag aus der Tabelle „Drug“ zugeordnet wurde, ebenfalls entfernt.Diese sind nicht notwendig, da die Verbindung sich später über das Medikament reproduzierenlässt. Im oben genannten Beispiel „ASPIRIN (ACETYLSALICYLIC ACID)“ würden alsozunächst beide Bestandteile der Angabe getrennt zugeordnet werden: „ACETYLSALICYLICACID“ dem Wirkstoff und „ASPIRIN“ dem Produkt. Da Acetylsalicylsäure Inhaltsstoff vonAspirin ist würde dies anschließend in diesem Schritt entfernt werden, da durch die Verknüpfungvon Aspirin und Acetylsalicylsäure klar ist, das der Patient diesen Wirkstoff eingenommenhat [EZ13b].Abschließend werden aus der Ergebnistabelle doppelte Vorkommen, die beispielsweise durchdoppelte Nennungen im ursprünglichen Drugname entstehen, entfernt.

5.5.1. Zusammenfassung

Insgesamt werden für diese Verarbeitung sechs Tabellen genutzt. Zunächst existieren drei Tabel-len in denen jeweils die einzelnen Zwischenschritte zum Aufsplitten gespeichert werden. DieBehandlung der Salze benötigt eine eigene Tabelle, in der die Zwischenergebnisse gespeichertwerden. In einer Tabelle werden schließlich die erfolgreich durchgeführten Zuordnung alsErgebnis abgespeichert von wo sie später in die Produktivdatenbank übernommen werdenkönnen. Eine weitere Tabelle nimmt alle Einträge auf, die nicht zugeordnet werden konnten undbildet damit zum einen den Ausgangspunkt für die Behandlung der Salze und die Ergänzungendurch Drugs@FDA, zum anderen die Basis für das manuelle Zuordnen zu Medikamenten undWirkstoffen, welches im Folgenden Abschnitt beschrieben wird.Sämtliche hier beschriebenen Verarbeitungsschritte werden alleine durch SQL-Befehle unddamit innerhalb der Datenbank bewerkstelligt. Ein Transfer von Daten aus der Datenbank indas Programm findet hier nicht statt.In OpenVigil werden die Zuordnung nur zu Arzneimitteln oder -stoffen vorgenommen. Einedirekte Zuordnung zu ATC-Codes, wie beispielsweise in [PRPP12], wird nicht vorgenommen.Diese ergibt sich, insofern die entsprechenden Daten vorhanden sind, über die Wirkstoffe undden ihnen zugeordneten ATC-Codes, welche aus der Drugbank ausgelesen werden.

5.5.2. Manuelle Zuordnung von Drugnames

Um der Drugbank und Drugs@FDA unbekannte Medikamente und Wirkstoffe erfassen zukönnen und damit das Verzeichnis zu Arzneimitteln und -stoffen auszubauen und um falschgeschriebene Namen auch zuordnen zu können, wurde eine Lösung geschaffen, die dem Admi-nistrator erlaubt bisher nicht automatisch zuordenbare Einträge zuzuordnen.Abbildung 5.1 zeigt die Oberfläche, über die der Administrator neue Zuordnungen eintragenkann. Hier das bisher unbekannte Medikament Previscan mit dem Wirkstoff Pentoxifylline.Zunächst kann ein Eintrag hier einem bestehenden Medikament oder Wirkstoff zugeordnetwerden. Hierzu werden dem Benutzer zum zuzuordnenden Drugname ähnliche Namen vonArzneimitteln und -stoffen präsentiert. Alternativ kann der Benutzer über ein Eingabefeld selberden Namen des existierenden Medikaments bzw. Wirkstoffs eingeben. Sollte das Medikamentoder der Wirkstoff noch nicht vorhanden sein, so können hier die entsprechenden Ergänzungenvorgenommen werden. Für einen neuen Arzneistoff reicht die Eingabe des Namens aus. Für ein

74

Page 81: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.5. Drugnamezuordnung

Abbildung 5.1.: OpenVigil 2.0 - Manuelle Zuordnung von Drugnames

neues Arzneimittel werden zusätzlich zum Namen auch noch der Hersteller und die beinhaltetenWirkstoffe benötigt.Sollte der Name des Arzneistoffs nicht dem zuzuordnenden Drugname entsprechen, so hatder Benutzer die Wahl, ob der Drugname als Synonym zum Arzneistoff ergänzt wird, oderob es sich um eine falsche Schreibweise handelt, welche später nicht im Programm in derSuchoberfläche angezeigt werden soll. Diese werden dann in einer eigenen Tabelle für falscheSchreibweisen gespeichert. Nicht übereinstimmende Namen von Produkten werden grundsätz-lich in diese Tabelle aufgenommen.Zuletzt hat der Benutzer die Möglichkeit, Einträge als nicht zuordenbar zu markieren. Dies bie-tet sich beispielweise für Einträge wie „UNSPECIFIED“ oder „all other therapeutic products“an, bei denen keine Zuordnung vorgenommen werden kann.Nachdem der Administrator neue Namen von Arzneimitteln und -stoffen, sowie falsche Schreib-weisen, in das Verzeichnis eingetragen hat, muss er zur Übernahme der entsprechenden Einträgein die Produktivdatenbank den Prozess der Vorverarbeitung, in dessen Rahmen die neuen Zu-ordnungen vorgenommen werden, und der Datenübertragung erneut starten.

75

Page 82: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

5.6. Duplikate

In OpenVigil 1 wurde die Existenz von Duplikaten bisher ignoriert. Im Folgenden soll nunbeschrieben werden, wie diese in Zukunft behandelt werden können.

5.6.1. Korrigierte Meldungen

Wie bereits in 3.4.2.1 beschrieben, kommen einige ISR-Nummern doppelt vor. Dies liegtan Korrekturen, die innerhalb von AERS vorgenommen werden. Bereitgestellt werden dieseKorrekturen mit der folgenden quartalsweisen Veröffentlichung der Rohdaten. Die meistenKorrekturen durch die FDA sind notwendig, weil Fallnummern für ungültig erklärt werden.Dies geschieht u. a. wenn durch Prozesse innerhalb von AERS eine neue Vergabe notwendigwird [U.S12a].Die FDA hat zur Bereinigung dieser Duplikate einen Hinweis herausgegeben. Die Daten ältererVersionen sind komplett zu löschen und nur die nachfolgenden Versionen, die die Korrekturenbeinhalten, sind zu verwenden [U.S12a].Um dies umzusetzen, ist in OpenVigil 2.0 die Ergänzung des Quartals, aus welchem dieMeldung stammt, notwendig. Entsprechend ist dann die ältere Version zu verwenden. Hierbeiist zu beachten, dass zum einen diese Bereinigung innerhalb der Zwischendatenbank stattfindenkann, zum anderen aber auch bereits fertig importierte Meldungen aus der Produktivdatenbankentfernt und durch die neuere Version ersetzt werden müssen. Dies ist vor dem Übertragen indie Produktivdatenbank entsprechend zu prüfen.

5.6.2. Doppelte Übermittlung

Meldungen, welche an unterschiedliche Stellen getätigt und von dort an die FDA weitergeleitetwerden, erhalten von der FDA jeweils eine eigene ISR-Nummer und werden nicht alle automa-tisch dem gleichen Fall zugeordnet, obwohl es sich um den gleichen Fall handelt. Duplikatekönnen durch unterschiedliche Situationen entstehen. Beispielsweise, wenn ein Patient oderein Arzt eine Meldung an die FDA direkt tätig, gleichzeitig aber auch den Hersteller informiert,welcher wiederum zur Weiterleitung der Meldung an die FDA verpflichtet ist. Aber auchwenn ein Arzt und ein Patient unabhängig voneinander ein unerwünschtes Ereignis melden.Weiterhin kann durch die gleichzeitige Information mehrerer Hersteller unterschiedlicher, aneiner Behandlung beteiligter, Produkte ein erhebliches Aufkommen von Duplikaten zu einemFall entstehen. Zuletzt zu nennen ist die fehlerhafte bzw. nicht vorgenommene Verknüpfungzwischen Anfangs- und Folgemeldungen. Problematisch sind diese Duplikate, da sie Statistikenverfälschen können. Bei sehr geringer Häufigkeit des Auftretens einer Nebenwirkung auch instarkem Ausmaß [PRPP12]. Im Folgenden soll nun ein Ansatz vorgestellt werden, wie dieseDuplikate identifiziert werden können.

5.6.2.1. Duplikatidentifizierung

Bei der hier vorgestellten Methode handelt es sich um ein Verfahren, bei dem grundsätzlich ersteinmal alle Objekte miteinander verglichen werden müssen. Wie dies optimiert, und damit die

76

Page 83: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.6. Duplikate

Laufzeit verringert werden kann, wird im nächsten Abschnitt vorgestellt. Es wird hier davonausgegangen, dass die einzelnen Daten sich bereits in einem Zustand befinden, in dem siedirekt verglichen werden können. Sie sollten also in einem einheitlichen Format vorliegen.Dies bezieht sich speziell auf Datumsangaben und allgemein auch auf Adressen, Namen undähnliches.

Festlegung der zu vergleichenden FelderZunächst müssen die Attribute festgelegt werden, die später verglichen werden sollen [EIV07].Hierbei sollte es sich um zentrale Attribute handeln, die zur Identifikation der Meldung bei-tragen. Poluzzi et. al. [PRPP12] schlagen hierfür die Felder „event_dt“, „age“, „gender“ und„reporter_country“ aus der Tabelle „Demo“ und zusätzlich die eingenommenen Medikamentebzw. Wirkstoffe und die aufgetretenen unerwünschten Ereignisse. Weiterhin kann der Ausgangder Behandlung mit einbezogen werden [NOBE07]. Die Fallnummer sollte ebenfalls beachtetwerden. Ist diese identisch, wurden die beiden Meldungen bereits als zum gleichen Fall gehörigidentifiziert, oder es handelt sich um eine Folgemeldung, welche sehr wahrscheinlich eine hoheÜbereinstimmung aufweist.

Vergleich der einzelnen AttributeZiel dieses Schritts ist es, für jedes Attribut einen Übereinstimmungswert zu berechnen. ImFalle einer Übereinstimmung ist dieser positiv, im Falle nicht vorhandener Übereinstimmungist dieser negativ. Sollte keine Aussage über die Übereinstimmung getroffen werden können,weil ein Datensatz keine Aussage über den konkreten Wert trifft, so ist der Wert 0 [NOBE07].Ein Beispiel hierfür ist der Vergleich der Angabe zum Geschlecht. Sollte hier ein Datensatzeine konkrete Aussage zum Geschlecht treffen, der andere allerdings als Wert „Unbekannt“,„Nicht spezifiziert“ oder NULL sein (im Folgenden als blank bezeichnet), so kann hier keineklare Aussage über die Übereinstimmung getroffen werden.

Allgemein berechnet sich der Wert für den Vergleich zweier Datensätze in diesem sog. Hit-Miss-Model aus der Wahrscheinlichkeit p jk, unter der Annahme, das j und k abhängig sind,und den jeweiligen Wahrscheinlichkeiten p j und pk unter der Annahme, dass diese unabhängigvon einander sind, wie folgt [NOBE07]:

Wjk = log2p jk

p j pk(5.1)

Für Attribute, bei denen beim Vergleich von zwei Werten als Ergebnis nur Übereinstimmung,keine Übereinstimmung und keine Aussage in Frage kommen, berechnet sich der Wert derÜbereinstimmung insgesamt aus (Herleitung siehe [NOBE07])

Wjk =

log2c−2log2(1−b) j 6= klog2{1− c(1−β j)(1−b)−2}− log2β j j = k0 j or k blank

(5.2)

77

Page 84: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

wobei j und k die Ausprägungen des Attributs X sind, β j die relative Häufigkeit der Attributs-ausprägung innerhalb der Einträge die nicht blank sind, b die Wahrscheinlichkeit eines Blanksund

c = a(2−a−2b) (5.3)

mit a als Wahrscheinlichkeit, dass j und k innerhalb einer Menge von bereits als Duplikateidentifizierten Datensätze nicht übereinstimmen [NOBE07].Ein Vorteil dieser Methode ist, dass häufiger vorkommende Werte weniger stark gewichtet wer-den als selten auftretende. Eine Übereinstimmung beim Herkunftsland zu einem Ereignis ausIsland würde damit beispielsweise stärker gewichtet als eine Übereinstimmung mit den USAals Herkunftsland, da hierher erheblich mehr Meldungen stammen (vgl. auch 3.1.4) [NOBE07].

Da bei Alters- und Datumsangaben nicht immer von einer vollständigen Übereinstimmungausgegangen werden kann, sollte hier die Differenz zwischen zwei Angaben beachtet werden.Neben der Akzeptanz einer gewissen Differenz kann hier auch die Häufigkeitsverteilung be-achtet werden [EIV07]. [NOBE07] schlagen hierfür die Erweiterung des Hit-Miss-Modelsvor. Entsprechend kommen nun nicht mehr nur die drei oben verwendeten Unterscheidungenzum Einsatz, sondern als viertes noch eine Aussage über die Abweichung. Angaben, die nahbeieinander liegen beschreiben mit höherer Wahrscheinlichkeit den gleichen Fall, als Angaben,die weit auseinander liegen. Da Datumsangaben, wie bei dem Feld „event_dt“, teilweise unvoll-ständig sind, muss dies entsprechend berücksichtigt werden. Im Falle der Altersangaben bietetsich eine erlaubte Abweichung von ± 1 Jahr an [NOBE07].

Während bei den einfachen Feldern nicht von einer Abhängigkeit auszugehen ist, muss beiden eingenommenen Medikamenten doch von einer Abhängigkeit ausgegangen werden. Glei-ches gilt für die angegebenen unerwünschten Ereignisse. Um dies in die Berechnung miteinzubeziehen, werden zunächst sowohl für alle angegebenen Arzneimittel bzw. -stoffe und un-erwünschten Ereignisse einzeln die Ergebnisse des Hit-Miss-Models berechnet. Anschließendwird ein Korrekturfaktor für häufig gemeinsam auftretende Ereignisse bzw. Arzneimittel/-stoffeabgezogen [NOBE07].Für die Berechnungen des erweiterten Hit-Miss-Models und den Korrekturfaktor siehe [NO-BE07].

BewertungNachdem für jedes Feld getrennt ein Wert für die Übereinstimmung ermittelt wurde und für dieArzneimittel bzw. -stoffe und unerwünschten Ereignisse ein Korrekturfaktor ermittelt wurde,werden die Werte für die einzelnen Attribute zusammenaddiert und davon der Korrekturfaktorabgezogen. Dies ergibt eine Gesamtbewertung für die Übereinstimmung zweier Meldungen,wobei ab dem Überschreiten eines Grenzwertes eine manuelle Überprüfung durchgeführtwerden sollte. Im Falle der Untersuchung auf Duplikate, welche durch Norén et. al. [NOBE07]im von der WHO geführten Spontanmeldesystem durchgeführt wurden, ergab sich ein Grenz-wert von 37,6 bei einer Fehlerrate von unter 5%, wobei dieser sich bei einer Veränderung derFehlerrate nur minimal nach oben bzw. unten verschoben hat [NOBE07].

78

Page 85: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5.6. Duplikate

Manuelle ÜberprüfungNachdem ein Paar von Meldungen als mögliches Duplikat erkannt wurde, muss abschließenddarüber entschieden werden, ob es sich um ein Duplikat handelt, oder ob lediglich eine großeÜbereinstimmung vorliegt, es sich aber doch um zwei unterschiedliche Fälle handelt. DieseÜberprüfung muss manuell vorgenommen werden, auch um false positives zu erkennen undnicht weiter als Duplikate zu berücksichtigen [NOBE07].

5.6.2.2. Effizienzsteigerung

Der Aufwand für das Auffinden von Duplikaten ergibt sich zum einen aus der Anzahl der durch-geführten Vergleiche und zum anderen aus den für einen Vergleich notwendigen Operationen.Die Effizienz der Suche nach Duplikaten kann im Wesentlichen durch die Verringerung derAnzahl an Vergleichen vorgenommen werden. Grundsätzlich muss bei der Duplikatsuche ersteinmal jeder Datensatz mit jedem anderen verglichen werden. Es handelt sich also um einequadratische Laufzeit. Um die Anzahl der durchzuführenden Vergleiche zu verringern, gibt eszwei Möglichkeiten: Blocking und Windowing [EIV07].Blocking basiert auf der Annahme, dass der zu untersuchende Datenbestand sich nach ein-zelnen Attributen in Mengen aufteilen lässt [DN09]. Unter der Annahme, dass über dieseMengen hinweg keine Duplikate auftreten, genügt der Vergleich von Einträgen innerhalb derMengen [EIV07].Bei Windowing hingegen wird die gesamte Menge zunächst nach einem Attribut sortiert undanschließend über die Gesamtmenge ein Fenster geschoben, innerhalb dessen jeweils alleEinträge miteinander verglichen werden. Wird das Fenster einen Eintrag weiter geschoben,so muss nur noch der neu hinzugekommene Eintrag mit allen anderen Einträgen verglichenwerden [EIV07].Beide Möglichkeiten erlauben das Durchführen mehrerer Durchgänge. Blocking beispiels-weise kann über mehrere Attribute oder mit unterschiedlich großen Mengen, die z. B. durchunterschiedliches Zusammenlegen der möglichen Werte entstehen, durchgeführt werden. BeimWindowing kann nach unterschiedlichen Attributen sortiert werden, wobei die Größe desverwendeten Fensters variieren kann [EIV07]. Beide Methoden könne auch kombiniert werden,d. h. innerhalb einer durch Blocking entstandenen Menge kann das Verfahren des Windowingangewendet werden [DN09].Um die Duplikatidentifizierung innerhalb der Daten der FDA zu beschleunigen, bietet es sichan, nur Meldungen, die ein Arzneimittel bzw. -stoff und ein unerwünschtes Ereignis gemeinsamhaben [NOBE07]. Da davon auszugehen ist, dass Duplikate, die durch mehrfache Übermittlungentstehen, meist zeitlich nah beieinander liegen, bietet es sich weiterhin an, Windowing überdas Eingangsdatum einer Meldung bei der FDA zu verwenden.

5.6.2.3. Umgang mit Duplikaten

Wurden Duplikate erkannt, so müssen diese so behandelt werden, so dass sie in Zukunft keineAuswirkungen mehr auf die durchgeführten Statistiken haben. Eine Variante ist, gefundeneDuplikate durch löschen zu eliminieren, wobei die Meldung erhalten bleiben sollte, die genauereInformationen bietet. Alternativ können die Duplikate markiert werden, dass sie den gleichen

79

Page 86: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

5. Methoden zur Verbesserung der Datenqualität

Fall beschreiben. Eine Möglichkeit hierzu ist das Anpassen der Fallnummer und damit dieZuordnung zum selben Fall innerhalb der Datenbank. Alternativ kann über ein extra Verzeichnisdie Übereinstimmung festgehalten werden.

80

Page 87: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

6. Fazit

Durch die Untersuchungen in Kapitel 3 konnten Schwächen in der Qualität der von der FDA imRahmen ihres Spontanmeldesystems AERS zur Verfügung gestellten Daten aufgezeigt werden.Im Rahmen dieser Arbeit konnten anschließend einige Möglichkeiten vorgestellt werden, umdie Qualität zu verbessern. Hierzu zählen neben der Vervollständigung von Daten, insofern diesin den anonymisierten Daten möglich ist, auch Korrekturen die zur Konsistenz der Daten bei-tragen. Weiterhin konnte beschrieben werden, wie eindeutig fehlerhafte Datumsangaben, zumTeil auch automatisiert, korrigiert werden könnten. Um die in den Freitextfeldern „dose_vbm“und „drugname“ enthaltenen Informationen zu extrahieren, wurde zum einen eine Möglichkeitzur Ermittlung der täglich durch den Patienten eingenommenen Dosis entwickelt, und zumanderen ein Verfahren, mit dem die einzelnen Einträge aus „Drug“ über die Angabe im Feld„drugname“ eindeutig einem Arzneimittel oder einem oder mehreren Arzneistoffen zugeordnetwerden.Durch dieses Verfahren konnten die Einträge in „Drug“ zu 70% der Meldungen komplettzugeordnet und diese Meldungen anschließend in die Produktivdatenbank übertragen werden.Innerhalb von „Drug“ liegt die Quote insgesamt bei 85%. Die weiteren 15% setzen sich ausbisher unbekannten Medikamenten und Wirkstoffen, Angaben mit Rechtschreibfehlern undAngaben wie „UNSPECIFIED“, die sich nicht zuordnen lassen, zusammen. Hierfür konnteeine Möglichkeit geschaffen werden, über die fachkundige Pharmakologen das Verzeichnis derArzneimittel und -stoffe ergänzen und falsche Schreibweisen erfassen können. Der Unterschiedzu Poluzzi et. al. [PRPP12] welche in ihrer Zuordnung zu ATC-Codes auf 90% gekommen sind,beträgt damit 5%. Unklar bleibt hier, wie diese mit nicht eindeutig zuordenbaren Einträgenumgegangen sind, wobei diese mit einem Anteil von ca. 1% nur einen Teil der Differenzerklären können.Durch die eindeutige Zuordnung und Korrektur von Rechtschreibfehlern konnte innerhalb vonOpenVigil 2.0 nicht nur ein Qualitätsgewinn, sonder auch ein Informationsgewinn erreichtwerden, da die Analyse von Wirkstoffen nun alle Einträge mit einbezieht, bei denen nur derName des Medikaments, aber nicht der Wirkstoff selbst direkt angegeben war.Zuletzt konnte neben der Bereinigung von Duplikaten, die sich durch nachgereichte Korrekturenergeben, auch ein Ansatz beschrieben werden, wie Duplikate, die u. a. durch doppelte Übermitt-lungen entstehen, identifiziert werden können und wie anschließend mit ihnen umgegangenwerden kann.

81

Page 88: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 89: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

7. Ausblick

Um die automatische Zuordnung zu Arzneimitteln und -stoffen zu verbessern, bietet sichdie Einbindung von weiteren Quellen, welche Informationen zu den Medikamenten undWirkstoffen bereitstellen, an. Beispielsweise könnte RxNorm, welches auch durch Poluz-zi et. al. [PRPP12] verwendet wurde, oder die Drug-Datenbank PharmGKB integriert werden.Weiterhin ist die manuelle Zuordnung durch einen fachkundigen Pharmakologen notwendig,der auch falsche Schreibweisen erkennen und richtig zuordnen kann. Da nicht alles einemArzneimittel oder -stoff zugeordnet werden kann, ist es notwendig, diese nicht zuordenbarenEinträge zu sammeln und zu klären, wie mit ihnen umgegangen werden soll. Sie könntenentfernt werden, was allerdings erhebliche Auswirkungen auf die durch OpenVigil generiertenStatistiken haben kann, insofern dadurch unvollständige Meldungen entstehen, denen dannmöglicherweise gar kein eingenommes Medikament oder eingenommener Wirkstoff mehrzugeordnet ist. Nicht zuordenbare Einträge können bereits über die Oberfläche zur manuellenZuordnung von Arzneimitteln bzw. -stoffen erfasst werden. Im Zuordnungsprozess findet diesaber noch keine Berücksichtigung und müsste hier entsprechend ergänzt werden.Da die in „Indi“ und „Reac“ verwendeten Preferred Terms zum Teil Rechtschreibfehler ent-halten [STKO13], wäre die Einbindung des medizinischen Wörterbuchs MedDRA denkbar,um die darin nicht enthaltenen Angaben erkennen und korrigieren zu können. Weiterhin würdesich durch die Einbindung von MedDRA die Möglichkeit ergeben, in OpenVigil die Datenaus AERS nicht nur in Bezug auf einzelne Preferred Terms zu analysieren, sondern auch inBezug auf ganze Gruppen von Preferred Terms, die in sogenannten Standardised MedicalQuerys (SMQs) zusammengefasst werden und sich auf allgemeine Gesundheitszustände oderKörperregionen beziehen [PRPP12].Um nicht nur für unerwünschte Ereignisse, sondern auch für Wirkstoffe Gruppierungen bereit-stellen zu können und um Einträge in „drugname“ wie „UNKNOWN HYPERLIPIDEMIAMEDICATIONS“ zuordnen zu können, bei denen nur die behandelte Krankheit angegebenwurde, könnte das bisherige Verzeichnis von Arzneimitteln und -stoffen um Klassen von Wirk-stoffen ergänzt werden. Hiermit ließen sich dann auch alle Arten von Vitaminen oder Insulinenzusammenfassen, insofern es für den Benutzer hier nicht einer genauen Unterscheidung bedarf.Die Ermittlung der täglich eingenommenen Dosis eines Medikaments berücksichtigt bishernur Angaben, die in Milligramm angegeben wurden und keine Angabe zur Darreichungsformenthalten. Die Darreichungsform kann hier entsprechend berücksichtigt und dadurch ggf. sogarfehlende Angaben in „route“ ergänzt werden. Weiterhin bietet sich die Ermittlung der Dosisund Normierung auf Milligramm auch ausgehend von andere Einheiten, beispielsweise Gramm,an.Für Einträge, deren Dosis nicht ermittelt werden konnte oder zu denen keine Dosis angege-ben wurde, kann als Näherung die Daily Defined Dosis (DDD), welche die mittlere täglicheTagesdosis eines Wirkstoffs für einen Erwachsenen angibt, genutzt werden. Diese kann über

83

Page 90: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

7. Ausblick

externe Datenquellen wie das wissenschaftliche Institut der AOK oder die WHO bezogenwerden. Durch den Einsatz der DDD können auch Einträge, zu denen keine Dosis bekannt ist,für Analysen mit Bezug auf die Dosis berücksichtigt werden [EZ13b].Die Bereinigung der Daten von Duplikaten konnte nur teilweise umgesetzt werden. So ist dieBereinigung von Duplikaten, welche durch nachgereichte Korrekturen entstehen, innerhalb derZwischendatenbank möglich. Dieser Prozess muss erweitert werden und fehlerhafte, bereitsin die Produktivdatenbank übertragene Meldungen berücksichtigen. Durch das Löschen derfehlerhaften Meldung und Nutzung der korrigierten Meldung ließe sich dieser Vorgang auchkomplett automatisieren. Nicht umgesetzt werden konnte die Identifizierung von Duplikaten,die durch doppelte Übermittlungen entstehen.

Weitere Funktionen, die ergänzend in OpenVigil 2 eingebaut werden könnten, aber keinendirekten Bezug zur Datenqualität haben, sind eine Logfunktion, Benutzerkonten und Mehrspra-chigkeit. Eine Logfunktion würde nicht nur alle Aktionen, die manuell durch den Administratorwährend des Importprozesses durchgeführt werden nachvollziehbar machen, sondern auch dievon Nutzern gestellten Anfragen erfassen können. Auf Basis der erfassten Anfragen könntendann möglicherweise weitere nützliche Funktionen aufgedeckt und in OpenVigil integriertwerden. Weiterhin ließen sich möglicherweise vorhandene Schwächen in der Benutzerführungidentifizieren und ausbessern. Einzelne Benutzerkonten für jeden Benutzer würden es erlauben,dass Benutzer eigene Gruppen von unerwünschten Ereignissen, von Medikamenten oder vonWirkstoffen erstellen und für ihre eigenen Analysen verwenden könnten. Weiterhin könnteBenutzern erlaubt werden, einzelne Abfragen zu speichern, um diese später erneut ausführenzu können [EZ13b].

Bereits im Herbst 2012 hat die FDA eine Systemumstellung für ihr Spontanmeldesystemdurchgeführt. Erst während der Ausarbeitung dieser Masterarbeit wurden hierzu weitere Detailsbekannt und erst mit erheblicher Verzögerung wurden neue Datendateien bereit gestellt, welcheeine veränderte Struktur, im Vergleich zu der in Kapitel 3 vorgestellten, aufweisen. Die ISRwurde durch einen Primäridentifikator und eine Versionsnummer für den jeweiligen Fall ersetzt.Die Felder „confid“, „death_dt“ und „image“ aus der Tabelle „Demo“ wurden komplett entfernt.Das Feld „reporter_country“ enthält nun nicht mehr den vollständigen Namen des Ursprungs-landes, sondern nur noch einen dreistelligen Code nach ISO 3166-1. Nicht vollständig bekannteDatumsangaben werden jetzt als solche angegeben und nicht mehr aufgefüllt [U.S13b]. Diedurch den Patienten eingenommene Dosis, welche vorher nur innerhalb des Feldes „dose_vbm“angegeben war, wird nun bereits durch die FDA ausführlicher erfasst. Entsprechend sind hierfürmehrere Felder hinzugekommen [U.S13a]. Neben diesen Änderungen erfolgten durch die FDAnoch weitere kleinere Änderungen.All diese Änderungen müssen berücksichtigt und OpenVigil darauf abgestimmt werden. Daes sich hier zum Teil um tiefgreifende Änderungen handelt, die auch Modifikationen an derdurch OpenVigil 2.0 genutzten Datenbank erfordern, sind die notwendigen Anpassungen anOpenVigil im Rahmen eines weiteren Entwicklungsschritts umzusetzen.

Um die Breite der durch OpenVigil genutzten Datenbasis zu erhöhen, bietet sich die Inte-gration der Daten weiterer Spontanmeldesysteme an. Wie bereits in Abschnitt 1.1.2.2 erwähnt,

84

Page 91: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

stellen auch die Behörden anderer Länder die Daten ihrer Spontanmeldesysteme frei zur Ver-fügung. Speziell für Deutschland interessant währen die Daten, die im Rahmen des durchdas Bundesinsitut für Arzneimittel und Medizinprodukte geführten Spontanmeldesystemsgesammelt werden.

85

Page 92: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 93: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

Der folgende Abschnitt enthält sämtliche Zahlen, die den Diagrammen in Kapitel 3 zu Grundeliegen.

A.1. Allgemein

A.1.1. Anzahl Meldungen

Zahlen zu Abbildung 3.1:

Tabelle A.1.: In AERS aufgenommene Meldungen

Jahr Quartal Anzahl Meldungen

2004 1 65.9752 60.2223 75.4514 70.752

2005 1 76.1802 80.6143 81.3144 88.518

2006 1 89.5272 79.5973 71.7244 83.229

2007 1 88.8322 83.9773 96.0354 109.892

2008 1 104.4122 107.5033 108.4534 121.024

87

Page 94: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

Jahr Quartal Anzahl Meldungen

2009 1 111.4382 112.4813 130.0724 137.708

2010 1 136.1912 144.4523 209.3074 183.567

2011 1 181.1402 194.3103 198.7774 208.742

2012 1 231.9452 225.402

Ermittelt wurden diese Zahlen auf Basis des Datenbestandes der Tabelle Demo des jeweiligenQuartals.

A.1.2. Meldungen nach Quelle

Zahlen zu Abbildung 3.2:

Tabelle A.2.: Meldungen nach Quelle [The12d]

AERS Year Expedited Direct Non-Expedited Total Non-Expedited TotalEntered Entered Rcvd Rcvd

2003 143.670 22.942 58.615 225.227 203.628 370.2402004 161.382 21.652 89.838 272.872 239.268 422.3022005 212.137 25.306 84.486 321.929 225.183 462.6262006 219.217 20.978 95.552 335.747 230.461 470.6562007 230.000 23.034 110.403 363.437 228.202 481.2362008 274.311 32.900 132.688 439.899 218.207 525.4182009 330.418 34.171 126.183 490.772 216.255 580.8442010 409.596 28.950 234.688 673.234 320.330 758.8762011 499.528 28.062 255.143 782.733 346.526 874.1162012 (Q1/Q2) 282.653 14.453 160.083 457.189 243.275 540.381

88

Page 95: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.1. Allgemein

A.1.3. Meldungen nach Art der Übermittlung

Zahlen zu Abbildung 3.3:

Tabelle A.3.: Meldungen nach Art der Übermittlung

absolut relativJahr Quartal elektronisch schriftlich elektronisch schriftlich

2004 1 19.313 46.662 29,273% 70,727%2 14.372 45.850 23,865% 76,135%3 21.841 53.610 28,947% 71,053%4 25.610 45.142 36,197% 63,803%

2005 1 30.157 46.023 39,587% 60,413%2 28.123 52.491 34,886% 65,114%3 35.179 46.135 43,263% 56,737%4 42.789 45.729 48,339% 51,661%

2006 1 45.700 43.827 51,046% 48,954%2 35.603 43.994 44,729% 55,271%3 31.340 40.384 43,695% 56,305%4 45.067 38.162 54,148% 45,852%

2007 1 46.346 42.486 52,173% 47,827%2 49.975 34.002 59,510% 40,490%3 63.313 32.722 65,927% 34,073%4 76.879 33.013 69,959% 30,041%

2008 1 72.593 31.819 69,526% 30,474%2 75.414 32.089 70,151% 29,849%3 76.804 31.649 70,818% 29,182%4 92.438 28.586 76,380% 23,620%

2009 1 83.884 27.554 75,274% 24,726%2 86.261 26.220 76,689% 23,311%3 104.072 26.000 80,011% 19,989%4 111.062 26.646 80,650% 19,350%

2010 1 110.644 25.547 81,242% 18,758%2 117.117 27.335 81,077% 18,923%3 182.759 26.548 87,316% 12,684%4 159.297 24.270 86,779% 13,221%

2011 1 156.090 25.050 86,171% 13,829%2 169.544 24.766 87,254% 12,746%3 171.191 27.586 86,122% 13,878%4 184.651 24.091 88,459% 11,541%

2012 1 201.849 30.096 87,025% 12,975%2 199.631 25.771 88,567% 11,433%

Ermittelt wurden diese Zahlen auf Basis des Feldes e_sub aus der Tabelle demo.

89

Page 96: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.1.4. Meldungen nach Herkunftsland

Zahlen zu Abbildung 3.4:

Tabelle A.4.: Meldungen nach Herkunftsland (absolute Zahlen)

Jahr Quar- Afrika Asien Europa Nord- Ozea- Süd- USA Unbe-tal amerika nien amerika kannt

2005 3 208 5.697 14.238 1.331 1.208 994 56.800 8384 250 6.063 15.655 2.686 1.363 895 60.702 904

2006 1 205 6.263 15.552 1.903 1.107 1.068 62.688 7412 427 5.837 15.525 1.815 1.172 981 53.089 7513 371 6.382 15.005 1.516 1.023 1.198 45.325 9044 355 6.729 17.212 1.629 1.050 1.309 53.641 1.304

2007 1 238 6.917 18.424 1.723 1.111 1.168 58.112 1.1392 344 7.629 18.196 1.882 1.203 1.602 51.847 1.2743 337 7.174 17.873 1.791 1.301 1.687 64.354 1.5184 263 8.273 20.341 1.951 1.185 1.549 74.829 1.501

2008 1 311 7.970 20.713 2.363 1.413 1.503 68.875 1.2642 315 8.479 21.775 2.405 1.289 1.903 70.105 1.2323 347 9.252 22.484 2.143 1.185 1.998 69.238 1.8064 405 9.759 23.180 2.721 1.331 2.331 77.106 4.191

2009 1 410 9.749 23.632 3.068 1.288 2.058 66.997 4.2362 527 10.499 24.179 3.437 1.746 2.484 65.663 3.9463 448 10.793 24.916 3.514 1.771 2.861 82.121 3.6484 511 12.690 27.661 3.867 1.590 3.178 84.411 3.800

2010 1 599 12.291 26.399 3.548 1.512 2.488 85.007 4.3472 539 12.849 28.215 4.755 1.593 3.080 90.094 3.3273 653 13.825 28.661 4.651 2.060 3.969 152.258 3.2304 704 14.398 31.054 4.975 1.980 4.599 122.035 3.822

2011 1 577 13.778 31.575 4.734 1.671 3.783 122.345 2.6772 643 16.433 36.149 6.564 2.202 4.927 127.040 3523 744 16.459 34.565 5.971 2.799 4.682 133.066 4914 647 17.222 34.002 6.276 2.887 4.872 142.246 590

2012 1 758 16.991 35.864 7.164 2.888 5.094 162.344 8422 875 19.090 36.663 7.646 3.087 6.668 149.685 1.688

90

Page 97: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.1. Allgemein

Tabelle A.5.: Meldungen nach Herkunftsland (relative Zahlen)

Jahr Quar- Afrika Asien Europa Nord- Ozea- Süd- USA Unbe-tal amerika nien amerika kannt

2005 3 0,256% 7,006% 17,510% 1,637% 1,486% 1,222% 69,853% 1,031%4 0,282% 6,849% 17,686% 3,034% 1,540% 1,011% 68,576% 1,021%

2006 1 0,229% 6,996% 17,371% 2,126% 1,236% 1,193% 70,021% 0,828%2 0,536% 7,333% 19,505% 2,280% 1,472% 1,232% 66,697% 0,944%3 0,517% 8,898% 20,920% 2,114% 1,426% 1,670% 63,194% 1,260%4 0,427% 8,085% 20,680% 1,957% 1,262% 1,573% 64,450% 1,567%

2007 1 0,268% 7,787% 20,740% 1,940% 1,251% 1,315% 65,418% 1,282%2 0,410% 9,085% 21,668% 2,241% 1,433% 1,908% 61,740% 1,517%3 0,351% 7,470% 18,611% 1,865% 1,355% 1,757% 67,011% 1,581%4 0,239% 7,528% 18,510% 1,775% 1,078% 1,410% 68,093% 1,366%

2008 1 0,298% 7,633% 19,838% 2,263% 1,353% 1,439% 65,965% 1,211%2 0,293% 7,887% 20,255% 2,237% 1,199% 1,770% 65,212% 1,146%3 0,320% 8,531% 20,732% 1,976% 1,093% 1,842% 63,841% 1,665%4 0,335% 8,064% 19,153% 2,248% 1,100% 1,926% 63,711% 3,463%

2009 1 0,368% 8,748% 21,206% 2,753% 1,156% 1,847% 60,120% 3,801%2 0,469% 9,334% 21,496% 3,056% 1,552% 2,208% 58,377% 3,508%3 0,344% 8,298% 19,156% 2,702% 1,362% 2,200% 63,135% 2,805%4 0,371% 9,215% 20,087% 2,808% 1,155% 2,308% 61,297% 2,759%

2010 1 0,440% 9,025% 19,384% 2,605% 1,110% 1,827% 62,417% 3,192%2 0,373% 8,895% 19,532% 3,292% 1,103% 2,132% 62,370% 2,303%3 0,312% 6,605% 13,693% 2,222% 0,984% 1,896% 72,744% 1,543%4 0,384% 7,843% 16,917% 2,710% 1,079% 2,505% 66,480% 2,082%

2011 1 0,319% 7,606% 17,431% 2,613% 0,922% 2,088% 67,542% 1,478%2 0,331% 8,457% 18,604% 3,378% 1,133% 2,536% 65,380% 0,181%3 0,374% 8,280% 17,389% 3,004% 1,408% 2,355% 66,942% 0,247%4 0,310% 8,250% 16,289% 3,007% 1,383% 2,334% 68,144% 0,283%

2012 1 0,327% 7,325% 15,462% 3,089% 1,245% 2,196% 69,992% 0,363%2 0,388% 8,469% 16,266% 3,392% 1,370% 2,958% 66,408% 0,749%

Ermittelt wurden diese Zahlen auf Basis des Feldes reporter_country aus der Tabelle demo.Dieses Feld besteht erst seit dem dritten Quartal 2005.

91

Page 98: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.1.5. Bereitgestellte Datensätze

Zahlen zu Abbildung 3.6:

Tabelle A.6.: Anzahl bereitgestellter Datensätze

Jahr Quartal demo drug indi outc reac rpsr ther

2004 1 65.975 235.878 78.761 57.691 264.771 78.445 85.4552 60.222 233.376 79.418 62.300 254.444 79.330 81.5663 75.451 273.499 95.375 67.009 291.222 87.923 94.9404 70.752 277.591 97.359 74.196 292.139 73.128 93.186

2005 1 76.180 279.283 107.219 77.481 313.984 69.399 98.7502 80.614 319.005 124.568 80.984 337.454 81.976 112.1543 81.314 307.227 116.767 84.001 336.320 74.471 116.3634 88.518 322.681 113.776 89.799 360.036 74.548 112.791

2006 1 89.527 336.519 130.498 96.744 409.360 68.942 128.7912 79.597 310.766 121.620 87.597 389.707 71.397 118.9443 71.724 272.141 111.230 71.869 286.316 67.016 102.6274 83.229 291.710 120.995 77.493 306.109 62.405 115.277

2007 1 88.832 323.247 131.755 86.767 301.385 58.908 120.5252 83.977 314.173 136.475 86.864 298.589 50.111 121.8663 96.035 328.096 142.282 89.270 315.283 47.672 128.1214 109.892 374.284 172.783 91.912 365.659 48.063 153.912

2008 1 104.412 369.888 178.365 97.282 366.821 47.234 150.2222 107.503 384.765 182.602 101.139 404.550 43.383 155.4153 108.453 399.480 199.070 103.105 402.721 43.656 162.7814 121.024 416.134 214.508 103.593 408.804 37.757 176.051

2009 1 111.438 411.532 209.816 109.875 379.450 37.187 161.8212 112.481 461.011 226.258 114.649 414.777 33.899 200.2873 130.072 536.801 276.621 118.230 454.509 35.762 220.3474 137.708 516.001 249.515 130.698 510.140 39.501 215.616

2010 1 136.191 526.621 257.208 127.517 507.210 35.987 212.1622 144.452 576.941 278.476 141.307 550.274 37.098 240.4053 209.307 794.686 382.823 165.242 736.612 37.890 301.4044 183.567 640.850 315.612 158.848 653.301 33.217 263.892

2011 1 181.140 687.023 355.542 167.551 661.345 34.327 286.1232 194.310 755.482 350.475 195.605 751.821 35.718 332.8013 198.777 753.956 376.362 191.957 742.706 41.327 331.2794 208.742 735.967 363.005 182.367 774.170 35.140 323.086

2012 1 231.945 862.191 453.955 202.954 838.707 44.445 352.0222 225.402 822.515 395.056 206.779 835.390 40.127 348.255

92

Page 99: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.1. Allgemein

Zahlen zu Abbildung 3.7:

Tabelle A.7.: Anzahl bereitgestellter Datensätze je Meldung

Jahr Quartal drug indi outc reac rpsr ther

2004 1 3,58 1,19 0,87 4,01 1,19 1,302 3,88 1,32 1,03 4,23 1,32 1,353 3,62 1,26 0,89 3,86 1,17 1,264 3,92 1,38 1,05 4,13 1,03 1,32

2005 1 3,67 1,41 1,02 4,12 0,91 1,302 3,96 1,55 1,00 4,19 1,02 1,393 3,78 1,44 1,03 4,14 0,92 1,434 3,65 1,29 1,01 4,07 0,84 1,27

2006 1 3,76 1,46 1,08 4,57 0,77 1,442 3,90 1,53 1,10 4,90 0,90 1,493 3,79 1,55 1,00 3,99 0,93 1,434 3,50 1,45 0,93 3,68 0,75 1,39

2007 1 3,64 1,48 0,98 3,39 0,66 1,362 3,74 1,63 1,03 3,56 0,60 1,453 3,42 1,48 0,93 3,28 0,50 1,334 3,41 1,57 0,84 3,33 0,44 1,40

2008 1 3,54 1,71 0,93 3,51 0,45 1,442 3,58 1,70 0,94 3,76 0,40 1,453 3,68 1,84 0,95 3,71 0,40 1,504 3,44 1,77 0,86 3,38 0,31 1,45

2009 1 3,69 1,88 0,99 3,41 0,33 1,452 4,10 2,01 1,02 3,69 0,30 1,783 4,13 2,13 0,91 3,49 0,27 1,694 3,75 1,81 0,95 3,70 0,29 1,57

2010 1 3,87 1,89 0,94 3,72 0,26 1,562 3,99 1,93 0,98 3,81 0,26 1,663 3,80 1,83 0,79 3,52 0,18 1,444 3,49 1,72 0,87 3,56 0,18 1,44

2011 1 3,79 1,96 0,92 3,65 0,19 1,582 3,89 1,80 1,01 3,87 0,18 1,713 3,79 1,89 0,97 3,74 0,21 1,674 3,53 1,74 0,87 3,71 0,17 1,55

2012 1 3,72 1,96 0,88 3,62 0,19 1,522 3,65 1,75 0,92 3,71 0,18 1,55

Ermittelt wurden diese Zahlen auf Basis der zur Verfügung gestellten Datensätze des jeweiligenQuartals.

93

Page 100: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.2. Demo

A.2.1. Anfangs- und Folgemeldungen

Zahlen zu Abbildung 3.8:

Tabelle A.8.: Anfangs- und Folgemeldungen

Jahr Quartal Followup Initial Unknown

2004 1 17.812 48.159 42 17.242 42.974 63 19.175 56.272 44 18.323 52.425 4

2005 1 19.930 56.245 52 22.868 57.728 183 25.532 55.778 44 28.111 60.396 11

2006 1 33.106 56.418 32 28.220 51.3773 22.325 49.3994 28.046 55.183

2007 1 26.066 62.7662 27.268 56.7093 38.073 57.9624 32.887 77.005

2008 1 34.967 69.4452 39.338 68.1653 37.563 70.8904 38.455 82.569

2009 1 32.552 78.8862 31.618 80.8633 42.726 87.3464 44.501 93.207

2010 1 42.962 93.2292 57.237 87.2153 77.049 132.2584 50.632 132.935

2011 1 52.477 128.6632 61.143 133.1673 55.739 143.0384 57.323 151.419

2012 1 62.673 169.2722 67.345 158.057

Ermittelt wurden diese Zahlen auf Basis des Feldes i_f_cod aus der Tabelle demo.

94

Page 101: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.2. Demo

A.2.2. Altersangaben

Die folgende Tabelle beinhaltet folgende Zahlen: Anzahl Vorkommen von Werten in „age“ohne zugehörige Angabe von „age_cod“, Werte in „age_cod“ ohne zugehörige Angabe vonWert in „age“ und die Anzahl von ungültigen oder fehlenden Altersangaben.

Tabelle A.9.: Ungültige Altersangaben

Jahr Quartal age ohne age_cod age_cod ohne age Ungültige Werte

2004 1 2 1x DY; 443x YR 22 2 1x DY; 162x YR 03 3 1x MON; 233x YR 24 6 131x YR 4

2005 1 2 126x YR 02 3 17x YR 23 4 1x DY; 29x YR 04 2 1x DY; 1x HR; 23x YR 2

2006 1 0 1x HR; 4x YR 02 3 2x YR 03 1 1x HR; 18x YR 04 4 1x YR 0

2007 1 4 1x HR; 1x YR 02 3 2x YR 13 3 2x DY; 2x HR; 1x YR 14 8 1x HR; 2x YR 0

2008 1 5 1x HR; 14x YR 22 4 22x YR 13 4 25x YR 14 35229 1x HR; 14x YR 8

2009 1 24367 17x YR 162 29975 - 83 36127 2x DY; 3x YR 94 37675 1x YR 9

2010 1 32234 1x YR 42 3 40980x YR 13 2 69823x YR 44 4 74805x YR 5

2011 1 5 53203x YR 162 1 61984x YR 153 4 65402x YR 154 2 60580x YR 17

2012 1 8 70924x YR 192 2 73895x YR 13

95

Page 102: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

Tabelle A.10.: Altersangaben

Altersangabe in UngültigeJahr Quartal Jahrzehnte Tage Stunden Monate Wochen Jahre Angaben

2004 1 47 238 7 367 29 48695 16.5922 39 221 14 423 33 44268 15.2243 53 160 9 477 48 54348 20.3564 54 190 9 340 39 50694 19.426

2005 1 61 270 6 392 52 50661 24.7382 42 409 5 476 21 54138 25.5233 52 610 12 383 23 54380 25.8544 60 654 11 411 27 57020 30.335

2006 1 80 584 12 421 28 59851 28.5512 88 523 10 583 13 54943 23.4373 133 529 14 575 47 48215 22.2114 116 544 27 555 48 51265 30.674

2007 1 184 556 25 533 42 55833 31.6592 147 676 11 807 56 49669 32.6113 120 844 17 800 68 53460 40.7264 158 597 6 555 40 53164 55.372

2008 1 152 593 20 601 32 56710 46.3042 171 560 9 605 35 56106 50.0173 138 608 27 723 71 53039 53.8474 119 505 20 618 37 53491 66.234

2009 1 219 570 14 545 33 52965 57.0922 132 1001 7 708 46 50882 59.7053 151 1578 19 1003 47 55669 71.6054 343 770 24 891 63 61427 74.190

2010 1 157 537 20 615 60 63971 70.8312 130 804 20 1207 42 101266 40.9833 180 1397 15 1193 76 136621 69.8254 168 669 15 755 42 107108 74.810

2011 1 200 557 6 655 47 126467 53.2082 294 597 13 824 54 130543 61.9853 314 935 26 1025 54 131017 65.4064 544 529 34 558 45 146450 60.582

2012 1 406 518 27 543 66 159453 70.9322 383 964 9 639 62 149448 73.897

96

Page 103: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.2. Demo

A.2.3. Angaben zum Geschlecht

Die folgenden Tabellen beinhalten die Zahlen zu Abschnitt 3.4.2.13 bzw. Abbildung 3.13.

Tabelle A.11.: Angaben zum Geschlecht (absolute Zahlen)

Jahr Quartal weiblich männlich nicht spezifiziert unbekannt NULL

2004 1 37.062 24.976 102 526 3.3092 32.354 23.654 89 647 3.4783 42.951 28.255 70 680 3.4954 38.507 26.848 185 788 4.424

2005 1 43.049 29.022 92 500 3.5172 42.749 33.133 54 803 3.8753 43.029 33.742 72 640 3.8314 47.074 34.834 147 834 5.629

2006 1 48.276 36.002 75 736 4.4382 42.600 32.657 74 886 3.3803 38.741 28.762 95 597 3.5294 46.279 30.759 312 684 5.195

2007 1 49.259 33.718 129 603 5.1232 46.220 32.550 68 257 4.8823 53.430 33.826 37 224 8.5184 63.294 39.598 79 178 6.743

2008 1 59.770 37.320 41 79 7.2022 60.196 38.583 39 100 8.5853 59.883 40.302 52 56 8.1604 70.369 42.457 19 124 8.055

2009 1 60.148 39.726 43 123 11.3982 60.141 41.318 39 112 10.8713 71.026 48.339 29 92 10.5864 77.743 50.758 45 99 9.063

2010 1 78.244 49.851 104 80 7.9122 82.898 52.766 41 63 8.6843 120.324 73.859 22 45 15.0574 90.485 56.579 4 11 36.488

2011 1 105.166 63.893 6 26 12.0492 112.149 67.231 12 2.010 12.9083 115.718 70.224 6 153 12.6764 123.177 70.487 7 52 15.019

2012 1 135.209 80.208 8 47 16.4732 125.777 79.049 8 860 19.708

97

Page 104: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

Tabelle A.12.: Angaben zum Geschlecht (relative Zahlen)

Jahr Quartal weiblich männlich nicht spezifiziert unbekannt NULL

2004 1 56,176% 37,857% 0,155% 0,797% 5,016%2 53,725% 39,278% 0,148% 1,074% 5,775%3 56,926% 37,448% 0,093% 0,901% 4,632%4 54,425% 37,947% 0,261% 1,114% 6,253%

2005 1 56,510% 38,097% 0,121% 0,656% 4,617%2 53,029% 41,101% 0,067% 0,996% 4,807%3 52,917% 41,496% 0,089% 0,787% 4,711%4 53,180% 39,352% 0,166% 0,942% 6,359%

2006 1 53,923% 40,214% 0,084% 0,822% 4,957%2 53,520% 41,028% 0,093% 1,113% 4,246%3 54,014% 40,101% 0,132% 0,832% 4,920%4 55,604% 36,957% 0,375% 0,822% 6,242%

2007 1 55,452% 37,957% 0,145% 0,679% 5,767%2 55,039% 38,761% 0,081% 0,306% 5,813%3 55,636% 35,223% 0,039% 0,233% 8,870%4 57,597% 36,034% 0,072% 0,162% 6,136%

2008 1 57,244% 35,743% 0,039% 0,076% 6,898%2 55,995% 35,890% 0,036% 0,093% 7,986%3 55,216% 37,161% 0,048% 0,052% 7,524%4 58,145% 35,081% 0,016% 0,102% 6,656%

2009 1 53,974% 35,649% 0,039% 0,110% 10,228%2 53,468% 36,733% 0,035% 0,100% 9,665%3 54,605% 37,163% 0,022% 0,071% 8,139%4 56,455% 36,859% 0,033% 0,072% 6,581%

2010 1 57,452% 36,604% 0,076% 0,059% 5,809%2 57,388% 36,528% 0,028% 0,044% 6,012%3 57,487% 35,287% 0,011% 0,021% 7,194%4 49,293% 30,822% 0,002% 0,006% 19,877%

2011 1 58,058% 35,273% 0,003% 0,014% 6,652%2 57,717% 34,600% 0,006% 1,034% 6,643%3 58,215% 35,328% 0,003% 0,077% 6,377%4 59,009% 33,768% 0,003% 0,025% 7,195%

2012 1 58,294% 34,581% 0,003% 0,020% 7,102%2 55,801% 35,070% 0,004% 0,382% 8,743%

Ermittelt wurden diese Zahlen auf Basis des Feldes gndr_cod aus der Tabelle demo.

98

Page 105: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.2. Demo

A.2.4. Gewichtsangaben

Zahlen zu Abschnitt 3.4.2.15 bzw. Abbildung 3.14:

Tabelle A.13.: Gewichtsangaben

Jahr Quartal Gramm Kilogramm Pfund keine Angabe Anteil keine Angabe

2004 1 0 14.452 8.170 43.353 65,711%2 0 12.297 8.161 39.764 66,029%3 2 16.313 8.703 50.433 66,842%4 0 14.683 8.874 47.195 66,705%

2005 1 2 16.413 7.778 51.987 68,242%2 2 17.635 9.817 53.160 65,944%3 14 17.979 8.323 54.998 67,637%4 0 19.053 9.014 60.451 68,292%

2006 1 5 25.519 8.826 55.177 61,632%2 0 22.615 9.514 47.468 59,635%3 1 15.739 8.706 47.278 65,917%4 2 16.558 6.698 59.971 72,055%

2007 1 1 20.979 10.037 57.815 65,084%2 3 22.188 6.459 55.327 65,884%3 0 23.051 5.910 67.074 69,843%4 1 26.107 5.250 78.534 71,465%

2008 1 1 28.883 5.836 69.692 66,747%2 0 29.576 7.395 70.532 65,609%3 2 29.568 6.905 71.978 66,368%4 0 29.233 5.949 85.842 70,930%

2009 1 3 27.701 5.655 78.079 70,065%2 0 31.448 6.333 74.700 66,411%3 1 36.536 5.974 87.561 67,317%4 3 34.073 4.886 98.746 71,707%

2010 1 1 33.288 5.376 97.526 71,610%2 1 40.024 5.466 98.961 68,508%3 5 67.490 4.794 137.018 65,463%4 1 40.425 5.214 137.927 75,137%

2011 1 0 46.266 5.219 129.655 71,577%2 0 49.700 4.853 139.757 71,925%3 0 51.711 2.936 144.130 72,508%4 1 48.083 2.969 157.689 75,543%

2012 1 2 58.404 4.327 169.212 72,954%2 1 55.238 4.207 165.956 73,627%

Ermittelt wurden diese Zahlen auf Basis des Feldes wt_cod aus der Tabelle demo.

99

Page 106: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.2.5. Beruf des Meldenden

Zahlen zu Abschnitt 3.4.2.17 bzw. Abbildung 3.16:

Tabelle A.14.: Beruf des Meldenden

Jahr Quartal Patient Anwalt Arzt Andere Apotheker NULL Anteil NULL

2004 1 12.945 552 20.053 10.708 4.535 17.182 26,043%2 10.194 729 20.585 9.400 4.500 14.814 24,599%3 16.597 2.100 22.441 10.668 4.617 19.028 25,219%4 14.984 1.869 21.611 9.964 5.024 17.300 24,452%

2005 1 15.462 4.222 21.983 8.621 4.432 21.460 28,170%2 12.412 3.562 26.450 10.335 4.610 23.245 28,835%3 17.359 6.210 24.887 9.673 5.163 18.022 22,163%4 20.109 11.005 23.915 10.039 5.592 17.858 20,174%

2006 1 20.639 10.260 27.264 10.115 4.982 16.267 18,170%2 16.927 7.206 27.144 10.194 4.688 13.438 16,883%3 21.157 1.476 20.811 10.317 4.861 13.102 18,267%4 27.771 1.679 24.147 10.949 4.740 13.943 16,753%

2007 1 28.183 3.052 25.749 11.489 5.201 15.158 17,064%2 22.321 4.669 26.254 12.275 4.808 13.650 16,254%3 35.712 3.389 24.985 12.990 4.692 14.267 14,856%4 45.977 2.276 28.574 13.401 5.134 14.530 13,222%

2008 1 35.331 1.829 31.359 15.263 5.758 14.872 14,244%2 36.003 2.483 29.590 16.753 6.656 16.018 14,900%3 33.509 1.898 31.757 17.733 6.043 17.513 16,148%4 43.612 1.933 32.283 18.006 6.387 18.803 15,537%

2009 1 32.723 2.285 33.296 19.666 6.345 17.123 15,365%2 31.618 3.443 33.113 20.544 6.541 17.222 15,311%3 38.606 3.628 34.053 22.577 6.343 24.865 19,116%4 46.181 5.066 39.674 23.919 7.237 15.631 11,351%

2010 1 40.829 4.995 38.407 27.065 6.870 18.025 13,235%2 46.670 5.554 38.297 28.791 7.009 18.131 12,552%3 84.692 8.648 43.795 41.306 7.900 22.966 10,972%4 68.440 6.266 54.707 31.508 9.145 13.501 7,355%

2011 1 74.577 9.257 46.662 32.284 8.498 9.862 5,444%2 76.005 13.720 49.362 36.570 9.439 9.214 4,742%3 80.682 14.145 50.298 36.775 8.633 8.244 4,147%4 86.117 6.700 59.181 37.402 9.461 9.881 4,734%

2012 1 103.348 7.437 62.122 41.228 10.043 7.767 3,349%2 95.340 8.855 61.160 41.902 11.302 6.843 3,036%

Ermittelt wurden diese Zahlen auf Basis des Feldes occp_cod aus der Tabelle demo.

100

Page 107: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.2. Demo

A.2.6. Todesdatum

Zahlen zu Abbildung 3.17:

Tabelle A.15.: Angaben zum Todesdatum

Jahr Quartal ohne Behandlungsausgang ohne Todesdatum Gesamt

2004 1 10 2.254 7.3052 7 2.580 8.4093 9 3.241 9.7644 16 3.668 9.495

2005 1 22 2.982 8.7902 22 2.770 8.3803 29 3.384 11.4034 32 5.186 11.915

2006 1 45 3.050 10.2912 33 2.876 9.4543 43 2.755 8.0354 70 3.557 9.690

2007 1 83 3.891 10.0672 109 2.954 9.1073 99 2.692 8.9684 148 2.932 9.482

2008 1 162 5.599 13.1532 162 3.925 12.4853 132 3.663 12.1694 185 4.372 12.857

2009 1 143 6.165 15.5142 128 5.249 15.0053 156 4.898 15.3444 221 5.645 18.692

2010 1 193 8.122 20.7822 214 4.802 17.133

Ermittelt wurden diese Zahlen auf Basis des Feldes death_dt aus der Tabelle demo und denEinträgen mit outc_cod = ’DE’ für death aus der Tabelle Outc.

101

Page 108: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.3. Drug

A.3.1. Rolle des Medikaments

Zahlen zu Abbildung 3.18:

Tabelle A.16.: Rolle des Medikaments

Jahr Quartal Begleitend Wechselwirkung Primär Sekundär

2004 1 139.805 139 65.975 29.9592 138.255 171 60.222 34.7283 157.512 215 75.451 40.3214 163.505 292 70.752 43.042

2005 1 155.151 314 76.180 47.6382 182.094 460 80.614 55.8373 177.145 479 81.314 48.2894 184.499 550 88.518 49.114

2006 1 195.156 521 89.527 51.3152 184.686 512 79.597 45.9713 157.997 533 71.724 41.8874 160.534 635 83.229 47.312

2007 1 181.775 1.073 88.832 51.5672 176.338 1.084 83.977 52.7743 179.197 1.170 96.035 51.6944 206.258 1.296 109.892 56.838

2008 1 194.614 1.207 104.412 69.6552 212.102 1.785 107.503 63.3753 222.849 1.648 108.453 66.5304 221.083 1.442 121.024 72.585

2009 1 214.589 1.689 111.438 83.8162 255.317 1.885 112.481 91.3283 311.230 1.823 130.072 93.6764 285.748 2.054 137.708 90.491

2010 1 282.236 2.052 136.191 106.1422 312.295 2.674 144.452 117.5203 449.595 3.567 209.307 132.2174 340.307 2.570 183.567 114.406

2011 1 370.652 2.640 181.140 132.5912 416.999 3.006 194.310 141.1673 405.989 3.098 198.777 146.0924 386.270 2.888 208.742 138.067

2012 1 464.711 3.127 231.945 162.4082 428.620 3.788 225.402 164.705

Ermittelt wurden diese Zahlen auf Basis des Feldes role_cod aus der Tabelle drug.

102

Page 109: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.3. Drug

A.3.2. Validierte und wortwörtliche Drugnames

Zahlen zu Abbildung 3.19:

Tabelle A.17.: Validierte und wortwörtliche Drugnames

absolut relativJahr Quartal 1 (Validated) 2 (Verbatim) 1 (Validated) 2 (Verbatim)

2004 1 170.763 65.115 72,395% 27,605%2 168.433 64.943 72,172% 27,828%3 203.664 69.835 74,466% 25,534%4 196.924 80.667 70,940% 29,060%

2005 1 203.485 75.798 72,860% 27,140%2 231.305 87.700 72,508% 27,492%3 225.008 82.219 73,238% 26,762%4 237.659 85.022 73,651% 26,349%

2006 1 246.223 90.296 73,168% 26,832%2 232.260 78.506 74,738% 25,262%3 205.033 67.108 75,341% 24,659%4 224.026 67.684 76,798% 23,202%

2007 1 248.944 74.303 77,014% 22,986%2 236.371 77.802 75,236% 24,764%3 253.996 74.100 77,415% 22,585%4 286.170 88.114 76,458% 23,542%

2008 1 276.793 93.095 74,832% 25,168%2 290.671 94.094 75,545% 24,455%3 304.967 94.513 76,341% 23,659%4 316.951 99.183 76,166% 23,834%

2009 1 296.697 114.835 72,096% 27,904%2 331.253 129.758 71,854% 28,146%3 393.664 143.137 73,335% 26,665%4 370.769 145.232 71,854% 28,146%

2010 1 378.241 148.380 71,824% 28,176%2 420.100 156.841 72,815% 27,185%3 600.936 193.750 75,619% 24,381%4 466.679 174.171 72,822% 27,178%

2011 1 497.437 189.586 72,405% 27,595%2 599.602 155.880 79,367% 20,633%3 631.028 122.928 83,696% 16,304%4 616.409 119.558 83,755% 16,245%

2012 1 723.524 138.667 83,917% 16,083%2 690.663 131.852 83,970% 16,030%

Ermittelt wurden diese Zahlen auf Basis des Feldes val_vbm aus der Tabelle drug.

103

Page 110: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.4. Outc

Zahlen zu Abbildung 3.21 (zur Bedeutung der Codes siehe Tabelle 3.2 in Abschnitt 3.4.5):

Tabelle A.18.: Behandlungsausgänge

Jahr Quartal CA DE DS HO LT OT RI

2004 1 302 7.295 2.774 21.771 3.903 18.316 3.3302 320 8.402 2.817 22.388 4.070 21.205 3.0983 356 9.755 2.946 23.585 3.999 22.870 3.4984 333 9.479 4.633 26.497 5.646 24.754 2.854

2005 1 458 8.768 3.998 26.160 5.015 30.553 2.5292 411 8.358 4.225 27.621 4.628 33.091 2.6503 391 11.374 4.386 29.529 4.314 31.844 2.1634 418 11.883 4.901 29.678 4.491 36.402 2.026

2006 1 501 10.246 6.474 36.547 4.501 36.674 1.8012 420 9.421 6.852 33.244 4.315 31.647 1.6983 497 7.992 2.675 26.295 4.067 28.383 1.9604 487 9.620 2.999 26.800 4.565 31.583 1.439

2007 1 552 9.984 3.338 28.886 4.456 37.142 2.4092 564 8.998 3.176 30.042 4.788 38.121 1.1753 849 8.869 3.993 31.802 4.778 37.235 1.7444 860 9.334 3.426 31.207 5.289 40.688 1.108

2008 1 1.912 12.991 3.159 32.041 5.379 40.281 1.5192 1.325 12.323 3.650 34.504 5.938 41.968 1.4313 1.382 12.037 3.801 35.979 5.838 41.429 2.6394 1.097 12.672 3.661 35.367 5.430 44.002 1.364

2009 1 1.159 15.371 3.569 36.336 5.890 46.053 1.4972 1.159 14.877 3.886 39.294 5.958 47.534 1.9413 1.043 15.188 4.216 41.084 5.855 48.583 2.2614 1.040 18.471 4.182 45.302 6.109 53.925 1.669

2010 1 1.014 20.589 3.969 43.206 6.110 51.046 1.5832 682 16.919 4.334 47.628 6.247 64.274 1.2233 1.278 19.146 5.031 54.857 6.590 76.201 2.1394 1.513 25.958 4.369 51.983 6.585 67.068 1.372

2011 1 1.279 25.455 5.272 56.146 6.737 71.351 1.3112 1.103 26.324 8.871 65.832 7.467 84.699 1.3093 1.207 23.715 9.060 63.190 7.497 85.805 1.4834 1.318 23.077 5.042 64.141 7.483 79.618 1.688

2012 1 1.899 29.138 6.076 68.951 8.044 87.609 1.2372 1.746 25.655 9.055 69.919 7.865 91.529 1.010

Ermittelt wurden diese Zahlen auf Basis der Tabelle outc.

104

Page 111: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A.5. Rpsr

A.5. Rpsr

Zahlen zu Abbildung 3.23 (zur Bedeutung der Codes siehe Tabelle 3.3 in Abschnitt 3.4.7):

Tabelle A.19.: Quellen von Behandlungen

Jahr Quartal CR CSM DT FGN HP LIT OTH SDY UF

2004 1 4.566 17.113 388 11.856 28.809 2.455 9.126 4.059 732 4.466 15.019 446 12.158 29.273 2.206 11.209 4.509 443 4.533 21.339 423 11.682 30.648 2.801 12.199 4.260 384 4.321 15.360 387 10.683 25.433 3.772 9.909 3.227 36

2005 1 4.062 16.607 169 11.406 22.263 2.594 9.171 3.072 552 5.268 19.753 187 12.274 25.867 2.129 11.437 4.944 1173 4.842 17.490 179 9.970 24.264 2.005 10.215 5.387 1194 4.804 17.329 162 10.857 23.803 3.795 9.120 4.537 141

2006 1 4.182 16.682 148 10.515 21.369 2.359 9.300 4.268 1192 3.994 17.743 173 11.115 21.760 2.637 9.204 4.654 1173 3.697 15.733 205 11.150 19.796 2.311 9.595 4.350 1794 3.444 13.111 236 10.507 19.782 2.920 7.834 4.280 291

2007 1 2.583 19.658 253 6.222 18.088 2.515 5.964 3.484 1412 3.303 14.134 255 5.377 15.126 1.934 6.716 3.206 603 2.274 13.412 188 5.617 15.050 2.123 5.554 3.346 1084 3.059 12.718 158 6.095 14.927 2.181 5.290 3.514 121

2008 1 1.479 10.662 191 6.065 15.168 3.542 6.347 3.735 452 1.613 10.182 155 6.087 13.607 2.122 5.703 3.863 513 2.250 10.223 126 5.911 14.874 2.029 5.816 2.340 874 1.770 8.798 127 5.925 12.234 2.386 4.591 1.868 58

2009 1 1.405 7.182 86 6.224 11.736 3.425 5.221 1.779 1292 1.563 4.966 85 6.618 10.586 2.349 5.711 1.965 563 2.052 5.186 137 6.522 11.454 1.839 6.777 1.745 504 2.273 5.801 157 7.186 12.949 2.001 6.969 2.086 79

2010 1 2.050 4.636 185 6.033 12.603 3.081 5.339 1.981 792 2.190 6.562 1.340 6.417 11.587 1.925 4.721 2.326 303 2.910 6.627 1.042 6.142 12.552 1.822 4.403 2.345 474 1.924 5.218 115 6.148 11.229 1.916 4.747 1.851 69

2011 1 1.449 5.646 443 5.576 11.559 2.574 5.119 1.866 952 1.612 6.232 56 5.985 11.340 2.726 6.230 1.504 333 2.190 9.637 502 6.174 11.749 3.138 6.614 1.241 824 2.660 6.113 70 5.868 13.455 2.269 3.466 1.185 54

2012 1 2.501 8.221 68 5.550 17.509 3.653 5.645 1.220 782 1.679 6.056 166 6.209 15.321 2.953 5.999 1.645 99

Ermittelt wurden diese Zahlen auf Basis der Tabelle rpsr.

105

Page 112: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

A. Anhang

A.6. Ther

A.6.1. Unvollständige Angaben zur Dauer derMedikamenteneinnahme

Tabelle A.20.: Unvollständige Angaben zur Dauer

Jahr Quartal Zahlen ohne Code (Anzahl) Code ohne Zahlen

2004 1 13461 292 11535 443 15147 194 273 120

2005 1 272 1322 273 2053 394 2454 454 161

2006 1 1078 3212 850 1833 82 1544 81 161

2007 1 103 2152 91 1913 114 1794 118 181

2008 1 94 2772 81 1893 50 1904 215 144

2009 1 38 972 82 833 47 894 13 93

2010 1 14 252 5 333 7 404 8 19

2011 1 10 182 5 133 6 334 8 12

2012 1 6 272 4 21

Ermittelt wurden diese Zahlen auf Basis der Felder dur und dur_cod aus der Tabelle ther.

106

Page 113: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

B. Inhalt der CD

Die beiliegende CD enthält diese Arbeit in digitaler Form, den Quellcode von OpenVigil 2.0,eine Installationsanleitung und alle zur Installation von OpenVigil 2.0 benötigten Dateien.

Tabelle B.1.: Inhalt der beiliegenden CD

Name Beschreibung

Datenqualität in Pharmakovigilanzdaten.pdf Diese Masterarbeit in digitaler Ausführungopenvigil OpenVigil 2.0�

sql Zur Installation benötigte SQL-Skripte�

1-create_users.sql Datenbankbenutzer anlegen�

2-create_database.sql Datenbank erstellen�

3-structure_and_data.sql Struktur erstellen und Initialdaten einfügen�

install.pdf Installationsanleitung�

openvigil.war OpenVigil 2.0 als Webanwendung�

openvigil.zip Quellcode

107

Page 114: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 115: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Literaturverzeichnis

[AB11] ANDERSON, NORA und JUERGEN BORLAK: Correlation versus Causation?Pharmacovigilance of the Analgesic Flupirtine Exemplifies the Need for RefinedSpontaneous ADR Reporting. PLoS ONE, 6(10):e25221, Oktober 2011.

[Arz13] ARZNEIMITTELKOMMISSION DER DEUTSCHEN ÄRZTESCHAFT: Drug SafetyMail 2013-22. http://www.akdae.de/Arzneimittelsicherheit/DSM/Archiv/2013-22.html, April 2013. zuletzt abgerufen am 09.06.2013.

[BHCH12] BÖHM, RUWEN, JAN HÖCKER, INGOLF CASCORBI und THOMAS HERDEGEN:OpenVigil - free eyeballs on AERS pharmacovigilance data. Nature Biotechnology,(2):137–138, 2012.

[Bod06] BODENDORF, F.: Daten- und Wissensmanagement. Springer, 2006.

[Bq07] BERTI-ÉQUILLE, LAURE: Measuring and Modelling Data Quality for Quality-Awareness in Data Mining. In: GUILLET, FABRICE und HOWARD J. HAMILTON

(Herausgeber): Quality Measures in Data Mining, Band 43 der Reihe Studies inComputational Intelligence, Seiten 101–126. Springer Berlin Heidelberg, 2007.

[BS06] BATINI, CARLO und MONICA SCANNAPIECO: Data Quality: Concepts, Methodo-logies and Techniques (Data-Centric Systems and Applications). Springer-VerlagNew York, Inc., Secaucus, NJ, USA, 2006.

[DN09] DRAISBACH, UWE und FELIX NAUMANN: A Comparison and Generalization ofBlocking and Windowing Algorithms for Duplicate Detection. In: Proceedings ofthe International Workshop on Quality in Databases (QDB), Lyon, France, 2009.

[Dru13a] DRUGBANK 3.0: Drospirenone. http://www.drugbank.ca/drugs/DB01395, Februar 2013. abgerufen am 03.09.2013.

[Dru13b] DRUGBANK 3.0: Statistics. http://www.drugbank.ca/stats, Februar2013. abgerufen am 13.09.2013.

[EIV07] ELMAGARMID, AHMED K., PANAGIOTIS G. IPEIROTIS und VASSILIOS S. VER-YKIOS: Duplicate Record Detection: A Survey. IEEE Transactions on Knowledgeand Data Engineering, 19(1):1–16, Januar 2007.

[ES00] ESTER, MARTIN und JÖRG SANDER: Knowledge Discovery in Databases: Tech-niken und Anwendungen. Springer Berlin Heidelberg, 1 Auflage, 2000.

109

Page 116: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Literaturverzeichnis

[Eva00] EVANS, STEPHEN J. W.: Pharmacovigilance: a science or fielding emergencies?Statistics in Medicine, 19(23):3199–3209, 2000.

[EZ13a] EGGELING, CHRISTIAN und SÖREN ZIEGER: Pflichtenheft zu OpenVigil 2.0.Januar 2013.

[EZ13b] EGGELING, CHRISTIAN und SÖREN ZIEGER: Projektbericht - Pharmakovigilan-zanalyse. März 2013.

[FG12] FAN, W. und F. GEERTS: Foundations of Data Quality Management. Synthesisdigital library of engineering and computer science. Morgan & Claypool, 2012.

[FLR94] FOX, CHRISTOPHER, ANANY LEVITIN und THOMAS REDMAN: The notion ofdata and its quality dimensions. Inf. Process. Manage., 30(1):9–19, Januar 1994.

[FPsS96] FAYYAD, USAMA, GREGORY PIATETSKY-SHAPIRO und PADHRAIC SMYTH:From Data Mining to Knowledge Discovery in Databases. AI Magazine, 17:37–54,1996.

[Gor11] GORUNESCU, F.: Data Mining: Concepts, Models and Techniques. IntelligentSystems Reference Library. Springer Berlin Heidelberg, 2011.

[HG08] HÄRMARK, L. und A.C. GROOTHEEST: Pharmacovigilance: methods, recentdevelopments and future perspectives. European Journal of Clinical Pharmacology,64(8):743–752, 2008.

[ISO92] International Standard ISO/IEC 9075, third edition. Genève, 1992.

[Kle03] KLEIN, HANS-JOACHIM: Null values in relational databases and sure informationanswers. In: Proceedings of the 2nd international conference on Semantics indatabases, Seiten 119–138, Berlin, Heidelberg, 2003. Springer-Verlag.

[Mai01] MAIO, G.: Zur Geschichte der Contergan-Katastrophe im Lichte der Arzneimit-telgesetzgebung. Deutsche Medizinische Wochenschrift, 126(42):1183–1186,Oktober 2001.

[MWP+97] MANN, R. D., L. V. WILTON, G. L. PEARCE, F. J. MACKAY und N. R. DUNN:Prescription-Event Monitoring (PEM) in 1996 - A Method of Non-InterventionalObservational Cohort Pharmacovigilance. Pharmacoepidemiology and DrugSafety, 6 Suppl. 3:5–11, 1997.

[NOBE07] NORÉN, G. NIKLAS, ROLAND ORRE, ANDREW BATE und I. RALPH EDWARDS:Duplicate detection in adverse drug reaction surveillance. Data Mining andKnowledge Discovery, 14(3):305–328, Juni 2007.

[PLW02] PIPINO, LEO L., YANG W. LEE und RICHARD Y. WANG: Data quality assess-ment. Communications of the ACM, 45(4):211–218, April 2002.

110

Page 117: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Literaturverzeichnis

[PRPP12] POLUZZI, ELISABETTA, EMANUEL RASCHI, CARLO PICCINNI und FABRI-ZIO DE PONTI: Data Mining Techniques in Pharmacovigilance: Analysis of thePublicly Accessible FDA Adverse Event Reporting System (AERS). Data MiningApplications in Engineering and Medicine, Seiten 265–302, August 2012.

[RD00] RAHM, ERHARD und HONG HAI DO: Data Cleaning: Problems and CurrentApproaches. IEEE Data Engineering Bulletin, 23:3–13, 2000.

[SB02] SARAWAGI, SUNITA und ANURADHA BHAMIDIPATY: Interactive deduplicationusing active learning. In: Proceedings of the eighth ACM SIGKDD internationalconference on Knowledge discovery and data mining, KDD ’02, Seiten 269–278,New York, NY, USA, 2002. ACM.

[SLW97] STRONG, DIANE M., YANG W. LEE und RICHARD Y. WANG: Data quality incontext. Communications of the ACM, 40(5):103–110, Mai 1997.

[SS09] SCHUMACHER, MARTIN und GABI SCHULGEN: Methodik klinischer Studien:Methodische Grundlagen der Planung, Durchführung und Auswertung. Statistikund ihre Anwendungen. Springer, 2009.

[Ste07] STELAND, A.: Basiswissen Statistik: Kompaktkurs für Anwender aus Wirtschaft,Informatik und Technik. Springer, 2007.

[STKO13] SAKAEDA, TOSHIYUKI, AKIKO TAMON, KAORI KADOYAMA und YASUSHI

OKUNO: Data mining of the public version of the FDA Adverse Event ReportingSystem. Int. J. Med. Sci., 10(7):796–803, 2013.

[The12a] THE U.S. FOOD AND DRUG ADMINISTRATION (FDA): Drugs@FDA Glossa-ry of Terms. http://www.fda.gov/drugs/informationondrugs/ucm079436.htm, Februar 2012. zuletzt abgerufen am 03.09.2013.

[The12b] THE U.S. FOOD AND DRUG ADMINISTRATION (FDA): FAERS Dome-stic and Foreign Reports by Year. http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm070441.htm, Juni 2012. zuletzt abgerufenam 13.08.2013.

[The12c] THE U.S. FOOD AND DRUG ADMINISTRATION (FDA): FDA Ad-verse Event Reporting System. http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/default.htm, Oktober 2012. zuletzt abgerufenam 09.08.2013.

[The12d] THE U.S. FOOD AND DRUG ADMINISTRATION (FDA): Reports Receivedand Reports Entered into FAERS by Year. http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm070434.htm, November 2012. zuletztabgerufen am 09.08.2013.

111

Page 118: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Literaturverzeichnis

[The13] THE U.S. FOOD AND DRUG ADMINISTRATION (FDA): FDA Adverse EventReporting System (FAERS): Latest Quarterly Data Files. http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm, Februar2013. zuletzt abgerufen am 09.08.2013.

[Tho10] THONEMANN, U.: Operations Management: Konzepte, Methoden und Anwen-dungen. Pearson Studium - Economic BWL. Pearson Studium, 2010.

[Uni11] UNITED STATES DEPARTEMENT OF JUSTICE: What is FOIA? http://www.foia.gov/about.html, Januar 2011. zuletzt abgerufen am 09.08.2013.

[U.S12a] U.S. FOOD AND DRUG ADMINISTRATION - CENTER FOR DRUGEVALUATION AND RESEARCH - OFFICE OF POST-MARKETINGDRUG RISK ASSESSMENT: “ASC_NTS.DOC“ File for Quarterly DataExtract from the ADVERSE EVENT REPORTING SYSTEM (AERS). QuarterlyData Extract from the ADVERSE EVENT REPORTING SYSTEM (AERS)for the third quarter of 2012, available at http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm, September 2012. zuletztabgerufen am 14.08.2013.

[U.S12b] U.S. FOOD AND DRUG ADMINISTRATION - CENTER FOR DRUGEVALUATION AND RESEARCH - OFFICE OF POST-MARKETINGDRUG RISK ASSESSMENT: “README.DOC“ File for Quarterly DataExtract from the ADVERSE EVENT REPORTING SYSTEM (AERS). QuarterlyData Extract from the ADVERSE EVENT REPORTING SYSTEM (AERS)for the third quarter of 2012, available at http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm, September 2012. zuletztabgerufen am 14.08.2013.

[U.S13a] U.S. FOOD AND DRUG ADMINISTRATION - CENTER FOR DRUGEVALUATION AND RESEARCH - OFFICE OF POST-MARKETINGDRUG RISK ASSESSMENT: “ASC_NTS.DOC“ File for the Quarterly DataExtract (QDE) from the FDA ADVERSE EVENT REPORTING SYSTEM (FAERS).Quarterly Data Extract from the ADVERSE EVENT REPORTING SYSTEM(AERS) for the fourth quarter of 2012, available at http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm, August2013. zuletzt abgerufen am 23.09.2013.

[U.S13b] U.S. FOOD AND DRUG ADMINISTRATION - CENTER FOR DRUGEVALUATION AND RESEARCH - OFFICE OF POST-MARKETINGDRUG RISK ASSESSMENT: Frequently Asked Questions (FAQs) for theFDA AERS (FAERS) Quarterly Data Extract (QDE) August 2013. Quarterly

112

Page 119: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Literaturverzeichnis

Data Extract from the ADVERSE EVENT REPORTING SYSTEM (AERS)for the fourth quarter of 2012, available at http://www.fda.gov/Drugs/GuidanceComplianceRegulatoryInformation/Surveillance/AdverseDrugEffects/ucm082193.htm, August 2013. zuletzt abgerufenam 23.09.2013.

[Vos08] VOSSEN, G.: Datenmodelle, Datenbanksprachen und Datenbankmanagementsys-teme. Oldenbourg Wissensch.Vlg, 2008.

[Wor07] WORLD HEALTH ORGANISATION: Guidance on INN. http://www.who.int/medicines/services/inn/innquidance/en/, Juni 2007. abge-rufen am 13.09.2013.

[Wor11] WORLD HEALTH ORGANISATION: Glossary of terms used in Pharmacovigilan-ce. http://who-umc.org/Graphics/24729.pdf, März 2011. zuletztabgerufen am 12.07.2013.

[WS96] WANG, RICHARD Y. und DIANE M. STRONG: Beyond accuracy: what dataquality means to data consumers. J. Manage. Inf. Syst., 12(4):5–33, März 1996.

[WW96] WAND, YAIR und RICHARD Y. WANG: Anchoring data quality dimensions inontological foundations. Communications of the ACM, 39(11):86–95, November1996.

113

Page 120: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 121: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Abbildungsverzeichnis

1.1. Data mining roots [Gor11] . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.2. Schritte des Knowledge Discovery [FPsS96] . . . . . . . . . . . . . . . . . . 9

2.1. Duplikate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152.2. Übersicht über Datenqualitäts-Dimensionen [Bq07] . . . . . . . . . . . . . . 19

3.1. In AERS aufgenommene Meldungen . . . . . . . . . . . . . . . . . . . . . . 243.2. Meldungen nach Quelle [The12d] . . . . . . . . . . . . . . . . . . . . . . . 253.3. Meldungen nach Art der Übermittlung . . . . . . . . . . . . . . . . . . . . . 253.4. Meldungen nach Herkunftsland . . . . . . . . . . . . . . . . . . . . . . . . . 263.5. FDA AERS - relationales Datenbankschema . . . . . . . . . . . . . . . . . . 283.6. Anzahl bereitgestellter Datensätze . . . . . . . . . . . . . . . . . . . . . . . 293.7. Anzahl bereitgestellter Datensätze je Meldung . . . . . . . . . . . . . . . . . 293.8. Anfangs- und Folgemeldungen . . . . . . . . . . . . . . . . . . . . . . . . . 313.9. Datum des unerwünschten Ereignisses . . . . . . . . . . . . . . . . . . . . . 323.10. Datum der Übermittlung an den Hersteller . . . . . . . . . . . . . . . . . . . 333.11. Datum der Übermittlung an die FDA . . . . . . . . . . . . . . . . . . . . . . 343.12. Altersangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363.13. Angaben zum Geschlecht . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373.14. Einheiten von Gewichtsangaben . . . . . . . . . . . . . . . . . . . . . . . . 383.15. Datum des Absendens einer Meldung . . . . . . . . . . . . . . . . . . . . . 393.16. Beruf des Meldenden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393.17. Angaben zum Todesdatum . . . . . . . . . . . . . . . . . . . . . . . . . . . 403.18. Rolle des Medikaments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423.19. Validierte und wortwörtliche Drugnames . . . . . . . . . . . . . . . . . . . . 443.20. Häufigkeiten Preferred Terms je eingenommenes Medikament . . . . . . . . 473.21. Behandlungsausgänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.22. Häufigkeiten Behandlungsausgänge je Meldung . . . . . . . . . . . . . . . . 493.23. Quellen von Meldungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503.24. Häufigkeiten Quellen je Meldung . . . . . . . . . . . . . . . . . . . . . . . . 513.25. Startdatum der Medikamenteneinnahme . . . . . . . . . . . . . . . . . . . . 523.26. Enddatum der Medikamenteneinnahme . . . . . . . . . . . . . . . . . . . . 53

4.1. OpenVigil 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 564.2. ER-Schema zu OpenVigil 2 [EZ13b] . . . . . . . . . . . . . . . . . . . . . . 594.3. Relationales Datenbankschema von OpenVigil 2 . . . . . . . . . . . . . . . . 604.4. Paketdiagramm zu OpenVigil 2 . . . . . . . . . . . . . . . . . . . . . . . . . 61

115

Page 122: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Abbildungsverzeichnis

4.5. Vorverarbeitung in OpenVigil 2 . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.1. OpenVigil 2.0 - Manuelle Zuordnung von Drugnames . . . . . . . . . . . . . 75

116

Page 123: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Tabellenverzeichnis

3.1. Angaben im Feld „drugname“ . . . . . . . . . . . . . . . . . . . . . . . . . 433.2. Codes zum Ausgang einer Behandlung [U.S12a] . . . . . . . . . . . . . . . 483.3. Codes zur Quelle einer Meldung [U.S12a] . . . . . . . . . . . . . . . . . . . 51

A.1. In AERS aufgenommene Meldungen . . . . . . . . . . . . . . . . . . . . . . 87A.2. Meldungen nach Quelle [The12d] . . . . . . . . . . . . . . . . . . . . . . . 88A.3. Meldungen nach Art der Übermittlung . . . . . . . . . . . . . . . . . . . . . 89A.4. Meldungen nach Herkunftsland (absolute Zahlen) . . . . . . . . . . . . . . . 90A.5. Meldungen nach Herkunftsland (relative Zahlen) . . . . . . . . . . . . . . . 91A.6. Anzahl bereitgestellter Datensätze . . . . . . . . . . . . . . . . . . . . . . . 92A.7. Anzahl bereitgestellter Datensätze je Meldung . . . . . . . . . . . . . . . . . 93A.8. Anfangs- und Folgemeldungen . . . . . . . . . . . . . . . . . . . . . . . . . 94A.9. Ungültige Altersangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95A.10.Altersangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96A.11.Angaben zum Geschlecht (absolute Zahlen) . . . . . . . . . . . . . . . . . . 97A.12.Angaben zum Geschlecht (relative Zahlen) . . . . . . . . . . . . . . . . . . . 98A.13.Gewichtsangaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99A.14.Beruf des Meldenden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100A.15.Angaben zum Todesdatum . . . . . . . . . . . . . . . . . . . . . . . . . . . 101A.16.Rolle des Medikaments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102A.17.Validierte und wortwörtliche Drugnames . . . . . . . . . . . . . . . . . . . . 103A.18.Behandlungsausgänge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104A.19.Quellen von Behandlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 105A.20.Unvollständige Angaben zur Dauer . . . . . . . . . . . . . . . . . . . . . . . 106

B.1. Inhalt der beiliegenden CD . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

117

Page 124: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 125: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Abkürzungsverzeichnis

AERS . . . . . . . . . . Adverse Event Reporting SystemBfArM . . . . . . . . . Bundesinstitut für Arzneimittel und MedizinprodukteDDD . . . . . . . . . . . Daily Defined DosisEMA . . . . . . . . . . . European Medicines AgencyEurdavigilance . . European Union Drug Regulating Authorities PharmacovigilanceFDA . . . . . . . . . . . Food and Drug AdministrationFOIA . . . . . . . . . . . Freedom of Information ActINN . . . . . . . . . . . . International Nonproprietary NameISR . . . . . . . . . . . . Individual safety reportMedDRA . . . . . . . Medical Dictionary for Regulatory ActivitiesMHRA . . . . . . . . . Medicines and Healthcare products Regulatory AgencyPEM . . . . . . . . . . . Prescription Event MonitoringSMQ . . . . . . . . . . . Standardised Medical QueryUAW . . . . . . . . . . . Unerwünschte ArzneimittelwirkungUMC . . . . . . . . . . . Uppsala Monitoring CentreUSAN . . . . . . . . . . United States Accepted NamesWHO . . . . . . . . . . Weltgesundheitsorganisation

119

Page 126: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling
Page 127: Masterarbeit - SourceForgeopenvigil.sourceforge.net/doc/Eggeling-2013-dataquality-in-pharmaco... · Masterarbeit Datenqualität in Pharmakovigilanzdaten Verfasser: Christian Eggeling

Selbstständigkeitserklärung

Hiermit versichere ich, die vorliegende Arbeit selbständig und ohne fremde Hilfe angefertigtzu haben. Die verwendete Literatur und sonstigen Hilfsmittel sind vollständig angegeben.

Kiel, den 30. September 2013

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Christian Eggeling

121