43
Datenqualität bei Primärdatenerhebungen – Konzept und Implementation Workshop Datenqualität TMF, 03.05.2018 Carsten Oliver Schmidt Universitätsmedizin Greifswald ICM-SHIP-KEF Funktionsbereich Qualität in der Gesundheitsforschung

Datenqualität bei Primärdatenerhebungen Konzept und

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Datenqualität bei Primärdatenerhebungen Konzept und

Datenqualität bei Primärdatenerhebungen – Konzept und Implementation Workshop Datenqualität TMF, 03.05.2018

Carsten Oliver Schmidt

Universitätsmedizin Greifswald

ICM-SHIP-KEF

Funktionsbereich Qualität in der Gesundheitsforschung

Page 2: Datenqualität bei Primärdatenerhebungen Konzept und

1. Anwendungsszenario und Datenqualität

2. Anwendungsbeispiel Study of Health in Pomerania

3. Konzept zur Bewertung von Datenqualität

4. Vom Konzept zur Statistik

5. Implementation in einer Kohortenstudie

2

Inhalte

Page 3: Datenqualität bei Primärdatenerhebungen Konzept und

1. Anwendungsszenario und Datenqualität

2. Anwendungsbeispiel Study of Health in Pomerania

3. Konzept zur Bewertung von Datenqualität

4. Vom Konzept zur Statistik

5. Implementation in einer Kohortenstudie

3

Inhalte des Vortrags

Page 4: Datenqualität bei Primärdatenerhebungen Konzept und

Anwendungsszenarien für Datenqualitätsbewertungen

Röhrig et al. 2009 Dt. Ärzteblatt

• Designed data • Administrative data • Opportunity data

Page 5: Datenqualität bei Primärdatenerhebungen Konzept und

1. Anwendungsszenario und Datenqualität

2. Anwendungsbeispiel Study of Health in Pomerania

3. Konzept zur Bewertung von Datenqualität

4. Vom Konzept zur Statistik

5. Implementation in einer Kohortenstudie

5

Inhalte

Page 6: Datenqualität bei Primärdatenerhebungen Konzept und

cosHGW11

• Prävalenz bevölkerungsrelevanter Erkrankungen und Risikofaktoren

• Zusammenhänge zwischen Risikofaktoren, (sub-) klinischen Auffälligkeiten und Folgen analysieren

Erwachsene

20-79 Jahre

Page 7: Datenqualität bei Primärdatenerhebungen Konzept und

1997-2001

SHIP-0

Baseline

SHIP-1

5y Follow-up

SHIP-2

10y Follow-up

SHIP-3

15y Follow- up

2002-2006 2008-2012

SHIP-TREND-0

Baseline

SHIP-TREND-1

5y Follow-up

2014-2019

n= 2333 n= 3300 n= 4308

n= 4422

Wiederholte Messungen in SHIP

n= 1718

Page 8: Datenqualität bei Primärdatenerhebungen Konzept und

Völzke et al.; Int J Epidemiol 2011

Page 9: Datenqualität bei Primärdatenerhebungen Konzept und

Elemente des Qualitätsmanagements

Schmidt QS in Kohortenstudien – TMF Leitlinie Datenqualität 2014

Page 10: Datenqualität bei Primärdatenerhebungen Konzept und

1. Anwendungsszenario und Datenqualität

2. Anwendungsbeispiel Study of Health in Pomerania

3. Konzept zur Bewertung von Datenqualität

4. Vom Konzept zur Statistik

5. Implementation in einer Kohortenstudie

10

Inhalte

Page 11: Datenqualität bei Primärdatenerhebungen Konzept und

Standards und Werkzeuge zur Beurteilung der Datenqualitat in komplexen epidemiologischen Studien

Schmidt, Carsten Oliver; Prof. Dr. Dr. Bamberg, Fabian; Prof. Dr. Berger, Klaus; Prof. Dr. Hoffmann, Wolfgang; Prof. Dr. Jöckel, Karl-Heinz; Prof. Dr. Kurth, Bärbel-Maria; Prof. Dr. Löffler, Markus; Prof. Dr. Meisinger, Christa; Prof. Dr. Pigeot, Iris; Prof. Dr. Stausberg, Jürgen; Prof. Dr.

Page 12: Datenqualität bei Primärdatenerhebungen Konzept und

Qualitätsindikator: Integrität ID neu

Werteverteilung TMF-1006 Bevorzugung bestimmter Endziffern TMF-1007

Werteverteilung der durch Untersucher erfassten Parameter TMF-1009 Werteverteilung der durch Geräte erfassten Parameter TMF-1010

Werteverteilung von Befunden TMF-1011 Werteverteilung von Parametern zwischen Zentren TMF-1052

Fehlende Einträge Fehlende Module TMF-1012

Fehlende Werte bei Datenelementen TMF-1013 Fehlende Werte bei mandatorischen Datenelementen TMF-1014

Fehlende Werte bei optionalen Datenelementen TMF-1015 Datenelemente mit Wert unbekannt o. ä. TMF-1016

Ausreißer bei stetigen Datenelementen TMF-1018 Werte, die die Messbarkeitsgrenzen von Verfahren unter- oder überschreiten TMF-1019 Unerlaubte Werte

Unerlaubte Werte bei qualitativen Datenelementen1 TMF-1021 Unerlaubte Werte bei qualitativen Datenelementen zur Kodierung von Missings TMF-1022

Unerlaubte Werte bei quantitativen Datenelementen TMF-1024

Kennziffern zur Qualität – TMF Leitlinie, Auszug

Page 13: Datenqualität bei Primärdatenerhebungen Konzept und

13

Berücksichtigung inhaltliche Bereiche aus TMF Leitlinie

Sichere Widersprüche Werteverteilungen nach Untersucher/Gerät Ausreißer

Übereinstimmung mit Vorwert Fehlende Werte bei Datenelementen Nachweis bekannter Korrelationen Rekrutierungsrate

Widerspruchsfreiheit Fehlende Werte bei mandatorischen Datenelementen Übereinstimmung mit Verfahrensregeln Repräsentativität

Untersuchungen am Wochenende Umfang der Metadaten bei Untersuchungen Aktualität der Daten Genauigkeit der Registerdaten Beobachtungseinheiten mit unbekanntem Primärtumor Solitäre Meldungen von Pathologen Zurückgewiesene Meldungen

11,8

25,5

21,6

31,3

9,8

0 10 20 30 40

0

1−3

4−5

6−7

8−9

Anteil der Indikatoren

Pro

jek

tpa

rtn

er

Page 14: Datenqualität bei Primärdatenerhebungen Konzept und

Bewertung TMF Leitlinie 2.0 – Ausgewählte Kommentare

14

• Viele relevante inhaltliche Bereiche werden getroffen

• Abstraktionsniveau der Indikatoren sehr heterogen

• Definitionen aus Ausführungen teilweise unklar

• Registerbezug sehr eng

• Eignung vorgeschlagener Berechnungen („Raten“) teilweise fraglich

• Interpretation der Ebenen Integrität, Organisation und Richtigkeit bei Primärdatenerhebung unklar

• Relevanz der Indikatoren nicht benannt

Page 15: Datenqualität bei Primärdatenerhebungen Konzept und

Anforderungen

• Indikatoren mit vergleichbarer Komplexität

• Möglichst wenig Überlappung zwischen Indikatoren

• Hierarchische Strukturierung

– Um verschiedene Komplexitäten abzubilden

• Bestehende TMF Indikatoren sollen gemappt werden

• Definition zur vereinfachung der Anwendbarkeit

15

Revision der Indikatoren im Kontext Primärdatenerhebungen

Page 16: Datenqualität bei Primärdatenerhebungen Konzept und

16

Heterogenes Abstraktionsniveau bestehender Indikatoren

Page 17: Datenqualität bei Primärdatenerhebungen Konzept und

17

Konzeptüberlegung End Digit Preference

Page 18: Datenqualität bei Primärdatenerhebungen Konzept und

18

Heterogenes Abstraktionsniveau bestehender Indikatoren

Page 19: Datenqualität bei Primärdatenerhebungen Konzept und

19

Hierarchical Concept

Group level

Indicator domain

Indicator Unexpected probability distribution

Subtype End-digit-preference

Page 20: Datenqualität bei Primärdatenerhebungen Konzept und

20

Hierarchical Concept

Group level

Indicator domain

Unexpected value distributions

Indicator Unexpected probability distribution

Subtype End-digit-preference

Page 21: Datenqualität bei Primärdatenerhebungen Konzept und

21

Begriffe zur Beschreibung von Datenqualität

Completeness Accessibility Trueness

Data completeness Timeliness Correctness

Model completeness Currency Accuracy

Data volume Volatility Validity

Uniqueness Availability Reliability

Appropr. Amount of data Granularity Reputation

Comprehensiveness Resolution Objectivity

Naturalness Consistency Plausibility Rate of enrollment Concordance Precision

Utility Conformance Agreement

Contextualization Integrity Verifiability Usefulness Conciseness Comparability Relevance Spatial stability Standardization

Appropriateness Predictive value Generalizability Informativeness Coherence Redundancy Maintainability Traceability Believability Responsiveness Interpretability Credibility

Usability Complexity Flexibility Security Cohesiveness Portability

Page 22: Datenqualität bei Primärdatenerhebungen Konzept und

22

Hierarchical Concept

Group level …provides an ontological framework.

Indicator domain

…provides a descriptive classification of methods to approach data issues.

Indicator …is the level at which data quality indicators are defined.

Subtype …classifies different application scenarios of an indicator which do not merit the definition of own indicators.

Page 23: Datenqualität bei Primärdatenerhebungen Konzept und

23

Primäre Gruppen von Qualitätsindikatoren

Completeness The degree to which data values are present in a data collection.

Accuracy The closeness of agreement between data values and the reference values.

Consistency The degree to which data values are free of contradictions or convention breaks.

....

Page 24: Datenqualität bei Primärdatenerhebungen Konzept und

24

Indicators– Group „Completeness“

Unit Missingness The degree to which measurements from an entire data collection are missing.

Segment missingness The degree to which measurements from an entire segment (e.g. examinations or case report) of a data collection are missing.

Item missingness The degree to which measurements are partially missing in segments of a data collection.

Page 25: Datenqualität bei Primärdatenerhebungen Konzept und

25

Heterogenes Abstraktionsniveau bestehender Indikatoren

Page 26: Datenqualität bei Primärdatenerhebungen Konzept und

1. Anwendungsszenario und Datenqualität

2. Anwendungsbeispiel Study of Health in Pomerania

3. Konzept zur Bewertung von Datenqualität

4. Vom Konzept zur Statistik

5. Implementation in einer Kohortenstudie

26

Inhalte des Vortrags

Page 27: Datenqualität bei Primärdatenerhebungen Konzept und

27

Übersetzung in Statistiken / Metriken

Completeness Boolean, absolute, relative Häufigkeiten

Consistency Boolean, absolute, relative Häufigkeiten

Accuracy Vielfältige Metriken

ICC, Korrelationen

(Nicht-) parametrische Regressionen

Sensitivität, Spezifität, NPW, PPW

Stat. Tests

Page 28: Datenqualität bei Primärdatenerhebungen Konzept und

28

Übersetzung in Statistiken / Metriken

Completeness Boolean, absolute, relative Häufigkeiten

Consistency Boolean, absolute, relative Häufigkeiten

Accuracy Vielfältige Metriken

ICC, Korrelationen

(Nicht-) parametrische Regressionen

Sensitivität, Spezifität, NPW, PPW

Stat. Tests

Prüffokus: Data values

Prüffokus: Verteilungen, Assoziationen

Met

adat

a

Page 29: Datenqualität bei Primärdatenerhebungen Konzept und

29

Konzeptüberlegung End Digit Preference

Page 30: Datenqualität bei Primärdatenerhebungen Konzept und

Description Application examples

Auxiliary variables related to study design and implementation

Observer, Device

Identifier of the examiner, reader, etc. Observer/Device-Effects

Auxiliary variables related to the environmental measurement conditions Date-time stamps Date and time stamps related to a visit or

examination, pre-analytic processing time

Compliance with procedural rules Time trends

Environmental conditions

e.g. temperature, humidity, luminance Compliance with procedural rules

Metadata attributes related to completeness

Missing codes List of reasons for missing measurements Item missingness

Jump codes

Conditionally missing measurements To compute item missingness

Metadata attributes related to data consistency / precision

Value list Variables with predefined categories Inadmissible measurements

Validity limits Upper and/or lower validity limits Inadmissible measurements

Distribution

Expected prob. distribution Unexpected prob. distribution

Metadata attributes related to selection of quality statistics

Data type

e.g. categorical, count, continuous, string to select appropriate statistics

Metadata attributes related to interpretation /standardized reporting Measurement unit

Continuous variables, e.g. mg/l Implausible measurements

Anwendungen Metadaten in SHIP

Richter et al. submitted, Auszug

Page 31: Datenqualität bei Primärdatenerhebungen Konzept und

1. Anwendungsszenario und Datenqualität

2. Anwendungsbeispiel Study of Health in Pomerania

3. Konzept zur Bewertung von Datenqualität

4. Vom Konzept zur Statistik

5. Implementation in einer Kohortenstudie

31

Inhalte

Page 32: Datenqualität bei Primärdatenerhebungen Konzept und
Page 33: Datenqualität bei Primärdatenerhebungen Konzept und

33

Framework: Initiale Datenanalyse

Huebner, Cessie, Schmidt, Vach et al. 2018 Obs. Studies

Page 34: Datenqualität bei Primärdatenerhebungen Konzept und

34

Framework: Initiale Datenanalyse

Huebner, Cessie, Schmidt, Vach et al. 2018 Obs. Studies

Page 35: Datenqualität bei Primärdatenerhebungen Konzept und

35

Framework: Initiale Datenanalyse

Werner et al. 2016 KSFE

Page 36: Datenqualität bei Primärdatenerhebungen Konzept und

Modul – CHECKLIST / Prüffallkorrektur

• Schritt 2: Durchführung der Datenkorrektur

„Zero Tolerance“ für Auffälligkeiten, z.B. bei Consistency

Page 37: Datenqualität bei Primärdatenerhebungen Konzept und

37

Framework: Initiale Datenanalyse

Huebner, Cessie, Schmidt, Vach et al. 2018 Obs. Studies

Page 38: Datenqualität bei Primärdatenerhebungen Konzept und

Schmidt et al. 2017 IOS press

Page 39: Datenqualität bei Primärdatenerhebungen Konzept und
Page 40: Datenqualität bei Primärdatenerhebungen Konzept und

1. Datenqualitätsanalyse muss Anwendungskontext berücksichtigen

2. Einheitliche Konzepte zur Datenqualitätsanalyse erforderlich

3. Umfassendes Metadatenmanagement zur Implementation automatisierter Datenqualitätschecks essentiell

4. Metadatenstandards für Datenqualitätschecks erforderlich

5. Umsetzung und Folgen aus Datenqualitätschecks auf den Ebenen Completeness, Consistency, Accuray sehr unterschiedlich

6. Umfassende infrastrukturelle Anforderungen zur Umsetzung automatisierter Datenqualitätschecks erforderlich

7. Standards für Routinen und Tools wichtig für Datenqualitätsanalyse

40

Fazit

Page 41: Datenqualität bei Primärdatenerhebungen Konzept und

http://www.medizin.uni-greifswald.de/icm/

[email protected]

Page 42: Datenqualität bei Primärdatenerhebungen Konzept und

Anwendungen Metadaten

Richter et al. submitted, Auszug

Page 43: Datenqualität bei Primärdatenerhebungen Konzept und