Beurteilung von Testverfahren Priv.-Doz. Dr. rer. nat. Ute Latza, MPH Leiterin der Betrieblichen Epidemiologie Ordinariat und Zentralinstitut für Arbeitsmedizin

Beurteilung von Testverfahren

Priv.-Doz. Dr. rer. nat. Ute Latza, MPH

Leiterin der Betrieblichen Epidemiologie

Ordinariat und Zentralinstitut für Arbeitsmedizin (ZfA)

30. November 2006, S18/HS

Zentrum für Psychosoziale MedizinUniversitätsprofessur für Arbeitsmedizin

Freie und Hansestadt HamburgBehörde f. Wissenschaft u. Gesundheit Amt f. Gesundheit u. Verbraucherschutz

Block IV, QB Epidemiologie/ Med. Biometrie/ Med. Informatik, Vorlesung Biometrie, 1. Trimester 2006/07, Universitätsklinikum Hamburg-Eppendorf

Diagnostische Tests

Validität Spezifität Sensitivität

Prädiktiver Wert

Reliabilität

Screening-Test

Prä-/Posttest-Wahrscheinlichkeit (Likelihood Ratio)

Was erwartet Sie hier?

Fragestellungen: Klinische Epidemiologie

Normalität

Güte diagnostische Testverfahren

Therapeutische Effektivität

Verlauf und Prognose von Krankheiten

Nebenwirkungen

Prävention in der klinischen Praxis (Screeningverfahren)

Diagnostische Testverfahren

Fragestellung: In wieweit kann ich als Arzt/Ärztin mit einem Testverfahren eine kurierbare Läsionen feststellen und keine Patienten fälschlicherweise als positiv diagnostizieren?

Zur Beurteilung eines Tests benötigt man einen sogenannten Goldstandard (= externe Informationsquelle über den wahren Gesundheitszustand eines Individuums)

Problem: Fehlende Standards für einige Erkrankungen

Zur Beurteilung werden Studien durchgeführt

Wie genau konnte der Test die Gesunden als nicht erkrankt erkennen? 800 / 900 89 %

Hypothetisches Beispiel für dichotome Ergebnisse: Wie gut war der Test?

Ergebnis Test negativ Test positiv Gesamt

Gesund 800 100 900

Krank 20 80 100

Summe 820 180 1000

Wie genau konnten die Erkrankten korrekt als krank identifiziert werden? 80 / 100 = 0,8 80 %

In einer Hühnerzucht mit 1000 Hühnern sind 100 Hühner mit der Vogelgrippe infiziert. Wir wollen herausbekommen, welches Huhn erkrankt und welches gesund ist. Dafür steht uns ein neuer ELISA-Test zur Verfügung. Die Ergebnisse sind wie folgt:

Diagnostischer Test: Validität bei dichotomen Ergebnissen

Test negativ Test positiv Gesamt

Gesund a

korrekt negativ

b

falsch positiv

a + b

Krank c

falsch negativ

d

korrekt positiv

c + d

Summe a + c b + d

Diagnostischer Test: Validität

Fragestellung: Liegt eine Krankheit vor oder nicht?

Tests sind oft Laboruntersuchungen

Validität (Güte) eines Tests Wird bestimmt durch die richtige Zuordnung eines

Person im Hinblick auf die Krankheit (Sensitivität und die Spezifität)

Sensitivität (Empfindlichkeit) gibt an, in wieweit Kranke korrekt als positiv erkannt werden: d / (c + d)

Spezifität gibt an, in wieweit Gesunde korrekt als negativ erkannt werden: a / (a + b)

Test bei kontinuierlichen Variablen:Beispiel Diabetes-Test I

Diabetiker Nicht-Diabetiker

☺

☺

☺

☺☺☺☺

☺ ☺

☺

☻

☻

☻

☻☻

☻

☻☻

☻☻

☻

☻

☻

☻

☻☻

☻☻

☻

☻

☺

☺☺

☺

☺

☺

☺

☺☺

☺Diabetiker Nicht-Diabetiker

20 20Sensitivität: 5 / 20 25 %Spezifität: 18 /20 90 %

5 2

15 18

+-

In Anlehnung an Gordis 2001

hoch

Blut-zucker

niedrig

Test bei kontinuierlichen Variablen: Beispiel Diabetes-Test II

Diabetiker Nicht-Diabetiker

☺

☺

☺

☺☺☺☺

☺ ☺

☺

☻

☻

☻

☻☻

☻

☻☻

☻☻

☻

☻

☻

☻

☻☻

☻☻

☻

☻

☺

☺☺

☺

☺

☺

☺

☺☺

☺Diabetiker Nicht-Diabetiker

20 20Sensitivität: 17 / 20 85 %Spezifität: 6 / 20 30 %

17 14

3 6

+-


hoch

Blut-zucker

niedrig

Beispiel Diabetes-Test: Realität

☺

☺

☺

☺

☺

☺

☺☺

☺

☺

☻

☻

☻

☻

☻

☻

☻

☻☻

☻

☻

☻

☻

☻

☻☻

☻

☻

☻

☻☺

☺☺

☺

☺

☺

☺

☺

☺ ☺

Keine vertikale Trennlinie zwischen den Gruppen Diabetiker und Nicht-Diabetiker

Wenn Grenzwert zu hoch: Personen mit darunter gelegenen Blutzuckerwerten werden beruhigt nach Hause geschickt ohne weitere Untersuchungen

Wenn Grenzwert zu niedrig: Viele Folgeuntersuchungen


hoch

Blut-zucker

niedrig

Verteilung von Blutzucker-Konzentrationen bei Diabetikern und Nicht-Diabetikern

Aus Gordis 2001 (From Blumberg. Evaluationg health screening procedures. Operations Res 1957;5:351-60

Idealer Test

Sensitiv und spezifisch

Einfach und kostengünstig

Sicher und akzeptabel

Zuverlässig

Verwendung mehrerer Tests: Sequentielle Testung

Zuerst weniger teurer, weniger invasiver und leicht anwendbarer Test:

Sensitivität: 350 / 500 70 %

Spezifität: 7600 / 9500 80 %

Bei positiven Ergebnissen: Aufwändiger, invasiver Test mit höherer Sensitivität und Spezifität:

Sensitivität: 315 / 350 90 %

Spezifität: 1710 / 1900 90 %

Tester-gebnis

Diabetes Kein Diabetes

Gesamt

+ 350 1900 2250

- 150 7600 7750

Summe 500 9500 10000

Tester-gebnis

Diabetes Kein Diabetes

Gesamt

+ 315 190 505

- 35 1710 1745

Summe 350 1900 2250

Netto-Sensitivität: 315 / 500 63 % Netto Spezifität: (7600 + 1710) / 9500 98 % In Anlehnung an Gordis 2001

Sensitivität und Spezifität

Sensitivität und Spezifität sind abhängig vom verwendeten Testverfahren und des gesetzten Grenzwerts

Wichtig: Sensitivität und Spezifität hängen zusammen Wenn die Sensitivität verbessert wird, verschlechtert

sich die Spezifität ROC (receiver operator characteristic curve): graphische

Darstellung der Güte eines Tests, zur Bestimmung eines geeigneten Grenzwertes eingesetzt

Ausweg: Besseres Testverfahren (falls vorhanden)

Wie hoch ist die Wahrscheinlichkeit eines Huhnes nicht erkrankt zu sein, wenn das Ergebnis negativ ist? 800 / 820 98 %

Hypothetisches Beispiel für dichotome Ergebnisse II

Ergebnis Test negativ Test positiv Gesamt

Gesund 800 100 900

Krank 20 80 100

Summe 820 180 1000

Welcher Anteil der Hühner mit positivem Testergebnis ist wirklich erkrankt? 80 / 180 44 %

Weiteres Kriterium: Prädiktiver Wert

Test negativ Test positiv Gesamt

Gesund a

korrekt negativ

b

falsch positiv

a + b

Krank c

falsch negativ

d

korrekt positiv

c + d

Summe a + c b + d

Prädiktive Werte

Positiver prädiktiver Wert (Vorhersagewert): Welcher Anteil der Personen mit einem positiven

Testergebnis ist wirklich krank? Zahl der richtig Positiven dividiert durch Zahl der echt und

falsch Positiven: d / (b + d)

Negativer prädiktiver Wert Wie hoch ist die Wahrscheinlichkeit einer Person nicht

erkrankt zu sein, wenn das Testergebnis negativ ist? Zahl der richtig Negativen dividiert durch Zahl der echt und

falsch Negativen: a / (a + c)

Wichtig: Der positive und der negative prädiktive Wert hängen von der Spezifität und der Sensitivität des Test und von der Häufigkeit der Erkrankung ab

Beziehung zwischen positivem prädiktivem Wert und Krankheitsprävalenz

Tester-gebnis

Krank Gesund Gesamt

+ 99 495 594

- 1 9405 9406

Summe 100 9900 10000

Tester-gebnis

Krank Gesund Gesamt

+ 495 475 970

- 5 9025 9303

Summe 500 9500 10000

Beispiel: Sensitivität 99 %, Spezifität 95 %

Krankheitsprävalenz 1 %: Prädiktiver Wert: 99 / 594 17 %

Krankheitsprävalenz 5 %: Prädiktiver Wert: 495 / 970 51 %


Beziehung zwischen prädiktivem Wert und Krankheitsprävalenz

Je höher die Prävalenz, desto höher der positive prädiktive Wert

Deshalb Screening am aussichtsreichsten in Hoch-risikogruppe

Reihenuntersuchung in Bevölkerung im Hinblick auf seltene Erkrankung: Finanziell und ethisch nicht vertretbar

In Anlehnung an Gordis 2001 (From Mausner J.S., Kramer S. (1985): Epidemiology. An Introductory Text)

Beziehung zwischen positivem prädiktivem Wert und Spezifität

Spezifität 70 %: Prädiktiver Wert: 1000 / 3700 27 %

Spezifität 95 %: Prädiktiver Wert: 1000 / 1450 69 %

Fazit hier: Je höher die Spezifität, desto

höher der prädiktive Wert Spezifität hat größeren

Einfluss auf prädiktiven Wert als Sensitivität (Grund: seltene Erkrankung, d.h. viele Gesunde)

Tester-gebnis

Krank Gesund Gesamt

+ 1000 2700 3700

- 0 6300 6300

Summe 1000 9000 10000

Tester-gebnis

Krank Gesund Gesamt

+ 1000 450 1450

- 0 8550 8550

Summe 1000 9000 10000

Beispiel: Prävalenz 10 %, Sensitivität 100 %


Reliabilität eines Tests

Ist der Test reliabel (zuverlässig) und wiederholbar?

Abweichungen durch Variabilität bei einer Testperson (intraindividuelle

Variabilität) Variabilität zwischen den Untersuchern (Untersucher-

Variabilität)

Beziehung zwischen Validität und Reliabilität

Reliable, nicht valide Testergebnisse

Valide, nicht reliable Testergebnisse

Valide, reliable Testergebnisse


Screening Test

Screening Tests unterscheiden zwischen gesunden und möglicherweise erkrankten Menschen

In der Regel keine Diagnose, sondern Nachuntersuchungen erforderlich

Anforderungen an Screeningtest prinzipiell wie an diagnostischen Test (z.B. funktionstüchtiges Testverfahren)

Höhere Anforderungen betr. Sicherheit eines Screeningtests (Beispiel Koloskopie:

Problem der Darmperforation wiegt schwerer bei Gesunden als bei möglicherweise Erkrankten)

Kosten Akzeptanz der Betroffenen

Psychologische Folgen müssen bedacht werden

Screening-Programm:Voraussetzungen

Schwere Krankheit, z.B. Zervixkarzinom

Hohe Prävalenz des vorklinischen Stadiums

Bekannter Krankheitsverlauf (Problem: z.B. Prostata-karzinom)

Lange Vorlaufzeit (Lead Time: Zeitraum zwischen Diagnose der Krankheit durch Screening und Zeitpunkt der Diagnose durch erste Symptome; Problem)

Effektive, akzeptable und sichere Behandlung muss möglich sein (Problem z.B. Prostatakarzinom)

Beispiel Evaluation: Verbessert das Prostatakarzinom-screening die Überlebenszeit?

Likelihood Ratios

Baysianischer Ansatz zur Beurteilung der Güte eines diagnostischen Tests

Frage: Wissen wir nach dem Test mehr als vor dem Test?

Bei einem dichotomen Testergebnis gibt es zwei Likelihood Ratios

Berechnung: Ratio der Posttest Odds (Posttestwahrscheinlichkeit für

das Vorliegen einer Erkrankung) und Prätest Odds (Prätestwahrscheinlichkeit für das Vorliegen einer Erkrankung)

Alternative: LRpositiv = Sensitivität / (1 - Spezifität) LRnegativ = (1 - Sensitivität) / Spezifität

Zusammenfassung:Beurteilung von diagnostischen

bzw. Screening Tests

Die Güte (Validität) wird bestimmt durch Sensitivität (Anteil der Erkrankten, die im Test positiv sind) Spezifität (Anteil der Gesunden, die im Test negativ sind)

Wenn in einem Testverfahren die Spezifität gesteigert wird, verschlechtert sich die Sensitivität und umgekehrt

Weiteres Beurteilungskriterium: Prädiktive Werte Positiver: Anteil mit positivem Testergebnis, die krank Negativer: Anteil mit negativem Testergebnis, die gesund Abhängig von Inzidenz/Prävalenz, Sensitivität & Spezifität

Screening-Test: Besondere Voraussetzungen

Hinweise:Transfer und Literatur

Transfer Q1 Prävention, Gesundheitsförderung: Themenbereich 4

Medizinische Biometrie und Epidemiologie Alle klinischen Fächer (in denen Screening und/oder Diagnose eine

Rolle spielen) z.B. Gynäkologie (Schwanger-schaftstest), Kinderheilkunde (Screening-Tests), Anästhesiologie (Blutgruppentest), …

Theoretische Fächer z.B. Ethik in der Medizin (genetische Tests)

Literatur Skriptum und Glossar Medizinische Biometrie, UKE. 4.6 Sensitivität

und Spezifität (4.5. Bedingte Wahrscheinlichkeit, Bayessche Formel) Gordis (2001). Epidemiologie. Kap. 4: Einschätzung der Validität

und Reliabilität von diagnostischen Screening-Tests

Weitere Fragen: [email protected]

Documents

Beurteilung von Testverfahren Priv.-Doz. Dr. rer. nat. Ute Latza, MPH Leiterin der Betrieblichen Epidemiologie Ordinariat und Zentralinstitut für Arbeitsmedizin