Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
Lösungen
Basis-Kurs Statistik und SPSS für Mediziner
SPSS-Übung – Korrelation,
Regression und diagnostische Tests
Mit Datensatz „Daten_SPSS_Kurs_I.sav“
Korrelation Basis-Kurs Statistik und SPSS für Mediziner 2
1) Korrelation:
Schätzen und interpretieren Sie die Korrelation der folgenden Größen mit dem systolischen
Blutdruck nach einem Monat sowie der Änderung des systolischen Blutdrucks im
Studienverlauf.
• Blutdruck zu Beginn der Studie
• Cholesterin zu Beginn der Studie
• Alter
• Körpergröße
Analysieren Korrelation Bivariat
Berechnung der Blutdruckreduktion vom Studienbeginn zum Ende der Therapie:
Transformieren Variable berechnen
Korrelation Basis-Kurs Statistik und SPSS für Mediziner 3
Hier können die
interessierenden
Variablen, deren
Korrelationen geschätzt
werden sollen,
angegeben werden.
Zur Schätzung von
Korrelationskoeffizienten
sollten nur quantitative
Merkmale herangezogen
werden.
Hier kann die Art des zu
schätzenden Korrelations-
koeffizienten gewählt werden.
Pearson misst die Stärke des
linearen Zusammenhangs,
Spearman die Stärke des
monotonen Zusammenhangs.
Korrelation Basis-Kurs Statistik und SPSS für Mediziner 4
Korrelationskoeffizienten
P-Werte (H0: r=0)
Es zeigt sich eine starke Korrelation zwischen dem Blutdruck zu Beginn der Studie (r=0,953, p<0,001) und
dem Blutdruck nach einem Monat sowie eine moderate bis starke Assoziation zwischen dem
Cholesterinausgangswert und dem Blutdruck nach einem Monat (r=0,672, p<0,001). Alter und Größe sind
zwar signifikant mit dem Blutdruck nach einem Monat korreliert (p=0,033 bzw. p=0,036), die Stärke des
Zusammenhangs ist jedoch sehr gering (r=-0,195 bzw. r=0,191).
Für die Blutdruckänderung zeigt sich erwartungsgemäß eine signifikante Korrelation mit dem Blutdruck nach
einem Monat, jedoch kein signifikanter Zusammenhang mit einem der Baselineparameter.
Regression Basis-Kurs Statistik und SPSS für Mediziner 5
2) Einfache Regression:
a. Schätzen Sie ein Modell zur Vorhersage des systolischen Blutdrucks nach einem Monat in
Abhängigkeit des Ausgangswertes des systolischen Blutdrucks. Verwenden Sie dazu ein
lineares Regressionsmodell. Geben Sie auch ein 95%-Konfidenzintervall für die
Regressionskoeffizienten aus.
Analysieren Regression Linear
Die Variable, die vorhergesagt
werden soll, wird als abhängige
Variable definiert.
Als unabhängige Variablen fungieren
ein oder mehrere Merkmale, die zur
vorhersage der abhängigen Variable
herangezogen werden sollen
Zur Ausgabe eines
Konfidenzintervalls für die
Regressionskoeffizienten
muss im Menü „Statistiken“
der entsprechende Haken
gesetzt werden
Regression Basis-Kurs Statistik und SPSS für Mediziner 6
Die Konstante beschreibt den erwarteten Blutdruck nach einem Monat für eine (fiktive) Person, die in allen
Einflussgrößen (hier: Blutdruck zu Begin der Studie) einen Wert von 0 aufweist. Der Regressionskoeffizient für
den Blutdruck zu Beginn der Studie zeigt den erwarteten Unterschied in der Zielgröße (Blutdruck nach einem
Monat) zwischen zwei Personen, die sich im Blutdruckausgangswert um eine Einheit unterscheiden. Die
geschätzte Regressionsgerade lautet somit:
Erwarteter Blutdruck nach einem Monat = -13,276 + 1,027 × Blutdruckausgangswert
Die Nullhypothese (Steigung der Regressionsgerade = 0) kann abgelehnt werden (p-Wert < 0,001; die 0 ist im
Konfidenzintervall nicht enthalten).
Regression Basis-Kurs Statistik und SPSS für Mediziner 7
b. Stellen Sie den Zusammenhang im Streudiagramm dar und zeichnen Sie die
Regressionsgerade ein.
Grafik Diagrammerstellung
Streu-/Punktdiagramm
Einfaches Streudiagramm
Zielgröße auf die
y-Achse ziehen
Einflussgröße auf die
x-Achse ziehen
Einfaches
Streudiagramm
Hinweis:
In einem Streudiagramm können
nur metrische Größen (mit einem
Lineal markiert) sinnvoll
verwendet werden. Ist einer
metrischen Größe das falsche
Skalenniveau zugewiesen, muss
dies vorab angepasst werden
(entweder global in der
Variablenansicht oder nur für die
gerade zu erstellende Abbildung
durch einen Rechtsklick auf die
Variable im Grafikmenü).
Regression Basis-Kurs Statistik und SPSS für Mediziner 8
Einzeichnen der Regressionsgerade:
Doppelklick auf die Abbildung, um
den Editor zu öffnen. Die
Regressionsgerade kann automatisch
durch einen Klick auf den Button
„Anpassungslinie bei Gesamtwert
hinzufügen“ eingezeichnet werden.
Regression Basis-Kurs Statistik und SPSS für Mediziner 9
Hinweis:
Ein Fehler in SPSS 21 erlaubt das
automatische Einzeichnen der
Regressionsgerade. Nicht. Diese muss
dann „per Hand“ über den Punkt
„Bezugslinie aus Gleichung hinzufügen“
eingezeichnet werden.
Die Gleichung der
Regressionsgeraden kann
der Tabelle „Koeffizienten“
entnommen werden, die
bei der Schätzung eines
linearen Regressions-
modells erstellt wird (s.
Folie 6).
Regression Basis-Kurs Statistik und SPSS für Mediziner 10
c. Welcher systolische Blutdruck wird für einen Patienten nach einem Monat erwartet, wenn
sein Ausgangswert 150 mmHg beträgt?
Die Regressionsgerade lautet (s. Folie 6):
Erwarteter Blutdruck nach einem Monat =
-13,276 + 1,027 × Blutdruckausgangswert
Für einen Patienten mit einem Blutdruckausgangswert
von 150 mmHg ist somit der erwartete Blutdruck nach
einem Monat
Erwarteter Blutdruck nach einem Monat =
-13,276 + 1,027 × 150 mmHg = 140,8
mmHg
Regression Basis-Kurs Statistik und SPSS für Mediziner 11
d. Welcher Anteil der Varianz des systolischen Blutdrucks nach einem Monat kann durch
die Regression erklärt werden?
Der Anteil der durch das Regressionsmodell erklärten Varianz der Zielgröße wird durch R2 in der
Tabelle „Modellzusammenfassung“ angezeigt. In diesem Beispiel können somit 90,8% der Varianz
des Blutdrucks nach einem Monat durch das Regressionsmodell, also durch Kenntnis des
Blutdruckausgangswertes, erklärt werden.
Es ist zu beachten, dass die Regressionskoeffizienten so geschätzt werden, dass möglichst viel
Varianz der Zielgröße erklärt werden kann. Somit fällt in der Regel der Anteil der erklärten Varianz bei
Anwendung des Modells auf externe (neue) Daten kleiner aus als im modellbildenden Datensatz.
Regression Basis-Kurs Statistik und SPSS für Mediziner 12
3) Multiple Regression:
a. Schätzen Sie ein lineares Regressionsmodell mit der Zielgröße „Änderung des
systolischen Blutdrucks“ und den Einflussgrößen „Systolischer Blutdruck zu Beginn der
Studie“ und „Behandlungsgruppe“.
Hinweis:
Die Regressionskoeffzienten eines solchen multiplen/multivariablen Modells werden als konditionale Effekte
interpretiert, z.B.: Welchen Einfluss hat die Behandlung bei gegebenem Blutdruckausgangswert. Diese
Modelle unterliegen mehreren (relativ starken) Annahmen.
Gute und kurze Einführungen zum Thema multiple Regression sind z.B.:
• Bender R, Ziegler A, Lange S. Multiple Regression. Dtsch Med Wochenschr. 2007; 132 e30-e32
• Slinker BK, Glantz SA. Multiple Linear Regression – Accounting for Multiple Simultaneous
Determinants of a Continuous Dependent Variable. 2008; 117:1732-1737.
Regression Basis-Kurs Statistik und SPSS für Mediziner 13
In einem Regressionsmodell kann
auch der Einfluss mehrerer
Größen bewertet werden. Dazu
werden mehrere unabhängige
Variablen ausgewählt.
Regression Basis-Kurs Statistik und SPSS für Mediziner 14
Die Regressionsgleichung lautet:
Erwartete Blutdruckreduktion = 10,597 – 0,022 × Blutdruck zu Beginn der Studie + 4,528 * Behandlung
Dabei weist die Variable „Behandlung“ für Patienten aus der Betasan-Gruppe den Wert „1“ auf (Betasan ist in
den Daten mit „1“ kodiert“), für Patienten mit der Behandlung Alphasan den Wert „0“.
Die erwartete Blutdruckreduktion für einen Patienten aus der Alphasan-Gruppe ist somit:
Erwartete Blutdruckreduktion = 10,597 – 0,022 × Blutdruck zu Beginn der Studie + 4,528 * 0 =
10,597 – 0,022 × Blutdruck zu Beginn der Studie
Für einen Patienten aus der Betasan-Gruppe gilt:
Erwartete Blutdruckreduktion = 10,597 – 0,022 × Blutdruck zu Beginn der Studie + 4,528 * 1 =
15,125 – 0,022 × Blutdruck zu Beginn der Studie
Regression Basis-Kurs Statistik und SPSS für Mediziner 15
b. Zeichnen Sie die geschätzten
Regressionsgeraden für beide
Behandlungsgruppen in ein geeignetes
Streudiagramm ein.
Zur Illustration eines linearen Regressions-
modells mit einer metrischen und einer katego-
rialen Einflussgröße biete sich ein „Gruppiertes
Streudiagramm“ an.
Die Zielgröße wird auf die y-Achse gezogen, die
metrische Einflussgröße auf die x-Achse und die
kategoriale Einflussgröße in das Feld „Farbe
festlegen“. Die Beobachtungen aus den beiden
Behandlungsgruppen werden dann in unter-
schiedlichen Farben abgebildet.
Zur Erstellung des Diagramms muss für die
verwendeten Variablen das Skalenniveau richtig
spezifiziert sein.
Regression Basis-Kurs Statistik und SPSS für Mediziner 16
Im Diagrammeditor (Doppelklick auf Abbildung) die Regressionsgerade für die beiden Gruppen
separat über das Menü „Anpassungslinie bei Gesamtwert hinzufügen“ (s. auch Folie 9) einzeichnen.
Zunächst für die Alphasan-Gruppe …
Regression Basis-Kurs Statistik und SPSS für Mediziner 17
… dann für die Betasan-Gruppe.
Das verwendete Modell impliziert, dass die beiden Geraden parallel mit einem konstanten vertikalen
Abstand von 4,528 verlaufen müssen. Es zeigt sich somit, dass die mittlere Blutdruckreduktion in der
Betasan-Gruppe höher ausfiel als in der Alphasan-Gruppe.
Regression Basis-Kurs Statistik und SPSS für Mediziner 18
c) Vergleichen Sie die beiden Geraden mit den Geraden, die über „Anpasungslinien bei
Untergruppen hinzufügen“ generiert werden. Welcher Unterschied fällt auf?
Bei Verwendung des Menüpunktes
„Anpassungslinien bei Untergruppen
hinzufügen“ werden zwei separate
Modelle für die beiden
Behandlungsgruppen geschätzt. Daher
verlaufen die Geraden hier nicht parallel.
Die Abbildung entspricht jedoch nicht
dem vorher geschätzten Regressions-
modell.
Diagnostische Tests Basis-Kurs Statistik und SPSS für Mediziner 19
4) Diagnostische Tests
a. Für „test2“ wird für gewöhnlich ein Cut-Wert von 0,3 verwendet, um tatsächlich erkrankte
Personen zu identifizieren. Bestimmen Sie zunächst für jeden Patienten das Testergebnis
und schätzen Sie anschließend Sensitivität und Spezifität sowie den prädiktiven Wert des
positiven und des negativen Testergebnisses anhand der Daten.
Zunächst Berechnung der Testergebnisse: Transformieren Variable berechnen
Alternative Berechnung über: Transformieren Umkodieren in andere Variablen
Mit Datensatz „ROCBeispiel.sav“
Basis-Kurs Statistik und SPSS für Mediziner 20
Schätzung von Sensitivität und Spezifität:
Analysieren Deskriptive Statistiken Kreuztabellen
Testergebnis in den Zeilen
„Goldstandard“ (=tatsächlicher
Zustand) in den Spalten
Unter „Zellen“:
„Prozentwerte: Spaltenweise“
auswählen
Diagnostische Tests Basis-Kurs Statistik und SPSS für Mediziner 21
Schätzung von Sensitivität und Spezifität:
Sensitivität (Anteil an den tatsächlich Erkrankten, die laut „krank“ diagnostiziert wurden): 73,5%
Spezifität (Anteil an den tatsächlich nicht Erkrankten, die als „nicht krank“ erkannt wurden): 75,0%
Diagnostische Tests Basis-Kurs Statistik und SPSS für Mediziner 22
Schätzung der prädiktiven Werte
Analysieren Deskriptive Statistiken Kreuztabellen
Testergebnis in den Zeilen
„Goldstandard“ (=tatsächlicher
Zustand) in den Spalten
Unter „Zellen“:
„Prozentwerte: Zeilenweise“
auswählen
Diagnostische Tests Basis-Kurs Statistik und SPSS für Mediziner 23
Schätzung der prädiktiven Werte:
Prädiktiver Wert des positiven Testergebnisses (Anteil an den positiv Getesteten, die tatsächlich
krank sind): 46,3%
Prädiktiver Wert des negativen Testergebnisses (Anteil an den negativ Getesteten, die tatsächlich
nicht erkrankt sind): 90,6%
Diagnostische Tests Basis-Kurs Statistik und SPSS für Mediziner 24
b. Stellen Sie die ROC-Kurven für die drei angegebenen Tests in einer
gemeinsamen Grafik dar und interpretieren Sie die Ergebnisse.
Analysieren ROC-Kurve
Quantitative (oder zumindest ordinale) Variablen,
deren diagnostische Güte untersucht werden soll
Goldstandard (tatsächlicher Zustand).
Unter „Wert der Zustandsvariablen“
muss angegeben werden, mit welcher
Zahl tatsächlich Erkrankte im Datensatz
dokumentiert sind.
Alle Optionen auswählen, um die
Bezugslinie einzuzeichnen, ein
Konfidenzintervall für die AUC zu
erhalten und die Schätzer für
„Sensitiviät“ und „1-Spezifität“ für jeden
untersuchten Cut-Wert.
Achtung: Liegt für einen Patienten/Probanden ein fehlender Wert in einem der
untersuchten Parameter vor, so wird dieser Patient/Proband auch für die
anderen Tests nicht berücksichtigt.
Basis-Kurs Statistik und SPSS für Mediziner 25
Alle drei Tests zeigen eine signifikante
Assoziation mit dem tatsächlichen
Krankheitszustand – die p-Werte zur
Überprüfung der Nullhypothese „Die Fläche
unter der ROC-Kurve (AUC) = 0,5“ sind alle
<0,001, der Wert von 0,5 ist in keinem der
Konfidenzintervalle enthalten.
Die diagnostische Güte von „test1“ und
„test2“ scheint besser zu sein als für „test3“
(AUCs von 0,835 und 0,838 vs. AUC von
0,730).
Basis-Kurs Statistik und SPSS für Mediziner 26
c. Bestimmen Sie für „test3“ den optimalen Cut-Wert anhand des Youden-Index.
Stellen Sie für den entsprechenden Wert die Ergebnisse in einer Vierfeldertafel
dar und bestimmen Sie Sensitivität und Spezifität sowie den prädiktiven Wert des
positiven und negativen Testergebnisses. Welcher Cut-Wert müsste gewählt
werden, um eine Sensitivität von mindestens 90% zu erzielen?
Youden-Index: Sensitivität + Spezifität – 1
Wird häufig benutzt, um einen „optimalen“ Cut-
Wert zu finden. Falsch-positive und falsch-
negative Ergebnisse werden hier gleich
gewichtet.
Mit Hilfe der durch die ROC-Analyse generierte
Tabelle für Sensitivität und 1-Spezifität (Haken bei
Koordinatenpunkte der ROC-Kurve muss gesetzt
werden) für mögliche Cut-Werte zwischen zwei
beobachteten Werten, lässt sich der Youden-
Index für diese Werte berechnen.
Basis-Kurs Statistik und SPSS für Mediziner 27
Zur Bestimmung des Youden-Index können die Ergebnisse z.B. nach Excel kopiert werden:
Rechtsklick auf die Tabelle Kopieren Spezial Excel Arbeitsblatt
Rechtsklick Einfügen In Excel:
Berechnung der
Spezifität als
1 – „1-Spezifität“
Basis-Kurs Statistik und SPSS für Mediziner 28
Berechnung der Spezifität
für alle Cut-Werte durch
„ziehen“ der Formel
Berechnung des Youden-
Index als
Sensitivität + Spezifität - 1
Basis-Kurs Statistik und SPSS für Mediziner 29
Suche nach dem Cut-Werte, der die Summe aus Sensitivität uns Spezifität maximiert, z.B. mit
der Funktion =MAX(…).
Der höchste beobachtete Youden-Index liegt in diesem Datenbeispiel bei 0,393.
Der Cut-Wert, der zu diesem Wert führt, ist 0,1551.
Sensitivität und Spezifität für diesen Wert betragen 97,1% und 42,2%
Basis-Kurs Statistik und SPSS für Mediziner 30
Nach Berechnung einer entsprechenden Variablen lassen sich diese Werte sowie auch die
prädiktiven Wert wie vorhin beschrieben (S. 20-23) in Kreuztabellen bestimmen.
Transformieren Variable berechnen
Sensitivität Pos. Prädiktiver Wert
Spezifität Neg. Prädiktiver Wert
Basis-Kurs Statistik und SPSS für Mediziner 31
Welcher Cut-Wert müsste gewählt werden, um eine Sensitivität von mindestens 90%
zu erzielen?
Ausschnitt aus den Koordinaten der Kurve:
Der letzte Cut-Wert mit einer Sensitivität von mehr als
90% ist 0,1604. Dieser führt in den analysierten
Daten zu einer Sensitivität von 91,2% und einer
Spezifität von 43,1%.
In diesen Daten würde man damit im Vergleich zum
vorher bestimmten Cut-Wert eine etwas höhere
Spezifität auf Kosten einer geringeren Sensitivität
erzielen.