Basis-Kurs Statistik und SPSS für Mediziner · Zur Bestimmung des Youden-Index können die Ergebnisse z.B. nach Excel kopiert werden: Rechtsklick auf die Tabelle Kopieren Spezial

Lösungen

Basis-Kurs Statistik und SPSS für Mediziner

SPSS-Übung – Korrelation,

Regression und diagnostische Tests

Mit Datensatz „Daten_SPSS_Kurs_I.sav“

Korrelation Basis-Kurs Statistik und SPSS für Mediziner 2

1) Korrelation:

Schätzen und interpretieren Sie die Korrelation der folgenden Größen mit dem systolischen

Blutdruck nach einem Monat sowie der Änderung des systolischen Blutdrucks im

Studienverlauf.

• Blutdruck zu Beginn der Studie

• Cholesterin zu Beginn der Studie

• Alter

• Körpergröße

Analysieren Korrelation Bivariat

Berechnung der Blutdruckreduktion vom Studienbeginn zum Ende der Therapie:

Transformieren Variable berechnen


Hier können die

interessierenden

Variablen, deren

Korrelationen geschätzt

werden sollen,

angegeben werden.

Zur Schätzung von

Korrelationskoeffizienten

sollten nur quantitative

Merkmale herangezogen

werden.

Hier kann die Art des zu

schätzenden Korrelations-

koeffizienten gewählt werden.

Pearson misst die Stärke des

linearen Zusammenhangs,

Spearman die Stärke des

monotonen Zusammenhangs.


Korrelationskoeffizienten

P-Werte (H0: r=0)

Es zeigt sich eine starke Korrelation zwischen dem Blutdruck zu Beginn der Studie (r=0,953, p<0,001) und

dem Blutdruck nach einem Monat sowie eine moderate bis starke Assoziation zwischen dem

Cholesterinausgangswert und dem Blutdruck nach einem Monat (r=0,672, p<0,001). Alter und Größe sind

zwar signifikant mit dem Blutdruck nach einem Monat korreliert (p=0,033 bzw. p=0,036), die Stärke des

Zusammenhangs ist jedoch sehr gering (r=-0,195 bzw. r=0,191).

Für die Blutdruckänderung zeigt sich erwartungsgemäß eine signifikante Korrelation mit dem Blutdruck nach

einem Monat, jedoch kein signifikanter Zusammenhang mit einem der Baselineparameter.

Regression Basis-Kurs Statistik und SPSS für Mediziner 5

2) Einfache Regression:

a. Schätzen Sie ein Modell zur Vorhersage des systolischen Blutdrucks nach einem Monat in

Abhängigkeit des Ausgangswertes des systolischen Blutdrucks. Verwenden Sie dazu ein

lineares Regressionsmodell. Geben Sie auch ein 95%-Konfidenzintervall für die

Regressionskoeffizienten aus.

Analysieren Regression Linear

Die Variable, die vorhergesagt

werden soll, wird als abhängige

Variable definiert.

Als unabhängige Variablen fungieren

ein oder mehrere Merkmale, die zur

vorhersage der abhängigen Variable

herangezogen werden sollen

Zur Ausgabe eines

Konfidenzintervalls für die

Regressionskoeffizienten

muss im Menü „Statistiken“

der entsprechende Haken

gesetzt werden


Die Konstante beschreibt den erwarteten Blutdruck nach einem Monat für eine (fiktive) Person, die in allen

Einflussgrößen (hier: Blutdruck zu Begin der Studie) einen Wert von 0 aufweist. Der Regressionskoeffizient für

den Blutdruck zu Beginn der Studie zeigt den erwarteten Unterschied in der Zielgröße (Blutdruck nach einem

Monat) zwischen zwei Personen, die sich im Blutdruckausgangswert um eine Einheit unterscheiden. Die

geschätzte Regressionsgerade lautet somit:

Erwarteter Blutdruck nach einem Monat = -13,276 + 1,027 × Blutdruckausgangswert

Die Nullhypothese (Steigung der Regressionsgerade = 0) kann abgelehnt werden (p-Wert < 0,001; die 0 ist im

Konfidenzintervall nicht enthalten).


b. Stellen Sie den Zusammenhang im Streudiagramm dar und zeichnen Sie die

Regressionsgerade ein.

Grafik Diagrammerstellung

Streu-/Punktdiagramm

Einfaches Streudiagramm

Zielgröße auf die

y-Achse ziehen

Einflussgröße auf die

x-Achse ziehen

Einfaches

Streudiagramm

Hinweis:

In einem Streudiagramm können

nur metrische Größen (mit einem

Lineal markiert) sinnvoll

verwendet werden. Ist einer

metrischen Größe das falsche

Skalenniveau zugewiesen, muss

dies vorab angepasst werden

(entweder global in der

Variablenansicht oder nur für die

gerade zu erstellende Abbildung

durch einen Rechtsklick auf die

Variable im Grafikmenü).


Einzeichnen der Regressionsgerade:

Doppelklick auf die Abbildung, um

den Editor zu öffnen. Die

Regressionsgerade kann automatisch

durch einen Klick auf den Button

„Anpassungslinie bei Gesamtwert

hinzufügen“ eingezeichnet werden.


Hinweis:

Ein Fehler in SPSS 21 erlaubt das

automatische Einzeichnen der

Regressionsgerade. Nicht. Diese muss

dann „per Hand“ über den Punkt

„Bezugslinie aus Gleichung hinzufügen“

eingezeichnet werden.

Die Gleichung der

Regressionsgeraden kann

der Tabelle „Koeffizienten“

entnommen werden, die

bei der Schätzung eines

linearen Regressions-

modells erstellt wird (s.

Folie 6).


c. Welcher systolische Blutdruck wird für einen Patienten nach einem Monat erwartet, wenn

sein Ausgangswert 150 mmHg beträgt?

Die Regressionsgerade lautet (s. Folie 6):

Erwarteter Blutdruck nach einem Monat =

-13,276 + 1,027 × Blutdruckausgangswert

Für einen Patienten mit einem Blutdruckausgangswert

von 150 mmHg ist somit der erwartete Blutdruck nach

einem Monat

Erwarteter Blutdruck nach einem Monat =

-13,276 + 1,027 × 150 mmHg = 140,8

mmHg


d. Welcher Anteil der Varianz des systolischen Blutdrucks nach einem Monat kann durch

die Regression erklärt werden?

Der Anteil der durch das Regressionsmodell erklärten Varianz der Zielgröße wird durch R2 in der

Tabelle „Modellzusammenfassung“ angezeigt. In diesem Beispiel können somit 90,8% der Varianz

des Blutdrucks nach einem Monat durch das Regressionsmodell, also durch Kenntnis des

Blutdruckausgangswertes, erklärt werden.

Es ist zu beachten, dass die Regressionskoeffizienten so geschätzt werden, dass möglichst viel

Varianz der Zielgröße erklärt werden kann. Somit fällt in der Regel der Anteil der erklärten Varianz bei

Anwendung des Modells auf externe (neue) Daten kleiner aus als im modellbildenden Datensatz.


3) Multiple Regression:

a. Schätzen Sie ein lineares Regressionsmodell mit der Zielgröße „Änderung des

systolischen Blutdrucks“ und den Einflussgrößen „Systolischer Blutdruck zu Beginn der

Studie“ und „Behandlungsgruppe“.

Hinweis:

Die Regressionskoeffzienten eines solchen multiplen/multivariablen Modells werden als konditionale Effekte

interpretiert, z.B.: Welchen Einfluss hat die Behandlung bei gegebenem Blutdruckausgangswert. Diese

Modelle unterliegen mehreren (relativ starken) Annahmen.

Gute und kurze Einführungen zum Thema multiple Regression sind z.B.:

• Bender R, Ziegler A, Lange S. Multiple Regression. Dtsch Med Wochenschr. 2007; 132 e30-e32

• Slinker BK, Glantz SA. Multiple Linear Regression – Accounting for Multiple Simultaneous

Determinants of a Continuous Dependent Variable. 2008; 117:1732-1737.


In einem Regressionsmodell kann

auch der Einfluss mehrerer

Größen bewertet werden. Dazu

werden mehrere unabhängige

Variablen ausgewählt.


Die Regressionsgleichung lautet:

Erwartete Blutdruckreduktion = 10,597 – 0,022 × Blutdruck zu Beginn der Studie + 4,528 * Behandlung

Dabei weist die Variable „Behandlung“ für Patienten aus der Betasan-Gruppe den Wert „1“ auf (Betasan ist in

den Daten mit „1“ kodiert“), für Patienten mit der Behandlung Alphasan den Wert „0“.

Die erwartete Blutdruckreduktion für einen Patienten aus der Alphasan-Gruppe ist somit:

Erwartete Blutdruckreduktion = 10,597 – 0,022 × Blutdruck zu Beginn der Studie + 4,528 * 0 =

10,597 – 0,022 × Blutdruck zu Beginn der Studie

Für einen Patienten aus der Betasan-Gruppe gilt:

Erwartete Blutdruckreduktion = 10,597 – 0,022 × Blutdruck zu Beginn der Studie + 4,528 * 1 =

15,125 – 0,022 × Blutdruck zu Beginn der Studie


b. Zeichnen Sie die geschätzten

Regressionsgeraden für beide

Behandlungsgruppen in ein geeignetes

Streudiagramm ein.

Zur Illustration eines linearen Regressions-

modells mit einer metrischen und einer katego-

rialen Einflussgröße biete sich ein „Gruppiertes

Streudiagramm“ an.

Die Zielgröße wird auf die y-Achse gezogen, die

metrische Einflussgröße auf die x-Achse und die

kategoriale Einflussgröße in das Feld „Farbe

festlegen“. Die Beobachtungen aus den beiden

Behandlungsgruppen werden dann in unter-

schiedlichen Farben abgebildet.

Zur Erstellung des Diagramms muss für die

verwendeten Variablen das Skalenniveau richtig

spezifiziert sein.


Im Diagrammeditor (Doppelklick auf Abbildung) die Regressionsgerade für die beiden Gruppen

separat über das Menü „Anpassungslinie bei Gesamtwert hinzufügen“ (s. auch Folie 9) einzeichnen.

Zunächst für die Alphasan-Gruppe …


… dann für die Betasan-Gruppe.

Das verwendete Modell impliziert, dass die beiden Geraden parallel mit einem konstanten vertikalen

Abstand von 4,528 verlaufen müssen. Es zeigt sich somit, dass die mittlere Blutdruckreduktion in der

Betasan-Gruppe höher ausfiel als in der Alphasan-Gruppe.


c) Vergleichen Sie die beiden Geraden mit den Geraden, die über „Anpasungslinien bei

Untergruppen hinzufügen“ generiert werden. Welcher Unterschied fällt auf?

Bei Verwendung des Menüpunktes

„Anpassungslinien bei Untergruppen

hinzufügen“ werden zwei separate

Modelle für die beiden

Behandlungsgruppen geschätzt. Daher

verlaufen die Geraden hier nicht parallel.

Die Abbildung entspricht jedoch nicht

dem vorher geschätzten Regressions-

modell.

Diagnostische Tests Basis-Kurs Statistik und SPSS für Mediziner 19

4) Diagnostische Tests

a. Für „test2“ wird für gewöhnlich ein Cut-Wert von 0,3 verwendet, um tatsächlich erkrankte

Personen zu identifizieren. Bestimmen Sie zunächst für jeden Patienten das Testergebnis

und schätzen Sie anschließend Sensitivität und Spezifität sowie den prädiktiven Wert des

positiven und des negativen Testergebnisses anhand der Daten.

Zunächst Berechnung der Testergebnisse: Transformieren Variable berechnen

Alternative Berechnung über: Transformieren Umkodieren in andere Variablen

Mit Datensatz „ROCBeispiel.sav“

Basis-Kurs Statistik und SPSS für Mediziner 20

Schätzung von Sensitivität und Spezifität:

Analysieren Deskriptive Statistiken Kreuztabellen

Testergebnis in den Zeilen

„Goldstandard“ (=tatsächlicher

Zustand) in den Spalten

Unter „Zellen“:

„Prozentwerte: Spaltenweise“

auswählen


Schätzung von Sensitivität und Spezifität:

Sensitivität (Anteil an den tatsächlich Erkrankten, die laut „krank“ diagnostiziert wurden): 73,5%

Spezifität (Anteil an den tatsächlich nicht Erkrankten, die als „nicht krank“ erkannt wurden): 75,0%


Schätzung der prädiktiven Werte

Analysieren Deskriptive Statistiken Kreuztabellen

Testergebnis in den Zeilen

„Goldstandard“ (=tatsächlicher

Zustand) in den Spalten

Unter „Zellen“:

„Prozentwerte: Zeilenweise“

auswählen


Schätzung der prädiktiven Werte:

Prädiktiver Wert des positiven Testergebnisses (Anteil an den positiv Getesteten, die tatsächlich

krank sind): 46,3%

Prädiktiver Wert des negativen Testergebnisses (Anteil an den negativ Getesteten, die tatsächlich

nicht erkrankt sind): 90,6%


b. Stellen Sie die ROC-Kurven für die drei angegebenen Tests in einer

gemeinsamen Grafik dar und interpretieren Sie die Ergebnisse.

Analysieren ROC-Kurve

Quantitative (oder zumindest ordinale) Variablen,

deren diagnostische Güte untersucht werden soll

Goldstandard (tatsächlicher Zustand).

Unter „Wert der Zustandsvariablen“

muss angegeben werden, mit welcher

Zahl tatsächlich Erkrankte im Datensatz

dokumentiert sind.

Alle Optionen auswählen, um die

Bezugslinie einzuzeichnen, ein

Konfidenzintervall für die AUC zu

erhalten und die Schätzer für

„Sensitiviät“ und „1-Spezifität“ für jeden

untersuchten Cut-Wert.

Achtung: Liegt für einen Patienten/Probanden ein fehlender Wert in einem der

untersuchten Parameter vor, so wird dieser Patient/Proband auch für die

anderen Tests nicht berücksichtigt.


Alle drei Tests zeigen eine signifikante

Assoziation mit dem tatsächlichen

Krankheitszustand – die p-Werte zur

Überprüfung der Nullhypothese „Die Fläche

unter der ROC-Kurve (AUC) = 0,5“ sind alle

<0,001, der Wert von 0,5 ist in keinem der

Konfidenzintervalle enthalten.

Die diagnostische Güte von „test1“ und

„test2“ scheint besser zu sein als für „test3“

(AUCs von 0,835 und 0,838 vs. AUC von

0,730).


c. Bestimmen Sie für „test3“ den optimalen Cut-Wert anhand des Youden-Index.

Stellen Sie für den entsprechenden Wert die Ergebnisse in einer Vierfeldertafel

dar und bestimmen Sie Sensitivität und Spezifität sowie den prädiktiven Wert des

positiven und negativen Testergebnisses. Welcher Cut-Wert müsste gewählt

werden, um eine Sensitivität von mindestens 90% zu erzielen?

Youden-Index: Sensitivität + Spezifität – 1

Wird häufig benutzt, um einen „optimalen“ Cut-

Wert zu finden. Falsch-positive und falsch-

negative Ergebnisse werden hier gleich

gewichtet.

Mit Hilfe der durch die ROC-Analyse generierte

Tabelle für Sensitivität und 1-Spezifität (Haken bei

Koordinatenpunkte der ROC-Kurve muss gesetzt

werden) für mögliche Cut-Werte zwischen zwei

beobachteten Werten, lässt sich der Youden-

Index für diese Werte berechnen.


Zur Bestimmung des Youden-Index können die Ergebnisse z.B. nach Excel kopiert werden:

Rechtsklick auf die Tabelle Kopieren Spezial Excel Arbeitsblatt

Rechtsklick Einfügen In Excel:

Berechnung der

Spezifität als

1 – „1-Spezifität“


Berechnung der Spezifität

für alle Cut-Werte durch

„ziehen“ der Formel

Berechnung des Youden-

Index als

Sensitivität + Spezifität - 1


Suche nach dem Cut-Werte, der die Summe aus Sensitivität uns Spezifität maximiert, z.B. mit

der Funktion =MAX(…).

Der höchste beobachtete Youden-Index liegt in diesem Datenbeispiel bei 0,393.

Der Cut-Wert, der zu diesem Wert führt, ist 0,1551.

Sensitivität und Spezifität für diesen Wert betragen 97,1% und 42,2%


Nach Berechnung einer entsprechenden Variablen lassen sich diese Werte sowie auch die

prädiktiven Wert wie vorhin beschrieben (S. 20-23) in Kreuztabellen bestimmen.

Transformieren Variable berechnen

Sensitivität Pos. Prädiktiver Wert

Spezifität Neg. Prädiktiver Wert


Welcher Cut-Wert müsste gewählt werden, um eine Sensitivität von mindestens 90%

zu erzielen?

Ausschnitt aus den Koordinaten der Kurve:

Der letzte Cut-Wert mit einer Sensitivität von mehr als

90% ist 0,1604. Dieser führt in den analysierten

Daten zu einer Sensitivität von 91,2% und einer

Spezifität von 43,1%.

In diesen Daten würde man damit im Vergleich zum

vorher bestimmten Cut-Wert eine etwas höhere

Spezifität auf Kosten einer geringeren Sensitivität

erzielen.

Documents

Basis-Kurs Statistik und SPSS für Mediziner · Zur Bestimmung des Youden-Index können die Ergebnisse z.B. nach Excel kopiert werden: Rechtsklick auf die Tabelle Kopieren Spezial