Upload
others
View
0
Download
0
Embed Size (px)
Citation preview
Wolf-Michael Kähler
Statistische Datenanalyse
Aus dem Programm ____________ --.,. Mathematik
Statistische Datenanalyse von W. Stahel
Analysis, Bd. 1 und 2 von E. Behrends
Analysis 3 Bände von O. Forster
Angewandte Wahrscheinlichkeitstheorie von eh. Hesse
Lineare Algebra von G. Fischer
Lineare Algebra von A. Beutelspacher
Lineare Algebra Interaktiv (CD-ROM) von A. Beutelspacher und M.-A. Zschiegner
Stochastik von G. Hübner
Stochastik für Einsteiger vonN. Henze
Mathematik für Ingenieure und Naturwissenschaftler 3 Bände, Übungsbuch und Formelsammlung von L. Papula
Einführung in die angewandte WIrtschaftsmathematik von J. Tietze
vieweg ________________ -"
Wolf-Michael Kähler
Statistische Datenanalyse
Verfahren verstehen und mit SPSS gekonnt einsetzen
3., völlig neubearbeitete Auflage
~ vleweg
Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.ddb.de> abrufbar.
ISBN 978-3-528-25526-8 ISBN 978-3-663-11498-7 (eBook) DOI 10.1007/978-3-663-11498-7
1. Auflage Oktober 1995 2. Auflage August 2002 Die erste Auflage erschien unter dem Titel .Einführung in die Statistische Datenanalyse" 3., völlig neubearbeitete Auflage Oktober 2004
Alle Rechte vorbehalten © Springer Fachmedien Wiesbaden 2004 Ursprünglich erschienen bei Friedr. Vieweg & Sohn VerlaglGWV Fachverlage GmbH, Wiesbaden 2004 .
Lektorat: Dr. Reinald Klockenbuschj Andrea Broßler www.vieweg.de
Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.
Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier.
Vorwort
v
für meine Frau Christiane und meine Töchter Sonja, Iris und Almut
Dieses Buch wendet sich an Leser, die grundlegende Verfahren der statistischen Datenanalyse und deren Einsatz bei der Bearbeitung von Problemstellungen aus dem Bereich der empirischen Wissenschaften wie z.B. der Psychologie, der Soziologie, der Pädagogik, der Biologie, der Wirtschaftswissenschaften und der Politologie kennen lernen wollen.
Der Stoffumfang dieses Buches orientiert sich an den Inhalten von zweisemestrigen Vorlesungen, die der Autor bei der statistischen Ausbildung von Studenten an der Universität Bremen durchgeführt hat. Der Leser darf nicht erwarten, eine rezeptartige Aneinanderreihung statistischer Verfahren vorzufinden. Die Auswahl des Stoffes ist vornehmlich bestimmt durch die Bedeutung einzelner statistischer Verfahren sowie durch die Zielsetzung, die grundlegenden Gedankengänge vorzustellen, die einem Anwender der statistischen Datenanalyse bewusst sein sollten. Dabei wird großer Wert darauf gelegt, die Angemessenheit von statistischen Schlussweisen beurteilen zu können.
Die Darstellung des Stoffes ist betont so gehalten, dass die Beschreibung auch ohne tiefergehende mathematische Vorkenntnisse lesbar ist. Formale Angaben als Hilfsmittel der Beschreibung werden nur dann benutzt, wenn deren Verwendung zum Verständnis hilfreich ist.
Der Einsatz von statistischen Verfahren wird erläutert am Beispiel der Bearbeitung von Fragestellungen innerhalb eines einzigen empirischen Forschungsprojekts, dessen erhobenes Datenmaterial als zentrale Datenbasis für die in diesem Buch vorgestellten Verfahren der statistischen Datenanalyse dient.
Im Hinblick auf den heutigen Stand professionellen statistischen Arbeitens wird die Darstellung von Rechengängen am Zahlenmaterial auf ein Mindestmaß reduziert. Im Vordergrund des Interesses steht die Motivation, den Einsatz der vorgestellten statistischen Verfahren und die daraus resultierenden Ergebnisse zu erläutern. Die unerlässliche, jedoch langweilige Tätigkeit der Ausrechnung von statistischen Kennwerten wird einem statistischen Datenanalysesystem überlassen.
VI
Durch die Lektüre dieses Buches wird dem Leser ergänzend vermittelt, wie sich die jeweils benötigten statistischen Kennwerte über den Einsatz des SPSS-Systems, das Marktführer im Feld der statistischen Datenanalysesysteme ist, anfordern lassen. Nach einer Kurzeinführung in das Arbeiten mit dem SPSS-System wird erläutert, wie geeignete Anforderungen zur Ermittlung der jeweils benötigten statistischen Kennwerte formuliert werden müssen. Durch die Hinweise, die zu den jeweils verwendeten SPSS-Befehlen gegeben werden, wird der Leser in die Lage versetzt, eine Anpassung an veränderte Rahmenbedingungen selbständig vornehmen zu können. Die diesbezüglichen Mitteilungen sind innerhalb des Textes mit der Kennzeichnung "SPSS" eingeleitet.
Der Inhalt dieses Buches ist so konzipiert, dass es sowohl als Begleitlektüre für Lehrveranstaltungen als auch zum Selbststudium geeignet ist.
Mit dieser Neuauflage wird eine veränderte und ergänzte Fassung der"2. Auflage vorgestellt. Das ursprüngliche Manuskript wurde überarbeitet und im Hinblick auf die Darstellung verbessert. Ferner wurden Angaben für optimale Stichproben umfange hinzugefügt. Zusätzlich wurde die Beschreibung an eine geänderte Ergebnispräsentation des SPSS-Systems angepasst.
Für Hinweise und Verbesserungsvorschläge bin ich besonders Herrn Dr. Wolfgang Kemmnitz und Frau cand. psych. Christine Reich zu Dank verpflichtet.
Herrn Dr. Klockenbusch vom Vieweg Verlag danke ich für die traditionell gute Zusammenarbeit.
Ritterhude, im September 2004 Wolf-Michael Kähler
Inhaltsverzeichnis
1 Einleitung 1
2 Verteilungen 7
2.1 Datenautbereitung und empirische Häufigkeitsverteilung 7
2.2 Absolute, relative und prozentuale Häufigkeiten 9
2.3 Präsentation von empirischen Verteilungen . 11
2.4 Gliederung einer Verteilung . 14
2.5 Klassierung von Daten 18
2.6 Verteilungsverläufe 22
2.7 Normalverteilungen .. 24
3 Das Skalenniveau von Merkmalen 29
4 Kennzeichnung des Zentrums 33
4.1 Zentrale Tendenz bei intervallskalierten Merkmalen 33
4.2 Zentrale Tendenz bei ordinalskalierten Merkmalen 37
4.3 Zentrale Tendenz bei nominalskalierten Merkmalen 39
5 Kennzeichnung der Variabilität 41 5.1 Variabilität intervallskalierter Merkmale 42
5.2 Variabilität ordinalskalierter Merkmale. 46
5.3 Schiefe und Wölbung ......... 47
6 Einsatz des Datenanalysesystems SPSS 49 6.1 Datenerfassung und Analyseanforderung . 49
6.2 Anzeige von Analyseergebnissen . . . 52
6.3 Auswahl, Klassierung und Sicherung . 57
7 Vergleich von Merkmalsausprägungen 61 7.1 Prozentränge ............. . . . . . . 61
7.2 Die z-Transformation . . . . . . . . . . . . . . . 64
7.3 Inverse z-Transformation und Flächengleichheit . 68
7.4 Prüfung auf Normalverteilung 71
7.5 Bildung von Gesamt-Indikatoren ......... 74
VIII INHALTSVERZEICHNIS
8 Statistische Beziehungen 77 8.1 Statistische Abhängigkeit und statistische Unabhängigkeit 77
8.2 Kontingenz-Tabellen 80
8.3 Partial-Tabellen . . . . . . . . . . . . . . 84
8.4 Boxplots . . . . . . . . . . . . . . . . . . 86
8.5 Stärke des statistischen Zusammenhangs . 88
9 Die Stärke des statistischen Zusammenhangs bei nominalskalierten Merkmalen 89 9.1 Der Chi-Quadrat-Koeffizient ......... .
9.2 Der Phi-Koeffizient für 2x2-Tabellen ..... .
9.3 Der Koeffizient "Cramer's V" für rxc-Tabellen .
9.4 Der Kontingenz-Koeffizient "C"
9.5 PRE-Maße ....... .
9.6 Das PRE-Maß "Lambda" ....
89
92
94
95
96
98
10 Die Stärke des statistischen Zusammenhangs bei ordinalskalierten Merkmalen 101 10.1 Konkordante und diskordante Paare. 101
10.2 Die Statistik "Gamma" ... 106
10.3 Die Statistik "Somers' d" ..
10.4 Die Kendall'schen Statistiken
110
111
11 Die Stärke des statistischen Zusammenhangs bei intervallskalierten Merkmalen113 11.1 Streudiagramme und Kennzeichnung der gemeinsamen Variation 113
11.2 Die Regressionsgerade . . . . . . . . . . . . . . 117
11.3 Das PRE-Maß "Determinationskoeffizient" . . . 121
11.4 Der Produktmoment-Korre1ationskoeffizient "r" 125
11.5 Trennschärfe und Regression zum Mittel . . . . 127
12 Weitere Statistiken zur Beschreibung von statistischen Beziehungen 129
12.1 Der Rangkorrelationskoeffizient von Spearman . . . . . . . . . . . 129
12.2 Statistiken zur Beschreibung der Ähnlichkeit von Merkmalsträgem l32
12.2.1 Der Konkordanzkoeffizient von Kendall .......... l32
12.2.2 Der Kappa-Koeffizient von Cohen ............. l36
12.3 Der Korrelationskoeffizient "Eta" und der punkt-biseriale Korrelationskoeffi-zient . . . . . . . . . . . . . . . . . 138
12.3.1 Nichtlineare Abhängigkeiten . . . . . . . 138
12.3.2 Die Statistik "Eta-Quadrat" . . . . . . . . 139
12.3.3 PRE-Modell-Erklärung von "Eta-Quadrat" 141
12.3.4 Der punkt-biseriale Korrelationskoeffizient. 143
12.4 Mittelwertunterschiede und Korrelation. . . . . . . 144
INHALTSVERZEICHNIS IX
13 Kontrolle von statistischen Beziehungen 153 13.1 Scheinkorrelationen und multivariate Zusammenhänge. 153
13.2 Die partielle Korrelation. . . . . . . . . . . . . . . . . 155
14 Multivariate Datenanalyse 161 14.1 Lineare Einfachregression und lineare Mehrfachregression . 161
14.1.1 Modell der "Linearen Einfachregression" . . 161
14.1.2 Modell der "Linearen Mehrfachregression" . 162
14.1.3 Vektoren und Matrizen ........... 164
14.1.4 Bestimmung der Regressionskoeffizienten . 170
14.1.5 Probleme bei der Berechnung von Regressionskoeffizienten 174
14.2 Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
14.2.1 Das Hauptachsen-Modell und das Hauptkomponenten-Modell . 178
14.2.2 Matrix-Darstellung und Fundamentaltheorem ......... 182
14.2.3 Bestimmung der Komponenten-Matrix durch die Hauptachsen-Methode 184
14.2.4 Die Extraktion von Faktoren. 189
14.2.5 Rotation zur Einfachstruktur . 192
15 Zufallsstichproben 195
16 Prüfung der statistischen Beziehung und der Anpassung (X2 -Test) 205 16.1 Nullhypothesen und Altemativhypothesen . . . . . . . . 205
16.2 Prüfung der statistischen Beziehung mit einem x2-Test ..... . 207
16.3 Die Testverteilung "X2 (df)" . . . . . . . . . . . . . . . . . . . . . 216
16.4 Durchführung des x2-Tests zur Prüfung der statistischen Beziehung. . 221
16.5 Fehlerarten bei der Test-Entscheidung. . . . . . . . . . . . . . 224
16.6 Die Prüfung von Verteilungseigenschaften mit einem X2 -Test (x2-Anpassungstest) .......... 231
16.7 Signifikanz-Tests und Kreuzvalidierung .
17 Prüfung von Zentren (z-Test, t-Test) 17.1 Nullhypothesen über Parameter .
17.1.1 Parameter der Grundgesamtheit
17.1.2 Beispiele für Nullhypothesen . .
17.1.3 Parametrische und nichtparametrische Signifikanz-Tests
235
237 · 237
· 237
· 237
· 239
x INHALTSVERZEICHNIS
17.2 Der einseitige z-Test zur Prüfung einer Mitte . . .
17.2.1 Die Nonnalverteilung als Testverteilung .
17.2.2 Null- und Alternativhypothese . . . . . .
17.2.3 Durchführung des z-Tests (als einseitiger z-Test) .
17.2.4 Der Fehler 2. Art (beim einseitigen z-Test) ....
17.2.5 Die Operationscharakteristik- und die Power-Kurve.
17.3 Der zweiseitige z-Test zur Prüfung einer Mitte . . . . . .
17.3.1 Durchführung des z-Tests (als zweiseitiger Test) ..
17.3.2 Der Fehler 2. Art (beim zweiseitigen z-Test) .....
· 241
· 241 .242
.246
.248
· 251 .254
.254
.257
17.4 Der z-Test zur Prüfung einer Mitte (für einen beliebigen Stichprobenumfang) . 258
17.4.1 Die Teststatistik X . . . . . . . . . . . . . . . . . . . . . 258
17.4.2 Strategie der Testdurchführung . . . . . . . . . . . . . . . 260
17.4.3 Beispiel für die Durchführung eines einseitigen z-Tests . . 261
17.4.4 Beispiel für die Durchführung eines zweiseitigen z-Tests . 261
17.4.5 Durchführung eines z-Tests bei unbekannter Streuung . 262
17.4.6 Verletzung der Test-Voraussetzungen beim z-Test . . 264
17.5 Der t -Test zur Prüfung einer Mitte. . . . . . . . . 266
17.5.1 Test-Voraussetzungen und Teststatistik .. . 266
17.5.2 Durchführung eines einseitigen t-Tests. . . 268
17.5.3 Durchführung eines zweiseitigen t -Tests . . 269
17.6 Optimaler Stichprobenumfang und Effektgröße . . 270
17.7 Zusammenfassung . . . . . . . . . . . . . . . . . . 278
18 Schätzung von Parametern und Ermittlung von Konfidenzinte"allen 279 18.1 Schätzung von Parametern. . . . . . . . . . . 279
18.1.1 Schätzung der Mitte ........ . 279
18.1.2 Schätzung der Populations-Varianz . 280
18.1.3 Eigenschaften der Schätzstatistik X . 281
18.2 Ermittlung von Konfidenzintervallen . . . . . 282
18.2.1 Signifikanz-Test und Akzeptanzbereich . 282
18.2.2 Konstruktion von Konfidenzintervallen .. . 283
18.2.3 Berechnung von Konfidenzintervallen für die Mitte. . 286
18.2.4 Berechnung von Mindest-Stichprobenumfängen ... . 288
18.2.5 Eigenschaften von Konfidenzintervallen . . . . . . . . . 290
18.3 Prüfung von Nullhypothesen durch die Berechnung von Konfidenzintervallen. 291
18.3.1 Konfidenzintervall für den Korrelationskoeffizienten "p" . 291
18.3.2 Konfidenzintervall für den Prozentsatz "11"" ••••••..••..•. 293
INHALTSVERZEICHNIS
19 Parametrische Prüfung auf Unterschiede 19.1 Treatment-Effekte und Untersuchungspläne .
19.1.1 Kontrollgruppenplan ...
19.1.2 Unabhängige Stichproben ... .
19.1.3 Nullhypothese ......... .
19.1.4 Mittelwertdifferenz und Variation
19.1.5 Abhängige Stichproben ..... .
19.1.6 Paarbildung und Randomisierung
19.2 t-Test für abhängige Stichproben ....
19.2.1 Nullhypothese und Teststatistik
19.2.2 Testdurchführung (mit SPSS)
19.2.3 Der "Vortest-Nachtest-Plan"
19.3 t-Test für unabhängige Stichproben ..
19.3.1 Teststatistiken ........ .
19.3.2 Testdurchführung (mit SPSS)
19.4 Prüfung der Varianzhomogenität bei unabhängigen Stichproben durch den
XI
295 .295
.296
.296
. 297
297
298
299
301
301
302
304
306
306
308
Levene-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312
19.5 Prüfung der Varianzhomogenität bei unabhängigen Stichproben durch einen F-Test . . . . . . . . . . . . . . . . . . . . . 313
19.5.1 Nullhypothese und Teststatistik ... 313
19.5.2 Bestimmung des Akzeptanzbereichs . . 314
19.5.3 Inferenzschluss beim F-Test . 315
19.5.4 Testdurchführung . . . . . . . . . . . 316
20 Nichtparametrische Prüfung auf Unterschiede 317 20.1 Nichtparametrische und parametrische Tests . . . . . . . . . . . . . . 317 20.2 Test für zwei unabhängige Stichproben (U-Test von Mann-Whitney) 318
20.2.1 Nullhypothese, Teststatistik und kritische Werte . 318
20.2.2 Testdurchführung . . . . . . . . . . . . . . . . . 322
20.3 Test für zwei abhängige Stichproben (Wilcoxon-Test) . . 325
20.3.1 Nullhypothese, Teststatistik und kritische Werte. 325
20.3.2 Testdurchführung . . . . . . . . . . . . . . . . . 328
XII INHALTSVERZEICHNIS
21 Varianzanalyse 331
331
332
334
336
338
340
343
21.1 Statistische Beziehungen
21.2 Voraussetzungen und Nullhypothese der Varianzanalyse
21.3 Zerlegung der Gesamt-Stichprobenvariation
21.4 Der F-Test der Varianzanalyse . .
21.5 Durchführung des F-Tests . . . . . . . . . .
21.6 Vergleiche einzelner Faktorstufen ..... .
21.7 Überprüfung der Voraussetzungen der Varianzanalyse
21.8 Weitere Mehrstichprobenvergleiche . . . . . . . . . . 344
21.8.1 Der H-Test von Kruskal-Wallis für unabhängige Stichproben. 345
21.8.2 Varianzanalyse für abhängige Stichproben. . . . . . . . . . . 346
21.8.3 Friedman'sche Rangvarianzanalyse für abhängige Stichproben. . 349
Anhang 351 A.1 Kodierung des Fragebogens . . . . . . . . . . 351
A.2 Flächenanteile der Standardnormalverteilung 352
A.3 Das empirische und das numerische Relativ . 354
AA Wahrscheinlichkeiten . . . . . . . . . . . . . 356
A.5 Zentrum und Dispersion von theoretischen Verteilungen 363
A.6 Zufallszahlen-Tafel . . . . . . . . . . 366
A.7 Kritische Werte bei x2-Verteilungen . 368
A.8 Kritische Werte bei t-Verteilungen . 368 A.9 Kritische Werte bei F-Verteilungen. . 369
A.1O Kritische Werte für den U-Test . . . 373
A.ll Kritische Werte für den Wilcoxon-Test . 374
A.12 Optimale Stichprobenumfange . . . . . . 374
A.l3 Werte der inversen Fisher'schen z-Transformation . 375
A.14 Datenbasis. . . . . . . . . . . . . . . . . . . . . . . 375
Literaturverzeichnis 378
Index 379