Statistische Datenanalyse978-3-663-11498-7/1.pdf · von A. Beutelspacher und M.-A. Zschiegner Stochastik von G. Hübner Stochastik für Einsteiger vonN. Henze Mathematik für Ingenieure

Wolf-Michael Kähler

Statistische Datenanalyse

Aus dem Programm ____________ --.,. Mathematik

Statistische Datenanalyse von W. Stahel

Analysis, Bd. 1 und 2 von E. Behrends

Analysis 3 Bände von O. Forster

Angewandte Wahrscheinlichkeitstheorie von eh. Hesse

Lineare Algebra von G. Fischer

Lineare Algebra von A. Beutelspacher

Lineare Algebra Interaktiv (CD-ROM) von A. Beutelspacher und M.-A. Zschiegner

Stochastik von G. Hübner

Stochastik für Einsteiger vonN. Henze

Mathematik für Ingenieure und Naturwissenschaftler 3 Bände, Übungsbuch und Formelsammlung von L. Papula

Einführung in die angewandte WIrtschaftsmathematik von J. Tietze

vieweg ________________ -"

Wolf-Michael Kähler

Statistische Datenanalyse

Verfahren verstehen und mit SPSS gekonnt einsetzen

3., völlig neubearbeitete Auflage

~ vleweg

Bibliografische Information Der Deutschen Bibliothek Die Deutsche Bibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über <http://dnb.ddb.de> abrufbar.

ISBN 978-3-528-25526-8 ISBN 978-3-663-11498-7 (eBook) DOI 10.1007/978-3-663-11498-7

1. Auflage Oktober 1995 2. Auflage August 2002 Die erste Auflage erschien unter dem Titel .Einführung in die Statistische Datenanalyse" 3., völlig neubearbeitete Auflage Oktober 2004

Alle Rechte vorbehalten © Springer Fachmedien Wiesbaden 2004 Ursprünglich erschienen bei Friedr. Vieweg & Sohn VerlaglGWV Fachverlage GmbH, Wiesbaden 2004 .

Lektorat: Dr. Reinald Klockenbuschj Andrea Broßler www.vieweg.de

Das Werk einschließlich aller seiner Teile ist urheberrechtlich geschützt. Jede Verwertung außerhalb der engen Grenzen des Urheberrechtsgesetzes ist ohne Zustimmung des Verlags unzulässig und strafbar. Das gilt insbesondere für Vervielfältigungen, Übersetzungen, Mikroverfilmungen und die Einspeicherung und Verarbeitung in elektronischen Systemen.

Umschlaggestaltung: Ulrike Weigel, www.CorporateDesignGroup.de Gedruckt auf säurefreiem und chlorfrei gebleichtem Papier.

Vorwort

v

für meine Frau Christiane und meine Töchter Sonja, Iris und Almut

Dieses Buch wendet sich an Leser, die grundlegende Verfahren der statistischen Datenanalyse und deren Einsatz bei der Bearbeitung von Problemstellungen aus dem Bereich der empirischen Wissenschaften wie z.B. der Psychologie, der Soziologie, der Pädagogik, der Biologie, der Wirtschaftswissenschaften und der Politologie kennen lernen wollen.

Der Stoffumfang dieses Buches orientiert sich an den Inhalten von zweisemestrigen Vorlesungen, die der Autor bei der statistischen Ausbildung von Studenten an der Universität Bremen durchgeführt hat. Der Leser darf nicht erwarten, eine rezeptartige Aneinanderreihung statistischer Verfahren vorzufinden. Die Auswahl des Stoffes ist vornehmlich bestimmt durch die Bedeutung einzelner statistischer Verfahren sowie durch die Zielsetzung, die grundlegenden Gedankengänge vorzustellen, die einem Anwender der statistischen Datenanalyse bewusst sein sollten. Dabei wird großer Wert darauf gelegt, die Angemessenheit von statistischen Schlussweisen beurteilen zu können.

Die Darstellung des Stoffes ist betont so gehalten, dass die Beschreibung auch ohne tiefergehende mathematische Vorkenntnisse lesbar ist. Formale Angaben als Hilfsmittel der Beschreibung werden nur dann benutzt, wenn deren Verwendung zum Verständnis hilfreich ist.

Der Einsatz von statistischen Verfahren wird erläutert am Beispiel der Bearbeitung von Fragestellungen innerhalb eines einzigen empirischen Forschungsprojekts, dessen erhobenes Datenmaterial als zentrale Datenbasis für die in diesem Buch vorgestellten Verfahren der statistischen Datenanalyse dient.

Im Hinblick auf den heutigen Stand professionellen statistischen Arbeitens wird die Darstellung von Rechengängen am Zahlenmaterial auf ein Mindestmaß reduziert. Im Vordergrund des Interesses steht die Motivation, den Einsatz der vorgestellten statistischen Verfahren und die daraus resultierenden Ergebnisse zu erläutern. Die unerlässliche, jedoch langweilige Tätigkeit der Ausrechnung von statistischen Kennwerten wird einem statistischen Datenanalysesystem überlassen.

VI

Durch die Lektüre dieses Buches wird dem Leser ergänzend vermittelt, wie sich die jeweils benötigten statistischen Kennwerte über den Einsatz des SPSS-Systems, das Marktführer im Feld der statistischen Datenanalysesysteme ist, anfordern lassen. Nach einer Kurzeinführung in das Arbeiten mit dem SPSS-System wird erläutert, wie geeignete Anforderungen zur Ermittlung der jeweils benötigten statistischen Kennwerte formuliert werden müssen. Durch die Hinweise, die zu den jeweils verwendeten SPSS-Befehlen gegeben werden, wird der Leser in die Lage versetzt, eine Anpassung an veränderte Rahmenbedingungen selbständig vornehmen zu können. Die diesbezüglichen Mitteilungen sind innerhalb des Textes mit der Kennzeichnung "SPSS" eingeleitet.

Der Inhalt dieses Buches ist so konzipiert, dass es sowohl als Begleitlektüre für Lehrveranstaltungen als auch zum Selbststudium geeignet ist.

Mit dieser Neuauflage wird eine veränderte und ergänzte Fassung der"2. Auflage vorgestellt. Das ursprüngliche Manuskript wurde überarbeitet und im Hinblick auf die Darstellung verbessert. Ferner wurden Angaben für optimale Stichproben umfange hinzugefügt. Zusätzlich wurde die Beschreibung an eine geänderte Ergebnispräsentation des SPSS-Systems angepasst.

Für Hinweise und Verbesserungsvorschläge bin ich besonders Herrn Dr. Wolfgang Kemmnitz und Frau cand. psych. Christine Reich zu Dank verpflichtet.

Herrn Dr. Klockenbusch vom Vieweg Verlag danke ich für die traditionell gute Zusammenarbeit.

Ritterhude, im September 2004 Wolf-Michael Kähler

Inhaltsverzeichnis

1 Einleitung 1

2 Verteilungen 7

2.1 Datenautbereitung und empirische Häufigkeitsverteilung 7

2.2 Absolute, relative und prozentuale Häufigkeiten 9

2.3 Präsentation von empirischen Verteilungen . 11

2.4 Gliederung einer Verteilung . 14

2.5 Klassierung von Daten 18

2.6 Verteilungsverläufe 22

2.7 Normalverteilungen .. 24

3 Das Skalenniveau von Merkmalen 29

4 Kennzeichnung des Zentrums 33

4.1 Zentrale Tendenz bei intervallskalierten Merkmalen 33

4.2 Zentrale Tendenz bei ordinalskalierten Merkmalen 37

4.3 Zentrale Tendenz bei nominalskalierten Merkmalen 39

5 Kennzeichnung der Variabilität 41 5.1 Variabilität intervallskalierter Merkmale 42

5.2 Variabilität ordinalskalierter Merkmale. 46

5.3 Schiefe und Wölbung ......... 47

6 Einsatz des Datenanalysesystems SPSS 49 6.1 Datenerfassung und Analyseanforderung . 49

6.2 Anzeige von Analyseergebnissen . . . 52

6.3 Auswahl, Klassierung und Sicherung . 57

7 Vergleich von Merkmalsausprägungen 61 7.1 Prozentränge ............. . . . . . . 61

7.2 Die z-Transformation . . . . . . . . . . . . . . . 64

7.3 Inverse z-Transformation und Flächengleichheit . 68

7.4 Prüfung auf Normalverteilung 71

7.5 Bildung von Gesamt-Indikatoren ......... 74

VIII INHALTSVERZEICHNIS

8 Statistische Beziehungen 77 8.1 Statistische Abhängigkeit und statistische Unabhängigkeit 77

8.2 Kontingenz-Tabellen 80

8.3 Partial-Tabellen . . . . . . . . . . . . . . 84

8.4 Boxplots . . . . . . . . . . . . . . . . . . 86

8.5 Stärke des statistischen Zusammenhangs . 88

9 Die Stärke des statistischen Zusammenhangs bei nominalskalierten Merkmalen 89 9.1 Der Chi-Quadrat-Koeffizient ......... .

9.2 Der Phi-Koeffizient für 2x2-Tabellen ..... .

9.3 Der Koeffizient "Cramer's V" für rxc-Tabellen .

9.4 Der Kontingenz-Koeffizient "C"

9.5 PRE-Maße ....... .

9.6 Das PRE-Maß "Lambda" ....

89

92

94

95

96

98

10 Die Stärke des statistischen Zusammenhangs bei ordinalskalierten Merkmalen 101 10.1 Konkordante und diskordante Paare. 101

10.2 Die Statistik "Gamma" ... 106

10.3 Die Statistik "Somers' d" ..

10.4 Die Kendall'schen Statistiken

110

111

11 Die Stärke des statistischen Zusammenhangs bei intervallskalierten Merkmalen113 11.1 Streudiagramme und Kennzeichnung der gemeinsamen Variation 113

11.2 Die Regressionsgerade . . . . . . . . . . . . . . 117

11.3 Das PRE-Maß "Determinationskoeffizient" . . . 121

11.4 Der Produktmoment-Korre1ationskoeffizient "r" 125

11.5 Trennschärfe und Regression zum Mittel . . . . 127

12 Weitere Statistiken zur Beschreibung von statistischen Beziehungen 129

12.1 Der Rangkorrelationskoeffizient von Spearman . . . . . . . . . . . 129

12.2 Statistiken zur Beschreibung der Ähnlichkeit von Merkmalsträgem l32

12.2.1 Der Konkordanzkoeffizient von Kendall .......... l32

12.2.2 Der Kappa-Koeffizient von Cohen ............. l36

12.3 Der Korrelationskoeffizient "Eta" und der punkt-biseriale Korrelationskoeffi-zient . . . . . . . . . . . . . . . . . 138

12.3.1 Nichtlineare Abhängigkeiten . . . . . . . 138

12.3.2 Die Statistik "Eta-Quadrat" . . . . . . . . 139

12.3.3 PRE-Modell-Erklärung von "Eta-Quadrat" 141

12.3.4 Der punkt-biseriale Korrelationskoeffizient. 143

12.4 Mittelwertunterschiede und Korrelation. . . . . . . 144

INHALTSVERZEICHNIS IX

13 Kontrolle von statistischen Beziehungen 153 13.1 Scheinkorrelationen und multivariate Zusammenhänge. 153

13.2 Die partielle Korrelation. . . . . . . . . . . . . . . . . 155

14 Multivariate Datenanalyse 161 14.1 Lineare Einfachregression und lineare Mehrfachregression . 161

14.1.1 Modell der "Linearen Einfachregression" . . 161

14.1.2 Modell der "Linearen Mehrfachregression" . 162

14.1.3 Vektoren und Matrizen ........... 164

14.1.4 Bestimmung der Regressionskoeffizienten . 170

14.1.5 Probleme bei der Berechnung von Regressionskoeffizienten 174

14.2 Faktorenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 178

14.2.1 Das Hauptachsen-Modell und das Hauptkomponenten-Modell . 178

14.2.2 Matrix-Darstellung und Fundamentaltheorem ......... 182

14.2.3 Bestimmung der Komponenten-Matrix durch die Hauptachsen-Methode 184

14.2.4 Die Extraktion von Faktoren. 189

14.2.5 Rotation zur Einfachstruktur . 192

15 Zufallsstichproben 195

16 Prüfung der statistischen Beziehung und der Anpassung (X2 -Test) 205 16.1 Nullhypothesen und Altemativhypothesen . . . . . . . . 205

16.2 Prüfung der statistischen Beziehung mit einem x2-Test ..... . 207

16.3 Die Testverteilung "X2 (df)" . . . . . . . . . . . . . . . . . . . . . 216

16.4 Durchführung des x2-Tests zur Prüfung der statistischen Beziehung. . 221

16.5 Fehlerarten bei der Test-Entscheidung. . . . . . . . . . . . . . 224

16.6 Die Prüfung von Verteilungseigenschaften mit einem X2 -Test (x2-Anpassungstest) .......... 231

16.7 Signifikanz-Tests und Kreuzvalidierung .

17 Prüfung von Zentren (z-Test, t-Test) 17.1 Nullhypothesen über Parameter .

17.1.1 Parameter der Grundgesamtheit

17.1.2 Beispiele für Nullhypothesen . .

17.1.3 Parametrische und nichtparametrische Signifikanz-Tests

235

237 · 237

· 237

· 237

· 239

x INHALTSVERZEICHNIS

17.2 Der einseitige z-Test zur Prüfung einer Mitte . . .

17.2.1 Die Nonnalverteilung als Testverteilung .

17.2.2 Null- und Alternativhypothese . . . . . .

17.2.3 Durchführung des z-Tests (als einseitiger z-Test) .

17.2.4 Der Fehler 2. Art (beim einseitigen z-Test) ....

17.2.5 Die Operationscharakteristik- und die Power-Kurve.

17.3 Der zweiseitige z-Test zur Prüfung einer Mitte . . . . . .

17.3.1 Durchführung des z-Tests (als zweiseitiger Test) ..

17.3.2 Der Fehler 2. Art (beim zweiseitigen z-Test) .....

· 241

· 241 .242

.246

.248

· 251 .254

.254

.257

17.4 Der z-Test zur Prüfung einer Mitte (für einen beliebigen Stichprobenumfang) . 258

17.4.1 Die Teststatistik X . . . . . . . . . . . . . . . . . . . . . 258

17.4.2 Strategie der Testdurchführung . . . . . . . . . . . . . . . 260

17.4.3 Beispiel für die Durchführung eines einseitigen z-Tests . . 261

17.4.4 Beispiel für die Durchführung eines zweiseitigen z-Tests . 261

17.4.5 Durchführung eines z-Tests bei unbekannter Streuung . 262

17.4.6 Verletzung der Test-Voraussetzungen beim z-Test . . 264

17.5 Der t -Test zur Prüfung einer Mitte. . . . . . . . . 266

17.5.1 Test-Voraussetzungen und Teststatistik .. . 266

17.5.2 Durchführung eines einseitigen t-Tests. . . 268

17.5.3 Durchführung eines zweiseitigen t -Tests . . 269

17.6 Optimaler Stichprobenumfang und Effektgröße . . 270

17.7 Zusammenfassung . . . . . . . . . . . . . . . . . . 278

18 Schätzung von Parametern und Ermittlung von Konfidenzinte"allen 279 18.1 Schätzung von Parametern. . . . . . . . . . . 279

18.1.1 Schätzung der Mitte ........ . 279

18.1.2 Schätzung der Populations-Varianz . 280

18.1.3 Eigenschaften der Schätzstatistik X . 281

18.2 Ermittlung von Konfidenzintervallen . . . . . 282

18.2.1 Signifikanz-Test und Akzeptanzbereich . 282

18.2.2 Konstruktion von Konfidenzintervallen .. . 283

18.2.3 Berechnung von Konfidenzintervallen für die Mitte. . 286

18.2.4 Berechnung von Mindest-Stichprobenumfängen ... . 288

18.2.5 Eigenschaften von Konfidenzintervallen . . . . . . . . . 290

18.3 Prüfung von Nullhypothesen durch die Berechnung von Konfidenzintervallen. 291

18.3.1 Konfidenzintervall für den Korrelationskoeffizienten "p" . 291

18.3.2 Konfidenzintervall für den Prozentsatz "11"" ••••••..••..•. 293

INHALTSVERZEICHNIS

19 Parametrische Prüfung auf Unterschiede 19.1 Treatment-Effekte und Untersuchungspläne .

19.1.1 Kontrollgruppenplan ...

19.1.2 Unabhängige Stichproben ... .

19.1.3 Nullhypothese ......... .

19.1.4 Mittelwertdifferenz und Variation

19.1.5 Abhängige Stichproben ..... .

19.1.6 Paarbildung und Randomisierung

19.2 t-Test für abhängige Stichproben ....

19.2.1 Nullhypothese und Teststatistik

19.2.2 Testdurchführung (mit SPSS)

19.2.3 Der "Vortest-Nachtest-Plan"

19.3 t-Test für unabhängige Stichproben ..

19.3.1 Teststatistiken ........ .

19.3.2 Testdurchführung (mit SPSS)

19.4 Prüfung der Varianzhomogenität bei unabhängigen Stichproben durch den

XI

295 .295

.296

.296

. 297

297

298

299

301

301

302

304

306

306

308

Levene-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 312

19.5 Prüfung der Varianzhomogenität bei unabhängigen Stichproben durch einen F-Test . . . . . . . . . . . . . . . . . . . . . 313

19.5.1 Nullhypothese und Teststatistik ... 313

19.5.2 Bestimmung des Akzeptanzbereichs . . 314

19.5.3 Inferenzschluss beim F-Test . 315

19.5.4 Testdurchführung . . . . . . . . . . . 316

20 Nichtparametrische Prüfung auf Unterschiede 317 20.1 Nichtparametrische und parametrische Tests . . . . . . . . . . . . . . 317 20.2 Test für zwei unabhängige Stichproben (U-Test von Mann-Whitney) 318

20.2.1 Nullhypothese, Teststatistik und kritische Werte . 318

20.2.2 Testdurchführung . . . . . . . . . . . . . . . . . 322

20.3 Test für zwei abhängige Stichproben (Wilcoxon-Test) . . 325

20.3.1 Nullhypothese, Teststatistik und kritische Werte. 325

20.3.2 Testdurchführung . . . . . . . . . . . . . . . . . 328

XII INHALTSVERZEICHNIS

21 Varianzanalyse 331

331

332

334

336

338

340

343

21.1 Statistische Beziehungen

21.2 Voraussetzungen und Nullhypothese der Varianzanalyse

21.3 Zerlegung der Gesamt-Stichprobenvariation

21.4 Der F-Test der Varianzanalyse . .

21.5 Durchführung des F-Tests . . . . . . . . . .

21.6 Vergleiche einzelner Faktorstufen ..... .

21.7 Überprüfung der Voraussetzungen der Varianzanalyse

21.8 Weitere Mehrstichprobenvergleiche . . . . . . . . . . 344

21.8.1 Der H-Test von Kruskal-Wallis für unabhängige Stichproben. 345

21.8.2 Varianzanalyse für abhängige Stichproben. . . . . . . . . . . 346

21.8.3 Friedman'sche Rangvarianzanalyse für abhängige Stichproben. . 349

Anhang 351 A.1 Kodierung des Fragebogens . . . . . . . . . . 351

A.2 Flächenanteile der Standardnormalverteilung 352

A.3 Das empirische und das numerische Relativ . 354

AA Wahrscheinlichkeiten . . . . . . . . . . . . . 356

A.5 Zentrum und Dispersion von theoretischen Verteilungen 363

A.6 Zufallszahlen-Tafel . . . . . . . . . . 366

A.7 Kritische Werte bei x2-Verteilungen . 368

A.8 Kritische Werte bei t-Verteilungen . 368 A.9 Kritische Werte bei F-Verteilungen. . 369

A.1O Kritische Werte für den U-Test . . . 373

A.ll Kritische Werte für den Wilcoxon-Test . 374

A.12 Optimale Stichprobenumfange . . . . . . 374

A.l3 Werte der inversen Fisher'schen z-Transformation . 375

A.14 Datenbasis. . . . . . . . . . . . . . . . . . . . . . . 375

Literaturverzeichnis 378

Index 379

Documents

Statistische Datenanalyse978-3-663-11498-7/1.pdf · von A. Beutelspacher und M.-A. Zschiegner Stochastik von G. Hübner Stochastik für Einsteiger vonN. Henze Mathematik für Ingenieure