51
Sozialwissenschaftliche Methoden und Statistik I Universität Duisburg – Essen Standort Duisburg Integrierter Diplomstudiengang Sozialwissenschaften Skript zum SMS I Tutorium Von Mark Lutter Stand: April 2004 Teil I „Deskriptive Statistik“

Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Embed Size (px)

Citation preview

Page 1: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Sozialwissenschaftliche Methoden und Statistik I

Universität Duisburg – Essen Standort Duisburg

Integrierter Diplomstudiengang Sozialwissenschaften

Skript zum SMS I Tutorium

Von Mark Lutter

Stand: April 2004

Teil I

„Deskriptive Statistik“

Page 2: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 2 von 51

Inhaltsverzeichnis Seite

1. Grundbegriffe .................................................................................................. 04 • Deskriptive Statistik • Inferenzstatistik • Untersuchungseinheiten • Variable • Merkmalsausprägung

1.1 Unterschiedliche Typen von Variablen ................................................. 05 1.1.1 Unterschieden nach Wertebereich ............................................................... 05

• Qualitative vs. Quantitative Variablen • Stetige vs. Diskrete Variablen • Dichotome, Trichotome, Polytome Variablen

1.1.2 Unterschieden nach Beobachtbarkeit .......................................................... 07

• Manifeste vs. Latente Variablen

1.1.3 Unterschieden nach Messniveau .................................................................. 07 • Nominalskalierte Variablen • Ordinalskalierte variablen • Intervallskalierte Variablen • Ratioskalierte Variablen

2. Univariate Analyse ........................................................................................ 09 • Urliste, Primärtabelle • Häufigkeitsverteilung • Relative Häufigkeiten • Prozentuale Häufigkeiten • Kumulierte Häufigkeiten

2.1 Statistische Kennwerte................................................................................. 12 2.1.1 Lagemaße ....................................................................................................... 12

• Modus • Median • Arithmetisches Mittel • Exkurs: Symmetrieeigenschaften einer Verteilung / Schiefe

2.1.2 Streuungsmaße .............................................................................................. 19 • Range • Quartilabstand • Varianz • Standardabweichung • Variationskoeffizient

Page 3: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 3 von 51

2.2 Graphische Darstellungsmöglichkeiten ................................................ 22 • Balkendiagramm • Kreisdiagramm • Histogramm • Polygonzug • Boxplot • Stem-And-Leaf-Display

2.3 Z-Transformation ......................................................................................... 25 3. Bivariate Analyse …………………………………………………………… 26 3.1 Zusammenhangsmaße für nominalskalierte Variablen .................. 26

• Chi-Quadrat Kontingenztabelle Indifferenztabelle Erwartete Häufigkeiten

• Phi • Cramers V • Kontingenzkoeffizient C • Prozentsatzdifferenz

3.2 Zusammenhangsmaße für ordinalskalierte Variablen .................... 29 • Spearmans rho • Kendalls tau Koeffizienten

Konkordante vs. diskordante Paare „ties“

3.3 Zusammenhangsmaße für metrische Variablen ................................ 34

• Produktmoment Korrelation (Pearsons r) 3.3.1 Bivariate lineare Regression …………………………………………. 35

• Streudiagramm • Regressionsgerade

Methode der kleinsten Quadrate • Determinationskoeffizient

Varianzzerlegung • Regressionsanalyse mit SPSS

4. Kreuztabellenanalyse (SPSS)…..………………………………………… 45

• Zeilen-, Spalten-, Gesamtprozentwerte

5. Diverse Übungsaufgaben .............................................................................. 46 6. Literaturverzeichnis ……………………………………………………….. 51

Page 4: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 4 von 51

1. Grundbegriffe Deskriptive Statistik (Beschreibende Statistik)

• Die deskriptive Statistik dient der Aufbereitung, Darstellung und Komprimierung sozialwissenschaftlicher Daten

• Konkret: Eine bestimmte Menge von Personen wird hinsichtlich bestimmter Eigenschaften befragt. Deren Antworten werden mittels tabellarischen und graphischen Darstellungen, Maßzahlen der zentralen Tendenz, Streuungsmaßen und Korrelationskoeffizienten aufbereitet und analysiert.

• Die deskriptive Statistik gliedert sich in drei Bereiche:

Univariate Analyse (die Verteilung einer Variablen wird analysiert) Bivariate Analyse (die Beziehung zweier Variablen zueinander wird analysiert) Multivariate Analyse (die Beziehung mehrerer Variablen zueinander werden analysiert) Inferenzstatistik (Schließende Statistik)

• die Erkenntnisse der deskriptiven Statistik beziehen sich immer nur auf eine bestimmte Stichprobe, mittels der Inferenzstatistik soll geklärt werden, mit welcher Wahrscheinlichkeit die Ergebnisse der Stichprobe auch in der Population / Grundgesamtheit gelten.

• Um von den Stichprobenergebnissen auf die Grundgesamtheit schließen zu können, kommt es besonders auf die richtige Auswahl an (reine Zufallsauswahl, systematische Auswahl, geschichtete Auswahl, usw.)

• Die schließende Statistik liefert Verfahren, eine richtige Auswahl aus der Masse zu treffen und sie liefert die Regeln zur Verallgemeinerung der gewonnenen Stichprobenergebnisse

Untersuchungseinheiten (auch: Merkmalsträger / Objekte / Fälle)

• Die an einer Befragung oder an einem Experiment teilnehmenden Individuen

• An ihnen werden bestimmte Eigenschaften / Merkmale erhoben (z.B. durch Befragung)

• Konkrete Untersuchungseinheiten sind: Befragungspersonen, Versuchspersonen (Probanden), Haushalte, Organisationen, Nationen, etc.

Page 5: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 5 von 51

Variable

• Die Variable ist das vom Forscher an der Untersuchungseinheit erhobene Merkmal.

• Sie ist damit die den Forscher interessierende Eigenschaft an der Untersuchungseinheit

• Diese Eigenschaften werden erhoben z.B. durch Befragung oder Beobachtung

• Konkrete Variablen sind: Geschlechtszugehörigkeit, Arbeitszufriedenheit, monatliches Nettoeinkommen, Lebensalter, Industrialisierungsgrad von Nationen, etc.

Merkmalsausprägung (auch: Werte; Messwerte)

• die möglichen Werte, die eine Variable annehmen kann, heißen Merkmalsausprägungen

• Bsp.: Die Variable „Geschlechtszugehörigkeit“ hat die beiden Merkmalsausprägungen „männlich“ und „weiblich“

1.1 Unterschiedliche Typen von Variablen

• unterschieden nach Wertebereich (1.1.1) • unterschieden nach Beobachtbarkeit (1.1.2) • unterschieden nach Skalen- bzw. Messniveau (1.1.3)

1.1.1 unterschieden nach Wertebereich Qualitative Variablen

- Die Merkmalsausprägungen einer qualitativen Variablen unterscheidet man nur hinsichtlich ihrer unterschiedlichen Art

- Qualitative Variablen sind immer diskret (s.u.) - Bsp.: Geschlechtszugehörigkeit, Parteipräferenz, ...

Quantitative Variablen

- Die Merkmalsausprägungen einer quantitativen Variablen unterscheidet man hinsichtlich ihrer unterschiedlichen Größe

- Quantitative Variablen werden danach unterschieden, ob sie diskret oder stetig sind (s.u.)

- Bsp: Lebensalter, Körpergröße, Schulnoten

Page 6: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 6 von 51

Stetige / Kontinuierliche Variablen

- eine stetige Variable kann innerhalb eines bestimmten Bereichs jeden beliebigen Wert annehmen

- es existieren keine Lücken bzw. Sprungstellen - wie fein die Messung auch ist, stets kann in noch feineren Einheiten

gemessen werden - zwischen zwei Messwerten sind also beliebig viele Zwischenwerte

möglich - Bsp: Lebensalter, Einkommen, Blutdruck, ...

Diskrete / Diskontinuierliche Variablen

- Eine diskrete Variable kann nur bestimmte Werte annehmen - zwischen den Werten existieren Lücken bzw. Sprungstellen - Eine Frau kann beispielsweise 1, 2 oder evtl. 10 Kinder haben, aber: 3,5

Kinder kann sie nicht haben - Bsp.: Anzahl der Kinder in einem Haushalt, Geschlecht,

Parteizugehörigkeit, ... - Allerdings werden in der Praxis oftmals diskrete Variablen als quasi-

stetig aufgefasst Dichotome Variablen

- eine Variable mit nur zwei Merkmalsausprägungen heißt dichotome Variable

- Bsp.: die Variable Geschlecht besitzt nur die zwei Ausprägungen „weiblich“ und „männlich“

Trichotome Variablen

- eine Variable mit drei Merkmalsausprägungen heißt trichotome Variable - Bsp.: die Variable Schichtzugehörigkeit mit den drei Ausprägungen

„Unterschicht“, „Mittelschicht“, „Oberschicht“ Polytome Variablen

- eine Variable mit mehr als drei Merkmalsausprägungen heißt polytome Variable

- Bsp.: jede stetige Variable wie Einkommen oder Körpergröße

Page 7: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 7 von 51

1.1.2 unterschieden nach Beobachtbarkeit Manifeste (empirische) Variablen

- direkt beobachtbar bzw. direkt messbar - Bsp.: Körpergröße, Altersangaben, offizielle Parteizugehörigkeit, ...

Latente (theoretische) Variablen

- nicht direkt beobachtbar - können nur durch relevante Indikatoren (s.u.) messbar gemacht werden - Bsp.: Ausländerfeindlichkeit, Arbeitszufriedenheit, Anomie, ´wahre´

politische Meinung ...

Indikatoren: Indikatoren sind manifeste Variablen, die als Ersatz für die

latente Variable auftreten, da diese nicht direkt gemessen werden kann. In der Regel werden latente Variablen durch mehrere

Indikatoren operationalisiert (messbar gemacht). Bsp: die latente Variable „Arbeitszufriedenheit“ ist nicht direkt

messbar. Sie kann aber durch die möglichen Indikator-Variablen „Häufigkeit des Fernbleibens vom Arbeitsplatz“, sowie „Häufigkeit von Arbeitsplatzwechseln“ und/oder „subjektive Einschätzung des Betriebs- klimas“ operationalisiert werden Oder: „Die“ Umweltverschmutzung ist nicht direkt beobachtbar. Sie kann aber messbar gemacht werden durch Indikatoren wie: „Wasser-qualität von Flüssen“, „jährlicher CO2 Ausstoß“, „Anzahl der PKW pro Einwohner“, usw.

1.1.3 unterschieden nach Skalen- bzw. Messniveau Nominalskalierte Variablen

- Die Klassifikation von Untersuchungseinheiten geschieht hinsichtlich ihres Besitzens oder Nicht-Besitzens einer bestimmten Merkmalsausprägung.

- Die einzelnen Merkmalsausprägungen können nicht rangmäßig unterschieden werden - können also nicht in eine Reihenfolge gebracht werden;

- sie stellen lediglich Benennungen von Kategorien dar - Die einzelnen Kategorien müssen a) vollständig sein und b) sich

gegenseitig ausschließen - Die Nominalskala repräsentiert das niedrigste Messniveau - Bsp.: Geschlecht, Parteizugehörigkeit, Berufsstatus, Nationalität, ...

Page 8: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 8 von 51

Ordinalskalierte Variablen

- Wie nominalskalierte Variablen, zusätzlich gilt: - zwischen den Merkmalsausprägungen können „größer/kleiner“

Aussagen getroffen werden, - d.h. die einzelnen Merkmalsausprägungen können rangmäßig der

Reihenfolge nach geordnet werden - Jedoch können keine genauen Abstände zwischen den

Merkmalsausprägungen ausgemacht werden - Bsp.: Schulnoten, Schichtzugehörigkeit, Lebenszufriedenheit

Intervallskalierte Variablen1

- hier können die Ausprägungen nicht nur rangmäßig geordnet werden, sondern die genauen Abstände zwischen den Ausprägungen können angegeben werden

- zudem sind die Abstände immer gleich groß - Jedoch: Ein Nullpunkt kann willkürlich festgelegt sein und hat keine

inhaltliche Bedeutung - Deswegen: Aussagen über Verhältnisse sind unzulässig! Bsp.: Proband

A hat einen IQ von 100; Proband B einen von 110. Die Aussage: „A ist um 10% intelligenter als B“ ist völlig unsinnig! Es kann höchstens gesagt werden, dass B auf der gemessenen Intelligenzskala um 10 Punkte höher liegt als A.

- Bsp.: Zeitrechnung, Temperatur in Celsius oder in Fahrenheit, Intelligenzmessung

Ratioskalierte Variablen (auch: Verhältnisskala)

- Repräsentiert das höchste Messniveau - Hier ist ein absoluter (natürlicher) Nullpunkt im Wertebereich vorhanden,

z.B. ist der absolute Tiefpunkt, den die Temperatur je erreichen kann, gleichzeitig der Nullpunkt der Temperaturskala nach Kelvin. Null Grad Kelvin entspricht einer Temperatur von –273,15 Grad Celsius.

- Deswegen: Aussagen über Verhältnisse sind zulässig - Bsp.: Temperatur in Kelvin, Körperlänge, Körpergewicht, Lebensalter,

Einkommen, Ehedauer, ...

1 Für viele Analysezwecke ist die Unterscheidung zwischen Intervall- und Ratioskala entbehrlich; zusammenfassend werden beide Messniveaus auch Variablen auf metrischem Messniveau genannt, da metrisches Messniveau die Durchführung arithmetischer Rechenoperationen erlaubt. Außerdem: Variablen auf Ordinal-Skalenniveau werden in der Praxis oftmals als (quasi-)metrisch behandelt, damit arithmetische Rechenoperationen, wie z.B. Mittelwertbildung, durchgeführt werden können.

Page 9: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 9 von 51

2. Univariate Analyse Urliste, Primärtabelle Ausgangspunkt der univariaten Analyse sind die (Roh-)Daten, die nach der Erhebung eines Merkmals (z.B. durch Befragung) entstehen. Beispiel: Die 31 Teilnehmer eines Statistik-Tutoriums werden nach ihrer Semesterzahl befragt. Jede einzelne Befragung stellt eine Messung dar. Man erhält damit 31 Messwerte der Variable „Semesterzahl“. Der Größe nach aufgelistet bilden diese Daten eine geordnete Urliste ( = Primärtabelle): 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 Bereits erkennbar: die meisten Personen befinden sich im zweiten und dritten Semester. Die Häufigkeitsverteilung / Häufigkeitstabelle Die Primärtabelle lässt sich übersichtlicher darstellen, indem die einzelnen (der Größe nach geordneten) Merkmalsausprägungen mit der Häufigkeit ihres Auf-tretens (fi) versehen werden.

x i f i 1 12 123 104 55 27 1

Gesamt n = 31 Wichtige Bezeichnungen:

• Messwerte (xi): Die Merkmalsausprägungen / Messwerte der Variable X (Semesterzahl) werden als xi bezeichnet

• absolute Häufigkeiten (fi): Die beobachtete Häufigkeit jeder Merkmalsausprägung wird mit fi (frequency) bezeichnet.2

• Anzahl der Fälle (n): Die Größe der Stichprobe wird mit n bezeichnet 2 Statt f i findet sich auch die Bezeichnung n i , so z.B. im Faulbaum-Skript

Page 10: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 10 von 51

Weitere wichtige Darstellungsmöglichkeiten von Häufigkeiten: relative Häufigkeiten ( fn )

nff i

n =

• Die relative Häufigkeit ergibt sich, wenn man die absolute Häufigkeit

eines xi - Wertes durch die Anzahl der Fälle teilt • Relative Häufigkeiten können nur Werte zwischen 0 und 1 annehmen • Die Summe aller relativen Häufigkeiten ergibt 1

x i f i f n

1 1 0,0323 2 12 0,3871 3 10 0,3226 4 5 0,1613 5 2 0,0644 7 1 0,0323

Gesamt n = 31 1 prozentuale Häufigkeiten / Prozentwerte ( %f i )

100% ⋅=nff i

i bzw. 100% ⋅= ni ff

• Die prozentualen Häufigkeiten ergeben sich, wenn man die relative

Häufigkeit eines xi - Wertes mit 100 multipliziert • Prozentwerte sind besonders dann nützlich, wenn die Häufigkeits-

verteilungen zweier unterschiedlich großer Stichproben verglichen werden sollen

x i f i f n %f i

1 1 0,0323 3,23 2 12 0,3871 38,71 3 10 0,3226 32,26 4 5 0,1613 16,13 5 2 0,0644 6,44 7 1 0,0323 3,23

Gesamt n = 31 1 100%

• 38,71 % der insgesamt 31 Teilnehmer des Statistik-Tutoriums befinden sich also im 2. Semester

Page 11: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 11 von 51

kumulierte Häufigkeiten • die absoluten, relativen und prozentualen Häufigkeiten lassen sich auch

sukzessive addieren (= kumulieren)

f ci = kumulierte absolute Häufigkeiten f cn = kumulierte relative Häufigkeiten % f ci = kumulierte prozentuale Häufigkeiten

x i f i f n %f i f ci f cn % f ci 1 1 0,0323 3,23 1 0,0323 3,23 2 12 0,3871 38,71 13 0,4194 41,94 3 10 0,3226 32,26 23 0,7420 74,20 4 5 0,1613 16,13 28 0,9033 90,33 5 2 0,0644 6,44 30 0,9677 96,77 7 1 0,0323 3,23 31 1 100

Gesamt n = 31 1 100 %

• an den kumulierten Häufigkeiten lassen sich Informationen der folgenden Art ablesen:

23 Personen, also 74,20 %, befinden sich in den ersten drei Semestern Oder: Nur knapp 10 % aller Personen befinden sich im

fortgeschrittenerem 5. und 7. Semester Achtung: Messniveau beachten!

• Absolute, relative sowie prozentuale Häufigkeiten dürfen erst ab ordinalem Messniveau kumuliert werden

Page 12: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 12 von 51

2.1 Statistische Kennwerte / Maßzahlen

• Während Häufigkeitstabellen Auskunft über die gesamte Verteilung einer Variablen geben, informieren statistische Maßzahlen über ganz bestimmte Eigenschaften einer Verteilung.

• Maßzahlen dienen der Informationsverdichtung, denn: • sie liefern mit nur einer einzigen Zahl komprimierte Information über

die charakteristischen Eigenschaften einer Verteilung • Statistische Maßzahlen zur Beschreibung einer univariaten Verteilung

gliedern sch in zwei Gruppen:

Lagemaße (auch: Maßzahlen der zentralen Tendenz; Zentralitätswerte) Streuungsmaße (auch: Dispersionsmaße)

• Während Lagemaße über Zentralität Auskunft geben, also den typischen (Modus),

den zentralen (Median) oder den durchschnittlichen (arithmetisches Mittel) Wert einer Verteilung wiedergeben, so geben die Streuungsmaße an, inwieweit die Daten einer Verteilung von diesen „typischen“ Werten abweichen. Sie messen auf diese Weise den Grad der Heterogenität einer Verteilung und zeigen, wie gut oder wie schlecht die Lagemaße eine Verteilung repräsentieren

• Denn: haben wir eine relativ homogene Verteilung, d.h. weichen nur sehr wenig Messwerte von den Zentralitätswerten ab (= niedrige Streuung), dann sind die Zentralitätswerte sehr gute Repräsentanten der Verteilung. Haben wir stattdessen eine sehr heterogene Verteilung, d.h. weichen die Messwerte recht stark von den Zentralitätswerten ab (= hohe Streuung), dann repräsentieren die Zentralitätswerte die Verteilung nicht besonders gut.

Die nachfolgende Tabelle zeigt, welche Maßzahlen im folgenden behandelt werden:

Lagemaße Streuungsmaße

Modus (h) Range (R) Median ( x~ ) (mittlerer) Quartilabstand (QA)

Arithmetisches Mittel ( x ) Varianz (s 2 ) Standardabweichung (s) Variationskoeffizient (V)

Page 13: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 13 von 51

2.1.1 Lagemaße / Maßzahlen der zentralen Tendenz / Zentralitätsmaße Modus (h)

• Um den Modalwert zu ermitteln, stellt man sich die Frage „Welcher Messwert kommt am häufigsten vor?“

• Er ist anwendbar ab nominalem Messniveau Eingipflige, unimodale Verteilung:

xi fi

1 12 123 104 55 27 1

Gesamt n = 31 Hier ist h = 2. Da wir hier nur einen Modalwert haben, handelt es sich um eine unimodale Verteilung.

Bimodalität:

(a) eindeutig bimodale Verteilung

x i f i 1 12 123 104 55 127 1

Gesamt n = 41 Hier ist h1 = 2 und h2 = 5

(b) nicht eindeutig bimodale Verteilung

x i f i

1 12 123 104 55 137 1

Gesamt n = 42 Hier ist auch h1 = 2 und h2 = 5

ACHTUNG: Nicht mit dem fi Wert verwechseln; der Modus ist immer der häufigste Messwert xi ;

Page 14: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 14 von 51

Median ( x~ )

• Der Median x~ [lies „x Schlange“] ist der Wert, der eine der Größe nach geordnete Messwertreihe halbiert

• Er ist anwendbar erst ab ordinalem Messniveau • 3 Arten der Berechnung, je nachdem ob

a. ungerade Anzahl von Fällen b. gerade Anzahl von Fällen c. klassierte Daten

vorliegen Medianberechnung bei ungerader Anzahl von Fällen

- der Median ist hier der Messwert des mittleren Falles einer geordneten Messwertreihe

- daher: zunächst die Daten der Größe nach ordnen, so wie in dieser geordneten Urliste:

1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 31 (=ungerade Anzahl) der mittlere Fall wird mit folgender Formel berechnet:

2)1( +n

Hier: (31 + 1)/2 = 16 ACHTUNG: nicht 16, sondern der Messwert des 16. Falles ist der Median; demnach x~ = 3 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 31 Wie man auch den kumulierten absoluten Häufigkeiten entnehmen kann, gehört der 16. Fall zu Messwert 3:

xi fi fci 1 1 1 2 12 13 3 10 23 4 5 28 5 2 30 7 1 31

Gesamt n = 31

Allgemein sieht die Formel so aus:

+=

21

~nxx

Page 15: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 15 von 51

Medianberechnung bei gerader Anzahl von Fällen

r halbierte Wert der mittleren beiden Fälle

Zunäc beiden Fälle berechnet mit:

- bei gerader Anzahl von Fällen ist der Median de

hst werden die mittleren

2 all

Bsp,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 32 (= gerade Anzahl)

.:

=n 1. mittlerer Fall; 1+n = 2. mittlerer F2

1

2 2 Der M s.u.) der

ittleren beiden Messwerte:edian ist nun nichts anderes als das arithmetische Mittel (

=32 16. Fall (= Messwert 3); 132 + = 17. Fall (=Messwert 3)

m x~ = =+2

Allgemein si ht orm

33 3

e die F el so aus:

2

+ nn xx~ 1

22

+

=x

Zu beachten ist auch hier wieder, dass im Zähler zunächst die beiden mittleren Fälle [n/2 bzw. (n/2)+1] berechnet werden, die dann durch ihre entsprechenden Messwerte usgetauscht werden müssen.

edianberechnung bei klassierten Daten

a M

ian mit folgender Formel:

Mit:

Bei klassierten Daten berechnet sich der Med

n21

= Anzahl der Fälle

= dieser We en wird (Medianintervall)

xakte untere Grenze des Medianintervalls n Fu = kumulierte Häufigkeit unterhalb des Medianintervalls (kum. Fälle unterhalb von U)

ird berechnet mit: exakte obere minus exakte untere Grenze einer

rt gibt an, in welchem Intervall der Median lieg

KbFmUx

+=~

Fun

−2

1

U = e

Fm = Anzahl der Fälle im Medianintervall Kb = Intervallbreite (wKlasse)

Page 16: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 16 von 51

Bsp.: Klasse Einkommensklasse fi

(in Euro) 1 500 bis < 1000 800 2 600 1000 bis < 1500

0 bis < 204 2000 bis < 2500 600 5 2500 bis < 3000 800 Σ 3200 = n U = 1500 400

= 3200 Kb = 499 (z.B. 1999-1u = 800 + 600 = 1400

Fm = n 500 = 499)

3 = Medianintervall 150 00 400

F

ergeben

wir nun diese Werte in die Formel ein, so erhalten wir für den Median einen We

n1 = 3200 : 2 = 1600; das Medianintervall ist die 3. K asse, da 2

l die kumulierten

ufig lassen (800 + 600 + 400 = 1800) einen Wert >1600

Setzen rt von:

Hä keiten der ersten 3 K

x~

ichtige Eigenschaft des Medians:

= 1500 + [(1600 – 1400)/400] ⋅ 499 = 1749,5

• Unempfindlichkeit gegenüber Extremwerten (im Gegensatz zum

rithmetisches Mittel

W

arithmetischen Mittel)

A ( x

• Das arithmetische itteiner Verteilung

)

M el

x

• Setzt metrisches Messniveau voraus Ist definiert als die Summ aller Messwerte, geteilt durch ihre Anzahl:

[lies: „x quer“] ist der Durchschnittswert

• e

n

x

n

n

xxxxx ii

n =

Oder einfacher:

ie einzelnen Messwerte werden mit ihrer Häufigkeit multipliziert:

=++++

= 1321 ...

D

n

xfn

∑x i

ii=

= 1

Page 17: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 17 von 51

Bsp.: xi fi

1 12 123 104 55 27 1

Gesam n = 31 t

121 ⋅⋅

31)17)25()54()103()2()1( ⋅+⋅+⋅+⋅++

=x = 2,96773

ur Berechnung bei klassierten Daten: vgl. Benninghaus, a.a.O., S.137f.

Mittels:

• Die Summe der Abweichungen aller Messwerte von ihrem arithmetischen Mittel ist gleich Null:

Z

Wichtige Eigenschaften des arithmetischen

0)( =−∑ i xx 1=

n

i

• Die Summe der quadrierten Abweichungen von ihrem arithmetischen

Mittel ist kleiner als die Summe der quadrierten Abweichungen aller Messwerte von einem beliebigen anderen Wert

• Die Addition (oder Subtraktion) einer bestimmten Zahl zu allen

Das arithmetische Mittel ist - im Gegensatz zum Median - anfällig für

Einzelwerten einer Verteilung vergrößert (oder verkleinert) das arithmetische Mittel um diese Zahl

•Extremwerte

Page 18: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 18 von 51

Symmetrieeigenschaften einer Verteilung

ie drei Lagemaße geben auch Auskunft über die Schiefe einer Verteilung D

xx == ~

die Verteilung ist rechtssteil / li

h die Verteilung ist symmetrisch

~ xxh << die Verteilung ist linkssteil / rechtsschief

xxh >> ~ nksschief

xxh >> ~ xxh == ~ xxh << ~

Generell gilt:

• Je näher die drei Werte beieinander liegen, desto weniger schief ist die Verteilung

• Umgekehrt gilt: je stärker die drei Werte differieren, desto „schiefer“ ist die Verteilung

„Die“

Schiefe (Sch) gibt es auch als Maßzahl:

• sie mit: • Setzt metrische Daten voraus

Berechnet wirdn

iSch == 1xix∑ − 3)(

n

Interpretation:

• Sch < 0 die Verteilung ist rechtssteil • Sch > 0 die Verteilung ist linkssteil • Sch = 0 die Verteilung ist symmetrisch

Page 19: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 19 von 51

Generell gilt auch hier: er Wert bei Null liegt, desto weniger schief ist die Verteilung

ll entfernt liegt, desto

2.1

• Je näher d• Umgekehrt gilt: je weiter der Wert von Nu

„schiefer“ ist die Verteilung

.2 Streuungsmaße

• alle Streuungsmaße setzen metrisches Messniveau voraus • Ausnahme: Quartile, sowie Quartilabstand und mittlerer Quartilabstand:

ab ordinalem Messniveau

Ra e

ng (R) (auch: Spannweite, Variationsbreite)

Ist definiert als die Differenz• aus dem größten und dem kleinsten Wert:

R =

Nachteil:

berücksichtigt werden, ist er a) stark von Ausreißerwerten abhängig und chtssagend über die Streuung der übrigen Werte

Qu t

minmax xx −

b) ni

• Da bei der Berechnung lediglich der größte und der kleinste Wert

ar ilabstand (QA) / mittlerer Quartilabstand

Die Quartile Q1, Q2 und Q3 sind Messwerte, die eine V

• erteilung in Abschnitte zerlegen, in die jeweils 25% der Untersuchungseinheiten fallen3

Abschnitte • Der Quartilabstand ist die Differenz zwischen dem dritten (Q3) und dem

Wobe

• Damit trennen sie die Verteilung in 4 gleiche

ersten (Q1) Quartil: QA = Q3 - Q1

i : Q = 1 n4

2 3 n4

x1 Q = x~ x3 Q =

net sich mit:

2QA Der mittlere Quartilabstand berech

3 vgl. hierzu ausführlich: Benninghaus, a.a.O., S. 145ff. (insb. S.147: Berechnung der Quartile bei klassierten Daten)

Page 20: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 20 von 51

Varianz (s ) 2

• Die Varianz ist definiert als die Summe der quadrierten Abweichungen

M el, dividiert durch der einzelnen Messwerte von ihrem arithmetischen ittdie Anzahl der Fälle:

xxfn

ii∑ − 2)(

ns i= 12

=

• An der Formel wird eine Parallele zum arithmetischen Mittel deutlich:

während das arithmetische Mittel die Summe aller Messwerte durch ihre Anzahl dividiert, wird hier die Summe aller (quadrierten) Abweichungs-werte durch ihre Anzahl dividiert:

die Varianz ist also auch eine Art Durchschnittswert, nämlich

Stand

die „durchschnittliche Streuung“

ardabweichung (s)

• Ist def

iniert als die Quadratwurzel aus der Varianz:

2ss =

eder rückgängig gemacht. Dadurch ist die „durchschnittliche Streuung“ in der ursprünglichen Maßeinheit der Variablen zu lesen.

ariationskoeffizient

• Durch Ziehung der Wurzel wird die Quadrierung wi

V (V)

• el:

Ist der Anteil der Standardabweichung am arithmetischen Mitt

xsV =

• Im Gegensatz zu anderen Streuungsmaßen quantifiziert V die Variabilität

einer Verteilung maßstabsunabhängig

Page 21: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 21 von 51

• V eignet sich damit sehr gut als Streuungs-Vergleichsmaß bei mehreren Verteilungen

• kann als Prozentzahl gelesen werden (s.u.) Bs p.: Berechnung der Streuungsmaße für die Variable Semesterzahl

xi fi 1 12 123 104 55 27 1

Gesamt n = 31 Range: R = 7 – 1 = 6 Quartilabstand:

Q3 = ¾ ⋅ 31 = 23,25.Fal e 4 Q1 = ¼ ⋅ 31 = 7,75.Fall Messwert 2

Mittlerer QA = 2 : 2 = 1

Zur B bweichung empfiehlt es sich, eine A

i fi

l M sswert

QA = 4 – 2 = 2

erechnung der Varianz und der Standardarbeitstabelle anzulegen:

x )( xxi − )( xxi − 2 fi )( xxi − 2

Ge = 31

1 s 1,50 ≈ 1

Zur Interpretation der Standardabweichung und Varianz

• der Zahlenwert der Standardabweichung steht im Prinzip für die „dur mit „Streuung“ die Gesamtabweichung aller Messwerte von ihrem arithmetischen Mittel gemeint ist. Die Varianz steht demnach für die „durchschnittliche

esser zu

ne

,225

1 1 -1,96773 3,87195 3,87195 2 12 -0,96773 0,93649 11,23788 3 10 0,03227 0,00103 0,0103 4 5 1,03227 1,06557 5,32785 5 2 2,03227 4,13011 8,26022 7

samt n 1 4,03227 16,2591 16,2591

Σ = 44,9673

x = 2,96773 s2 =

3144,9673 = 1,450558065 ,50 =≈

chschnittliche Streuung“ einer Verteilung, wobei

quadrierte Streuung“ • deswegen ist die Standardabweichung im Vergleich zur Varianz b

interpretieren, da ihr Ergebnis wieder in der ursprünglichen Einheit, in derdie Variable gemessen wurde, zu lesen ist. Für obiges Beispiel wäre ei

Page 22: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 22 von 51

der folgenden Aussagen angemessen: „Die Messwerte streuen im Durchschnitt um 1,225 Semester um den Mittelwert“

Die•

n chung, desto besser

repräsentiert das arithmetische Mittel die gesamte Verteilung Zu

• •

om arithmetischen Mittel gleich Null ist

• alle Messwerte gleich groß sind instimmen

odus übereinstimmen

2.2 G itsverteilungen

Standardabweichung ist ein Gütemaß für das arithmetische Mittel, denn: Je geringer die Streuung, desto homogener ist eine Verteilung bzw. desto weniger weichen die einzelnen Messwerte von ihrem arithmetischeMittel ab. Das bedeutet: je geringer die Standardabwei

r Berechnung und Interpretation des Variationskoeffizienten: wir erhalten einen Wert von V = 1,225/2,96773 = 0,4128 oder 41,28%das bedeutet, die Streuung macht ca. 41% des Mittelwertes aus.

Eine Verteilung weist keine Streuung auf wenn:

• der Range gleich Null ist • die Summe der quadrierten Abweichungen aller Messwerte v

• alle Messwerte mit dem Mittelwert übere• alle Messwerte mit dem M• es nur einen Messwert gibt

raphische Darstellungsmöglichkeiten von Häufigke In Abh tiert eine Vielzahl von graphischen

arstellungsmöglichkeiten:

- Balkendiagramm (auch: Streifen- bzw. Säulendiagramm)

rdinales Messniveau: uch: Streifen- bzw. Säulendiagramm)

-and-whisker-plot)

lygonzug) )

- Stem-And-Leaf-Display bzw. Back-to-Back-Stem-And-Leaf-Display

ängigkeit vom Messniveau exisD Nominales Messniveau:

- Kreisdiagramm O

- Balkendiagramm (a- Kreisdiagramm - Boxplot (auch: box

Metrisches Messniveau:

- Histogramm - Polygon (auch: Po- Boxplot (auch: Box-And-Whisker-Plot

Page 23: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 23 von 51

Balkendiagramm (auch: SGSWAHL; BEFR.

WAHLABSICHT, BUNDESTAGSWAHL; BEFR.

ANDERE PARTEIPDS

REPUBLIKANERBUENDNIS90-GRUENE

F.D.P.SPD

CDU-CSU

Pro

zent

30

20

10

0

treifen- bzw. Säulendiagramm) WAHLABSICHT, BUNDESTA

60

50

40

Kreisdiagramm

WAHLABSICHT, BUNDESTAGSWAHL; BEFR.

6,0%

2,5%

8,6%

4,5%

48,2%

29,0%

ANDERE PARTEI

REPUBLIKANER

BUENDNIS90-GRUENE

F.D.P.

SPD

CDU-CSU

1,1%

PDS

Histogramm

ALTER: BEFRAGTE<R>

95,090,0

85,080,0

75,070,0

65,060,0

55,050,0

45,040,0

35,030,0

25,020,0

ALTER: BEFRAGTE<R>

Häu

figke

it

400

200

100

0

Std.abw. = 17,49 Mittel = 48,7

N = 3234,00

300

Page 24: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 24 von 51

Polygonzug

ALTER: BEFRAGTE<R>

9490868278747066625854504642383430262218

Proz

ent

2,5

2,0

1,5

1,0

,5

0,0

Boxplot

3234N =

ALTER: BEFRAGTE<R>

100

80

60

40

20

0

120

Statistiken ALTER: BEFRAGTE<R> N Gültig 3234 Fehlend 0 Mittelwert 48,72 Median 47,00 Perzentile 25 = Q1 34,00 50 = Q2 47,00 75 = Q3 63,00 Stem-And-Leaf-Display ALTER: BEFRAGTE<R> Stem-and-Leaf Plot Frequency Stem & Leaf 73,00 1 . 888888999 169,00 2 . 000011112222333344444

00 2 . 55555556666667777778888889999999 3 . 000000001111111112222222223333333444444444

324,00 3 55555566666666777777778888888899999999 270,00 4 0000000111111122222222333334444444

00 4 5555555666666677777778888888899999 ,00 5 00011111222222333333444444 00 5 555566666667777778888888899999999

285,00 6 0000011111111222222223333333444444 267,00 6 555556666667777777888888999999

172,00 7 . 000011112222233334444 150,00 7 . 555556666777788899 71,00 8 . 001123344

3,00 9 . &

259, 341,00 . 5 . 288, . 55 232 . 00 288, . 55 . 00 . 55 32,00 8 . 5678& 10,00 9 . & Stem width: 10 Each leaf: 8 case(s)

Page 25: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 25 von 51

2.3 Z-Transformation (Standardisierung von Variablen)

erte in eine Form n derselben oder einer

erschiedlichen Einheiten erfasst (eine in ahren), dann erlaubt die Standardisierung beider

ergleichbarkeit n sie, indem man das arithmetische Mittel von jedem

andardabweichung

• setzt metrische Daten voraus • Durch eine Z-Transformation werden Messw

umgewandelt, die es erlaubt, sie mit Werteanderen Verteilung zu vergleichen

• untSind z.B. zwei Variablen in Euro, die andere in JVariablen deren V

• Erzeugt werdeMesswert subtrahiert und die Differenz durch die Stteilt:

27

s Z-Werte geben damit an, um wie viele

xxzx i

ii−

=→

• (Standardabweichungs-)Einheiten

Bsp

xi

ein Messwert oberhalb (bei positivem Vorzeichen) oder unterhalb (bei negativem Vorzeichen) vom Durchschnitt liegt

.: fi )( xxi −

sxx

z ii

−=

1

lg den Ei haf

x x

zi = fi

-1,605 1 -0,790 12 0,025 10

1 -1,96773 -1,605 2 12 -0,96773 -0,790 3 10 0,032 0,025 4 5 1,03227 0,843 5 2 2,03227 1,659 7 1 4,03227 3,292

es mt n = 31

,96773; s =1,225

G a x

3,292 1

= 2

Durch die z-Transformation erhält man eine neue Verteilung mit fo en gensc ten:

si −

0,843 51,659 2

n = 31

das arithmetische Mittel ist immer Null )0( =z die Standardabweich )1( =zs ung ist immer 1

Page 26: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 26 von 51

3. Bivariate Analyse

• bei der bivariaten Analyse geht es darum, die Beziehung (Assoziation, Korrelation) zweier Variablen zueinander zu untersuchen

• Konkret: es geht darum, Maßzahlen zu errechnen, die die Stärke (und die Richtung) des Zusammenhangs zwischen zwei Variablen ausdrücken

• Diese Maßzahlen werden bezeichnet als Zusammenhangsmaße, Korrelationskoeffizienten oder Assoziationsmaße

aße für nominalskalierte Variablen3.1 Zusammenhangsm

Unters inalskalierten

ariablen, kann man deren Häufigkeiten in einer Kreuztabelle darstellen:

) und Beschäftigtenstatus (Variable Y) (Kontingenztabelle)

ter Σ

• Chi-Quadrat (χ 2 ) basierte Maßzahlen: Phi, Cramers V,

Kontingenzkoeffizient C • Um diese Koeffizienten berechnen zu können, muss vorher Chi-Quadrat

berechnet werden:

ucht man den Zusammenhang zwischen zwei nomV Bsp.: Zusammenhang zwischen Lohnzufriedenheit (Variable X

Arbeiter Angestell

Geringe Lohnzufriedenheit

40 (Zelle a)

20 (Zelle b)

60

10 30Hohe ohnzufriedenheit (Zelle c)

(Zelle d)

40 LΣ 50 50 100

• Für die Berechnung von Chi-Quadrat muss zunächst aus der

s müssen

• Eine Kreuztabelle, in der die beobachteten (absoluten) Häufigkeiten ) eing s n Kontingenztabelle

lle r die warteten Häufigkeiten ( ) eingetragen sind, nennt man Indifferenz elle

äufi iten sind die Häufigkeiten, die man in jeder Zelle der Kreuztabelle erwarten würde, wenn zwischen den beiden Variablen kein Zusammenhang besteht

Kontingenztabelle eine Indifferenztabelle erstellt werden bzw. edie erwarteten Häufigkeiten berechnet werden

(bf etragen ind, nennt ma

• Eine Kreuztabe , in de ertab

• Erwartete H gke

ef

Page 27: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 27 von 51

Be

rechnet werden die erwarteten Häufigkeiten für jede Zelle wie folgt:

f e eGesamtsummmeSpaltensumeZeilensumm ∗

=

Hier: Zelle a: 30

1005060

=∗

=ef

Geringe

Zelle b: 30100

5060=

∗=ef

Hohe Lohnzufried

elle c:Z 20100

5040=

∗=ef

Zelle d: 205040=

∗=f

100e

• Daerw

Hier ist die Kontingenztabelle zusammen mit der Indifferenztabelle dargestellt:

Arbeiter Angestellter Σ

Lohnzufriedenheit fb=40 fe=30

fb=20 fe=30

60

enheit fb=10 fe=20

fb=30 fe=20

40

Σ 50 50 100

nun die erwarteten Häufigkeiten die Häufigkeiten sind, die man arten würde, wenn die beiden Variablen statistisch voneinander

unabhängig sind (also kein Zusammenhang besteht) deutet die Differenz

einen Zusammenhang zwischen den beiden Variablen hin • je stärker diese Differenz ist, desto stärker ist auch der Zusammenhang.

mgekeh klei e Dif nz, desto geringer ist der Zusammenhang onze Vergleichs zwischen den beobachteten und den ufigk beruht Chi-Quadrat:

zwischen den erwarteten und den beobachteten Häufigkeiten auf

U• Auf dies

rt: je ner di fereem K pt des

erwarteten Hä eiten

Wie anhand der Formel sichtbar, nimmt Chi-Quadrat den Wert Null an, wenn alle fb´s und fe´s gleich sind

efefbf 2)(

2−

= ∑χ

Page 28: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 28 von 51

Berechnung von Chi-quadrat (Hierfür ist wieder die Anfertigung einer Arb t

elle fb fe fb- fe (fb- fe)2

ei stabelle sinnvoll):

Z

e

eb

fff 2)( −

• Der χ 2-Wert variiert zwischen 0 (kein Zusammenhang) und n (perfekter

Zusammenhang) • Zur besseren Interpretation der genauen Stärke des Zusammenhangs

werden nun die Chi-Quadrat basierten Maßzahlen (Phi, Cramers V, Kontingenzkoeffizient C) berechnet:

• Sie sind deswegen besser zu interpre e nur Werte zwischen 0 (kein Zusammenhang) und 1 (perfek Zusammenhang) annehmen.

Ph

Hier:

(für Tabellen größer als 2x2)

tieren, da siter

A 40 30 10 100 3,333 B 20 30 -10 100 3,333 c 10 20 -10 100 5 d 30 20 10 100 5 Σ=16,666 =

χ2

i (Φ) (für 2x2 Tabellen bzw. Kreuztabellen mit 4 Zellen)

Cramers V

mit

)1;1min( −−⋅ crn

= Anzahl der Zeilen („rows“) = Anzahl der Spalten („columns“)

rechnung ein; z.B.: bei 3x4 Tabellen

sieht die Formel so aus:

2

=V χ

rcmin = Nur der kleinere Wert geht in die Be

n

2χ=Φ

4081,0100

666,16 ==Φ

)13(

2

−⋅=

nV χ

Page 29: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 29 von 51

Kontingenzkoeffizient C (für beliebige Tabellen)

d V

nC

+= 2χ

Merke:

d C = 0 • Wenn Φ = 1, dann ist χ 2 = n • Φ un sind identisch bei 2x2 Tabellen

rozentsatzdifferenz

• Wenn χ 2 = 0 , dann ist auch Φ = 0, V = 0 un

P

• Ein weiteres, sehr einfaches Assoziationsmaß ist die sog. S.199ff.

.2 Zusammenhangsmaße für ordinalskalierte Variablen

Prozentsatzdifferenz: vgl. dazu Benninghaus, a.a.O.,

3

pearmans Rho (rs) (auch: Rangkorrelationskoeffizient)

• • die Berechnung erfolgt mit folgender Formel:

n = Anzahl der Fälle i)2

Vorgehen

1. Umwandlung der Messwerte in Rangplätze 2. Rangplatzdifferenzen bilden 3. alle Differenzen quadrieren und aufsummieren 4. Berechnung von rs

S

rs beschreibt den Zusammenhang zwischen zwei Rangreihen

261

∑⋅−= id

r)12( −⋅ nn

s

mit:

Σ di2 = Summe der quadrierten Rangplatzdifferenzen = Σ(xi - y

sweise:

Page 30: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 30 von 51

Bsp.: (aus: Benninghaus, a.a.O., S. 267ff.) soll der Zusammenhang zwischen den beiden (als

ordinalskaliert aufgefassten)Magistergrade“ und der Var oktorgrade“

• D.h. es soll herausgefuMagistergrade verleih le Doktorgrade vergeben

• Wenn dies so wäre, müsste der Zusammenhang zwischen den beiden Variablen recht stark sein

N Y

Untersucht werden Variablen X „Anzahl der verliehenen iable Y „Anzahl der verliehenen Dnden werden, ob Universitäten, die viele

en, gleichzeitig auch vie

r Universität X

Verliehene Magistergrade

Verliehene Doktorgrade

1 A 182 39

2 B 156 49 C 131 32 3

4 D 110 35 E 109 5 62

6 F 109 43 7 G 95 57

76 35 60 35

11 K 59 57

en, i mit

hen ne ade

8 H 82 46 9 I 10 J

• Zunächst werden für die Variablenwerte beider Variablen Rangplätze

vergeb d.h. die Un der höchsten Anzahl an verliehenen Magister- bzw. Doktorgraden bekommt den Platz 1 zugewiesen, die mit der zweithöchsten Anzahl bekommt Platz 2 usw.:

Nr Universität X

Verlie e Magistergrade

Y

VerlieheDoktorgr

Xi

Rangplatz

Yi

Rangplatz

1 A 182 39 1 7

2 B 156 49 2 4 C 131 32 3 11 D 110 35 4 9 E 109 62

3 4 5 5,5 1 6 F 109 43 5,5 6 7 G 95 57 7 2,5

76 35 9 9 60 35

11 K 59 57 11 2,5

8 H 82 46 8 5 9 I 10 J 10 9

Page 31: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 31 von 51

• Zu beachten ist hier folgendes: Weisen mehrere Objekte die gleiche Merk lsausprägu uf („Ties“, s.u.), dann wird aus diesen Rangplätzen das arithmetische Mittel gebildet:

• z.B.: iversität E F haben be 109 verliehene Magistergrade. Demn h würden s ie Rangplät und 6 bek en. Das arithmetische Mittel aus diesen beiden Rangplätzen berechnet sich dann: (5+6)/2 = 5,5; d.h. Universität E und F bekommen jeweils den Rangplatz 5,5 zugewiesen

= 9] Ansch rt (di

2 ) und au

Nr Un Y Xi Yi di di2

i -Yi)2

ma ng a

Un und ideac ie d ze 5 omm

• Analog dazu verläuft die Berechnung der Rangplätze der verliehenen Doktorgrade für Universität G und K [(2+3)/2 = 2,5], sowie für Universität D, I und J [(8+9+10)/3

ließend werden die Rangplatzdifferenzen (di) gebildet, quadriefsummiert(Σ di

2):

iversi X tät Verliehene

Magistergrade Verliehene

Doktorgrade Rang

platz

Rang

platz

(Xi -Yi) (X

1 A 182 39 1 7 -6 36

2 4 B 156 49 2 4 -2 C 131 3 32 3 11 -8 64

4 D 110 35 4 9 -5 25 5 E 109 -4,5 20,25 62 5,5 1

95 57 7 2,5 4,5 20,25 82 46 8 5

10 J 60 35 10 9 1 1 11 K 59 57 11 2,5 72,25 8,5 Σ 252

el t we

5 1315

(116

6 F 109 43 5,5 6 -0,5 0,25 7 G 8 H 3 9 9 I 76 35 9 9 0 0

Nun können alle Werte in die Form eingesetz rden:

1454,020121

)1112521 2 −==

−⋅

−=sr

Zur Interpretation: • Generell kann rs Werte annehmen zwischen –1 (perfekt negativer

enhang) • Ein Wert von 0 oder nahe 0 bedeutet, beide Variablen sind unabhängig

voneinander

Zusammenhang) und +1 (perfekt positiver Zusamm

Page 32: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 32 von 51

• hier liegt mit –0,14545 kein Zusammenhang vor, denn in den Sozialwissenschaften spricht man erst ab einem Korrelationswert von 0,2

on einem positiven (oder: negativen) Zusammenhang iele

le

Kend Die L n Bezug auf ihre Rangplätze (und deren Differenzen) untersucht werden, sondern im

inblick auf konkordante und diskordante Objektpaare.

sp.: Konkordante Paare

Schüler X: Mathematiknote Y: Physiknote

(oder: -0,2) vzwischen 2 Variablen. Inhaltlich bedeutet dies: Universitäten die vMagistergrade verleihen, müssen nicht zwangsläufig auch vieDoktorgrade verleihen.

alls tau Koeffizienten (tau-a, tau-b, tau-c)

ogik dieser Koeffizienten basiert nicht darauf, dass Objektpaare i

H B

A 5 5 B 4 4

• Das Schülerpaar A und B hat bei beiden Variablen die gleichen

teht somit dieselbe Rangordnung zwischen beiden aar ist konkordant

Bsp.: Diskordante Paare

Schüler X: Mathematiknote Y: Physiknote

Ausprägungen. Es besSchülern; das Schülerp

C 1 3 D 2 2

Hier handelt es sich um eine inverse Bezie

• hung im Hinblick auf die Rangordnung: Während C in Mathe besser ist als D, ist D in Physik

r ist diskordant (auch: inkonsistent, negativ oder gegenseitig)

Kendalls tau-a Koeffizient ist nun definiert als die Differenz der konkordanten

nd diskordanten Paare, dividiert durch die Gesamtzahl der möglichen Paare:

it:

besser als C. Das Paa

u

T

2)1( −⋅

−=− nn

dNcNaau

MNc = Anzahl der konkordanten Paare Nd = Anzahl der diskordanten Paare

Page 33: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 33 von 51

2)1( −n

d „Ties“?

n = Gesamtzahl aller möglichen Paare (n = Anzahl der Objekte)

• Tau a findet Anwendung, wenn nur konkordante und diskordante Paare

vorliegen. Liegen zusätzlich sog. „Ties“ (Verknüpfungen, Bindungen) .

Was sin

Schüler X: Mathematiknote Y: Physiknote

vor, dann ist tau-b anzuwenden

E 3 2 F 3 4

Zwei Objekte sind verknüpft (eng • l.: „tied“), wenn sie bezüglich einer oder

blen denselben Wert haben. In diesem Beispiel ist das Paar bezüglich der X-Variablen verknüpft; es ist „ x“

tau-b berücksichtigt „ties“:

obei

are Ty

Zur Interpretation:

• hmen zwischen –1 (perfekt negative Beziehung; nur diskordante Paare) und +1 (perfekt positive

Me

• Treten keine „ties“ auf, wird tau-a verwendet, ansonsten tau-b n den maximalen Wert von +1 oder –1 nur erreichen, wenn

eitere Zusammenhangsmaße für ordinalskalierte Variablen: nwichtig)

Some dGamma

beider Varia•

tied on

)()( yTdNcNxTdNcN ++⋅++dNcN

bTau−

=−

wTx = Anzahl der „tied on x“ Pa

= Anzahl der „tied on y“ Paare

Tau-a und tau-b können Werte anne

Beziehung; nur konkordante Paare).

rke:

• Tau-b kanbeide Variablen die gleiche Zahl von Ausprägungen aufweisen

WTau-c (u

rs Koeffizienten

vgl. Benninghaus, a.a.O., S.232-263

Page 34: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 34 von 51

3.3 Zusammenhangsmaße für metrische Variablen

Maßzahl für die Stärke des Zusammenhangs zweier risch skalierter Variablen, die in einer linearen Beziehung zueinander

sten

Determinationskoeffizienten r2 (s. u. → Regressionsanalyse)

erechnung über die Kovarianz:

Pearsons r (auch: Produkt-Moment-Korrelationskoeffizient)

• Pearsons r ist eine met

hen • Berechnet wird r über die Kovarianz oder über de

B

xsyxr ),cov(

= ys

wobei: yyxx ii∑ −− ))(( => Kovarianz

nyx =),cov(

nxx

s ix

∑ −=

2)( => Standardabweichung der x-Variablen

nyy

s iy

∑ −=

2)( => Standardabweichung der y-Variablen

ach Umformung ergibt sich folgende Berechnungsformel:

n

∑ ∑∑

−−

−−=

22 )()(

))((

yyxx

yyxx

ii

ii r

sp.: Untersucht werden soll der Zusammenhang zwischen den Variablen

Person Lebensalter (X) Nettoeinkommen in Euro (Y) ------------------------------------------------------------------ A 22 1200

28 2400 32 1400

44 2800

BLebensalter (X) und monatliches Nettoeinkommen (Y)

BCD 36 2600 E 40 1800 FG 48 3200 H 52 1600 I 56 3000 J 62 2000

Page 35: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 35 von 51

Wobei: n = 10; x = 42; y = 2200

C 2 1400 -10

Zur Berechnung empfiehlt sich wieder die Erstellung einer Arbeitstabelle: Person x y xx − yy − 2)( xxi − 2)( yyi − ))(( yyxx ii −−

G 48

I 56 3000 14 800 196 640000 11200 J 62 2000 20 -200 400 40000 -4000 10 1472 4400000 32000

ch setz in die rm

8 0≈44 00

=

i i

22 1200 -20 -1000A B

400 1000000 20000 28 2400 -14 200 196 40000 -2800 3 -800 100 640000 8000

D 36 2600 -6 400 36 160000 -2400 E 40 1800 -2 -400 4 160000 800 F 44 2800 2 600 4 360000 1200

3200 6 1000 36 1000000 6000 H 52 1600 10 -600 100 360000 -6000

Σ Σ Σ Σ Na Ein en Fo el erhält man:

39,0001472

32000r

Zur Interpretation

• Auch Pearsons r kann Werte zwischen –1 (perfekt negativer sitiver Zusammenhang) annehmen,

wobei ein Wert von 0 oder nahe 0 keinen Zusammenhang zwischen den beiden Variablen ausdrückt.

• Hier liegt eine Korrelation von 0,398 vor; dies bedeutet, dass ein geringer positiver Zusammenhang existiert. Inhaltlich bedeutet dies folgendes: Mit

denz steigt mit zunehmenden Alter auch das Einkommen Merke

- handelt werden und Pearsons r darauf

.3.1 Bivariate lineare Regression / Regressionsanalyse

Zusammenhang) und +1 (perfekt po

geringer Ten

Pearsons r ist identisch mit Spearman´s rho genau dann, wenn die Rangplätze als Messwerte beberechnet wird

3

lt en zur Erstellung von Prognosen.

• Die Regressionsanalyse erlaubt es nun, auf Basis der Kenntnis einer

unabhängigen Variablen eine abhängige vorherzusagen. Damit erhäman ein Verfahr

Page 36: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 36 von 51

• Darüber hinaus kann durch den Determinationskoeffizienten r2 der prozentuale Anteil bestimmt werden, mit dem eine unabhängige Variable

• iable fungiert

ängige

zu erklärende abhängige

• maEinkom mgekehrt.

Da

• Variablen veranschaulicht man sich anhand eines Streudiagramms

• Dort wird jede Untersuchungseinheit in einem Koordinatensystem durch äsentiert. Der Abstand in horizontaler Richtung (x-

Achse) entspricht dabei dem Wert für das unabhängige Merkmal, der

• ng beider

eine abhängige erklären / vorhersagen kann. Vorraussetzung sind zwei metrisch skalierte Variablen, von denen die eine als unabhängige, die andere als abhängige Var

Im obigem Beispiel ist die Variable „Lebensalter“ die unabhVariable (wird als X-Variable bezeichnet); die Variable „Nettoeinkommen“ ist die

Variable (wird als Y-Variable bezeichnet) Welche Variable abhängig oder unabhängig ist, entscheiden nicht

thematische, sondern sachlogische Überlegungen: die Höhe des mens hängt ab vom Lebensalter und nicht u

s Streudiagramm

Die graphische Visualisierung der Beziehung beider erhobener

einen Punkt repr

Abstand in vertikaler Richtung (y-Achse) dem des abhängigen. Die so entstehende Punktewolke lässt die Art der BeziehuVariablen schnell erkennen: ob sie stark oder schwach, linear oder nicht-linear, positiv der negativ ist Für obige Beispielvariablen erhalten wir folgendes Streudiagramm:

Lebensalter in Jahren (x)

706050403020

mon

atl.

Net

toei

nkom

men

in E

uro

(y)

0

0

2000

1000

• Erkennbar wird bereits, dass (bis zu einem gewissen Grad) höheres Alter auch höheres Einkommen bedeutet. Dass dies nicht für alle Personen gilt, hat ja bereits die schwache Korrelation von r = 0,398 angezeigt.

40 0

30 0

Page 37: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 37 von 51

Die Regressionsgerade

• Die Gleichung der Regressionsgeraden lautet (wie jede andere Gleichung einer Geraden auch): )(ˆ ii xbay += Mit der Regressionsgeraden lassen sich nun Werte vorhersagen, g• enauer:

ieser Geraden liegen sind Vorhersagewerte (auch: Regressionswerte) und werden mit bezeichnet

ktewolke des Streudiagramms am besten

• e rglichen mit jeder

• rade erhält man mit der sog. Methode der kleinsten

1. n

eich Null sein: von

die Werte, die auf diy

repräsentiert. Diese Gerade muss so gelegt werden, dass die Abweichung aller Punktim Diagramm von dieser Geraden minimal ist, ve

• Damit eine Vorhersage möglichst fehlerfrei geschieht, gilt es eine Gerade zu finden, die die Pun

anderen Geraden, die sich theoretisch in die Punktewolke einzeichnen ließe Eine solche GeQuadrate. Diese Methode enthält zwei Regeln:

Die Summe der Abweichungen der einzelnen yi -Werte von der Geradesoll gl ∑ =− 0)ˆ( ii yy

• Nur wenn eine Gerade diese Eigenschaften erfüllt, ist sie als Regressionsgerade zu

2. die Summe der quadrierten Abweichungen der einzelnen yi -Werteder Geraden soll ein Minimum ergeben: ∑ −( iy = min)ˆ 2

iy

Punktewolke am besten, verglichen mit jeder anderen Geraden. Damit nun die Regressionsgerade die Bed

bezeichnen; nur dann repräsentiert sie die

• ingungen der Methode der kleinsten Quadrate erfüllt, muss die Konstante a sowie der

mit Regressionskoeffizient b aus der Gleichung der Geraden ˆ i ay =folgenden Formeln bestimmt werden:

∑ −− )((),cov( yyxxyx

)( ixb+

xbya −= ∑ −== 22 )( xxs

bi

ii

x

e: Die Konstante a ist der Schnittpunkt d.h. es ist der Wert, den y annimmt, we

)

Merk• der Geraden mit der y-Achse;

nn x = 0 ist • Der Regressionskoeffizient b ist die Steigung der Geraden, d.h. steigt x

um eine Einheit, dann steigt y um den Wert b. Ist b positiv, dann steigt die Gerade und beide Variablen stehen in

n stehen in negativer

e parallel zur x-Achse und beide Variablen stehen in keiner Beziehung zueinander

positiver Beziehung zueinander; ist b negativ dann fällt sie und beide Variable

Beziehung zueinander; Ist b gleich Null, dann verläuft die Gerad

Page 38: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 38 von 51

• DieBeispielvariablen (s.o.) leicht bestimmen:

Gleichung der Regressionsgeraden lässt sich nun für unsere obigen

147232000

=

==

a

b 739,21

962,1286)42(739,212200 =−

Damit lautet die Gleichung der Regressionsgeraden:

)(739,21962,1286ˆ ixy +=

Lebensalter in Jahren (x)

706050403020

mon

atl.

Net

toei

nkom

men

in E

uro

(y)

4000

3000

2000

1000

Anhand der Interpretation des Koeffizienten b wird deutlich:

• Steigt das Lebensalter um 1 Jahr, steigt das Einkommen um 21,739 Euro • D.h.: Pro Jahr steigt das Einkommen um den Wert b • Die Steigung b hat damit die Einheit: Euro pro Lebensjahr

etzen wir für x nun beliebige Werte ein, dann erhalten wir -Vorhersagewerte: ieser Daten – mit

hrige Person mit

S i

• Eine 30jährige Person kann beispielsweise – auf Basis dy

einem monatlichem Nettoeinkommen von durchschnittlich 132,1939)30(739,21962,1286 =+ Euro rechnen. Eine 31jä

1960,871, also genau 21,739 Euro mehr.

Page 39: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 39 von 51

Der Determinationskoeffizient r2

• Der Determinationskoeffizient beschreibt den (prozentualen) Anteil der durch die x-Variable erklärten bzw. vorhergesagten Streuung an der Gesamtstreuung von y

• r2 ist ein Maß der proportionalen Fehlerreduktion (PRE) n

Zur Logik von r2:

• d.h.: die beste Vorhersage der y-Variablen ohne Kenntnis der x-Variableist das arithmetische Mittel y . Der Vorhersagefehler, der dabei entsteist die Streuung der beo hte y

Vorhersagefehler, der dabei entsteht, ist die Streuung der beobachteten Werte um die Regressionsgerade: dies ist die nicht-erklärte Streuung

rianzzerlegung

ht, bac ten Werte um : dies ist die

Gesamtstreuung (Varianz von y) mit Kenntnis der x-Variablen ist die

eraden. Der

Va

ein Streuungsanteil von y, der nicht durch die x-Variable rhergesagt wird (sondern durch andere Faktoren, die uns

Dieser Zu verdeutlicht:

die beste Vorhersage der y-Variablen Regressionsgerade bzw. die Punkte auf der Regressionsg

• Die Gesamtstreuung von y setzt sich aus zwei Komponenten zusammen:

ein Streuungsanteil von y, der durch die x-Variable erklärt/vorhergesagt wird

erklärt/vounbekannt sind)

sammenhang wird in folgender Abbildung schematisch

Damit ergibt sich folgende Gleichung: Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung

Page 40: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 40 von 51

Die Gesamtstreuung ist nichts anderes als die Varianz von y:

nyy

s iy

∑ −=

22 )(

Graphisch dargestellt:

Die erklärte Streuung beschreibt die Streuung der vorhergesagten Regressionswerte um das arithmetische Mittel der abhängigen y-Variablen:

nyy

s iy

∑ −=

22

ˆ

)ˆ(

Graphisch dargestellt:

Page 41: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 41 von 51

Die nicht-erklärte Streuung beschreibt die Streuung der beobachteten Werte um die vorhergesagten Regressionswerte:

nyy

s iyy

∑ −=−

22

)ˆ(

)ˆ(

Graphisch dargestellt:

ende Gleichung: Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung

daraus folgt:

Damit erhalten wir folg

2)ˆ(

2yyyy sss −+=⇔

(

∑∑∑∑∑∑ −+−=−⇔−

+−

=− 222

222

)ˆ()ˆ()()ˆ()ˆ()(

yyyyyyn

yyn

yyn

yyiii

iii

Dividieren wir nun beide Seiten mit ∑ − 2)( yyi , so erhalten wir:

∑∑

∑∑∑

−+

−=

−2

2

2

2

2

2

)()ˆ(

)()ˆ(

)()(

yyyy

yyyy

yyyy

i

i

i

i

i

i ∑ Daraus folgt:

∑∑ −+

−= 22 ))( yyyy i

i

i

i ∑ ∑ −− 22 )ˆ()ˆ( yyyy1

Page 42: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 42 von 51

Die letzten zwei Schritte noch einmal in Worten:

iationGesamtriationerklärteVanicht

iationGesamtriationerklärteVa

iationGesamtiationGesamt

var.

varvarvar

+=

= erklärter Variationsanteil + nicht erklärter Variationsanteil Der durch x erklärte Variationsanteil wird nun mit r2 bezeichnet:

+ (1-r2)

Demnach berechnet sich der Determinationskoeffizient r2 über die Formel:

Daraus folgt: 1

1 = r2

∑∑

−== 2

22

)()ˆ(

var yyyy

iationGesamtriationerklärteVa

i

i

• Demzufolge repräsentiert der Determinationskoeffizient jenen Anteil der Gesamtvariation von y, der durch x erklärt, vorhergesagt oder „determiniert“ wird

• Der sog. Koeffizient der Nichtdetermination (1-r2) gibt den Anteil an, der rch die x-Variable erklärt wird; er sagt dem Forscher also,

inwieweit andere Faktoren einen Einfluss auf die abhängige Variable

• So ist beispielsweise die Höhe des monatl. Nettoeinkommens (y) nur zu erklären; den

n (wie z.B.

erson x y

r

nicht du

haben

einem gewissen Teil durch das jeweilige Lebensalter (x) zuRest bestimmen andere, uns unbekannte Faktore„Bildungsniveau“, „Leistungsbereitschaft“, etc.)

Zur Berechnung von r2 (bezogen auf obige Beispielvariablen): P yyi − 2)( yyi − iy yyi −ˆ 2)ˆ( yyi −

A 22 1200 -1000 1000000 1765,2200 -434,7800 189033,65 B 28 2400 200 40000 1895,6540 -304,3460 92626,488 C 32 1400 -800 640000 1982,6100 -217,3900 47258,412 D 36 2600 400 160000 2069,5660 -130,4340 17013,028

40 1800 -400 160000 2156,5220 -43,47800 1890,3365 44 2800 600 360000 2243,4780 43,478000 1890,3348 3200 100

E F 65 G 0 1000000 2330,4340 130,43400 17013,028 H 52 1600 -600 360000 2417,3900 217,39000 47258,412

56 3000 800 640000 2504,3460 304,34600 92626,488 62 2000 -200 40000 2634,7800 434,78000 189033,65

I J

Σ10 Σ4400000 Σ695643,83

Page 43: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 43 von 51

1581,04400000

695643,832 ==r

lizieren wir r2 mit 100, so erhalten wir eine bequ Multip em zu interpretierende

rozentangabe: l an der

es tvari z der Var ble „monatl. Nettoeinkommen“ beträgt 15,81%. Der Koeffizient der Nichtdeterm b 0Da t ble n ca V za e Be chnu von be rs

Du Qu un P r i , sofern r be ts b t i 9An sem bn rd , l ast 0,4 lediglich 16% der Gesamt e dUmgekehrt kann Pearsons r über r2 (sofern bekannt) bestimmt werden mit:

PDer durch die Variable „Lebensalter“ erklärte VarianzanteiG am an ia

ination eträgt: 1 – 0,1581 = ,8419 mi ibe . 84% arian nteil un rklärt.

re ng r2 ü r Pea ons r: • rch adrier g von earsons kann r2 d rekt bestimmt werden

rei ekann st: 0,3 82 = 0,158 • die Erge is wi deutlich dass bei einer Korre ation von f

varianz rklärt wir . •

2rr =

• Unter „Modellzusammenfassung“ findet sich Pearsons r mit 0,398, sowr2 mit 0,158 Zu beachten ist hier, dass r ohne V

, dann jedoch wird nicht sichtbar, ob es sich um eine negative oder positive Beziehung handelt

Eine m rzeugt i. d. R

lgendermaßen aus:

Regressionsanalyse mit SPSS

it der Statistik-Software SPSS durchgeführte Regressionsanalyse e. einen Output mit drei Tabellen. Mit obigen Beispielvariablen sieht es

fo

680,47M e1

Standardf

.

Modellzusammenfassung

,398a ,158 ,053od ll R R-Quadrat

KorrigiertesR-Quadrat

ehler desSchätzers

Einflußvariablen : (Konstante), Lebensalter in Jahren(x)

a

ie

• orzeichen abgedruckt wird. Ob es sich um eine positive oder negative Beziehung handelt, ist dem Vorzeichen der Steigung b zu entnehmen (s.u.).

zu vernachlässigen, da es sich um eine bivariate Regression handelt. Bedeutsam wird es erst bei einer multiplen

ierte r2 zur Interpretation herangezogen werden muss.

• Das korrigierte r2 ist hier

Regression. Sobald nämlich mehrere unabhängige Variablen in die Analyse einbezogen werden, erhöht sich r2 künstlich, sodass in diesem Falle das korrig

Page 44: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 44 von 51

ANOVAb

695652,2 1 695652,17 1,502 ,255a

3704348 8 463043,484400000 9

RegressionResiduenGesamt

Modell1

Quadratsumme df

Mittel derQuadrate F Signifikanz

Einflußvariablen : (Konstante), Lebensalter in Jahren (x)a.

Abhängige Variable: monatl. Nettoeinkommen in Euro (y)b.

• A“ (analysis of variance) finden wir die Quadratsumme der

“ = 3704348)

• st er

erklärten Variation an der Gesamtvariation:

Unter „ANOVGesamtvariation („Gesamt“ = 4400000), die sich zusammensetzt aus der Quadratsumme der erklärten Variation („Regression“ = 695652,2) und der nicht-erklärten Variation („Residuen

695652 + 3704348 = 4400000

Deutlich wird hier auch noch einmal die Logik von r2: Wie erkennbar, ider Determinationskoeffizient nichts anderes als der (relative) Anteil d

1581,044000006956522 ==r

Regressionsgeraden: Konstante a = 1286,957 sowie Steigung b = 21,739Die Gleichung der Regressionsgeraden lautet demnach:

i

Koeffizientena

2 1,660 65

Mode1

Nicht standardisierteKoeffizienten

Standardisierte

Koeffizienten

nz

a.

1286,957 775,37 ,1321,739 17,736 ,398 1,226 ,25

(Konstante)Lebensalter in Jahren (x)

ll BStandardf

ehler Beta T Signifika

Abhängige Variable: monatl. Nettoeinkommen in Euro (y)

• Unter „Koeffizienten“ finden wir die Komponenten der Gleichung der

)(739,21957,1286ˆ xy +=

Page 45: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 45 von 51

4. Analyse von Kreuztabellen mit SPSS / Zeilen-, Spalten- u. Gesamtprozentwerte

• Mit SPSS ist es möglich, sich Kreuztabellen in mehreren Varianten

ausgeben zu lassen, so z.B. mit den beobachteten und den erwarteten Häufigkeiten oder zusätzlich versehen mit Zeilen-, Spalten- und Gesamtprozentwerten

Hier wurden folgende zwei Variablen kreuztabuliert:

• Geschlecht (Mann, Frau)

• Telefonnummer ins Telefonbuch eingetragen (Ja, Nein)

E<R> Kreuztabelle

1173 1379 25521159,7 1392,3 2552,0

46,0% 54,0% 100,0%

86,2% 84,4% 85,2%

201,3 241,7 443,0

6,3% 8,5% 14,8%1361 1634 2995

1361,0 1634,0 2995,0

45,4% 54,6% 100,0%

100,0% 100,0% 100,0%

45,4% 54,6% 100,0%

AnzahlErwartete Anzahl% vonTELEFONNUMMER INTELEFONBUCHEINGETRAGEN% von GESCHLECHT,BEFRAGTE<R>

Erwartete Anzahl% von

der Gesamtzahlnzahl

Erwartete Anzahl

LEFONBUCH

BEFRAGTE<R>% der Gesamtzahl

JATELEFONNUMMERI LEFONBUCHEINGETRAGEN

G sa

MANN FRAU

GESCHLECHT,BEFRAGTE<R>

Gesamt

Anzahl

• In der Zeile „Anzahl“ sind die beobachteten Häufigkeiten eingetragen Erwartete Anzahl

• In der Zeile „Erwartete Anzahl“ sind die erwarteten Häufigkeiten eingetragen • Wie wurden sie berechnet?

TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN * GESCHLECHT, BEFRAGT

N TE

39,2% 46,0% 85,2%188 255 443

% der GesamtzahlAnzahlNEIN

42,4% 57,6% 100,0%

13,8% 15,6% 14,8%

TELEFONNUMMER INTELEFONBUCHEINGETRAGEN% von GESCHLECHT,BEFRAGTE<R>%Amte

% vonTELEFONNUMMER INTEEINGETRAGEN% von GESCHLECHT,

Page 46: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 46 von 51

Zeilenprozentwerte • In der Zeile „% von TELEFONNUMMER INS TELEFONBUCH EINGETRAGEN“ addieren

sich die Prozentwerte jeweils zeilenweise zu 100%. Zu lesen sind die Prozentwerte wie folgt:

• von denen, die ihre Telefonnummer ins Telefonbuch eintragen, sind 46,0% männlich und 54,0% weiblich

• von denen, die ihre Telefonnummer nicht ins Telefonbuch eintragen lassen, sind 42,4% männlich und 57,6% weiblich

Die Basis bildet jedes Mal die Zeilensumme!

• Wie wurden die Prozentwerte berechnet?

Spaltenprozentwerte

• In der Zeile „% von GESCHLECHT, BEFRAGTE<R>“ addieren sich die Prozentwerte jeweils spaltenweise zu 100%

• Von allen befragten Männern lassen sich 86,2% ins Telefonbuch eintragen, während 13,8% dies nicht tun

• Von allen befragten Frauen lassen sich 84,4% ins Telefonbuch eintragen, während 15,6% dies verweigern

Die Basis bildet jedes Mal die Spaltensumme!

• Wie wurden die Prozentwerte berechnet?

Ge

die Gesamtsumme die Basis!

t herauszufinden, wie die Gesamtprozentwerte (% von esen sind

• nfacht die Interpretation und dient der eigenen

samtprozentwerte

Hier bildet jedes Mal

• Versucht selbsGesamtzahl) zu lWie wurden die einzelnen Prozentwerte berechnet? Das Nachvollziehen des Rechenweges vereiKontrolle!

Page 47: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 47 von 51

5. Diverse Übungsaufgaben

Studenten darüber, wie viel Stunden sie in der Woche arbeiten, haben sich folgende Werte

den absoluten, relativen und prozentualen

-Leaf-Display

Gegeben sind folgende 12 Messwerte: 5, 5, 5, 4, 4, 2, 0, 0, 10, 11, 13, 13. Transformieren sie die Daten so, dass sie einen Mitte

4) Stellen Sie eine Kreuztabelle auf, bei der Chi-Quadrat den Wert Null annimmt und mindestens eine der Zellen eine

5) Bitte beurteilen Sie den statistischen Zusammenhang der folgenden Kontingenztabelle.

a e

enhang

e Beziehung zwischen den beiden Variablen er als Null Chi-Quadrat ist kleiner als Null Chi-Quadrat ist gleich Null

b) Welchen Wert erreicht Phi?

Welche der folgenden Maßnahme(n) ist (sind) bei einer ordinalskalierten Variablen angebracht?

Bildung der arithmetischen Differenz zwischen zwei Werten Änderung der Benennungen der Skalenwerte Feststellung, dass ein Variablenwert höher ist als ein anderer

Multiplikation jedes Wertes mit einer Konstanten und anschließende Addition einer Konstanten

euung auf?

Wenn die Verteilung sehr flach ist

Messwerte mit der gleichen Häufigkeit auftreten Wenn alle Me Wenn die Varianz genauso groß ist wie der Mittelwert Wenn die Varianz Wenn die Standard Wenn die Standard Wenn der Range g Wenn die Verteilung extrem rechts- oder linksschief ist

einen Messwert gibt

X1 X2

1) Aus einer Befragung von 20ergeben:

40, 40, 30, 30, 20, 20, 20, 20, 16, 16, 16, 12, 12, 6, 6, 6, 4, 4, 0, 0

a) Erstellen Sie mit diesen Werten eine Tabelle mitHäufigkeiten.

b) Berechnen Sie folgende Parameter: Arithmetisches Mittel, Median, Modus, Range, Varianz, Standardabweichung

c) Erstellen Sie einen Boxplot sowie ein Stem-And

2) In welcher Relation stehen in einer rechtsschiefen Verteilung das arithmetische Mittel, der Median und der Modus zueinander?

3)

lwert von 0 und eine Standardabweichung von 1 haben.

Häufigkeit ungleich Null aufweist

Y1 25 5 30

Y2 25 5 30

50 10 60

) W lche der folgenden Aussagen sind richtig ?

Es besteht ein mittlerer, positiver Zusamm Es besteht ein schwacher Zusammenhang Die Variablen stehen in Beziehung zueinander

Die Variablen sind statistisch voneinander unabhängig Es besteht eine perfekte Beziehung zwischen den Variablen Es besteht eine starkChi-Quadrat ist größ

6)

7) In welchen Fällen weist eine Verteilung keine Str

Wenn alle Messwerte gleich groß sind Wenn alle

sswerte mit dem Mittelwert übereinstimmen

gleich Null ist abweichung gleich Null ist abweichung gleich 1 ist leich der Standardabweichung ist

Wenn alle Messwerte mit dem Modus übereinstimmen Wenn es nur

Page 48: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 48 von 51

8) Worin unterscheiden sich Ordinalskala und Intervallskala? Bitte kreuzen Sie die richtige(n) Lösung(en) an.

chieden werden, während bei einer Intervallskala auch die exakten Abstände zwischen den Ausprägungen angegeben werden können.

Das Messen au ordinal Mess u b eutet nichts anderes als die Klassifikation von Untersuchungseinheiten hinsichtlich ihre esitz oder ichtbe ns einer Merkmalsausprägung, während bei einer Intervallskala die Merkmalsausprägungen ihrer Größe ch geo t werden können.

Während beim Messen auf ordinalem Messniveau exakte Abstände zwischen den verschiedenen Merkmalsausprägungen angegeben werden können, kann bei r Int lskala auch ein absoluter Nullpunkt angegeben werden.

Bei einer Ordinalskala w die inblick auf den Grad, in dem sie eine bestimmte Merkmalsausprägung besitzen, geordnet, während bei einer Intervallskala nicht nur verschiedene Ausprägungsgrade unterschieden werden, sondern auch die exakten Abstände zwischen ihnen angegeben werden können.

pfindlich gegenüber Extremwerten Daten berechnet werden

t zumindest nominalskalierte Variablen voraus Die Standardabweichung ist ein Gütemaß für das arithmetische Mittel

geordnete Reihe von Messwerten

38 % von 1000 Befragten für die Abschaffung der Statistikveranstaltung ausgesprochen. Wie viel Prozent aller befragten Studierenden haben sich dann

kann jede beliebige reelle Zahl sein esswerte ab

hmetisches Mittel von 8 berechnet. Später stellte sich heraus, dass die urden. Wie lautet der Mittelwert für die gesamte Stichprobe vom Umfang n

und Diplom- Noten festgehalten:

8 9 10

Bei einer Ordinalskala können an Objekten nur verschiedene Ausprägungen unters

f em nivea eds B ens N

nasitzerdne

eine Objekte i

ervalm Herden

9) Welche Aussage(n) ist (sind) richtig?

Der Median ist anfällig für Extremwerte Der Median eignet sich für nominalskalierte Variablen Der Median eignet sich nicht für extrem schiefe Verteilungen Der Median ist ein Gütemaß für das arithmetische Mittel Das arithmetische Mittel ist unem Der Modus kann nur für ordinale Das arithmetische Mittel setz

Der Median halbiert eine

10) Bei zwei Umfragen unter Studierenden haben sich einmal 60 % von 100 Befragten und einmal

für die Abschaffung der Statistikveranstaltung ausgesprochen?

11) Wie groß ist die Summe aller Abweichungen vom arithmetischen Mittel?

grundsätzlich eine positive Zahl

hängt von der Größe der einzelnen M ist immer gleich Null

12) Für eine Stichprobe vom Umfang n = 10 wurde ein aritbeiden Messwerte x11 = 1 und x12 = 3 vergessen w= 12?

13) Von 10 Studierenden sind die folgenden Vordiplom-

Student 1 2 3 4 5 6 7 Vordiplom 1 2 5 5 4 3 4 3 4 5 Diplom 1 1 4 4 3 2 5 4 4 4

a) Berechnen Sie den Rangkorrelationskoeffizienten nach Spearman. b) Interpretieren Sie das Ergebnis.

14) Acht Studenten wollen feststellen, ob ein Zusammenhang existiert zwischen ihrem Zeiteinsatz pro Woche zur Vorbereitung der

n bestehende Rangordnungen, zwischen denen der Rangkorrelationskoeffizient nach

Statistik-Klausur und der von ihnen erzielten Klausurnote. Sie erstellen dabei folgende Tabelle:

Student

1 2 3 4 5 6 7 8

Zeiteinsatz in Std. 20 18 16 24 25 15 11 8 Klausurnote 2.3 2.7 3.3 1.7 2.0 3.0 1.3 5.0

a) Berechnen Sie den Rangplatzkoeffizienten nach Spearman. b) Welche Schlussfolgerung ziehen Sie aus dem Ergebnis?

15) Bitte konstruieren Sie zwei aus 6 PaareSpearman 1 wird.

Paar: 1 2 3 4 5 6 ------------------------------------------------------------------

Rangordnung 1: Rangordnung 2:

Page 49: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 49 von 51

16) Welche Zusammenhangsmaße sind ab welchem Messniveau anwendbar?

Maßzahl nominal ordinal metrisch Tau-a Chi-Quadrat Gamma Prozentsatz- differenz Pearsons r Tau-b Spearmans Rho

Cramers V

17) Welche Eigenschaften besitzt das arithmetische Mittel?

l. Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so muss man das alte arithmetische Mittel mit dieser

Zahl multiplizieren, um das neue arithmetische Mittel zu erhalten. en Wert 0 addiert.

Das arithmetische Mittel verändert sich, wenn man eine Menge von Messwerten um einen weiteren Messwert 0 erweiter

Das arith etische Mittel ist immer größer als die Standardabweichung.

em Betrieb arbeiten 10 Personen. 5 Personen haben ein Monatseinkommen von 2500,- €, die übrigen 5 Personen haben ein etrieb stellt einen neuen, zusätzlichen Mitarbeiter als

von monatlich 10000,- € ein. Welche Auswirkungen ergeben sich dadurch auf den Modus, den Median, und das arithmetische Mittel der Monatseinkommen

Der Modus vergrößert sich. ian vergrö metische Mittel vergrößert sich. o i nd arithmetisches Mittel.

ei Gruppen A und B werden die Variablen X und Y gemessen. Beide Gruppen haben ungefähr gleiche Mittelwerte und

eiden Variablen vor, in Gruppe B jedoch eine etwa gleich große

s den Gruppen A und B bestehende Gesamtgruppe. b) Welche Korrelation erwarten Sie in der Gesamtgruppe (also für A und B zusammen)?

21) In einem Unternehmen wurden im ersten Halbjahr des Jahres 1999 für unterschiedliche Mengen eines Produktes die in der

r dieses Produkt berechnet:

Stück (X)

Gesamtkosten in 1000 DM (Y)

Das arithmetische Mittel trennt eine Verteilung immer in die unteren und die oberen 50%. Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so erhöht sich das arithmetische Mittel um diese Zah

Das arithmetische Mittel verändert sich auch, wenn man zu jedem Messwert d

t. m

18) In einEinkommen von jeweils 2600,-, 2700,-, 2800,-, 2900,- und 3000,- €. Der BFührungskraft mit einem Einkommen

aller Mitarbeiter?

Der Med ßert sich. Das arithEs zeigen sich keinerlei Auswirkungen auf M dus, Med an u

19) In zwriaVa nzen. In Gruppe A liegt aber eine positive Korrelation der b

negative Korrelation. a) Zeichnen Sie ein Streudiagramm für die au

20) Erläutern Sie das Prinzip zur Ermittlung der Regressionsfunktion nach dem Kriterium der kleinsten Quadrate.

folgenden Tabelle angegebenen Gesamtkosten fü

Mon Menge in 1000 at Januar 2

ebruar 3 30

F 35 März 4 55 April 6 75 Mai 7 80 Juni 8 85 a) Prüfen S fe eines Streudiagr mms, ob zwischen beiden Merkmalen ein Zusammenhang besteht und von welchem Typ

dieser Zu ge benenfalls ist. b) Ermitteln Sie die für die Regressionsgleichung y onskoeffizienten a und b. c) Berechne retie n Sie Pearsons Produkt-Moment-Korrelationskoeffizienten r.

22) Für den linearen Zusammenhang zwischen den Merkmalen „monatliche Mietausgaben in €“ (y) und „monatliches Nettoein “ (x urde nach der Methode der kleinsten Quadrate folgende Regressionsfunktion gefunden:

y´ = 0,2x + 100

h zu?

ie mit Hil asammenhang ge

=a+bx erforderlichen Regressin und interp re

kommen in € ) w

Welche der folgenden Aussagen trifft Ihrer Meinung nac

Page 50: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 50 von 51

Die Mietausgaben der untersuchten Haushalte betragen im Durchschnitt 20% des Einkommens. Die durchschnittlichen Mietausgaben betragen bereits 100 €, wenn der Haushalt keinerlei Einkommen besitzt.

die Mietausgaben das

monatlichen Nettoeinkommen von 1000 € liegen die monatlichen Mietausgaben durchschnittlich bei 300 €. uchten Haushalte zu einer Mietsteigerung von

0,2%. Je geringer das Einkommen der untersuchten Haushalte, desto geringer im durchschnitt die Mietausgaben.

23)

24) X

25) Welc B en Pearsons r und Spearmans Rho?

26) Wor g egressionsgleichung y=a+bx) Auskunft?

27) Worüber gibt der Regressionskoeffizient a (aus der Regressionsgleichung y=a+bx) Auskunft?

28) ommen hat folgenden Output ergeben:

odellzusammenfassung adrat Standardfehler des

Schätzers

Die Regressionsfunktion enthält einen Fehler, da bei Haushalten unter 125 € Nettoeinkommen Einkommen übersteigen. Bei einem

Eine Einkommenssteigerung von 1% führt im Durchschnitt der unters

Welchen Vor- oder Nachteil hat es, wenn bei Vorliegen einer deutlich nicht-linearen Beziehung zwischen 2 Variablen X und Y Pearsons r berechnet wird?

Wie hoch muss die Korrelation (also Pearsons r) zwischen 2 Variablen X und Y sein, damit 30% der Streuung von Y durch erklärt wird?

he eziehung(en) bestehen zwisch

über ibt der Regressionskoeffizient b (aus der R

Eine mit SPSS erstellte Regressionsanalyse zwischen der unabhängigen Variablen Alter und der abhängigen Variablen monatliches Nettoeink

MModell R R-Quadrat Korrigiertes R-Qu

1 ,457 ,209 ,207 variablen : (Konstante), Erwerbsfähiges Alter (18-65)

1907,72a Einfluß

ANO A

Modell Quadratsumme d

Vf Mittel der Quadrate F Signifikan

z1 Regression 421448856,364 1 421448856,364 115,802 ,000

Residuen 1597691074,525 439 3639387,413 Gesamt 2019139930,889 440

a Einflußvariablen : (Konstante), Erwerbsfähiges Alter (18-65) b Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE>

Koe n

Koeffizienten

T Signifikanzffizie ten

e Nicht standardisierte

StandardisiertKoeffizienten

Modell B Standardfehler Beta

1 (Konstante) -404,217 294,126 -1,374 ,170

Erwerbsfähiges Alter

82,330 7,651 ,457 10,761 ,000(18-65)

a Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE>

a) Wie h b) Wie viel P ? c) Wie viel P

erklärt? d) Woran ist e) Wie lf) Mit welche atl. Nettoeinkommen kann, auf Basis dieser Regressionsanalyse, eine 50jährige Person durchschnittlich

rechn g) Was ist in der ANOVA Tabelle unter „Regression“, „Residuen“ und „Gesamt“ zu verstehen?

hoc ist die Produkt-Moment-Korrelation nach Pearson? rozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch die x-Variable (Alter) erklärtrozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch andere, unbekannte Faktoren

erkennbar, ob die beiden Variablen in positiver oder negativer Beziehung zu einander stehen? autet die Gleichung der Regressionsgeraden?

m monen?

Page 51: Sozialwissenschaftliche Methoden und Statistik I - Skript zum

Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 51 von 51

6.

Unverzichtbare Basisliteratur & Exzellente Darstellung des Stoffs:

Benninghaus, Hans: Einführung in die sozialwissenschaftliche , Wie 1998

Bortz, J Berlin, 19

Alles relevante für die Klausur steht in:

Faulbaum, Frank: Vorlesungs-Skript SMS I/A

ereitung:

Clauß, G.; Finze, F.-R. ; Partzsch, L. : Statistik für Soziologen, Pädagogen, Psychologen und Mediziner. Band I: Grundlagen, 2. Auflage, Frankfurt / Main, 1995.

Sehr formal, aber dafür sehr korrekt:

ur, F.: Statistik, 10. Auflage, München, Wien, 1998.

in, 1992.

Literaturverzeichnis

Datenanalyse, 5. Auflage, München n, .

ürgen: Statistik für Sozialwissenschaftler, 4. Auflage,93.

Ebenfalls sehr wichtig für die Klausurvorb

Sämtliche Musterklausuren

Sehr gut zum Selbststudium eignet sich:

Bamberg, G.; Ba

Darüber hinaus lohnt sich:

Krämer, Walter: So lügt man mit Statistik, Frankfurt / Main, 1991. Krämer, Walter: Statistik verstehen, Frankfurt / Ma