Sozialwissenschaftliche Methoden und Statistik I
Universität Duisburg – Essen Standort Duisburg
Integrierter Diplomstudiengang Sozialwissenschaften
Skript zum SMS I Tutorium
Von Mark Lutter
Stand: April 2004
Teil I
„Deskriptive Statistik“
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 2 von 51
Inhaltsverzeichnis Seite
1. Grundbegriffe .................................................................................................. 04 • Deskriptive Statistik • Inferenzstatistik • Untersuchungseinheiten • Variable • Merkmalsausprägung
1.1 Unterschiedliche Typen von Variablen ................................................. 05 1.1.1 Unterschieden nach Wertebereich ............................................................... 05
• Qualitative vs. Quantitative Variablen • Stetige vs. Diskrete Variablen • Dichotome, Trichotome, Polytome Variablen
1.1.2 Unterschieden nach Beobachtbarkeit .......................................................... 07
• Manifeste vs. Latente Variablen
1.1.3 Unterschieden nach Messniveau .................................................................. 07 • Nominalskalierte Variablen • Ordinalskalierte variablen • Intervallskalierte Variablen • Ratioskalierte Variablen
2. Univariate Analyse ........................................................................................ 09 • Urliste, Primärtabelle • Häufigkeitsverteilung • Relative Häufigkeiten • Prozentuale Häufigkeiten • Kumulierte Häufigkeiten
2.1 Statistische Kennwerte................................................................................. 12 2.1.1 Lagemaße ....................................................................................................... 12
• Modus • Median • Arithmetisches Mittel • Exkurs: Symmetrieeigenschaften einer Verteilung / Schiefe
2.1.2 Streuungsmaße .............................................................................................. 19 • Range • Quartilabstand • Varianz • Standardabweichung • Variationskoeffizient
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 3 von 51
2.2 Graphische Darstellungsmöglichkeiten ................................................ 22 • Balkendiagramm • Kreisdiagramm • Histogramm • Polygonzug • Boxplot • Stem-And-Leaf-Display
2.3 Z-Transformation ......................................................................................... 25 3. Bivariate Analyse …………………………………………………………… 26 3.1 Zusammenhangsmaße für nominalskalierte Variablen .................. 26
• Chi-Quadrat Kontingenztabelle Indifferenztabelle Erwartete Häufigkeiten
• Phi • Cramers V • Kontingenzkoeffizient C • Prozentsatzdifferenz
3.2 Zusammenhangsmaße für ordinalskalierte Variablen .................... 29 • Spearmans rho • Kendalls tau Koeffizienten
Konkordante vs. diskordante Paare „ties“
3.3 Zusammenhangsmaße für metrische Variablen ................................ 34
• Produktmoment Korrelation (Pearsons r) 3.3.1 Bivariate lineare Regression …………………………………………. 35
• Streudiagramm • Regressionsgerade
Methode der kleinsten Quadrate • Determinationskoeffizient
Varianzzerlegung • Regressionsanalyse mit SPSS
4. Kreuztabellenanalyse (SPSS)…..………………………………………… 45
• Zeilen-, Spalten-, Gesamtprozentwerte
5. Diverse Übungsaufgaben .............................................................................. 46 6. Literaturverzeichnis ……………………………………………………….. 51
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 4 von 51
1. Grundbegriffe Deskriptive Statistik (Beschreibende Statistik)
• Die deskriptive Statistik dient der Aufbereitung, Darstellung und Komprimierung sozialwissenschaftlicher Daten
• Konkret: Eine bestimmte Menge von Personen wird hinsichtlich bestimmter Eigenschaften befragt. Deren Antworten werden mittels tabellarischen und graphischen Darstellungen, Maßzahlen der zentralen Tendenz, Streuungsmaßen und Korrelationskoeffizienten aufbereitet und analysiert.
• Die deskriptive Statistik gliedert sich in drei Bereiche:
Univariate Analyse (die Verteilung einer Variablen wird analysiert) Bivariate Analyse (die Beziehung zweier Variablen zueinander wird analysiert) Multivariate Analyse (die Beziehung mehrerer Variablen zueinander werden analysiert) Inferenzstatistik (Schließende Statistik)
• die Erkenntnisse der deskriptiven Statistik beziehen sich immer nur auf eine bestimmte Stichprobe, mittels der Inferenzstatistik soll geklärt werden, mit welcher Wahrscheinlichkeit die Ergebnisse der Stichprobe auch in der Population / Grundgesamtheit gelten.
• Um von den Stichprobenergebnissen auf die Grundgesamtheit schließen zu können, kommt es besonders auf die richtige Auswahl an (reine Zufallsauswahl, systematische Auswahl, geschichtete Auswahl, usw.)
• Die schließende Statistik liefert Verfahren, eine richtige Auswahl aus der Masse zu treffen und sie liefert die Regeln zur Verallgemeinerung der gewonnenen Stichprobenergebnisse
Untersuchungseinheiten (auch: Merkmalsträger / Objekte / Fälle)
• Die an einer Befragung oder an einem Experiment teilnehmenden Individuen
• An ihnen werden bestimmte Eigenschaften / Merkmale erhoben (z.B. durch Befragung)
• Konkrete Untersuchungseinheiten sind: Befragungspersonen, Versuchspersonen (Probanden), Haushalte, Organisationen, Nationen, etc.
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 5 von 51
Variable
• Die Variable ist das vom Forscher an der Untersuchungseinheit erhobene Merkmal.
• Sie ist damit die den Forscher interessierende Eigenschaft an der Untersuchungseinheit
• Diese Eigenschaften werden erhoben z.B. durch Befragung oder Beobachtung
• Konkrete Variablen sind: Geschlechtszugehörigkeit, Arbeitszufriedenheit, monatliches Nettoeinkommen, Lebensalter, Industrialisierungsgrad von Nationen, etc.
Merkmalsausprägung (auch: Werte; Messwerte)
• die möglichen Werte, die eine Variable annehmen kann, heißen Merkmalsausprägungen
• Bsp.: Die Variable „Geschlechtszugehörigkeit“ hat die beiden Merkmalsausprägungen „männlich“ und „weiblich“
1.1 Unterschiedliche Typen von Variablen
• unterschieden nach Wertebereich (1.1.1) • unterschieden nach Beobachtbarkeit (1.1.2) • unterschieden nach Skalen- bzw. Messniveau (1.1.3)
1.1.1 unterschieden nach Wertebereich Qualitative Variablen
- Die Merkmalsausprägungen einer qualitativen Variablen unterscheidet man nur hinsichtlich ihrer unterschiedlichen Art
- Qualitative Variablen sind immer diskret (s.u.) - Bsp.: Geschlechtszugehörigkeit, Parteipräferenz, ...
Quantitative Variablen
- Die Merkmalsausprägungen einer quantitativen Variablen unterscheidet man hinsichtlich ihrer unterschiedlichen Größe
- Quantitative Variablen werden danach unterschieden, ob sie diskret oder stetig sind (s.u.)
- Bsp: Lebensalter, Körpergröße, Schulnoten
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 6 von 51
Stetige / Kontinuierliche Variablen
- eine stetige Variable kann innerhalb eines bestimmten Bereichs jeden beliebigen Wert annehmen
- es existieren keine Lücken bzw. Sprungstellen - wie fein die Messung auch ist, stets kann in noch feineren Einheiten
gemessen werden - zwischen zwei Messwerten sind also beliebig viele Zwischenwerte
möglich - Bsp: Lebensalter, Einkommen, Blutdruck, ...
Diskrete / Diskontinuierliche Variablen
- Eine diskrete Variable kann nur bestimmte Werte annehmen - zwischen den Werten existieren Lücken bzw. Sprungstellen - Eine Frau kann beispielsweise 1, 2 oder evtl. 10 Kinder haben, aber: 3,5
Kinder kann sie nicht haben - Bsp.: Anzahl der Kinder in einem Haushalt, Geschlecht,
Parteizugehörigkeit, ... - Allerdings werden in der Praxis oftmals diskrete Variablen als quasi-
stetig aufgefasst Dichotome Variablen
- eine Variable mit nur zwei Merkmalsausprägungen heißt dichotome Variable
- Bsp.: die Variable Geschlecht besitzt nur die zwei Ausprägungen „weiblich“ und „männlich“
Trichotome Variablen
- eine Variable mit drei Merkmalsausprägungen heißt trichotome Variable - Bsp.: die Variable Schichtzugehörigkeit mit den drei Ausprägungen
„Unterschicht“, „Mittelschicht“, „Oberschicht“ Polytome Variablen
- eine Variable mit mehr als drei Merkmalsausprägungen heißt polytome Variable
- Bsp.: jede stetige Variable wie Einkommen oder Körpergröße
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 7 von 51
1.1.2 unterschieden nach Beobachtbarkeit Manifeste (empirische) Variablen
- direkt beobachtbar bzw. direkt messbar - Bsp.: Körpergröße, Altersangaben, offizielle Parteizugehörigkeit, ...
Latente (theoretische) Variablen
- nicht direkt beobachtbar - können nur durch relevante Indikatoren (s.u.) messbar gemacht werden - Bsp.: Ausländerfeindlichkeit, Arbeitszufriedenheit, Anomie, ´wahre´
politische Meinung ...
Indikatoren: Indikatoren sind manifeste Variablen, die als Ersatz für die
latente Variable auftreten, da diese nicht direkt gemessen werden kann. In der Regel werden latente Variablen durch mehrere
Indikatoren operationalisiert (messbar gemacht). Bsp: die latente Variable „Arbeitszufriedenheit“ ist nicht direkt
messbar. Sie kann aber durch die möglichen Indikator-Variablen „Häufigkeit des Fernbleibens vom Arbeitsplatz“, sowie „Häufigkeit von Arbeitsplatzwechseln“ und/oder „subjektive Einschätzung des Betriebs- klimas“ operationalisiert werden Oder: „Die“ Umweltverschmutzung ist nicht direkt beobachtbar. Sie kann aber messbar gemacht werden durch Indikatoren wie: „Wasser-qualität von Flüssen“, „jährlicher CO2 Ausstoß“, „Anzahl der PKW pro Einwohner“, usw.
1.1.3 unterschieden nach Skalen- bzw. Messniveau Nominalskalierte Variablen
- Die Klassifikation von Untersuchungseinheiten geschieht hinsichtlich ihres Besitzens oder Nicht-Besitzens einer bestimmten Merkmalsausprägung.
- Die einzelnen Merkmalsausprägungen können nicht rangmäßig unterschieden werden - können also nicht in eine Reihenfolge gebracht werden;
- sie stellen lediglich Benennungen von Kategorien dar - Die einzelnen Kategorien müssen a) vollständig sein und b) sich
gegenseitig ausschließen - Die Nominalskala repräsentiert das niedrigste Messniveau - Bsp.: Geschlecht, Parteizugehörigkeit, Berufsstatus, Nationalität, ...
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 8 von 51
Ordinalskalierte Variablen
- Wie nominalskalierte Variablen, zusätzlich gilt: - zwischen den Merkmalsausprägungen können „größer/kleiner“
Aussagen getroffen werden, - d.h. die einzelnen Merkmalsausprägungen können rangmäßig der
Reihenfolge nach geordnet werden - Jedoch können keine genauen Abstände zwischen den
Merkmalsausprägungen ausgemacht werden - Bsp.: Schulnoten, Schichtzugehörigkeit, Lebenszufriedenheit
Intervallskalierte Variablen1
- hier können die Ausprägungen nicht nur rangmäßig geordnet werden, sondern die genauen Abstände zwischen den Ausprägungen können angegeben werden
- zudem sind die Abstände immer gleich groß - Jedoch: Ein Nullpunkt kann willkürlich festgelegt sein und hat keine
inhaltliche Bedeutung - Deswegen: Aussagen über Verhältnisse sind unzulässig! Bsp.: Proband
A hat einen IQ von 100; Proband B einen von 110. Die Aussage: „A ist um 10% intelligenter als B“ ist völlig unsinnig! Es kann höchstens gesagt werden, dass B auf der gemessenen Intelligenzskala um 10 Punkte höher liegt als A.
- Bsp.: Zeitrechnung, Temperatur in Celsius oder in Fahrenheit, Intelligenzmessung
Ratioskalierte Variablen (auch: Verhältnisskala)
- Repräsentiert das höchste Messniveau - Hier ist ein absoluter (natürlicher) Nullpunkt im Wertebereich vorhanden,
z.B. ist der absolute Tiefpunkt, den die Temperatur je erreichen kann, gleichzeitig der Nullpunkt der Temperaturskala nach Kelvin. Null Grad Kelvin entspricht einer Temperatur von –273,15 Grad Celsius.
- Deswegen: Aussagen über Verhältnisse sind zulässig - Bsp.: Temperatur in Kelvin, Körperlänge, Körpergewicht, Lebensalter,
Einkommen, Ehedauer, ...
1 Für viele Analysezwecke ist die Unterscheidung zwischen Intervall- und Ratioskala entbehrlich; zusammenfassend werden beide Messniveaus auch Variablen auf metrischem Messniveau genannt, da metrisches Messniveau die Durchführung arithmetischer Rechenoperationen erlaubt. Außerdem: Variablen auf Ordinal-Skalenniveau werden in der Praxis oftmals als (quasi-)metrisch behandelt, damit arithmetische Rechenoperationen, wie z.B. Mittelwertbildung, durchgeführt werden können.
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 9 von 51
2. Univariate Analyse Urliste, Primärtabelle Ausgangspunkt der univariaten Analyse sind die (Roh-)Daten, die nach der Erhebung eines Merkmals (z.B. durch Befragung) entstehen. Beispiel: Die 31 Teilnehmer eines Statistik-Tutoriums werden nach ihrer Semesterzahl befragt. Jede einzelne Befragung stellt eine Messung dar. Man erhält damit 31 Messwerte der Variable „Semesterzahl“. Der Größe nach aufgelistet bilden diese Daten eine geordnete Urliste ( = Primärtabelle): 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 Bereits erkennbar: die meisten Personen befinden sich im zweiten und dritten Semester. Die Häufigkeitsverteilung / Häufigkeitstabelle Die Primärtabelle lässt sich übersichtlicher darstellen, indem die einzelnen (der Größe nach geordneten) Merkmalsausprägungen mit der Häufigkeit ihres Auf-tretens (fi) versehen werden.
x i f i 1 12 123 104 55 27 1
Gesamt n = 31 Wichtige Bezeichnungen:
• Messwerte (xi): Die Merkmalsausprägungen / Messwerte der Variable X (Semesterzahl) werden als xi bezeichnet
• absolute Häufigkeiten (fi): Die beobachtete Häufigkeit jeder Merkmalsausprägung wird mit fi (frequency) bezeichnet.2
• Anzahl der Fälle (n): Die Größe der Stichprobe wird mit n bezeichnet 2 Statt f i findet sich auch die Bezeichnung n i , so z.B. im Faulbaum-Skript
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 10 von 51
Weitere wichtige Darstellungsmöglichkeiten von Häufigkeiten: relative Häufigkeiten ( fn )
nff i
n =
• Die relative Häufigkeit ergibt sich, wenn man die absolute Häufigkeit
eines xi - Wertes durch die Anzahl der Fälle teilt • Relative Häufigkeiten können nur Werte zwischen 0 und 1 annehmen • Die Summe aller relativen Häufigkeiten ergibt 1
x i f i f n
1 1 0,0323 2 12 0,3871 3 10 0,3226 4 5 0,1613 5 2 0,0644 7 1 0,0323
Gesamt n = 31 1 prozentuale Häufigkeiten / Prozentwerte ( %f i )
100% ⋅=nff i
i bzw. 100% ⋅= ni ff
• Die prozentualen Häufigkeiten ergeben sich, wenn man die relative
Häufigkeit eines xi - Wertes mit 100 multipliziert • Prozentwerte sind besonders dann nützlich, wenn die Häufigkeits-
verteilungen zweier unterschiedlich großer Stichproben verglichen werden sollen
x i f i f n %f i
1 1 0,0323 3,23 2 12 0,3871 38,71 3 10 0,3226 32,26 4 5 0,1613 16,13 5 2 0,0644 6,44 7 1 0,0323 3,23
Gesamt n = 31 1 100%
• 38,71 % der insgesamt 31 Teilnehmer des Statistik-Tutoriums befinden sich also im 2. Semester
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 11 von 51
kumulierte Häufigkeiten • die absoluten, relativen und prozentualen Häufigkeiten lassen sich auch
sukzessive addieren (= kumulieren)
f ci = kumulierte absolute Häufigkeiten f cn = kumulierte relative Häufigkeiten % f ci = kumulierte prozentuale Häufigkeiten
x i f i f n %f i f ci f cn % f ci 1 1 0,0323 3,23 1 0,0323 3,23 2 12 0,3871 38,71 13 0,4194 41,94 3 10 0,3226 32,26 23 0,7420 74,20 4 5 0,1613 16,13 28 0,9033 90,33 5 2 0,0644 6,44 30 0,9677 96,77 7 1 0,0323 3,23 31 1 100
Gesamt n = 31 1 100 %
• an den kumulierten Häufigkeiten lassen sich Informationen der folgenden Art ablesen:
23 Personen, also 74,20 %, befinden sich in den ersten drei Semestern Oder: Nur knapp 10 % aller Personen befinden sich im
fortgeschrittenerem 5. und 7. Semester Achtung: Messniveau beachten!
• Absolute, relative sowie prozentuale Häufigkeiten dürfen erst ab ordinalem Messniveau kumuliert werden
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 12 von 51
2.1 Statistische Kennwerte / Maßzahlen
• Während Häufigkeitstabellen Auskunft über die gesamte Verteilung einer Variablen geben, informieren statistische Maßzahlen über ganz bestimmte Eigenschaften einer Verteilung.
• Maßzahlen dienen der Informationsverdichtung, denn: • sie liefern mit nur einer einzigen Zahl komprimierte Information über
die charakteristischen Eigenschaften einer Verteilung • Statistische Maßzahlen zur Beschreibung einer univariaten Verteilung
gliedern sch in zwei Gruppen:
Lagemaße (auch: Maßzahlen der zentralen Tendenz; Zentralitätswerte) Streuungsmaße (auch: Dispersionsmaße)
• Während Lagemaße über Zentralität Auskunft geben, also den typischen (Modus),
den zentralen (Median) oder den durchschnittlichen (arithmetisches Mittel) Wert einer Verteilung wiedergeben, so geben die Streuungsmaße an, inwieweit die Daten einer Verteilung von diesen „typischen“ Werten abweichen. Sie messen auf diese Weise den Grad der Heterogenität einer Verteilung und zeigen, wie gut oder wie schlecht die Lagemaße eine Verteilung repräsentieren
• Denn: haben wir eine relativ homogene Verteilung, d.h. weichen nur sehr wenig Messwerte von den Zentralitätswerten ab (= niedrige Streuung), dann sind die Zentralitätswerte sehr gute Repräsentanten der Verteilung. Haben wir stattdessen eine sehr heterogene Verteilung, d.h. weichen die Messwerte recht stark von den Zentralitätswerten ab (= hohe Streuung), dann repräsentieren die Zentralitätswerte die Verteilung nicht besonders gut.
Die nachfolgende Tabelle zeigt, welche Maßzahlen im folgenden behandelt werden:
Lagemaße Streuungsmaße
Modus (h) Range (R) Median ( x~ ) (mittlerer) Quartilabstand (QA)
Arithmetisches Mittel ( x ) Varianz (s 2 ) Standardabweichung (s) Variationskoeffizient (V)
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 13 von 51
2.1.1 Lagemaße / Maßzahlen der zentralen Tendenz / Zentralitätsmaße Modus (h)
• Um den Modalwert zu ermitteln, stellt man sich die Frage „Welcher Messwert kommt am häufigsten vor?“
• Er ist anwendbar ab nominalem Messniveau Eingipflige, unimodale Verteilung:
xi fi
1 12 123 104 55 27 1
Gesamt n = 31 Hier ist h = 2. Da wir hier nur einen Modalwert haben, handelt es sich um eine unimodale Verteilung.
Bimodalität:
(a) eindeutig bimodale Verteilung
x i f i 1 12 123 104 55 127 1
Gesamt n = 41 Hier ist h1 = 2 und h2 = 5
(b) nicht eindeutig bimodale Verteilung
x i f i
1 12 123 104 55 137 1
Gesamt n = 42 Hier ist auch h1 = 2 und h2 = 5
ACHTUNG: Nicht mit dem fi Wert verwechseln; der Modus ist immer der häufigste Messwert xi ;
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 14 von 51
Median ( x~ )
• Der Median x~ [lies „x Schlange“] ist der Wert, der eine der Größe nach geordnete Messwertreihe halbiert
• Er ist anwendbar erst ab ordinalem Messniveau • 3 Arten der Berechnung, je nachdem ob
a. ungerade Anzahl von Fällen b. gerade Anzahl von Fällen c. klassierte Daten
vorliegen Medianberechnung bei ungerader Anzahl von Fällen
- der Median ist hier der Messwert des mittleren Falles einer geordneten Messwertreihe
- daher: zunächst die Daten der Größe nach ordnen, so wie in dieser geordneten Urliste:
1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 31 (=ungerade Anzahl) der mittlere Fall wird mit folgender Formel berechnet:
2)1( +n
Hier: (31 + 1)/2 = 16 ACHTUNG: nicht 16, sondern der Messwert des 16. Falles ist der Median; demnach x~ = 3 1,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 31 Wie man auch den kumulierten absoluten Häufigkeiten entnehmen kann, gehört der 16. Fall zu Messwert 3:
xi fi fci 1 1 1 2 12 13 3 10 23 4 5 28 5 2 30 7 1 31
Gesamt n = 31
Allgemein sieht die Formel so aus:
+=
21
~nxx
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 15 von 51
Medianberechnung bei gerader Anzahl von Fällen
r halbierte Wert der mittleren beiden Fälle
Zunäc beiden Fälle berechnet mit:
- bei gerader Anzahl von Fällen ist der Median de
hst werden die mittleren
2 all
Bsp,2,2,2,2,2,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,5,5,7 n = 32 (= gerade Anzahl)
.:
=n 1. mittlerer Fall; 1+n = 2. mittlerer F2
1
2 2 Der M s.u.) der
ittleren beiden Messwerte:edian ist nun nichts anderes als das arithmetische Mittel (
=32 16. Fall (= Messwert 3); 132 + = 17. Fall (=Messwert 3)
m x~ = =+2
Allgemein si ht orm
33 3
e die F el so aus:
2
+ nn xx~ 1
22
+
=x
Zu beachten ist auch hier wieder, dass im Zähler zunächst die beiden mittleren Fälle [n/2 bzw. (n/2)+1] berechnet werden, die dann durch ihre entsprechenden Messwerte usgetauscht werden müssen.
edianberechnung bei klassierten Daten
a M
ian mit folgender Formel:
Mit:
Bei klassierten Daten berechnet sich der Med
n21
= Anzahl der Fälle
= dieser We en wird (Medianintervall)
xakte untere Grenze des Medianintervalls n Fu = kumulierte Häufigkeit unterhalb des Medianintervalls (kum. Fälle unterhalb von U)
ird berechnet mit: exakte obere minus exakte untere Grenze einer
rt gibt an, in welchem Intervall der Median lieg
KbFmUx
+=~
Fun
−2
1
U = e
Fm = Anzahl der Fälle im Medianintervall Kb = Intervallbreite (wKlasse)
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 16 von 51
Bsp.: Klasse Einkommensklasse fi
(in Euro) 1 500 bis < 1000 800 2 600 1000 bis < 1500
0 bis < 204 2000 bis < 2500 600 5 2500 bis < 3000 800 Σ 3200 = n U = 1500 400
= 3200 Kb = 499 (z.B. 1999-1u = 800 + 600 = 1400
Fm = n 500 = 499)
3 = Medianintervall 150 00 400
F
ergeben
wir nun diese Werte in die Formel ein, so erhalten wir für den Median einen We
n1 = 3200 : 2 = 1600; das Medianintervall ist die 3. K asse, da 2
l die kumulierten
ufig lassen (800 + 600 + 400 = 1800) einen Wert >1600
Setzen rt von:
Hä keiten der ersten 3 K
x~
ichtige Eigenschaft des Medians:
= 1500 + [(1600 – 1400)/400] ⋅ 499 = 1749,5
• Unempfindlichkeit gegenüber Extremwerten (im Gegensatz zum
rithmetisches Mittel
W
arithmetischen Mittel)
A ( x
• Das arithmetische itteiner Verteilung
)
M el
x
• Setzt metrisches Messniveau voraus Ist definiert als die Summ aller Messwerte, geteilt durch ihre Anzahl:
[lies: „x quer“] ist der Durchschnittswert
• e
n
x
n
n
∑
xxxxx ii
n =
Oder einfacher:
ie einzelnen Messwerte werden mit ihrer Häufigkeit multipliziert:
=++++
= 1321 ...
D
n
xfn
∑x i
ii=
= 1
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 17 von 51
Bsp.: xi fi
1 12 123 104 55 27 1
Gesam n = 31 t
121 ⋅⋅
31)17)25()54()103()2()1( ⋅+⋅+⋅+⋅++
=x = 2,96773
ur Berechnung bei klassierten Daten: vgl. Benninghaus, a.a.O., S.137f.
Mittels:
• Die Summe der Abweichungen aller Messwerte von ihrem arithmetischen Mittel ist gleich Null:
Z
Wichtige Eigenschaften des arithmetischen
0)( =−∑ i xx 1=
n
i
• Die Summe der quadrierten Abweichungen von ihrem arithmetischen
Mittel ist kleiner als die Summe der quadrierten Abweichungen aller Messwerte von einem beliebigen anderen Wert
• Die Addition (oder Subtraktion) einer bestimmten Zahl zu allen
Das arithmetische Mittel ist - im Gegensatz zum Median - anfällig für
Einzelwerten einer Verteilung vergrößert (oder verkleinert) das arithmetische Mittel um diese Zahl
•Extremwerte
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 18 von 51
Symmetrieeigenschaften einer Verteilung
ie drei Lagemaße geben auch Auskunft über die Schiefe einer Verteilung D
xx == ~
die Verteilung ist rechtssteil / li
h die Verteilung ist symmetrisch
~ xxh << die Verteilung ist linkssteil / rechtsschief
xxh >> ~ nksschief
xxh >> ~ xxh == ~ xxh << ~
Generell gilt:
• Je näher die drei Werte beieinander liegen, desto weniger schief ist die Verteilung
• Umgekehrt gilt: je stärker die drei Werte differieren, desto „schiefer“ ist die Verteilung
„Die“
Schiefe (Sch) gibt es auch als Maßzahl:
• sie mit: • Setzt metrische Daten voraus
Berechnet wirdn
iSch == 1xix∑ − 3)(
n
Interpretation:
• Sch < 0 die Verteilung ist rechtssteil • Sch > 0 die Verteilung ist linkssteil • Sch = 0 die Verteilung ist symmetrisch
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 19 von 51
Generell gilt auch hier: er Wert bei Null liegt, desto weniger schief ist die Verteilung
ll entfernt liegt, desto
2.1
• Je näher d• Umgekehrt gilt: je weiter der Wert von Nu
„schiefer“ ist die Verteilung
.2 Streuungsmaße
• alle Streuungsmaße setzen metrisches Messniveau voraus • Ausnahme: Quartile, sowie Quartilabstand und mittlerer Quartilabstand:
ab ordinalem Messniveau
Ra e
ng (R) (auch: Spannweite, Variationsbreite)
Ist definiert als die Differenz• aus dem größten und dem kleinsten Wert:
R =
Nachteil:
berücksichtigt werden, ist er a) stark von Ausreißerwerten abhängig und chtssagend über die Streuung der übrigen Werte
Qu t
minmax xx −
b) ni
• Da bei der Berechnung lediglich der größte und der kleinste Wert
ar ilabstand (QA) / mittlerer Quartilabstand
Die Quartile Q1, Q2 und Q3 sind Messwerte, die eine V
• erteilung in Abschnitte zerlegen, in die jeweils 25% der Untersuchungseinheiten fallen3
Abschnitte • Der Quartilabstand ist die Differenz zwischen dem dritten (Q3) und dem
Wobe
• Damit trennen sie die Verteilung in 4 gleiche
ersten (Q1) Quartil: QA = Q3 - Q1
i : Q = 1 n4
2 3 n4
x1 Q = x~ x3 Q =
net sich mit:
2QA Der mittlere Quartilabstand berech
3 vgl. hierzu ausführlich: Benninghaus, a.a.O., S. 145ff. (insb. S.147: Berechnung der Quartile bei klassierten Daten)
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 20 von 51
Varianz (s ) 2
• Die Varianz ist definiert als die Summe der quadrierten Abweichungen
M el, dividiert durch der einzelnen Messwerte von ihrem arithmetischen ittdie Anzahl der Fälle:
xxfn
ii∑ − 2)(
ns i= 12
=
• An der Formel wird eine Parallele zum arithmetischen Mittel deutlich:
während das arithmetische Mittel die Summe aller Messwerte durch ihre Anzahl dividiert, wird hier die Summe aller (quadrierten) Abweichungs-werte durch ihre Anzahl dividiert:
die Varianz ist also auch eine Art Durchschnittswert, nämlich
Stand
die „durchschnittliche Streuung“
ardabweichung (s)
• Ist def
iniert als die Quadratwurzel aus der Varianz:
2ss =
eder rückgängig gemacht. Dadurch ist die „durchschnittliche Streuung“ in der ursprünglichen Maßeinheit der Variablen zu lesen.
ariationskoeffizient
• Durch Ziehung der Wurzel wird die Quadrierung wi
V (V)
• el:
Ist der Anteil der Standardabweichung am arithmetischen Mitt
xsV =
• Im Gegensatz zu anderen Streuungsmaßen quantifiziert V die Variabilität
einer Verteilung maßstabsunabhängig
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 21 von 51
• V eignet sich damit sehr gut als Streuungs-Vergleichsmaß bei mehreren Verteilungen
• kann als Prozentzahl gelesen werden (s.u.) Bs p.: Berechnung der Streuungsmaße für die Variable Semesterzahl
xi fi 1 12 123 104 55 27 1
Gesamt n = 31 Range: R = 7 – 1 = 6 Quartilabstand:
Q3 = ¾ ⋅ 31 = 23,25.Fal e 4 Q1 = ¼ ⋅ 31 = 7,75.Fall Messwert 2
Mittlerer QA = 2 : 2 = 1
Zur B bweichung empfiehlt es sich, eine A
i fi
l M sswert
QA = 4 – 2 = 2
erechnung der Varianz und der Standardarbeitstabelle anzulegen:
x )( xxi − )( xxi − 2 fi )( xxi − 2
Ge = 31
1 s 1,50 ≈ 1
Zur Interpretation der Standardabweichung und Varianz
• der Zahlenwert der Standardabweichung steht im Prinzip für die „dur mit „Streuung“ die Gesamtabweichung aller Messwerte von ihrem arithmetischen Mittel gemeint ist. Die Varianz steht demnach für die „durchschnittliche
esser zu
ne
,225
1 1 -1,96773 3,87195 3,87195 2 12 -0,96773 0,93649 11,23788 3 10 0,03227 0,00103 0,0103 4 5 1,03227 1,06557 5,32785 5 2 2,03227 4,13011 8,26022 7
samt n 1 4,03227 16,2591 16,2591
Σ = 44,9673
x = 2,96773 s2 =
3144,9673 = 1,450558065 ,50 =≈
chschnittliche Streuung“ einer Verteilung, wobei
quadrierte Streuung“ • deswegen ist die Standardabweichung im Vergleich zur Varianz b
interpretieren, da ihr Ergebnis wieder in der ursprünglichen Einheit, in derdie Variable gemessen wurde, zu lesen ist. Für obiges Beispiel wäre ei
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 22 von 51
der folgenden Aussagen angemessen: „Die Messwerte streuen im Durchschnitt um 1,225 Semester um den Mittelwert“
Die•
n chung, desto besser
repräsentiert das arithmetische Mittel die gesamte Verteilung Zu
• •
om arithmetischen Mittel gleich Null ist
• alle Messwerte gleich groß sind instimmen
odus übereinstimmen
2.2 G itsverteilungen
Standardabweichung ist ein Gütemaß für das arithmetische Mittel, denn: Je geringer die Streuung, desto homogener ist eine Verteilung bzw. desto weniger weichen die einzelnen Messwerte von ihrem arithmetischeMittel ab. Das bedeutet: je geringer die Standardabwei
r Berechnung und Interpretation des Variationskoeffizienten: wir erhalten einen Wert von V = 1,225/2,96773 = 0,4128 oder 41,28%das bedeutet, die Streuung macht ca. 41% des Mittelwertes aus.
Eine Verteilung weist keine Streuung auf wenn:
• der Range gleich Null ist • die Summe der quadrierten Abweichungen aller Messwerte v
• alle Messwerte mit dem Mittelwert übere• alle Messwerte mit dem M• es nur einen Messwert gibt
raphische Darstellungsmöglichkeiten von Häufigke In Abh tiert eine Vielzahl von graphischen
arstellungsmöglichkeiten:
- Balkendiagramm (auch: Streifen- bzw. Säulendiagramm)
rdinales Messniveau: uch: Streifen- bzw. Säulendiagramm)
-and-whisker-plot)
lygonzug) )
- Stem-And-Leaf-Display bzw. Back-to-Back-Stem-And-Leaf-Display
ängigkeit vom Messniveau exisD Nominales Messniveau:
- Kreisdiagramm O
- Balkendiagramm (a- Kreisdiagramm - Boxplot (auch: box
Metrisches Messniveau:
- Histogramm - Polygon (auch: Po- Boxplot (auch: Box-And-Whisker-Plot
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 23 von 51
Balkendiagramm (auch: SGSWAHL; BEFR.
WAHLABSICHT, BUNDESTAGSWAHL; BEFR.
ANDERE PARTEIPDS
REPUBLIKANERBUENDNIS90-GRUENE
F.D.P.SPD
CDU-CSU
Pro
zent
30
20
10
0
treifen- bzw. Säulendiagramm) WAHLABSICHT, BUNDESTA
60
50
40
Kreisdiagramm
WAHLABSICHT, BUNDESTAGSWAHL; BEFR.
6,0%
2,5%
8,6%
4,5%
48,2%
29,0%
ANDERE PARTEI
REPUBLIKANER
BUENDNIS90-GRUENE
F.D.P.
SPD
CDU-CSU
1,1%
PDS
Histogramm
ALTER: BEFRAGTE<R>
95,090,0
85,080,0
75,070,0
65,060,0
55,050,0
45,040,0
35,030,0
25,020,0
ALTER: BEFRAGTE<R>
Häu
figke
it
400
200
100
0
Std.abw. = 17,49 Mittel = 48,7
N = 3234,00
300
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 24 von 51
Polygonzug
ALTER: BEFRAGTE<R>
9490868278747066625854504642383430262218
Proz
ent
2,5
2,0
1,5
1,0
,5
0,0
Boxplot
3234N =
ALTER: BEFRAGTE<R>
100
80
60
40
20
0
120
Statistiken ALTER: BEFRAGTE<R> N Gültig 3234 Fehlend 0 Mittelwert 48,72 Median 47,00 Perzentile 25 = Q1 34,00 50 = Q2 47,00 75 = Q3 63,00 Stem-And-Leaf-Display ALTER: BEFRAGTE<R> Stem-and-Leaf Plot Frequency Stem & Leaf 73,00 1 . 888888999 169,00 2 . 000011112222333344444
00 2 . 55555556666667777778888889999999 3 . 000000001111111112222222223333333444444444
324,00 3 55555566666666777777778888888899999999 270,00 4 0000000111111122222222333334444444
00 4 5555555666666677777778888888899999 ,00 5 00011111222222333333444444 00 5 555566666667777778888888899999999
285,00 6 0000011111111222222223333333444444 267,00 6 555556666667777777888888999999
172,00 7 . 000011112222233334444 150,00 7 . 555556666777788899 71,00 8 . 001123344
3,00 9 . &
259, 341,00 . 5 . 288, . 55 232 . 00 288, . 55 . 00 . 55 32,00 8 . 5678& 10,00 9 . & Stem width: 10 Each leaf: 8 case(s)
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 25 von 51
2.3 Z-Transformation (Standardisierung von Variablen)
erte in eine Form n derselben oder einer
erschiedlichen Einheiten erfasst (eine in ahren), dann erlaubt die Standardisierung beider
ergleichbarkeit n sie, indem man das arithmetische Mittel von jedem
andardabweichung
• setzt metrische Daten voraus • Durch eine Z-Transformation werden Messw
umgewandelt, die es erlaubt, sie mit Werteanderen Verteilung zu vergleichen
• untSind z.B. zwei Variablen in Euro, die andere in JVariablen deren V
• Erzeugt werdeMesswert subtrahiert und die Differenz durch die Stteilt:
27
s Z-Werte geben damit an, um wie viele
xxzx i
ii−
=→
• (Standardabweichungs-)Einheiten
Bsp
xi
ein Messwert oberhalb (bei positivem Vorzeichen) oder unterhalb (bei negativem Vorzeichen) vom Durchschnitt liegt
.: fi )( xxi −
sxx
z ii
−=
1
lg den Ei haf
x x
zi = fi
-1,605 1 -0,790 12 0,025 10
1 -1,96773 -1,605 2 12 -0,96773 -0,790 3 10 0,032 0,025 4 5 1,03227 0,843 5 2 2,03227 1,659 7 1 4,03227 3,292
es mt n = 31
,96773; s =1,225
G a x
3,292 1
= 2
Durch die z-Transformation erhält man eine neue Verteilung mit fo en gensc ten:
•
si −
0,843 51,659 2
n = 31
das arithmetische Mittel ist immer Null )0( =z die Standardabweich )1( =zs ung ist immer 1
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 26 von 51
3. Bivariate Analyse
• bei der bivariaten Analyse geht es darum, die Beziehung (Assoziation, Korrelation) zweier Variablen zueinander zu untersuchen
• Konkret: es geht darum, Maßzahlen zu errechnen, die die Stärke (und die Richtung) des Zusammenhangs zwischen zwei Variablen ausdrücken
• Diese Maßzahlen werden bezeichnet als Zusammenhangsmaße, Korrelationskoeffizienten oder Assoziationsmaße
aße für nominalskalierte Variablen3.1 Zusammenhangsm
Unters inalskalierten
ariablen, kann man deren Häufigkeiten in einer Kreuztabelle darstellen:
) und Beschäftigtenstatus (Variable Y) (Kontingenztabelle)
ter Σ
• Chi-Quadrat (χ 2 ) basierte Maßzahlen: Phi, Cramers V,
Kontingenzkoeffizient C • Um diese Koeffizienten berechnen zu können, muss vorher Chi-Quadrat
berechnet werden:
ucht man den Zusammenhang zwischen zwei nomV Bsp.: Zusammenhang zwischen Lohnzufriedenheit (Variable X
Arbeiter Angestell
Geringe Lohnzufriedenheit
40 (Zelle a)
20 (Zelle b)
60
10 30Hohe ohnzufriedenheit (Zelle c)
(Zelle d)
40 LΣ 50 50 100
• Für die Berechnung von Chi-Quadrat muss zunächst aus der
s müssen
• Eine Kreuztabelle, in der die beobachteten (absoluten) Häufigkeiten ) eing s n Kontingenztabelle
lle r die warteten Häufigkeiten ( ) eingetragen sind, nennt man Indifferenz elle
äufi iten sind die Häufigkeiten, die man in jeder Zelle der Kreuztabelle erwarten würde, wenn zwischen den beiden Variablen kein Zusammenhang besteht
Kontingenztabelle eine Indifferenztabelle erstellt werden bzw. edie erwarteten Häufigkeiten berechnet werden
(bf etragen ind, nennt ma
• Eine Kreuztabe , in de ertab
• Erwartete H gke
ef
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 27 von 51
Be
rechnet werden die erwarteten Häufigkeiten für jede Zelle wie folgt:
f e eGesamtsummmeSpaltensumeZeilensumm ∗
=
Hier: Zelle a: 30
1005060
=∗
=ef
Geringe
Zelle b: 30100
5060=
∗=ef
Hohe Lohnzufried
elle c:Z 20100
5040=
∗=ef
Zelle d: 205040=
∗=f
100e
• Daerw
Hier ist die Kontingenztabelle zusammen mit der Indifferenztabelle dargestellt:
Arbeiter Angestellter Σ
Lohnzufriedenheit fb=40 fe=30
fb=20 fe=30
60
enheit fb=10 fe=20
fb=30 fe=20
40
Σ 50 50 100
nun die erwarteten Häufigkeiten die Häufigkeiten sind, die man arten würde, wenn die beiden Variablen statistisch voneinander
unabhängig sind (also kein Zusammenhang besteht) deutet die Differenz
einen Zusammenhang zwischen den beiden Variablen hin • je stärker diese Differenz ist, desto stärker ist auch der Zusammenhang.
mgekeh klei e Dif nz, desto geringer ist der Zusammenhang onze Vergleichs zwischen den beobachteten und den ufigk beruht Chi-Quadrat:
•
zwischen den erwarteten und den beobachteten Häufigkeiten auf
U• Auf dies
rt: je ner di fereem K pt des
erwarteten Hä eiten
Wie anhand der Formel sichtbar, nimmt Chi-Quadrat den Wert Null an, wenn alle fb´s und fe´s gleich sind
efefbf 2)(
2−
= ∑χ
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 28 von 51
Berechnung von Chi-quadrat (Hierfür ist wieder die Anfertigung einer Arb t
elle fb fe fb- fe (fb- fe)2
ei stabelle sinnvoll):
Z
e
eb
fff 2)( −
• Der χ 2-Wert variiert zwischen 0 (kein Zusammenhang) und n (perfekter
Zusammenhang) • Zur besseren Interpretation der genauen Stärke des Zusammenhangs
werden nun die Chi-Quadrat basierten Maßzahlen (Phi, Cramers V, Kontingenzkoeffizient C) berechnet:
• Sie sind deswegen besser zu interpre e nur Werte zwischen 0 (kein Zusammenhang) und 1 (perfek Zusammenhang) annehmen.
Ph
Hier:
(für Tabellen größer als 2x2)
tieren, da siter
A 40 30 10 100 3,333 B 20 30 -10 100 3,333 c 10 20 -10 100 5 d 30 20 10 100 5 Σ=16,666 =
χ2
i (Φ) (für 2x2 Tabellen bzw. Kreuztabellen mit 4 Zellen)
Cramers V
mit
)1;1min( −−⋅ crn
= Anzahl der Zeilen („rows“) = Anzahl der Spalten („columns“)
rechnung ein; z.B.: bei 3x4 Tabellen
sieht die Formel so aus:
2
=V χ
rcmin = Nur der kleinere Wert geht in die Be
n
2χ=Φ
4081,0100
666,16 ==Φ
)13(
2
−⋅=
nV χ
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 29 von 51
Kontingenzkoeffizient C (für beliebige Tabellen)
d V
nC
+= 2χ
2χ
Merke:
d C = 0 • Wenn Φ = 1, dann ist χ 2 = n • Φ un sind identisch bei 2x2 Tabellen
rozentsatzdifferenz
• Wenn χ 2 = 0 , dann ist auch Φ = 0, V = 0 un
P
• Ein weiteres, sehr einfaches Assoziationsmaß ist die sog. S.199ff.
.2 Zusammenhangsmaße für ordinalskalierte Variablen
Prozentsatzdifferenz: vgl. dazu Benninghaus, a.a.O.,
3
pearmans Rho (rs) (auch: Rangkorrelationskoeffizient)
• • die Berechnung erfolgt mit folgender Formel:
n = Anzahl der Fälle i)2
Vorgehen
1. Umwandlung der Messwerte in Rangplätze 2. Rangplatzdifferenzen bilden 3. alle Differenzen quadrieren und aufsummieren 4. Berechnung von rs
S
rs beschreibt den Zusammenhang zwischen zwei Rangreihen
261
∑⋅−= id
r)12( −⋅ nn
s
mit:
Σ di2 = Summe der quadrierten Rangplatzdifferenzen = Σ(xi - y
sweise:
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 30 von 51
Bsp.: (aus: Benninghaus, a.a.O., S. 267ff.) soll der Zusammenhang zwischen den beiden (als
ordinalskaliert aufgefassten)Magistergrade“ und der Var oktorgrade“
• D.h. es soll herausgefuMagistergrade verleih le Doktorgrade vergeben
• Wenn dies so wäre, müsste der Zusammenhang zwischen den beiden Variablen recht stark sein
N Y
Untersucht werden Variablen X „Anzahl der verliehenen iable Y „Anzahl der verliehenen Dnden werden, ob Universitäten, die viele
en, gleichzeitig auch vie
r Universität X
Verliehene Magistergrade
Verliehene Doktorgrade
1 A 182 39
2 B 156 49 C 131 32 3
4 D 110 35 E 109 5 62
6 F 109 43 7 G 95 57
76 35 60 35
11 K 59 57
en, i mit
hen ne ade
8 H 82 46 9 I 10 J
• Zunächst werden für die Variablenwerte beider Variablen Rangplätze
vergeb d.h. die Un der höchsten Anzahl an verliehenen Magister- bzw. Doktorgraden bekommt den Platz 1 zugewiesen, die mit der zweithöchsten Anzahl bekommt Platz 2 usw.:
Nr Universität X
Verlie e Magistergrade
Y
VerlieheDoktorgr
Xi
Rangplatz
Yi
Rangplatz
1 A 182 39 1 7
2 B 156 49 2 4 C 131 32 3 11 D 110 35 4 9 E 109 62
3 4 5 5,5 1 6 F 109 43 5,5 6 7 G 95 57 7 2,5
76 35 9 9 60 35
11 K 59 57 11 2,5
8 H 82 46 8 5 9 I 10 J 10 9
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 31 von 51
• Zu beachten ist hier folgendes: Weisen mehrere Objekte die gleiche Merk lsausprägu uf („Ties“, s.u.), dann wird aus diesen Rangplätzen das arithmetische Mittel gebildet:
• z.B.: iversität E F haben be 109 verliehene Magistergrade. Demn h würden s ie Rangplät und 6 bek en. Das arithmetische Mittel aus diesen beiden Rangplätzen berechnet sich dann: (5+6)/2 = 5,5; d.h. Universität E und F bekommen jeweils den Rangplatz 5,5 zugewiesen
= 9] Ansch rt (di
2 ) und au
Nr Un Y Xi Yi di di2
i -Yi)2
ma ng a
Un und ideac ie d ze 5 omm
• Analog dazu verläuft die Berechnung der Rangplätze der verliehenen Doktorgrade für Universität G und K [(2+3)/2 = 2,5], sowie für Universität D, I und J [(8+9+10)/3
ließend werden die Rangplatzdifferenzen (di) gebildet, quadriefsummiert(Σ di
2):
iversi X tät Verliehene
Magistergrade Verliehene
Doktorgrade Rang
platz
Rang
platz
(Xi -Yi) (X
1 A 182 39 1 7 -6 36
2 4 B 156 49 2 4 -2 C 131 3 32 3 11 -8 64
4 D 110 35 4 9 -5 25 5 E 109 -4,5 20,25 62 5,5 1
95 57 7 2,5 4,5 20,25 82 46 8 5
10 J 60 35 10 9 1 1 11 K 59 57 11 2,5 72,25 8,5 Σ 252
el t we
5 1315
(116
−
6 F 109 43 5,5 6 -0,5 0,25 7 G 8 H 3 9 9 I 76 35 9 9 0 0
Nun können alle Werte in die Form eingesetz rden:
1454,020121
)1112521 2 −==
−⋅
−=sr
Zur Interpretation: • Generell kann rs Werte annehmen zwischen –1 (perfekt negativer
enhang) • Ein Wert von 0 oder nahe 0 bedeutet, beide Variablen sind unabhängig
voneinander
Zusammenhang) und +1 (perfekt positiver Zusamm
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 32 von 51
• hier liegt mit –0,14545 kein Zusammenhang vor, denn in den Sozialwissenschaften spricht man erst ab einem Korrelationswert von 0,2
on einem positiven (oder: negativen) Zusammenhang iele
le
Kend Die L n Bezug auf ihre Rangplätze (und deren Differenzen) untersucht werden, sondern im
inblick auf konkordante und diskordante Objektpaare.
sp.: Konkordante Paare
Schüler X: Mathematiknote Y: Physiknote
(oder: -0,2) vzwischen 2 Variablen. Inhaltlich bedeutet dies: Universitäten die vMagistergrade verleihen, müssen nicht zwangsläufig auch vieDoktorgrade verleihen.
alls tau Koeffizienten (tau-a, tau-b, tau-c)
ogik dieser Koeffizienten basiert nicht darauf, dass Objektpaare i
H B
A 5 5 B 4 4
• Das Schülerpaar A und B hat bei beiden Variablen die gleichen
teht somit dieselbe Rangordnung zwischen beiden aar ist konkordant
Bsp.: Diskordante Paare
Schüler X: Mathematiknote Y: Physiknote
Ausprägungen. Es besSchülern; das Schülerp
C 1 3 D 2 2
Hier handelt es sich um eine inverse Bezie
• hung im Hinblick auf die Rangordnung: Während C in Mathe besser ist als D, ist D in Physik
r ist diskordant (auch: inkonsistent, negativ oder gegenseitig)
Kendalls tau-a Koeffizient ist nun definiert als die Differenz der konkordanten
nd diskordanten Paare, dividiert durch die Gesamtzahl der möglichen Paare:
it:
besser als C. Das Paa
u
T
2)1( −⋅
−=− nn
dNcNaau
MNc = Anzahl der konkordanten Paare Nd = Anzahl der diskordanten Paare
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 33 von 51
2)1( −n
d „Ties“?
n = Gesamtzahl aller möglichen Paare (n = Anzahl der Objekte)
• Tau a findet Anwendung, wenn nur konkordante und diskordante Paare
vorliegen. Liegen zusätzlich sog. „Ties“ (Verknüpfungen, Bindungen) .
Was sin
Schüler X: Mathematiknote Y: Physiknote
vor, dann ist tau-b anzuwenden
E 3 2 F 3 4
Zwei Objekte sind verknüpft (eng • l.: „tied“), wenn sie bezüglich einer oder
blen denselben Wert haben. In diesem Beispiel ist das Paar bezüglich der X-Variablen verknüpft; es ist „ x“
tau-b berücksichtigt „ties“:
obei
are Ty
Zur Interpretation:
• hmen zwischen –1 (perfekt negative Beziehung; nur diskordante Paare) und +1 (perfekt positive
Me
• Treten keine „ties“ auf, wird tau-a verwendet, ansonsten tau-b n den maximalen Wert von +1 oder –1 nur erreichen, wenn
eitere Zusammenhangsmaße für ordinalskalierte Variablen: nwichtig)
Some dGamma
beider Varia•
tied on
)()( yTdNcNxTdNcN ++⋅++dNcN
bTau−
=−
wTx = Anzahl der „tied on x“ Pa
= Anzahl der „tied on y“ Paare
Tau-a und tau-b können Werte anne
Beziehung; nur konkordante Paare).
rke:
• Tau-b kanbeide Variablen die gleiche Zahl von Ausprägungen aufweisen
WTau-c (u
rs Koeffizienten
vgl. Benninghaus, a.a.O., S.232-263
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 34 von 51
3.3 Zusammenhangsmaße für metrische Variablen
Maßzahl für die Stärke des Zusammenhangs zweier risch skalierter Variablen, die in einer linearen Beziehung zueinander
sten
Determinationskoeffizienten r2 (s. u. → Regressionsanalyse)
erechnung über die Kovarianz:
Pearsons r (auch: Produkt-Moment-Korrelationskoeffizient)
• Pearsons r ist eine met
hen • Berechnet wird r über die Kovarianz oder über de
B
xsyxr ),cov(
= ys
wobei: yyxx ii∑ −− ))(( => Kovarianz
nyx =),cov(
nxx
s ix
∑ −=
2)( => Standardabweichung der x-Variablen
nyy
s iy
∑ −=
2)( => Standardabweichung der y-Variablen
ach Umformung ergibt sich folgende Berechnungsformel:
n
∑ ∑∑
−−
−−=
22 )()(
))((
yyxx
yyxx
ii
ii r
sp.: Untersucht werden soll der Zusammenhang zwischen den Variablen
Person Lebensalter (X) Nettoeinkommen in Euro (Y) ------------------------------------------------------------------ A 22 1200
28 2400 32 1400
44 2800
BLebensalter (X) und monatliches Nettoeinkommen (Y)
BCD 36 2600 E 40 1800 FG 48 3200 H 52 1600 I 56 3000 J 62 2000
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 35 von 51
Wobei: n = 10; x = 42; y = 2200
C 2 1400 -10
Zur Berechnung empfiehlt sich wieder die Erstellung einer Arbeitstabelle: Person x y xx − yy − 2)( xxi − 2)( yyi − ))(( yyxx ii −−
G 48
I 56 3000 14 800 196 640000 11200 J 62 2000 20 -200 400 40000 -4000 10 1472 4400000 32000
ch setz in die rm
8 0≈44 00
=
i i
22 1200 -20 -1000A B
400 1000000 20000 28 2400 -14 200 196 40000 -2800 3 -800 100 640000 8000
D 36 2600 -6 400 36 160000 -2400 E 40 1800 -2 -400 4 160000 800 F 44 2800 2 600 4 360000 1200
3200 6 1000 36 1000000 6000 H 52 1600 10 -600 100 360000 -6000
Σ Σ Σ Σ Na Ein en Fo el erhält man:
39,0001472
32000r
Zur Interpretation
• Auch Pearsons r kann Werte zwischen –1 (perfekt negativer sitiver Zusammenhang) annehmen,
wobei ein Wert von 0 oder nahe 0 keinen Zusammenhang zwischen den beiden Variablen ausdrückt.
• Hier liegt eine Korrelation von 0,398 vor; dies bedeutet, dass ein geringer positiver Zusammenhang existiert. Inhaltlich bedeutet dies folgendes: Mit
denz steigt mit zunehmenden Alter auch das Einkommen Merke
- handelt werden und Pearsons r darauf
.3.1 Bivariate lineare Regression / Regressionsanalyse
Zusammenhang) und +1 (perfekt po
geringer Ten
Pearsons r ist identisch mit Spearman´s rho genau dann, wenn die Rangplätze als Messwerte beberechnet wird
3
lt en zur Erstellung von Prognosen.
• Die Regressionsanalyse erlaubt es nun, auf Basis der Kenntnis einer
unabhängigen Variablen eine abhängige vorherzusagen. Damit erhäman ein Verfahr
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 36 von 51
• Darüber hinaus kann durch den Determinationskoeffizienten r2 der prozentuale Anteil bestimmt werden, mit dem eine unabhängige Variable
• iable fungiert
ängige
zu erklärende abhängige
• maEinkom mgekehrt.
Da
• Variablen veranschaulicht man sich anhand eines Streudiagramms
• Dort wird jede Untersuchungseinheit in einem Koordinatensystem durch äsentiert. Der Abstand in horizontaler Richtung (x-
Achse) entspricht dabei dem Wert für das unabhängige Merkmal, der
• ng beider
•
eine abhängige erklären / vorhersagen kann. Vorraussetzung sind zwei metrisch skalierte Variablen, von denen die eine als unabhängige, die andere als abhängige Var
Im obigem Beispiel ist die Variable „Lebensalter“ die unabhVariable (wird als X-Variable bezeichnet); die Variable „Nettoeinkommen“ ist die
Variable (wird als Y-Variable bezeichnet) Welche Variable abhängig oder unabhängig ist, entscheiden nicht
thematische, sondern sachlogische Überlegungen: die Höhe des mens hängt ab vom Lebensalter und nicht u
s Streudiagramm
Die graphische Visualisierung der Beziehung beider erhobener
einen Punkt repr
Abstand in vertikaler Richtung (y-Achse) dem des abhängigen. Die so entstehende Punktewolke lässt die Art der BeziehuVariablen schnell erkennen: ob sie stark oder schwach, linear oder nicht-linear, positiv der negativ ist Für obige Beispielvariablen erhalten wir folgendes Streudiagramm:
Lebensalter in Jahren (x)
706050403020
mon
atl.
Net
toei
nkom
men
in E
uro
(y)
0
0
2000
1000
• Erkennbar wird bereits, dass (bis zu einem gewissen Grad) höheres Alter auch höheres Einkommen bedeutet. Dass dies nicht für alle Personen gilt, hat ja bereits die schwache Korrelation von r = 0,398 angezeigt.
40 0
30 0
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 37 von 51
Die Regressionsgerade
• Die Gleichung der Regressionsgeraden lautet (wie jede andere Gleichung einer Geraden auch): )(ˆ ii xbay += Mit der Regressionsgeraden lassen sich nun Werte vorhersagen, g• enauer:
ieser Geraden liegen sind Vorhersagewerte (auch: Regressionswerte) und werden mit bezeichnet
ktewolke des Streudiagramms am besten
• e rglichen mit jeder
• rade erhält man mit der sog. Methode der kleinsten
1. n
eich Null sein: von
die Werte, die auf diy
repräsentiert. Diese Gerade muss so gelegt werden, dass die Abweichung aller Punktim Diagramm von dieser Geraden minimal ist, ve
• Damit eine Vorhersage möglichst fehlerfrei geschieht, gilt es eine Gerade zu finden, die die Pun
anderen Geraden, die sich theoretisch in die Punktewolke einzeichnen ließe Eine solche GeQuadrate. Diese Methode enthält zwei Regeln:
Die Summe der Abweichungen der einzelnen yi -Werte von der Geradesoll gl ∑ =− 0)ˆ( ii yy
• Nur wenn eine Gerade diese Eigenschaften erfüllt, ist sie als Regressionsgerade zu
2. die Summe der quadrierten Abweichungen der einzelnen yi -Werteder Geraden soll ein Minimum ergeben: ∑ −( iy = min)ˆ 2
iy
Punktewolke am besten, verglichen mit jeder anderen Geraden. Damit nun die Regressionsgerade die Bed
bezeichnen; nur dann repräsentiert sie die
• ingungen der Methode der kleinsten Quadrate erfüllt, muss die Konstante a sowie der
mit Regressionskoeffizient b aus der Gleichung der Geraden ˆ i ay =folgenden Formeln bestimmt werden:
∑ −− )((),cov( yyxxyx
)( ixb+
xbya −= ∑ −== 22 )( xxs
bi
ii
x
e: Die Konstante a ist der Schnittpunkt d.h. es ist der Wert, den y annimmt, we
)
Merk• der Geraden mit der y-Achse;
nn x = 0 ist • Der Regressionskoeffizient b ist die Steigung der Geraden, d.h. steigt x
um eine Einheit, dann steigt y um den Wert b. Ist b positiv, dann steigt die Gerade und beide Variablen stehen in
n stehen in negativer
e parallel zur x-Achse und beide Variablen stehen in keiner Beziehung zueinander
positiver Beziehung zueinander; ist b negativ dann fällt sie und beide Variable
Beziehung zueinander; Ist b gleich Null, dann verläuft die Gerad
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 38 von 51
• DieBeispielvariablen (s.o.) leicht bestimmen:
Gleichung der Regressionsgeraden lässt sich nun für unsere obigen
147232000
=
==
a
b 739,21
962,1286)42(739,212200 =−
Damit lautet die Gleichung der Regressionsgeraden:
)(739,21962,1286ˆ ixy +=
Lebensalter in Jahren (x)
706050403020
mon
atl.
Net
toei
nkom
men
in E
uro
(y)
4000
3000
2000
1000
Anhand der Interpretation des Koeffizienten b wird deutlich:
• Steigt das Lebensalter um 1 Jahr, steigt das Einkommen um 21,739 Euro • D.h.: Pro Jahr steigt das Einkommen um den Wert b • Die Steigung b hat damit die Einheit: Euro pro Lebensjahr
etzen wir für x nun beliebige Werte ein, dann erhalten wir -Vorhersagewerte: ieser Daten – mit
hrige Person mit
S i
• Eine 30jährige Person kann beispielsweise – auf Basis dy
einem monatlichem Nettoeinkommen von durchschnittlich 132,1939)30(739,21962,1286 =+ Euro rechnen. Eine 31jä
1960,871, also genau 21,739 Euro mehr.
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 39 von 51
Der Determinationskoeffizient r2
• Der Determinationskoeffizient beschreibt den (prozentualen) Anteil der durch die x-Variable erklärten bzw. vorhergesagten Streuung an der Gesamtstreuung von y
• r2 ist ein Maß der proportionalen Fehlerreduktion (PRE) n
Zur Logik von r2:
• d.h.: die beste Vorhersage der y-Variablen ohne Kenntnis der x-Variableist das arithmetische Mittel y . Der Vorhersagefehler, der dabei entsteist die Streuung der beo hte y
Vorhersagefehler, der dabei entsteht, ist die Streuung der beobachteten Werte um die Regressionsgerade: dies ist die nicht-erklärte Streuung
rianzzerlegung
ht, bac ten Werte um : dies ist die
Gesamtstreuung (Varianz von y) mit Kenntnis der x-Variablen ist die
eraden. Der
Va
ein Streuungsanteil von y, der nicht durch die x-Variable rhergesagt wird (sondern durch andere Faktoren, die uns
Dieser Zu verdeutlicht:
die beste Vorhersage der y-Variablen Regressionsgerade bzw. die Punkte auf der Regressionsg
•
• Die Gesamtstreuung von y setzt sich aus zwei Komponenten zusammen:
ein Streuungsanteil von y, der durch die x-Variable erklärt/vorhergesagt wird
erklärt/vounbekannt sind)
sammenhang wird in folgender Abbildung schematisch
Damit ergibt sich folgende Gleichung: Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 40 von 51
Die Gesamtstreuung ist nichts anderes als die Varianz von y:
nyy
s iy
∑ −=
22 )(
Graphisch dargestellt:
Die erklärte Streuung beschreibt die Streuung der vorhergesagten Regressionswerte um das arithmetische Mittel der abhängigen y-Variablen:
nyy
s iy
∑ −=
22
ˆ
)ˆ(
Graphisch dargestellt:
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 41 von 51
Die nicht-erklärte Streuung beschreibt die Streuung der beobachteten Werte um die vorhergesagten Regressionswerte:
nyy
s iyy
∑ −=−
22
)ˆ(
)ˆ(
Graphisch dargestellt:
ende Gleichung: Gesamtstreuung von y = durch x erklärte Streuung + nicht durch x erklärte Streuung
daraus folgt:
Damit erhalten wir folg
2)ˆ(
2ˆ
2yyyy sss −+=⇔
(
∑∑∑∑∑∑ −+−=−⇔−
+−
=− 222
222
)ˆ()ˆ()()ˆ()ˆ()(
yyyyyyn
yyn
yyn
yyiii
iii
Dividieren wir nun beide Seiten mit ∑ − 2)( yyi , so erhalten wir:
∑∑
∑∑∑
−
−+
−
−=
−
−2
2
2
2
2
2
)()ˆ(
)()ˆ(
)()(
yyyy
yyyy
yyyy
i
i
i
i
i
i ∑ Daraus folgt:
∑∑ −+
−= 22 ))( yyyy i
i
i
i ∑ ∑ −− 22 )ˆ()ˆ( yyyy1
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 42 von 51
Die letzten zwei Schritte noch einmal in Worten:
iationGesamtriationerklärteVanicht
iationGesamtriationerklärteVa
iationGesamtiationGesamt
var.
varvarvar
+=
= erklärter Variationsanteil + nicht erklärter Variationsanteil Der durch x erklärte Variationsanteil wird nun mit r2 bezeichnet:
+ (1-r2)
Demnach berechnet sich der Determinationskoeffizient r2 über die Formel:
Daraus folgt: 1
1 = r2
∑∑
−
−== 2
22
)()ˆ(
var yyyy
iationGesamtriationerklärteVa
i
i
• Demzufolge repräsentiert der Determinationskoeffizient jenen Anteil der Gesamtvariation von y, der durch x erklärt, vorhergesagt oder „determiniert“ wird
• Der sog. Koeffizient der Nichtdetermination (1-r2) gibt den Anteil an, der rch die x-Variable erklärt wird; er sagt dem Forscher also,
inwieweit andere Faktoren einen Einfluss auf die abhängige Variable
• So ist beispielsweise die Höhe des monatl. Nettoeinkommens (y) nur zu erklären; den
n (wie z.B.
erson x y
r
nicht du
haben
einem gewissen Teil durch das jeweilige Lebensalter (x) zuRest bestimmen andere, uns unbekannte Faktore„Bildungsniveau“, „Leistungsbereitschaft“, etc.)
Zur Berechnung von r2 (bezogen auf obige Beispielvariablen): P yyi − 2)( yyi − iy yyi −ˆ 2)ˆ( yyi −
A 22 1200 -1000 1000000 1765,2200 -434,7800 189033,65 B 28 2400 200 40000 1895,6540 -304,3460 92626,488 C 32 1400 -800 640000 1982,6100 -217,3900 47258,412 D 36 2600 400 160000 2069,5660 -130,4340 17013,028
40 1800 -400 160000 2156,5220 -43,47800 1890,3365 44 2800 600 360000 2243,4780 43,478000 1890,3348 3200 100
E F 65 G 0 1000000 2330,4340 130,43400 17013,028 H 52 1600 -600 360000 2417,3900 217,39000 47258,412
56 3000 800 640000 2504,3460 304,34600 92626,488 62 2000 -200 40000 2634,7800 434,78000 189033,65
I J
Σ10 Σ4400000 Σ695643,83
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 43 von 51
1581,04400000
695643,832 ==r
lizieren wir r2 mit 100, so erhalten wir eine bequ Multip em zu interpretierende
rozentangabe: l an der
es tvari z der Var ble „monatl. Nettoeinkommen“ beträgt 15,81%. Der Koeffizient der Nichtdeterm b 0Da t ble n ca V za e Be chnu von be rs
Du Qu un P r i , sofern r be ts b t i 9An sem bn rd , l ast 0,4 lediglich 16% der Gesamt e dUmgekehrt kann Pearsons r über r2 (sofern bekannt) bestimmt werden mit:
PDer durch die Variable „Lebensalter“ erklärte VarianzanteiG am an ia
ination eträgt: 1 – 0,1581 = ,8419 mi ibe . 84% arian nteil un rklärt.
re ng r2 ü r Pea ons r: • rch adrier g von earsons kann r2 d rekt bestimmt werden
rei ekann st: 0,3 82 = 0,158 • die Erge is wi deutlich dass bei einer Korre ation von f
varianz rklärt wir . •
2rr =
• Unter „Modellzusammenfassung“ findet sich Pearsons r mit 0,398, sowr2 mit 0,158 Zu beachten ist hier, dass r ohne V
, dann jedoch wird nicht sichtbar, ob es sich um eine negative oder positive Beziehung handelt
Eine m rzeugt i. d. R
lgendermaßen aus:
Regressionsanalyse mit SPSS
it der Statistik-Software SPSS durchgeführte Regressionsanalyse e. einen Output mit drei Tabellen. Mit obigen Beispielvariablen sieht es
fo
680,47M e1
Standardf
.
Modellzusammenfassung
,398a ,158 ,053od ll R R-Quadrat
KorrigiertesR-Quadrat
ehler desSchätzers
Einflußvariablen : (Konstante), Lebensalter in Jahren(x)
a
ie
• orzeichen abgedruckt wird. Ob es sich um eine positive oder negative Beziehung handelt, ist dem Vorzeichen der Steigung b zu entnehmen (s.u.).
zu vernachlässigen, da es sich um eine bivariate Regression handelt. Bedeutsam wird es erst bei einer multiplen
ierte r2 zur Interpretation herangezogen werden muss.
• Das korrigierte r2 ist hier
Regression. Sobald nämlich mehrere unabhängige Variablen in die Analyse einbezogen werden, erhöht sich r2 künstlich, sodass in diesem Falle das korrig
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 44 von 51
ANOVAb
695652,2 1 695652,17 1,502 ,255a
3704348 8 463043,484400000 9
RegressionResiduenGesamt
Modell1
Quadratsumme df
Mittel derQuadrate F Signifikanz
Einflußvariablen : (Konstante), Lebensalter in Jahren (x)a.
Abhängige Variable: monatl. Nettoeinkommen in Euro (y)b.
• A“ (analysis of variance) finden wir die Quadratsumme der
“ = 3704348)
• st er
erklärten Variation an der Gesamtvariation:
Unter „ANOVGesamtvariation („Gesamt“ = 4400000), die sich zusammensetzt aus der Quadratsumme der erklärten Variation („Regression“ = 695652,2) und der nicht-erklärten Variation („Residuen
695652 + 3704348 = 4400000
Deutlich wird hier auch noch einmal die Logik von r2: Wie erkennbar, ider Determinationskoeffizient nichts anderes als der (relative) Anteil d
1581,044000006956522 ==r
Regressionsgeraden: Konstante a = 1286,957 sowie Steigung b = 21,739Die Gleichung der Regressionsgeraden lautet demnach:
i
Koeffizientena
2 1,660 65
Mode1
Nicht standardisierteKoeffizienten
Standardisierte
Koeffizienten
nz
a.
1286,957 775,37 ,1321,739 17,736 ,398 1,226 ,25
(Konstante)Lebensalter in Jahren (x)
ll BStandardf
ehler Beta T Signifika
Abhängige Variable: monatl. Nettoeinkommen in Euro (y)
• Unter „Koeffizienten“ finden wir die Komponenten der Gleichung der
•
)(739,21957,1286ˆ xy +=
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 45 von 51
4. Analyse von Kreuztabellen mit SPSS / Zeilen-, Spalten- u. Gesamtprozentwerte
• Mit SPSS ist es möglich, sich Kreuztabellen in mehreren Varianten
ausgeben zu lassen, so z.B. mit den beobachteten und den erwarteten Häufigkeiten oder zusätzlich versehen mit Zeilen-, Spalten- und Gesamtprozentwerten
Hier wurden folgende zwei Variablen kreuztabuliert:
• Geschlecht (Mann, Frau)
• Telefonnummer ins Telefonbuch eingetragen (Ja, Nein)
E<R> Kreuztabelle
1173 1379 25521159,7 1392,3 2552,0
46,0% 54,0% 100,0%
86,2% 84,4% 85,2%
201,3 241,7 443,0
6,3% 8,5% 14,8%1361 1634 2995
1361,0 1634,0 2995,0
45,4% 54,6% 100,0%
100,0% 100,0% 100,0%
45,4% 54,6% 100,0%
AnzahlErwartete Anzahl% vonTELEFONNUMMER INTELEFONBUCHEINGETRAGEN% von GESCHLECHT,BEFRAGTE<R>
Erwartete Anzahl% von
der Gesamtzahlnzahl
Erwartete Anzahl
LEFONBUCH
BEFRAGTE<R>% der Gesamtzahl
JATELEFONNUMMERI LEFONBUCHEINGETRAGEN
G sa
MANN FRAU
GESCHLECHT,BEFRAGTE<R>
Gesamt
Anzahl
• In der Zeile „Anzahl“ sind die beobachteten Häufigkeiten eingetragen Erwartete Anzahl
• In der Zeile „Erwartete Anzahl“ sind die erwarteten Häufigkeiten eingetragen • Wie wurden sie berechnet?
TELEFONNUMMER IN TELEFONBUCH EINGETRAGEN * GESCHLECHT, BEFRAGT
N TE
39,2% 46,0% 85,2%188 255 443
% der GesamtzahlAnzahlNEIN
42,4% 57,6% 100,0%
13,8% 15,6% 14,8%
TELEFONNUMMER INTELEFONBUCHEINGETRAGEN% von GESCHLECHT,BEFRAGTE<R>%Amte
% vonTELEFONNUMMER INTEEINGETRAGEN% von GESCHLECHT,
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 46 von 51
Zeilenprozentwerte • In der Zeile „% von TELEFONNUMMER INS TELEFONBUCH EINGETRAGEN“ addieren
sich die Prozentwerte jeweils zeilenweise zu 100%. Zu lesen sind die Prozentwerte wie folgt:
• von denen, die ihre Telefonnummer ins Telefonbuch eintragen, sind 46,0% männlich und 54,0% weiblich
• von denen, die ihre Telefonnummer nicht ins Telefonbuch eintragen lassen, sind 42,4% männlich und 57,6% weiblich
Die Basis bildet jedes Mal die Zeilensumme!
• Wie wurden die Prozentwerte berechnet?
Spaltenprozentwerte
• In der Zeile „% von GESCHLECHT, BEFRAGTE<R>“ addieren sich die Prozentwerte jeweils spaltenweise zu 100%
• Von allen befragten Männern lassen sich 86,2% ins Telefonbuch eintragen, während 13,8% dies nicht tun
• Von allen befragten Frauen lassen sich 84,4% ins Telefonbuch eintragen, während 15,6% dies verweigern
Die Basis bildet jedes Mal die Spaltensumme!
• Wie wurden die Prozentwerte berechnet?
Ge
die Gesamtsumme die Basis!
t herauszufinden, wie die Gesamtprozentwerte (% von esen sind
• nfacht die Interpretation und dient der eigenen
samtprozentwerte
Hier bildet jedes Mal
• Versucht selbsGesamtzahl) zu lWie wurden die einzelnen Prozentwerte berechnet? Das Nachvollziehen des Rechenweges vereiKontrolle!
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 47 von 51
5. Diverse Übungsaufgaben
Studenten darüber, wie viel Stunden sie in der Woche arbeiten, haben sich folgende Werte
den absoluten, relativen und prozentualen
-Leaf-Display
Gegeben sind folgende 12 Messwerte: 5, 5, 5, 4, 4, 2, 0, 0, 10, 11, 13, 13. Transformieren sie die Daten so, dass sie einen Mitte
4) Stellen Sie eine Kreuztabelle auf, bei der Chi-Quadrat den Wert Null annimmt und mindestens eine der Zellen eine
5) Bitte beurteilen Sie den statistischen Zusammenhang der folgenden Kontingenztabelle.
a e
enhang
e Beziehung zwischen den beiden Variablen er als Null Chi-Quadrat ist kleiner als Null Chi-Quadrat ist gleich Null
b) Welchen Wert erreicht Phi?
Welche der folgenden Maßnahme(n) ist (sind) bei einer ordinalskalierten Variablen angebracht?
Bildung der arithmetischen Differenz zwischen zwei Werten Änderung der Benennungen der Skalenwerte Feststellung, dass ein Variablenwert höher ist als ein anderer
Multiplikation jedes Wertes mit einer Konstanten und anschließende Addition einer Konstanten
euung auf?
Wenn die Verteilung sehr flach ist
Messwerte mit der gleichen Häufigkeit auftreten Wenn alle Me Wenn die Varianz genauso groß ist wie der Mittelwert Wenn die Varianz Wenn die Standard Wenn die Standard Wenn der Range g Wenn die Verteilung extrem rechts- oder linksschief ist
einen Messwert gibt
X1 X2
1) Aus einer Befragung von 20ergeben:
40, 40, 30, 30, 20, 20, 20, 20, 16, 16, 16, 12, 12, 6, 6, 6, 4, 4, 0, 0
a) Erstellen Sie mit diesen Werten eine Tabelle mitHäufigkeiten.
b) Berechnen Sie folgende Parameter: Arithmetisches Mittel, Median, Modus, Range, Varianz, Standardabweichung
c) Erstellen Sie einen Boxplot sowie ein Stem-And
2) In welcher Relation stehen in einer rechtsschiefen Verteilung das arithmetische Mittel, der Median und der Modus zueinander?
3)
lwert von 0 und eine Standardabweichung von 1 haben.
Häufigkeit ungleich Null aufweist
Y1 25 5 30
Y2 25 5 30
50 10 60
) W lche der folgenden Aussagen sind richtig ?
Es besteht ein mittlerer, positiver Zusamm Es besteht ein schwacher Zusammenhang Die Variablen stehen in Beziehung zueinander
Die Variablen sind statistisch voneinander unabhängig Es besteht eine perfekte Beziehung zwischen den Variablen Es besteht eine starkChi-Quadrat ist größ
6)
7) In welchen Fällen weist eine Verteilung keine Str
Wenn alle Messwerte gleich groß sind Wenn alle
sswerte mit dem Mittelwert übereinstimmen
gleich Null ist abweichung gleich Null ist abweichung gleich 1 ist leich der Standardabweichung ist
Wenn alle Messwerte mit dem Modus übereinstimmen Wenn es nur
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 48 von 51
8) Worin unterscheiden sich Ordinalskala und Intervallskala? Bitte kreuzen Sie die richtige(n) Lösung(en) an.
chieden werden, während bei einer Intervallskala auch die exakten Abstände zwischen den Ausprägungen angegeben werden können.
Das Messen au ordinal Mess u b eutet nichts anderes als die Klassifikation von Untersuchungseinheiten hinsichtlich ihre esitz oder ichtbe ns einer Merkmalsausprägung, während bei einer Intervallskala die Merkmalsausprägungen ihrer Größe ch geo t werden können.
Während beim Messen auf ordinalem Messniveau exakte Abstände zwischen den verschiedenen Merkmalsausprägungen angegeben werden können, kann bei r Int lskala auch ein absoluter Nullpunkt angegeben werden.
Bei einer Ordinalskala w die inblick auf den Grad, in dem sie eine bestimmte Merkmalsausprägung besitzen, geordnet, während bei einer Intervallskala nicht nur verschiedene Ausprägungsgrade unterschieden werden, sondern auch die exakten Abstände zwischen ihnen angegeben werden können.
pfindlich gegenüber Extremwerten Daten berechnet werden
t zumindest nominalskalierte Variablen voraus Die Standardabweichung ist ein Gütemaß für das arithmetische Mittel
geordnete Reihe von Messwerten
38 % von 1000 Befragten für die Abschaffung der Statistikveranstaltung ausgesprochen. Wie viel Prozent aller befragten Studierenden haben sich dann
kann jede beliebige reelle Zahl sein esswerte ab
hmetisches Mittel von 8 berechnet. Später stellte sich heraus, dass die urden. Wie lautet der Mittelwert für die gesamte Stichprobe vom Umfang n
und Diplom- Noten festgehalten:
8 9 10
Bei einer Ordinalskala können an Objekten nur verschiedene Ausprägungen unters
f em nivea eds B ens N
nasitzerdne
eine Objekte i
ervalm Herden
9) Welche Aussage(n) ist (sind) richtig?
Der Median ist anfällig für Extremwerte Der Median eignet sich für nominalskalierte Variablen Der Median eignet sich nicht für extrem schiefe Verteilungen Der Median ist ein Gütemaß für das arithmetische Mittel Das arithmetische Mittel ist unem Der Modus kann nur für ordinale Das arithmetische Mittel setz
Der Median halbiert eine
10) Bei zwei Umfragen unter Studierenden haben sich einmal 60 % von 100 Befragten und einmal
für die Abschaffung der Statistikveranstaltung ausgesprochen?
11) Wie groß ist die Summe aller Abweichungen vom arithmetischen Mittel?
grundsätzlich eine positive Zahl
hängt von der Größe der einzelnen M ist immer gleich Null
12) Für eine Stichprobe vom Umfang n = 10 wurde ein aritbeiden Messwerte x11 = 1 und x12 = 3 vergessen w= 12?
13) Von 10 Studierenden sind die folgenden Vordiplom-
Student 1 2 3 4 5 6 7 Vordiplom 1 2 5 5 4 3 4 3 4 5 Diplom 1 1 4 4 3 2 5 4 4 4
a) Berechnen Sie den Rangkorrelationskoeffizienten nach Spearman. b) Interpretieren Sie das Ergebnis.
14) Acht Studenten wollen feststellen, ob ein Zusammenhang existiert zwischen ihrem Zeiteinsatz pro Woche zur Vorbereitung der
n bestehende Rangordnungen, zwischen denen der Rangkorrelationskoeffizient nach
Statistik-Klausur und der von ihnen erzielten Klausurnote. Sie erstellen dabei folgende Tabelle:
Student
1 2 3 4 5 6 7 8
Zeiteinsatz in Std. 20 18 16 24 25 15 11 8 Klausurnote 2.3 2.7 3.3 1.7 2.0 3.0 1.3 5.0
a) Berechnen Sie den Rangplatzkoeffizienten nach Spearman. b) Welche Schlussfolgerung ziehen Sie aus dem Ergebnis?
15) Bitte konstruieren Sie zwei aus 6 PaareSpearman 1 wird.
Paar: 1 2 3 4 5 6 ------------------------------------------------------------------
Rangordnung 1: Rangordnung 2:
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 49 von 51
16) Welche Zusammenhangsmaße sind ab welchem Messniveau anwendbar?
Maßzahl nominal ordinal metrisch Tau-a Chi-Quadrat Gamma Prozentsatz- differenz Pearsons r Tau-b Spearmans Rho
Cramers V
17) Welche Eigenschaften besitzt das arithmetische Mittel?
l. Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so muss man das alte arithmetische Mittel mit dieser
Zahl multiplizieren, um das neue arithmetische Mittel zu erhalten. en Wert 0 addiert.
Das arithmetische Mittel verändert sich, wenn man eine Menge von Messwerten um einen weiteren Messwert 0 erweiter
Das arith etische Mittel ist immer größer als die Standardabweichung.
em Betrieb arbeiten 10 Personen. 5 Personen haben ein Monatseinkommen von 2500,- €, die übrigen 5 Personen haben ein etrieb stellt einen neuen, zusätzlichen Mitarbeiter als
von monatlich 10000,- € ein. Welche Auswirkungen ergeben sich dadurch auf den Modus, den Median, und das arithmetische Mittel der Monatseinkommen
Der Modus vergrößert sich. ian vergrö metische Mittel vergrößert sich. o i nd arithmetisches Mittel.
ei Gruppen A und B werden die Variablen X und Y gemessen. Beide Gruppen haben ungefähr gleiche Mittelwerte und
eiden Variablen vor, in Gruppe B jedoch eine etwa gleich große
s den Gruppen A und B bestehende Gesamtgruppe. b) Welche Korrelation erwarten Sie in der Gesamtgruppe (also für A und B zusammen)?
21) In einem Unternehmen wurden im ersten Halbjahr des Jahres 1999 für unterschiedliche Mengen eines Produktes die in der
r dieses Produkt berechnet:
Stück (X)
Gesamtkosten in 1000 DM (Y)
Das arithmetische Mittel trennt eine Verteilung immer in die unteren und die oberen 50%. Addiert man zu jedem einzelnen Messwert eine beliebige Zahl, so erhöht sich das arithmetische Mittel um diese Zah
Das arithmetische Mittel verändert sich auch, wenn man zu jedem Messwert d
t. m
18) In einEinkommen von jeweils 2600,-, 2700,-, 2800,-, 2900,- und 3000,- €. Der BFührungskraft mit einem Einkommen
aller Mitarbeiter?
Der Med ßert sich. Das arithEs zeigen sich keinerlei Auswirkungen auf M dus, Med an u
19) In zwriaVa nzen. In Gruppe A liegt aber eine positive Korrelation der b
negative Korrelation. a) Zeichnen Sie ein Streudiagramm für die au
20) Erläutern Sie das Prinzip zur Ermittlung der Regressionsfunktion nach dem Kriterium der kleinsten Quadrate.
folgenden Tabelle angegebenen Gesamtkosten fü
Mon Menge in 1000 at Januar 2
ebruar 3 30
F 35 März 4 55 April 6 75 Mai 7 80 Juni 8 85 a) Prüfen S fe eines Streudiagr mms, ob zwischen beiden Merkmalen ein Zusammenhang besteht und von welchem Typ
dieser Zu ge benenfalls ist. b) Ermitteln Sie die für die Regressionsgleichung y onskoeffizienten a und b. c) Berechne retie n Sie Pearsons Produkt-Moment-Korrelationskoeffizienten r.
22) Für den linearen Zusammenhang zwischen den Merkmalen „monatliche Mietausgaben in €“ (y) und „monatliches Nettoein “ (x urde nach der Methode der kleinsten Quadrate folgende Regressionsfunktion gefunden:
y´ = 0,2x + 100
h zu?
ie mit Hil asammenhang ge
=a+bx erforderlichen Regressin und interp re
kommen in € ) w
Welche der folgenden Aussagen trifft Ihrer Meinung nac
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 50 von 51
Die Mietausgaben der untersuchten Haushalte betragen im Durchschnitt 20% des Einkommens. Die durchschnittlichen Mietausgaben betragen bereits 100 €, wenn der Haushalt keinerlei Einkommen besitzt.
die Mietausgaben das
monatlichen Nettoeinkommen von 1000 € liegen die monatlichen Mietausgaben durchschnittlich bei 300 €. uchten Haushalte zu einer Mietsteigerung von
0,2%. Je geringer das Einkommen der untersuchten Haushalte, desto geringer im durchschnitt die Mietausgaben.
23)
24) X
25) Welc B en Pearsons r und Spearmans Rho?
26) Wor g egressionsgleichung y=a+bx) Auskunft?
27) Worüber gibt der Regressionskoeffizient a (aus der Regressionsgleichung y=a+bx) Auskunft?
28) ommen hat folgenden Output ergeben:
odellzusammenfassung adrat Standardfehler des
Schätzers
Die Regressionsfunktion enthält einen Fehler, da bei Haushalten unter 125 € Nettoeinkommen Einkommen übersteigen. Bei einem
Eine Einkommenssteigerung von 1% führt im Durchschnitt der unters
Welchen Vor- oder Nachteil hat es, wenn bei Vorliegen einer deutlich nicht-linearen Beziehung zwischen 2 Variablen X und Y Pearsons r berechnet wird?
Wie hoch muss die Korrelation (also Pearsons r) zwischen 2 Variablen X und Y sein, damit 30% der Streuung von Y durch erklärt wird?
he eziehung(en) bestehen zwisch
über ibt der Regressionskoeffizient b (aus der R
Eine mit SPSS erstellte Regressionsanalyse zwischen der unabhängigen Variablen Alter und der abhängigen Variablen monatliches Nettoeink
MModell R R-Quadrat Korrigiertes R-Qu
1 ,457 ,209 ,207 variablen : (Konstante), Erwerbsfähiges Alter (18-65)
1907,72a Einfluß
ANO A
Modell Quadratsumme d
Vf Mittel der Quadrate F Signifikan
z1 Regression 421448856,364 1 421448856,364 115,802 ,000
Residuen 1597691074,525 439 3639387,413 Gesamt 2019139930,889 440
a Einflußvariablen : (Konstante), Erwerbsfähiges Alter (18-65) b Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE>
Koe n
Koeffizienten
T Signifikanzffizie ten
e Nicht standardisierte
StandardisiertKoeffizienten
Modell B Standardfehler Beta
1 (Konstante) -404,217 294,126 -1,374 ,170
Erwerbsfähiges Alter
82,330 7,651 ,457 10,761 ,000(18-65)
a Abhängige Variable: BFR.:NETTOEINKOMMEN<OFFENE+LISTENANGABE>
a) Wie h b) Wie viel P ? c) Wie viel P
erklärt? d) Woran ist e) Wie lf) Mit welche atl. Nettoeinkommen kann, auf Basis dieser Regressionsanalyse, eine 50jährige Person durchschnittlich
rechn g) Was ist in der ANOVA Tabelle unter „Regression“, „Residuen“ und „Gesamt“ zu verstehen?
hoc ist die Produkt-Moment-Korrelation nach Pearson? rozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch die x-Variable (Alter) erklärtrozent der Gesamtstreuung der y-Variablen (monatl. Nettoeinkommen) wird durch andere, unbekannte Faktoren
erkennbar, ob die beiden Variablen in positiver oder negativer Beziehung zu einander stehen? autet die Gleichung der Regressionsgeraden?
m monen?
Mark Lutter SMS I Tutorium Teil I „Deskriptive Statistik“ Seite 51 von 51
6.
Unverzichtbare Basisliteratur & Exzellente Darstellung des Stoffs:
Benninghaus, Hans: Einführung in die sozialwissenschaftliche , Wie 1998
Bortz, J Berlin, 19
Alles relevante für die Klausur steht in:
Faulbaum, Frank: Vorlesungs-Skript SMS I/A
ereitung:
Clauß, G.; Finze, F.-R. ; Partzsch, L. : Statistik für Soziologen, Pädagogen, Psychologen und Mediziner. Band I: Grundlagen, 2. Auflage, Frankfurt / Main, 1995.
Sehr formal, aber dafür sehr korrekt:
ur, F.: Statistik, 10. Auflage, München, Wien, 1998.
in, 1992.
Literaturverzeichnis
Datenanalyse, 5. Auflage, München n, .
ürgen: Statistik für Sozialwissenschaftler, 4. Auflage,93.
Ebenfalls sehr wichtig für die Klausurvorb
Sämtliche Musterklausuren
Sehr gut zum Selbststudium eignet sich:
Bamberg, G.; Ba
Darüber hinaus lohnt sich:
Krämer, Walter: So lügt man mit Statistik, Frankfurt / Main, 1991. Krämer, Walter: Statistik verstehen, Frankfurt / Ma