42
Deskriptive Statistik Deskriptive Statistik und Explorative und Explorative Datenanalyse Datenanalyse TU-Dresden TU-Dresden Institut für Soziologie Institut für Soziologie Lehrstuhl für Methoden der empirischen Lehrstuhl für Methoden der empirischen Sozialforschung Sozialforschung Forschungsseminar Berufserfolg- und verläufe von Forschungsseminar Berufserfolg- und verläufe von Hochschulabsolventen Hochschulabsolventen Referentinnen: Betje Schulze, Anke Baron Referentinnen: Betje Schulze, Anke Baron

Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Embed Size (px)

Citation preview

Page 1: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Deskriptive Statistik Deskriptive Statistik und Explorative und Explorative DatenanalyseDatenanalyse

TU-DresdenTU-DresdenInstitut für SoziologieInstitut für SoziologieLehrstuhl für Methoden der empirischen SozialforschungLehrstuhl für Methoden der empirischen SozialforschungForschungsseminar Berufserfolg- und verläufe von Forschungsseminar Berufserfolg- und verläufe von HochschulabsolventenHochschulabsolventenReferentinnen: Betje Schulze, Anke BaronReferentinnen: Betje Schulze, Anke Baron

Page 2: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Deskriptive StatistikDeskriptive Statistik Die beschreibende (descriptive) Statistik versucht, große

und unübersichtliche, experimentell sowie durch Beobachtung oder Befragung gewonnene Datenmengen durch graphische Darstellung auf einen Blick verständlich zu machen.

Im Vordergrund stehen dabei Informationen über dieIm Vordergrund stehen dabei Informationen über die

Verteilung der Merkmalsausprägungen einzelner Verteilung der Merkmalsausprägungen einzelner Merkmale –Merkmale –

univariate Statistik – und der Kombinationen vonunivariate Statistik – und der Kombinationen von

Merkmalsausprägungen mehrerer Merkmale – bi- oderMerkmalsausprägungen mehrerer Merkmale – bi- oder

multivariate Statistik (Zusammenhänge, Abhängigkeiten).multivariate Statistik (Zusammenhänge, Abhängigkeiten). Die verwendeten Techniken hängen wesentlich vomDie verwendeten Techniken hängen wesentlich vom

Skalenniveau der einbezogenen Merkmale (Variablen) ab.Skalenniveau der einbezogenen Merkmale (Variablen) ab.

Page 3: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Explorative DatenanalyseExplorative Datenanalyse

Mittels einer guten Beschreibung, Mittels einer guten Beschreibung, wird der Datensatz auf wird der Datensatz auf Besonderheiten hin analysiertBesonderheiten hin analysiert

Reduktion von hochdimensionalen Reduktion von hochdimensionalen DatenDaten

Wird oft der schließenden Statistik Wird oft der schließenden Statistik vorgeschaltet vorgeschaltet

Man bekommt eine Idee davon, was Man bekommt eine Idee davon, was man eventuell mit der schließenden man eventuell mit der schließenden Statistik beweisen möchte Statistik beweisen möchte

Page 4: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

SkalenniveausSkalenniveaus

NominalskalaNominalskala: - Klassifikation von Objekten : - Klassifikation von Objekten nach Gleichheit oder Verschiedenheit nach Gleichheit oder Verschiedenheit (Äquivalenzklassen)(Äquivalenzklassen)

OrdinalskalaOrdinalskala: - es wird eine Rangordnung : - es wird eine Rangordnung der Objekte bezüglich einer Eigenschaft der Objekte bezüglich einer Eigenschaft vorausgesetzt (Rangskala)vorausgesetzt (Rangskala)

IntervallskalaIntervallskala: - es wird nicht nur eine : - es wird nicht nur eine Aussage über die Rangfolge getroffen, Aussage über die Rangfolge getroffen, zusätzlich informieren die Skalenwerte auch zusätzlich informieren die Skalenwerte auch über die Abstände zwischen den Messwertenüber die Abstände zwischen den Messwerten

VerhältnisskalaVerhältnisskala: - es werden Aussagen : - es werden Aussagen über Verhältnisse, d.h. Quotienten von über Verhältnisse, d.h. Quotienten von Skalenwerten getroffen; Skalenwerten getroffen;

Page 5: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Skalen- und DatenniveausSkalen- und DatenniveausSkalentypSkalentyp DatennivDatenniv

eaueauInterpretInterpretation von ation von SkalenweSkalenwertenrten

MittelwerMittelwertt

StreuungStreuungs-maßes-maße

BeispieleBeispiele

Nominal-Nominal-skalaskala

NominalNominal

(qualitati(qualitativ)v)

gleich gleich oder oder verschiedeverschiedenn

ModalwertModalwert GeschlechGeschlecht,t,

Kinder Kinder (ja/nein)(ja/nein)

Ordinals-Ordinals-kalakala

OrdinalOrdinal

(qualitati(qualitativ)v)

größer, größer, kleiner kleiner oder oder gleichgleich

MedianMedian Quartil-Quartil-abstandabstand

Schulab-Schulab-schlüsseschlüsse

Intervall-Intervall-skalaskala

MetrischMetrisch

(quantita(quantitativ)tiv)

VergleichbVergleichbar-keit von ar-keit von

DifferenzeDifferenzenn

Arith-Arith-metisches metisches MittelMittel

Standard-Standard-abweichunabweichung/ Varianzg/ Varianz

TemperatuTemperaturr

VerhältniVerhältnis-skalas-skala

MetrischMetrisch

(quantita(quantitativ)tiv)

Gleichheit Gleichheit von von VerhältnisVerhältnissensen

Arith-Arith-metisches metisches

MittelMittel

Variations-Variations-koeffizientkoeffizient

EinkommeEinkommenn

Page 6: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Univariate DatenanalyseUnivariate Datenanalyse

Pro Objekt i (i=1, …, n; n Pro Objekt i (i=1, …, n; n Stichprobenumfang) wird ein Stichprobenumfang) wird ein Merkmal X durch Messung, Merkmal X durch Messung, Befragung oder Beobachtung Befragung oder Beobachtung erhobenerhoben

Z.B. Einkommen, Geschlecht, Z.B. Einkommen, Geschlecht, Adäquanz, VollbeschäftigungAdäquanz, Vollbeschäftigung

Das Resultat ist jeweils ein Wert Das Resultat ist jeweils ein Wert (Merkmalsausprägung) xi(Merkmalsausprägung) xi

Page 7: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Univariate DatenanalyseUnivariate Datenanalyse

Beschreibung der HäufigkeitsverteilungBeschreibung der Häufigkeitsverteilung

Ausprägung y(j)Ausprägung y(j) absolute Häufigkeit Njabsolute Häufigkeit Nj relative relative HäufigkeitHäufigkeit fj = fj = Nj / NNj / N

y (1)y (1) N1N1 f = N1 / Nf = N1 / N

.. . . ..

.. . . .. .. . . ..y (J)y (J) NJNJ fJ= NJ / NfJ= NJ / N

∑∑Nj = NNj = NjjεεJJ

Page 8: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Beispiel an der Variable Beispiel an der Variable „Alter“„Alter“

Ausprägung y(j)Ausprägung y(j) absolute absolute relative relative kummuliertekummulierte

Häufigkeit Häufigkeit Häufigkeit (%)Häufigkeit (%) HäufigkeitHäufigkeit

21 – 3021 – 30 4343 1,041,04 1,041,04

31 – 4031 – 40 881881 21,4121,41 22,4522,45

41 – 5041 – 50 13881388 33,7333,73 56,1856,18

51 – 6051 – 60 11701170 28,4428,44 84,6284,62

61 – 7061 – 70 570570 13,8613,86 98,4898,48

71 – 8071 – 80 6161 1,481,48 99,9699,96

81 – 9081 – 90 11 0,020,02 99,9899,98

GesamtGesamt 41144114 100100 ~100~100

Page 9: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Univariable Verteilung - Univariable Verteilung - Graphische DarstellungGraphische Darstellung

univariate Plotsunivariate Plots:: Untersuchung Untersuchung einzelner Variablen einzelner Variablen

Interesse auf: Ausreißer, Häufungen Interesse auf: Ausreißer, Häufungen von Beobachtungen in Teilen des von Beobachtungen in Teilen des Wertebereichs, Fehlen bestimmter Wertebereichs, Fehlen bestimmter Ausprägungen, Verteilungsform der Ausprägungen, Verteilungsform der Variablen Variablen

Page 10: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

nominale und ordinale Datennominale und ordinale Daten

Stab- und Balkendiagramme Stab- und Balkendiagramme (barcharts)(barcharts)

sinnvoll nur für diskrete Merkmalesinnvoll nur für diskrete Merkmale i.d.R. auf X-Achse die Ausprägungen der Merkmale u. auf Y-i.d.R. auf X-Achse die Ausprägungen der Merkmale u. auf Y-

Achse die Häufigkeit des Auftretens der AusprägungenAchse die Häufigkeit des Auftretens der Ausprägungen absolute Häufigkeiten geeignet für Darstellung der absolute Häufigkeiten geeignet für Darstellung der

Untersuchungsergebnisse einer Population (Graphik 1); Untersuchungsergebnisse einer Population (Graphik 1); beim Vergleich mehrerer Populationen/ Subgruppen, mit beim Vergleich mehrerer Populationen/ Subgruppen, mit unterschiedlich großem Stichprobenumfang – relative unterschiedlich großem Stichprobenumfang – relative Häufigkeiten (Graphik 2)Häufigkeiten (Graphik 2)

jeder Merkmalsausprägung wird ein Strich/ Balken jeder Merkmalsausprägung wird ein Strich/ Balken zugeordnet -Anordnungsreihenfolge ist bei nominalen zugeordnet -Anordnungsreihenfolge ist bei nominalen Merkmalen beliebig, bei ordinalen existiert eine „natürliche“ Merkmalen beliebig, bei ordinalen existiert eine „natürliche“ Anordnungsreihenfolge (Rangreihe)Anordnungsreihenfolge (Rangreihe)

auch gruppierte metrische Daten können dargestellt werden auch gruppierte metrische Daten können dargestellt werden (z.B. Häufigkeiten versch. Einkommensklassen) (z.B. Häufigkeiten versch. Einkommensklassen)

Page 11: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 12: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

ordinale Daten (und ordinale Daten (und gruppierte metrische Daten)gruppierte metrische Daten)

Box-(Whisker-)PlotBox-(Whisker-)Plot stellt Median, 25%- und 75%-Quantile (unteres und stellt Median, 25%- und 75%-Quantile (unteres und

oberes Quartil), Extremwerte und Ausreißer daroberes Quartil), Extremwerte und Ausreißer dar untere bzw. obere Grenze der Box: unteres bzw. oberes untere bzw. obere Grenze der Box: unteres bzw. oberes

Quartil (Hälfte der beobachteten Werte liegt in der Box); Quartil (Hälfte der beobachteten Werte liegt in der Box); Länge der Box: Quartilsabstand; Linie innerhalb der Box: Länge der Box: Quartilsabstand; Linie innerhalb der Box: Median; Ausreißer: zw. 1,5 und 3 Box-Längen vom Median; Ausreißer: zw. 1,5 und 3 Box-Längen vom unteren/ oberen Rand der Box entfernt (dargestellt als unteren/ oberen Rand der Box entfernt (dargestellt als °); Extremwerte: mehr als 3 Box-Längen entfernt (*); °); Extremwerte: mehr als 3 Box-Längen entfernt (*); äußeren Striche – Zäune: kleinster und größter äußeren Striche – Zäune: kleinster und größter beobachteter Wert, der kein Ausreißer istbeobachteter Wert, der kein Ausreißer ist

zwischen Median und unterem/ oberem Quartil immer zwischen Median und unterem/ oberem Quartil immer 25% der Fälle – kleinere Flächen deuten nur auf starke 25% der Fälle – kleinere Flächen deuten nur auf starke Konzentration der Fälle in diesem Wertebereich hinKonzentration der Fälle in diesem Wertebereich hin

ermöglicht Aussagen über Symmetrie, Schiefe sowie ermöglicht Aussagen über Symmetrie, Schiefe sowie Zahl und Lage extremer Beobachtungen Zahl und Lage extremer Beobachtungen

Page 13: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 14: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

metrische Datenmetrische Daten

HistogrammeHistogramme besonders geeignet, um vermutliche Verteilung in besonders geeignet, um vermutliche Verteilung in

der Grundgesamtheit aufzudeckender Grundgesamtheit aufzudecken graphische Darstellung der Anzahl der graphische Darstellung der Anzahl der

Beobachtungen, die in die einzelnen Intervalle Beobachtungen, die in die einzelnen Intervalle einer Klasseneinteilung von einer Variablen falleneiner Klasseneinteilung von einer Variablen fallen

zentral: Festlegung der Anzahl und Breite der zentral: Festlegung der Anzahl und Breite der Intervalle sowie des Ursprungs des Histogramms Intervalle sowie des Ursprungs des Histogramms Bestimmung der Klasseneinteilung und des Bestimmung der Klasseneinteilung und des Beginns der Klasseneinteilung; hiervon hängt ab, Beginns der Klasseneinteilung; hiervon hängt ab, welchen Eindruck man von einer Verteilung welchen Eindruck man von einer Verteilung anhand des Histogramms gewinntanhand des Histogramms gewinnt

verschiedne Regeln zur Bestimmung der Anzahl verschiedne Regeln zur Bestimmung der Anzahl und Breite der Intervalleund Breite der Intervalle

Page 15: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 16: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Averaged Shifted Averaged Shifted Histograms Histograms

m Histogramme mit gleicher m Histogramme mit gleicher Intervallbreite h erstellt, die aber jeweils Intervallbreite h erstellt, die aber jeweils um den Betrag h/m verschobene um den Betrag h/m verschobene Ursprünge besitzenUrsprünge besitzen

für ein ASH wird dann der Mittelwert für ein ASH wird dann der Mittelwert der Beobachtungen im jeweiligen der Beobachtungen im jeweiligen Intervall aller Histogramme an einem Intervall aller Histogramme an einem Punkt berechnetPunkt berechnet

mit zunehmendem m erscheinen ASHs mit zunehmendem m erscheinen ASHs glatter; die Verteilung kann glatter; die Verteilung kann zuverlässiger dargestellt werden zuverlässiger dargestellt werden

Page 17: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 18: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Stem-and-Leaf-Display Stem-and-Leaf-Display (Stamm-Blatt-Diagramm)(Stamm-Blatt-Diagramm)

Verteilung einer Variablen durch die Länge von Zeilen Verteilung einer Variablen durch die Länge von Zeilen wiedergegeben, wobei die Zeilen durch die Ziffern der wiedergegeben, wobei die Zeilen durch die Ziffern der Ausprägungen der Variablen gebildet werdenAusprägungen der Variablen gebildet werden

die darzustellenden Ziffern werden hierbei in führende (stem) die darzustellenden Ziffern werden hierbei in führende (stem) und restliche (leaves) Ziffern eingeteiltund restliche (leaves) Ziffern eingeteilt

für jede führende Ziffer werden die zugehörigen restlichen für jede führende Ziffer werden die zugehörigen restlichen Ziffern rechts neben der führenden Ziffer aufgeführtZiffern rechts neben der führenden Ziffer aufgeführt

gleiche Merkmalsausprägungen werden direkt wiedergegebengleiche Merkmalsausprägungen werden direkt wiedergegeben zu beachten ist, dass die führenden Ziffern auch Werte zu beachten ist, dass die führenden Ziffern auch Werte

wiedergeben müssen, die in den Daten nicht vorhanden sind wiedergeben müssen, die in den Daten nicht vorhanden sind (stem, aber kein dazugehöriges leave)(stem, aber kein dazugehöriges leave)

links neben dem stem ist jeweils die Häufigkeiten der im links neben dem stem ist jeweils die Häufigkeiten der im Stamm und der entsprechenden Zeile angegebenen Stamm und der entsprechenden Zeile angegebenen Merkmalsausprägung zu findenMerkmalsausprägung zu finden

um aus dem Diagramm die Ursprungswerte ablesen zu um aus dem Diagramm die Ursprungswerte ablesen zu können, muss noch die Einheit angegeben werden (stem width)können, muss noch die Einheit angegeben werden (stem width)

Page 19: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

- gibt Aufschluss über Spannweite und Symmetrie der Verteilung- zeigt Ausreißer, Lücken und Konzentrationen der Beobachtungen auf bestimmte Werte- liegt Interesse nicht in vermutlicher Verteilung der Grundgesamtheit, sondern in der Verteilung der Stichprobenwerte, ist das SLD dem Histogramm i.d.R. überlegen- am nützlichsten bei kleinen und mittleren Fallzahlen

Page 20: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Dot-PlotsDot-Plots

erhält man, wenn man für jede Beobachtung erhält man, wenn man für jede Beobachtung einer kontinuierlichen Variablen auf einem einer kontinuierlichen Variablen auf einem Zahlenstrahl an der Variabelenausprägung Zahlenstrahl an der Variabelenausprägung der Beobachtung ein Plotsymbol plottetder Beobachtung ein Plotsymbol plottet

Eindimensionale ScatterplotsEindimensionale Scatterplots stellen entlang einer Skala jeden stellen entlang einer Skala jeden

vorkommenden Wert mit einem Kreis darvorkommenden Wert mit einem Kreis dar bieten für kleinere Fallzahlen (n<100) bieten für kleinere Fallzahlen (n<100)

übersichtliche Darstellungübersichtliche Darstellung Problem des Überdruckens bei Problem des Überdruckens bei

Beobachtungen mit identischen Beobachtungen mit identischen AusprägungenAusprägungen

Page 21: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 22: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Stacked-Dot-PlotsStacked-Dot-Plots

Plotsymbole für Beobachtungen mit Plotsymbole für Beobachtungen mit identischen Ausprägungen werden identischen Ausprägungen werden nebeneinander dargestelltnebeneinander dargestellt

dies verhindert Überdrucken, schränkt dies verhindert Überdrucken, schränkt aber die Anwendung für den Bereich aber die Anwendung für den Bereich der Fallzahlen (ca. n<300) ein – der Fallzahlen (ca. n<300) ein – besonders bei starken Konzentrationen besonders bei starken Konzentrationen auf Teile des Wertebereichs auf Teile des Wertebereichs

Page 23: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Jittered Dot-PlotsJittered Dot-Plots

die einzelnen Beobachtungen werden die einzelnen Beobachtungen werden gegen gleichverteilte Zufallszahlen gegen gleichverteilte Zufallszahlen geplottetgeplottet

Beobachtungen mit identischer Beobachtungen mit identischer Ausprägung der interessierenden Ausprägung der interessierenden Variablen erhalten so unterschiedliche Variablen erhalten so unterschiedliche Plotpositionen in einer anderen Plotpositionen in einer anderen Dimension des Plots (die jedoch nicht Dimension des Plots (die jedoch nicht geplottet wird)geplottet wird)

auch für n>500auch für n>500

Page 24: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 25: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Q-Plots (Quantil-Plot)Q-Plots (Quantil-Plot) plottet für jede Ausprägung der nach Größe sortierten plottet für jede Ausprägung der nach Größe sortierten

Variablen das zugehörige Quantil (für jede Variablen das zugehörige Quantil (für jede Beobachtung wird also die Größe der Beobachtung Beobachtung wird also die Größe der Beobachtung gegen den Anteil der Beobachtungen geplottet, die gegen den Anteil der Beobachtungen geplottet, die kleiner als dieser Wert sind)kleiner als dieser Wert sind)

man kann hier den Wert der Quantile direkt ablesenman kann hier den Wert der Quantile direkt ablesen die Steilheit der durch die Punkte des Plots gebildeten die Steilheit der durch die Punkte des Plots gebildeten

Kurve gibt Aufschluss über die lokale Dichte: je Kurve gibt Aufschluss über die lokale Dichte: je steiler, desto stärker ist die lokale Dichte an diesen steiler, desto stärker ist die lokale Dichte an diesen Punkten (mehrere identische Ausprägungen einer Punkten (mehrere identische Ausprägungen einer Variablen führen zu senkrechten LinienVariablen führen zu senkrechten Linien

eine eingezeichnete Hilfslinie (Y=a+bX); lineare eine eingezeichnete Hilfslinie (Y=a+bX); lineare Regression der die beiden Achsen bildenden Größen) Regression der die beiden Achsen bildenden Größen) erleichtert Beurteilung der Steilheit und Erkennen erleichtert Beurteilung der Steilheit und Erkennen einzelner Ausreißereinzelner Ausreißer

Page 26: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar
Page 27: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Plots für den Vergleich Plots für den Vergleich empirischer Verteilungenempirischer Verteilungen

Frage nach Unterschied zweier oder mehrerer Frage nach Unterschied zweier oder mehrerer Verteilungen und Art der VerteilungsunterschiedeVerteilungen und Art der Verteilungsunterschiede

Back-to-Back-Stem-and-Leaf-Back-to-Back-Stem-and-Leaf-DisplaysDisplays (metrische Daten) (metrische Daten)

die Verteilung einer Variablen in zwei Gruppen wird in die Verteilung einer Variablen in zwei Gruppen wird in einem SLD „Rücken an Rücken“ dargestellt (ansonsten einem SLD „Rücken an Rücken“ dargestellt (ansonsten siehe SLD)siehe SLD)

Gruppierte BoxplotsGruppierte Boxplots (ordinale und gruppierte metrische Daten)(ordinale und gruppierte metrische Daten) es wird für jede Ausprägung einer es wird für jede Ausprägung einer

Gruppierungsvariablen ein Boxplot der abhängigen Gruppierungsvariablen ein Boxplot der abhängigen Variablen erstellt und gemeinsam dargestelltVariablen erstellt und gemeinsam dargestellt

eignen sich für raschen Vergleich einer Variablen eignen sich für raschen Vergleich einer Variablen zwischen verschiedenen Gruppenzwischen verschiedenen Gruppen

Page 28: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

● gruppierte Box-Dot-Plots

- Box-Dot-Plot: Kombination eines symmetrischen Dot-Plots mit einem Box-Plot; erlaubt einfache Feststellung multipler Ausreißer, ungewöhnlicher Konzentrationen in kleinen Wertebereichen und die direkte Wahrnehmung der Fallzahl pro Gruppe- zwei oder mehr dieser Box-Dot-Plots werden nebeneinander dargestellt; so werden die Gruppen vergleichbar- gruppierte Box-Dot-Plots empfehlen sich immer dann, wenn Mittelwertdiffernezen in verschiedenen Gruppen untersucht werden sollen

Page 29: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Q-Q-PlotsQ-Q-Plots

die Quantile zweier empirischer Verteilungen werden die Quantile zweier empirischer Verteilungen werden direkt gegeneinander geplottetdirekt gegeneinander geplottet

wären die Verteilungen in beiden Gruppen gleich, so wären die Verteilungen in beiden Gruppen gleich, so müssten die Beobachtungen bei einem Q-Q-Plot auf müssten die Beobachtungen bei einem Q-Q-Plot auf einer Geraden liegen, die die identischen einer Geraden liegen, die die identischen Ausprägungen der Variablen in den beiden Gruppen Ausprägungen der Variablen in den beiden Gruppen verbindet verbindet

Page 30: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Plots zum Vergleich Plots zum Vergleich empirischer und theoretischer empirischer und theoretischer

VerteilungenVerteilungen Frage ob eine empirische Verteilung mit einer Frage ob eine empirische Verteilung mit einer

theoretischen übereinstimmttheoretischen übereinstimmt

Probability-PlotsProbability-Plots Quantile einer empirischen Verteilung werden gegen Quantile einer empirischen Verteilung werden gegen

die Quantile einer theoretischen Verteilung geplottetdie Quantile einer theoretischen Verteilung geplottet am häufigsten wird als theoretische Verteilung die am häufigsten wird als theoretische Verteilung die

Normalverteilung verwendet (normal probability Normalverteilung verwendet (normal probability plots)plots)

die erwarteten Werte werden unter Annahme der die erwarteten Werte werden unter Annahme der Normalverteilung entlang der Y-Achse geplottet, die Normalverteilung entlang der Y-Achse geplottet, die beobachteten Werte entlang der X-Achsebeobachteten Werte entlang der X-Achse

liegen die Plotpunkte auf der Linie Y=X stimmen liegen die Plotpunkte auf der Linie Y=X stimmen theoretische und empirische Verteilung übereintheoretische und empirische Verteilung überein

graphische Darstellungen möglicher Verteilungen graphische Darstellungen möglicher Verteilungen

Page 31: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Plots für kategorisierte Plots für kategorisierte VariablenVariablen

Vergleich der Verteilung einer kategorisierten Vergleich der Verteilung einer kategorisierten Variablen mit einer theoretischen VerteilungVariablen mit einer theoretischen Verteilung

● ● Überlagerte HistogrammeÜberlagerte Histogramme Histogramm wird mit der Kurve der theoretisch Histogramm wird mit der Kurve der theoretisch

erwarteten Häufigkeiten überlagerterwarteten Häufigkeiten überlagert

Page 32: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Bivariate DatenanalyseBivariate Datenanalyse

Pro Objekt i (i=1, …, n) werden zwei Pro Objekt i (i=1, …, n) werden zwei Merkmale X und Y gemeinsam Merkmale X und Y gemeinsam erhobenerhoben

Z.B. - Geschlecht und EinkommenZ.B. - Geschlecht und Einkommen

- Familienstand und - Familienstand und Einkommen Einkommen

Das Resultat ist ein Paar (xi, yi) von Das Resultat ist ein Paar (xi, yi) von Merkmalsausprägungen Merkmalsausprägungen

Page 33: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Bivariate DatananalyseBivariate Datananalyse Bivariate Daten werden meist in einer Bivariate Daten werden meist in einer

Kreuztabelle aufgezeigtKreuztabelle aufgezeigt Für eine korrekte und anschauliche Analyse Für eine korrekte und anschauliche Analyse

bzw. Darstellung ist das Layout der Tabelle bzw. Darstellung ist das Layout der Tabelle entscheidend: Hans Zeisels Regeln für die entscheidend: Hans Zeisels Regeln für die Darstellung von Daten in KreuztabellenDarstellung von Daten in Kreuztabellen

die erklärende Variable sollte im Kopf der die erklärende Variable sollte im Kopf der Tabelle zu finden sein in Verbindung mit Tabelle zu finden sein in Verbindung mit der Grundregel, Prozentwerte auf die der Grundregel, Prozentwerte auf die erklärende Variable als Basis zu beziehen – erklärende Variable als Basis zu beziehen – SpaltenprozenteSpaltenprozente

Page 34: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Bivariate DatenanalyseBivariate Datenanalyse

es kann aus verschiedenen es kann aus verschiedenen Gründen, z.B. viele Ausprägungen Gründen, z.B. viele Ausprägungen der erklärenden Variable, notwendig der erklärenden Variable, notwendig sein Zeilen- und Spalten der sein Zeilen- und Spalten der Kreuztabelle zu vertauschen und Kreuztabelle zu vertauschen und damit auch die Prozentuierungen damit auch die Prozentuierungen

das sollte allerdings für den das sollte allerdings für den Rezipienten erkenntlich gemacht Rezipienten erkenntlich gemacht werdenwerden

Page 35: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Beispiel: Layout von TabellenBeispiel: Layout von Tabellen

Wichtigkeit beruflichen Erfolgs * Geschlecht Crosstabulation

Count

324 680 1004

753 1601 2354

200 409 609

25 44 69

7 11 18

1309 2745 4054

Sehr wichtig

Wichtig

Teils/teils

Nicht wichtig

Überhaupt nicht wichtig

WichtigkeitberuflichenErfolgs

Total

Weiblich Männlich

Geschlecht

Total

Page 36: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Layout von TabellenLayout von Tabellen

Wichtigkeit beruflichen Erfolgs * Geschlecht Crosstabulation

Count

25 25 1004

58 58 2354

15 15 600

2 2 69

1 0 18

1309 2745 4054

Sehr wichtig

Wichtig

Teils/teils

Nicht wichtig

Überhaupt nicht wichtig

WichtigkeitberuflichenErfolgs

N

Weiblich(%)

Männlich(%)

Geschlecht

N

Page 37: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Bi- und Multivariate Bi- und Multivariate Verteilung – Graphische Verteilung – Graphische

DarstellungDarstellung Scatterplots:Scatterplots: Einschätzung der Art und Einschätzung der Art und

Größe des Zusammenhangs zweier Variablen, die Größe des Zusammenhangs zweier Variablen, die Identifikation ungewöhnlicher Beobachtungen, die Identifikation ungewöhnlicher Beobachtungen, die Entdeckung von Clustern, ... Entdeckung von Clustern, ...

die Wertepaare zweier Variablen werden dazu die Wertepaare zweier Variablen werden dazu gegeneinander geplottetgegeneinander geplottet

Page 38: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

● ● Informationsangereicherte Informationsangereicherte ScatterplotsScatterplots

Scatterplot-SmootherScatterplot-Smoother

Beurteilung der Art des Zusammenhanges zweier Beurteilung der Art des Zusammenhanges zweier Variablen durch das Plotten von Hilslinien Variablen durch das Plotten von Hilslinien erleichtert erleichtert

häufig Regressionsgerade, die aber oft häufig Regressionsgerade, die aber oft unangemessen istunangemessen ist

die Beziehung zwischen zwei Variablen soll daher die Beziehung zwischen zwei Variablen soll daher ohne Festlegung auf ein parametrisches Modell ohne Festlegung auf ein parametrisches Modell untersucht werdenuntersucht werden

dazu dienen Scatterplot-Smoother: Median-Trace, dazu dienen Scatterplot-Smoother: Median-Trace, Kernel-Smoothed-Quantile-Plots, K-NN-Smoother, Kernel-Smoothed-Quantile-Plots, K-NN-Smoother, Running-Line-Smoother, LOWESS-SmootherRunning-Line-Smoother, LOWESS-Smoother

Page 39: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Plots für drei- und Plots für drei- und mehrdimensionale Datenmehrdimensionale Daten

Scatterplots für multivariate Daten/ Zusammenhänge Scatterplots für multivariate Daten/ Zusammenhänge zwischen drei oder mehr Variablenzwischen drei oder mehr Variablen

Scatterplots mit IconsScatterplots mit Icons

Icons: bildliche Darstellung von Objekten, deren Eigenschaften Icons: bildliche Darstellung von Objekten, deren Eigenschaften durch die Ausprägung einer oder mehrerer Variablen gesteuert durch die Ausprägung einer oder mehrerer Variablen gesteuert werden – Möglichkeit, im Scatterplot zusätzliche Dimensionen werden – Möglichkeit, im Scatterplot zusätzliche Dimensionen darzustellendarzustellen

für jeden Fall ein eigenes Icon geplottetfür jeden Fall ein eigenes Icon geplottet

● ● Bubble-Plots:Bubble-Plots: leere Kreise als Plotsymbolleere Kreise als Plotsymbol Größe gesteuert durch eine dritte VariableGröße gesteuert durch eine dritte Variable Nachteile: Beurteilung absoluter Größe der Bubbles fällt schwerNachteile: Beurteilung absoluter Größe der Bubbles fällt schwer leichter, wenn feste Bezugsgröße vorhandenleichter, wenn feste Bezugsgröße vorhanden... ...

Page 40: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

● ● Rectangle-Plots:Rectangle-Plots:hier dienen Rechtecke innerhalb eines Rahmens hier dienen Rechtecke innerhalb eines Rahmens als Icons als Icons Größe der Rechtecke durch die dritte Variable Größe der Rechtecke durch die dritte Variable gesteuertgesteuert

● ● Arrow-Plots:Arrow-Plots:Möglichkeit, mehr als eine Dimension zusätzlich Möglichkeit, mehr als eine Dimension zusätzlich darzustellendarzustellengeben eine Variable durch die Länge des Pfeils, geben eine Variable durch die Länge des Pfeils, eine andere durch die Richtung des Pfeils wiedereine andere durch die Richtung des Pfeils wieder

Page 41: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

Bedingte ScatterplotsBedingte Scatterplots

simultanes Aufstellen mehrerer simultanes Aufstellen mehrerer Scatterplots derselben Variablen Scatterplots derselben Variablen getrennt für Subgruppen der getrennt für Subgruppen der BeobachtungenBeobachtungen

eignen sich für: Vergleich der Art des eignen sich für: Vergleich der Art des Zusammenhangs in unterschiedlichen Zusammenhangs in unterschiedlichen Teilgruppen, Entdeckung Teilgruppen, Entdeckung mehrdimensionaler Cluster, mehrdimensionaler Cluster, Untersuchung von Interaktionseffekten Untersuchung von Interaktionseffekten stetiger Variablenstetiger Variablen

Page 42: Deskriptive Statistik und Explorative Datenanalyse TU-Dresden Institut für Soziologie Lehrstuhl für Methoden der empirischen Sozialforschung Forschungsseminar

QuellenQuellen Clauß, G./ Finze, F.-R./ Partzsch, L. (2002): Clauß, G./ Finze, F.-R./ Partzsch, L. (2002):

Statistik. Für Soziologen, Pädagogen, Statistik. Für Soziologen, Pädagogen, Psychologen und Mediziner. Grundlagen. Psychologen und Mediziner. Grundlagen. Wissenschaftlicher Verlag Harri Deutsch. Wissenschaftlicher Verlag Harri Deutsch. Frankfurt am MainFrankfurt am Main

Schnell, Rainer (1994): Grafisch gestützte Schnell, Rainer (1994): Grafisch gestützte Datenanalyse. Oldenburgverlag. MünchenDatenanalyse. Oldenburgverlag. München

Toutenburg, Helge (2000): Deskriptive Toutenburg, Helge (2000): Deskriptive Statistik. Springerverlag. BerlinStatistik. Springerverlag. Berlin

Ludwig-Mayerhofer, W. (1994): Kleine Ludwig-Mayerhofer, W. (1994): Kleine Anmerkung, die Verbesserung der Darstellung Anmerkung, die Verbesserung der Darstellung von Kreuztabellen betreffend. Kölner von Kreuztabellen betreffend. Kölner Zeitschrift für Soziologie und Zeitschrift für Soziologie und Sozialpsychologie. 46. S. 122-129. Sozialpsychologie. 46. S. 122-129.