Upload
lyhuong
View
214
Download
0
Embed Size (px)
Citation preview
3. Deskriptive Statistik
Ziel der deskriptiven (beschreibenden) Statistik (explorativen
Datenanalyse) ist die ubersichtliche Darstellung der wesentli-
chen in den erhobenen Daten enthaltene Informationen (Struk-
turen).
3.1. Univariate Verteilungen
Eindimensionale (univariate) Daten:
Pro Objekt wird ein Merkmal durch
Messung / Befragung/ Beobachtung
erhoben.
Resultat ist jeweils ein Wert
(Mermalsauspragung) xi:
- Lange eines Werkstucks,
- Gehalt einer Person,
- Guteklasse eines Produkts
Zweidimensionale (bivariate) Daten:
Pro Objekt werden zwei Merkmale
erhoben:
(Preis, Material)
(Ausbildung, Gehalt)
(Wohngegend, Wagentyp)
Ausgangspunkt: sog. Urliste
= Ergebnis der Registrierung der Beobachtungen
(Mermalsauspragungen)
x1, x2, . . . , xn
(haufig Zahlenkodes)
1
Beispiel 1: benutzte Verkehrsmittel von 100 Urlaubern bei
Auslandsreisen,
53 x Pkw, 29 x Flugzeug, 7 x Bahn, 9 x Bus, 2 x Sonstige
Beispiel 2: Messwerte fur einen technischen Parameter an 10
Werkstucken (geordnet)
1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18
Beispiel 3: 200 Messwerte in Klassen
Klasse Haufigkeit
125,5 ... 130,5 8
130,5 ... 135,5 28
135,5 ... 140,5 36
140,5 ... 145,5 36
145,5 ... 150,5 50
150,5 ... 155,5 40
155,5 ... 160,5 2
Erster Schritt:
Bestimmung der absoluten Haufigkeiten fur das Auftreten der
verschiedenen Merkmalsauspragungen (bzw. Klassen)
d.h. Erstellen einer Haufigkeitstabelle, Haufigkeitsverteilung
(Verteilung)
2
Grafische Darstellung der Verteilung der
Merkmalsauspragungen einer Variablen
• Balkendiagramm, ( -grafik, Saulendiagramm) zur
Veranschaulichung absoluter Haufigkeiten,
z.B:
Darstellung der Auspragungen auf der x-Achse,
Haufigkeiten auf der y-Achse
• pro Auspragung ein Balken, eine Saule,
• im Beispiel Darstellung von Kategorien:
– Balken getrennt
– gunstig bei kategorialen Daten mit wenigen Kategorien
– Reihenfolge der Anordnung (auf der x-Achse) spielt
keine Rolle
• Korrekte Skalierung der Achsen !
relative Haufigkeiten =absolute Haufigkeiten
Gesamtanzahl der Beobachtungen
• nutzlich beim Vergleich von Anteilen, gunstig durch
mehrere Kreisdiagramme oder gestapelte Balken-
diagramme darstellbar
• absolute Haufigkeiten nicht mehr zu erkennen, keine
Aussagen z.B. uber Zunahme der abs. Haufigkeiten moglich
3
• bei metrischen Daten u.U. Anzahl der Saulen bzw.
Sektoren zu groß, da zu viele verschiedene Messwerte
vorliegen
• Ausweg: Klasseneinteilung, Bildung von sog. Messwert-
klassen, Daten werden gruppiert, siehe Beispiel 3, dann
grafische Darstellung durch Histogramm
• oftmals werden die Werte fur die Klassenmitten
verbunden (mind. ordinale Daten):
Haufigkeitspolygon, liefert Information uber die Form
der Verteilung
• kumulative Haufigkeiten entstehen durch Aufsummieren
der abs. Haufigkeiten, von links beginnend
mindestens ordinale Daten erforderlich, Beispiel 3:
Klasse Haufigkeit kumulative Haufigkeiten
125,5 ... 130,5 8 8
130,5 ... 135,5 28 8+28=36
135,5 ... 140,5 36 36+36=72
140,5 ... 145,5 36 72+36=108
145,5 ... 150,5 50 108+50=158
150,5 ... 155,5 40 158+40=198
155,5 ... 160,5 2 198+2=200
” 158 Messwerte waren ≤ 150, 5 cm ”
Bild der kumulativen Haufigkeiten ist das
Summenpolygon bzw. die empirische Verteilungs-
funktion fur die kumulierten relativen Haufigkeiten
4
Kenngroßen eindimensionaler Verteilungen
• Charakterisierung von Verteilungen durch statistische
Maßzahlen (Kenngroßen, Parameter), die die
Eigenschaften (Zentrum, Ausbreitung, Form) der
Verteilung widerspiegeln
• wichtigste Maßzahlen sind Lage- und Streuungsparameter
• Wichtig: Skalierungsniveau beachten
Lageparameter:
Der Modalwert
• = die am haufigsten auftretende Merkmalsauspragung
• = die Klasse (Klassenmitte) mit der großten Haufigkeit
bei gruppierten Daten (Klassen)
• Mehrere Maxima: kein Modalwert
• Eigenschaften und Interpretation:
– Wert, der ”am ehesten” zu beobachten ist
(sprachl. Formulierungen wie:
”Diese Krankheit dauert normalerweise 3 Tage.”,
”Die Fahrzeit betragt normalerweise 2 Stunden.”)
– unempfindlich gegenuber Ausreißern (extremen
Werten)
5
Median
• mindestens ordinale Daten
• Median heißt jede Merkmalsauspragung a, fur die gilt:∑
i : xi≤ahi ≥ 1/2 ,
∑
i : xi≥ahi ≥ 1/2
• ”oberhalb” und ”unterhalb” der Mediane befinden sich
gleichviele Elemente der Stichprobe
• Bei metrischen Daten wird haufig der Mittelwert der
Mediane als Median angegeben.
• Eigenschaften und Interpretation:
– zentraler Wert bei ordinalen Merkmalen
– unempfindlich gegenuber Ausreißern
– Minimaleigenschaft bez. absoluter Abweichungen
(metrische Daten), jeder Median lost
n∑
i=1|xi − z| → min
Das arithmetische Mittel
• metrische Daten
x =1
n
n∑
i=1xi =
l∑
j=1ajhj
• Eigenschaften und Interpretation:
– Schwerpunkt der Verteilung,
– empfindlich gegenuber Ausreißern (vgl. Median),
6
– Minimaleigenschaft bezuglich quadratischer
Abweichungen:n∑
i=1(xi − z)2 → min
hat die Losung z = x (Beweis: Ubung).
• bei gruppierten Daten mit Klassenmitten x∗i und
Klassenhaufigkeiten ni:
x =1
n
k∑
i=1nix
∗i
gewichtetes Mittel der Klassenmitten
Beispiel 3: 200 Messwerte in Klassen
Klasse Haufigkeit
125,5 ... 130,5 8
130,5 ... 135,5 28
135,5 ... 140,5 36
140,5 ... 145,5 36
145,5 ... 150,5 50
150,5 ... 155,5 40
155,5 ... 160,5 2
• Im Gegensatz zum Median kann das arithmetische Mittel
bei gruppierten Daten mit offenen Rand-
klassen nicht berechnet werden.
7
Streuungsparameter (Variabilitatsparameter)
• Maßzahlen zur Bewertung der Variabilitat der Mess-
werte, der Breite einer Verteilung, der Abweichungen vom
Mittelwert
• Ziel von Analysen: Zerlegung der Variabilitat der
Messwerte nach verschiedenen Ursachen (Faktoren, Fehler
des Messgerates usw.), Analyse der Wirkung des Zufalls
Streuungsparameter fur metrische Daten
• Spannweite: v = xmax − xmin
• empirische Varianz: s2
s2 =1
n− 1
n∑
i=1(xi − x)2 =
1
n− 1
( n∑
i=1x2
i − nx2)
”mittlere quadratische Abweichung”1
n−12 (· − ·)
Dimension von s2 :
ist z.B. xi eine Konzentration, dann mg2/l2
• Eigentlich musste durch n geteilt werden. Grund fur die
Division durch n − 1 ist die Anwendung der so
erhaltenen Große in der schließenden Statistik.
• Standardabweichung s =√
s2, gleiche Dimension wie xi.
• Variationskoeffizient v =s
x100% dimensionslos
8
Quartilsabstand
• Grundgedanke:
Ahnlich der Spannweite (s.o.) wird die ”Spannweite der
mittleren 50% der Werte” berechnet.
• Unteres Quartil q0.25 heißt jede Merkmalsauspragung a,
fur die gilt:
∑
i : xi≤ahi ≥ 1/4 ,
∑
i : xi≥ahi ≥ 3/4 .
Oberes Quartil q0.75 heißt jede Merkmalsauspragung a, fur
die gilt:
∑
i : xi≤ahi ≥ 3/4 ,
∑
i : xi≥ahi ≥ 1/4 .
• q0.25 und q0.75 sind i.A. nicht eindeutig bestimmt. Falls
doch, dann heißt
q0.75 − q0.25
(empirischer) Quartilsabstand,
Interquartilbereich, IQR.
• In Statistiksoftware sind unterschiedliche Interpolationsre-
geln fur die Quartile realisiert.
9
• Veranschaulichung von Median, Quartilen, IQR,Minimum, Maximum im Boxplot:
← Ausreißer (mit Fallnummer)
← maximale Zaunlange
= 1,5 · Boxlange
← oberes Quartil← Median← unteres Quartil
← kleinster Wert, der nicht als
Ausreißer erkannt wird
Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen (die
ersten 300 Falle, nur 178 haben geantwortet).
10