3. Deskriptive Statistik - HTW Dresdenweber/prodtech/s3.pdf · des Messger˜ates usw.), Analyse der Wirkung des Zufalls Streuungsparameter fur metrische Daten ... erhaltenen Gr˜o…e

3. Deskriptive Statistik

Ziel der deskriptiven (beschreibenden) Statistik (explorativen

Datenanalyse) ist die ubersichtliche Darstellung der wesentli-

chen in den erhobenen Daten enthaltene Informationen (Struk-

turen).

3.1. Univariate Verteilungen

Eindimensionale (univariate) Daten:

Pro Objekt wird ein Merkmal durch

Messung / Befragung/ Beobachtung

erhoben.

Resultat ist jeweils ein Wert

(Mermalsauspragung) xi:

- Lange eines Werkstucks,

- Gehalt einer Person,

- Guteklasse eines Produkts

Zweidimensionale (bivariate) Daten:

Pro Objekt werden zwei Merkmale

erhoben:

(Preis, Material)

(Ausbildung, Gehalt)

(Wohngegend, Wagentyp)

Ausgangspunkt: sog. Urliste

= Ergebnis der Registrierung der Beobachtungen

(Mermalsauspragungen)

x1, x2, . . . , xn

(haufig Zahlenkodes)

1

Beispiel 1: benutzte Verkehrsmittel von 100 Urlaubern bei

Auslandsreisen,

53 x Pkw, 29 x Flugzeug, 7 x Bahn, 9 x Bus, 2 x Sonstige

Beispiel 2: Messwerte fur einen technischen Parameter an 10

Werkstucken (geordnet)

1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,17 1,17 1,18

Beispiel 3: 200 Messwerte in Klassen

Klasse Haufigkeit

125,5 ... 130,5 8

130,5 ... 135,5 28

135,5 ... 140,5 36

140,5 ... 145,5 36

145,5 ... 150,5 50

150,5 ... 155,5 40

155,5 ... 160,5 2

Erster Schritt:

Bestimmung der absoluten Haufigkeiten fur das Auftreten der

verschiedenen Merkmalsauspragungen (bzw. Klassen)

d.h. Erstellen einer Haufigkeitstabelle, Haufigkeitsverteilung

(Verteilung)

2

Grafische Darstellung der Verteilung der

Merkmalsauspragungen einer Variablen

• Balkendiagramm, ( -grafik, Saulendiagramm) zur

Veranschaulichung absoluter Haufigkeiten,

z.B:

Darstellung der Auspragungen auf der x-Achse,

Haufigkeiten auf der y-Achse

• pro Auspragung ein Balken, eine Saule,

• im Beispiel Darstellung von Kategorien:

– Balken getrennt

– gunstig bei kategorialen Daten mit wenigen Kategorien

– Reihenfolge der Anordnung (auf der x-Achse) spielt

keine Rolle

• Korrekte Skalierung der Achsen !

relative Haufigkeiten =absolute Haufigkeiten

Gesamtanzahl der Beobachtungen

• nutzlich beim Vergleich von Anteilen, gunstig durch

mehrere Kreisdiagramme oder gestapelte Balken-

diagramme darstellbar

• absolute Haufigkeiten nicht mehr zu erkennen, keine

Aussagen z.B. uber Zunahme der abs. Haufigkeiten moglich

3

• bei metrischen Daten u.U. Anzahl der Saulen bzw.

Sektoren zu groß, da zu viele verschiedene Messwerte

vorliegen

• Ausweg: Klasseneinteilung, Bildung von sog. Messwert-

klassen, Daten werden gruppiert, siehe Beispiel 3, dann

grafische Darstellung durch Histogramm

• oftmals werden die Werte fur die Klassenmitten

verbunden (mind. ordinale Daten):

Haufigkeitspolygon, liefert Information uber die Form

der Verteilung

• kumulative Haufigkeiten entstehen durch Aufsummieren

der abs. Haufigkeiten, von links beginnend

mindestens ordinale Daten erforderlich, Beispiel 3:

Klasse Haufigkeit kumulative Haufigkeiten

125,5 ... 130,5 8 8

130,5 ... 135,5 28 8+28=36

135,5 ... 140,5 36 36+36=72

140,5 ... 145,5 36 72+36=108

145,5 ... 150,5 50 108+50=158

150,5 ... 155,5 40 158+40=198

155,5 ... 160,5 2 198+2=200

” 158 Messwerte waren ≤ 150, 5 cm ”

Bild der kumulativen Haufigkeiten ist das

Summenpolygon bzw. die empirische Verteilungs-

funktion fur die kumulierten relativen Haufigkeiten

4

Kenngroßen eindimensionaler Verteilungen

• Charakterisierung von Verteilungen durch statistische

Maßzahlen (Kenngroßen, Parameter), die die

Eigenschaften (Zentrum, Ausbreitung, Form) der

Verteilung widerspiegeln

• wichtigste Maßzahlen sind Lage- und Streuungsparameter

• Wichtig: Skalierungsniveau beachten

Lageparameter:

Der Modalwert

• = die am haufigsten auftretende Merkmalsauspragung

• = die Klasse (Klassenmitte) mit der großten Haufigkeit

bei gruppierten Daten (Klassen)

• Mehrere Maxima: kein Modalwert

• Eigenschaften und Interpretation:

– Wert, der ”am ehesten” zu beobachten ist

(sprachl. Formulierungen wie:

”Diese Krankheit dauert normalerweise 3 Tage.”,

”Die Fahrzeit betragt normalerweise 2 Stunden.”)

– unempfindlich gegenuber Ausreißern (extremen

Werten)

5

Median

• mindestens ordinale Daten

• Median heißt jede Merkmalsauspragung a, fur die gilt:∑

i : xi≤ahi ≥ 1/2 ,

∑

i : xi≥ahi ≥ 1/2

• ”oberhalb” und ”unterhalb” der Mediane befinden sich

gleichviele Elemente der Stichprobe

• Bei metrischen Daten wird haufig der Mittelwert der

Mediane als Median angegeben.


– zentraler Wert bei ordinalen Merkmalen

– unempfindlich gegenuber Ausreißern

– Minimaleigenschaft bez. absoluter Abweichungen

(metrische Daten), jeder Median lost

n∑

i=1|xi − z| → min

Das arithmetische Mittel

• metrische Daten

x =1

n

n∑

i=1xi =

l∑

j=1ajhj


– Schwerpunkt der Verteilung,

– empfindlich gegenuber Ausreißern (vgl. Median),

6

– Minimaleigenschaft bezuglich quadratischer

Abweichungen:n∑

i=1(xi − z)2 → min

hat die Losung z = x (Beweis: Ubung).

• bei gruppierten Daten mit Klassenmitten x∗i und

Klassenhaufigkeiten ni:

x =1

n

k∑

i=1nix

∗i

gewichtetes Mittel der Klassenmitten

Beispiel 3: 200 Messwerte in Klassen

Klasse Haufigkeit

125,5 ... 130,5 8

130,5 ... 135,5 28

135,5 ... 140,5 36

140,5 ... 145,5 36

145,5 ... 150,5 50

150,5 ... 155,5 40

155,5 ... 160,5 2

• Im Gegensatz zum Median kann das arithmetische Mittel

bei gruppierten Daten mit offenen Rand-

klassen nicht berechnet werden.

7

Streuungsparameter (Variabilitatsparameter)

• Maßzahlen zur Bewertung der Variabilitat der Mess-

werte, der Breite einer Verteilung, der Abweichungen vom

Mittelwert

• Ziel von Analysen: Zerlegung der Variabilitat der

Messwerte nach verschiedenen Ursachen (Faktoren, Fehler

des Messgerates usw.), Analyse der Wirkung des Zufalls

Streuungsparameter fur metrische Daten

• Spannweite: v = xmax − xmin

• empirische Varianz: s2

s2 =1

n− 1

n∑

i=1(xi − x)2 =

1

n− 1

( n∑

i=1x2

i − nx2)

”mittlere quadratische Abweichung”1

n−12 (· − ·)

Dimension von s2 :

ist z.B. xi eine Konzentration, dann mg2/l2

• Eigentlich musste durch n geteilt werden. Grund fur die

Division durch n − 1 ist die Anwendung der so

erhaltenen Große in der schließenden Statistik.

• Standardabweichung s =√

s2, gleiche Dimension wie xi.

• Variationskoeffizient v =s

x100% dimensionslos

8

Quartilsabstand

• Grundgedanke:

Ahnlich der Spannweite (s.o.) wird die ”Spannweite der

mittleren 50% der Werte” berechnet.

• Unteres Quartil q0.25 heißt jede Merkmalsauspragung a,

fur die gilt:

∑

i : xi≤ahi ≥ 1/4 ,

∑

i : xi≥ahi ≥ 3/4 .

Oberes Quartil q0.75 heißt jede Merkmalsauspragung a, fur

die gilt:

∑

i : xi≤ahi ≥ 3/4 ,

∑

i : xi≥ahi ≥ 1/4 .

• q0.25 und q0.75 sind i.A. nicht eindeutig bestimmt. Falls

doch, dann heißt

q0.75 − q0.25

(empirischer) Quartilsabstand,

Interquartilbereich, IQR.

• In Statistiksoftware sind unterschiedliche Interpolationsre-

geln fur die Quartile realisiert.

9

• Veranschaulichung von Median, Quartilen, IQR,Minimum, Maximum im Boxplot:

← Ausreißer (mit Fallnummer)

← maximale Zaunlange

= 1,5 · Boxlange

← oberes Quartil← Median← unteres Quartil

← kleinster Wert, der nicht als

Ausreißer erkannt wird

Beispiel: ALLBUS, Monatliches Haushalt-Nettoeinkommen (die

ersten 300 Falle, nur 178 haben geantwortet).

10

Documents

3. Deskriptive Statistik - HTW Dresdenweber/prodtech/s3.pdf · des Messger˜ates usw.), Analyse der Wirkung des Zufalls Streuungsparameter fur metrische Daten ... erhaltenen Gr˜o…e