45
4 Statistische Maßzahlen 4.1 Maßzahlen der mittleren Lage 4.2 Weitere Maßzahlen der Lage 4.3 Maßzahlen der Streuung 4.4 Lineare Transformationen, Schiefemaße 4.5 Der Box–Plot Ziel: Charakterisierung einer Stichprobe bzw. einer empirischen Verteilung (H¨ aufigkeitsvertei- lung) durch Kennzahlen. StatSoz 78

4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

  • Upload
    others

  • View
    7

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

4 Statistische Maßzahlen

4.1 Maßzahlen der mittleren Lage

4.2 Weitere Maßzahlen der Lage

4.3 Maßzahlen der Streuung

4.4 Lineare Transformationen, Schiefemaße

4.5 Der Box–Plot

Ziel: Charakterisierung einer Stichprobe bzw.

einer empirischen Verteilung (Haufigkeitsvertei-

lung) durch Kennzahlen.

StatSoz 78

Page 2: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Statistische Maßzahlen

– dienen der Beurteilung einzelner Beobach-

tungswerte innerhalb der Gesamtheit aller Be-

obachtungswerte,

– reprasentieren eine empirische Verteilung

durch wenige Zahlenwerte,

– ermoglichen einen einfachen und schnellen

Vergleich von Stichproben bzw. empirischen

Verteilungen.

StatSoz 79

Page 3: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Statistische Maßzahlen beschreiben drei Aspek-te:

• Lage Wo liegen die Daten auf der verwende-

ten Skala? Wo liegt das Zentrum, die ,,Mit-

te”? Auskunft geben Maßzahlen der Lage(Abschnitt 4.1 und 4.2).

• Streuung Wie weit streuen die Daten auf

der verwendeten Skala? Wie weit sind die

Daten vom Zentrum entfernt? Auskunft geben

Maßzahlen der Streuung (Abschnitt 4.3).

• Form Wie verhalten sich die Daten links und

rechts vom Zentrum? Wie weit weicht ei-

ne Haufigkeitsverteilung von der Symmetrie

ab? Auskunft geben Maßzahlen der Schiefe(Abschnitt 4.4).

StatSoz 80

Page 4: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

4.1 Maßzahlen der mittleren Lage

Maße der zentralen Tendenz, Mittelwerte

Ziel: Ein Mittelwert soll die Gesamtheit der Be-

obachtungen (Daten) moglichst gut reprasentie-

ren.

• Modus (Modalwert)

Definition:Der Modus ist die Merkmalsauspragung, die

in der Stichprobe am haufigsten vorkommt.

Als Lagemaß ist der Modus sinnvoll fur

– ordinale Merkmale

– diskrete metrische Merkmale (Zahldaten)

wenn er eindeutig ist!

StatSoz 81

Page 5: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Bemerkung: Da der Modus allein von der

Haufigkeit abhangt, muss er nicht in der ,,Mitte”

einer Verteilung liegen.

Beispiel: Eine Stichprobe von 200 Haushalten

ergab die folgende Haufigkeitstabelle uber die

Haushaltsgroße:

Anzahl der absoluteHaushaltsmitglieder Haufigkeit

1 352 303 42

4 78

5 15

Der Modus ist 4.

StatSoz 82

Page 6: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Bemerkung:

1. Bei stetigen (und somit metrisch skalierten)

Merkmalen macht der Modus im Allgemeinen

keinen Sinn (alle Daten sind i.d.R. verschieden).

2. Im klassierten Fall ist der Modus defi-

niert als die Klassenmitte der am haufig-sten besetzten Klasse. Aber Vorsicht!

Der Modus hangt von der Klassenwahlab! (vgl. Aufgabe 2, Blatt 2)

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

Der Modus im nichtklassierten Fall ist 21, da

dieser Wert am haufigsten auftritt (namlich 5

mal), im klassierten Fall der Tab. 3–4 ist die

Klasse [20, 30) am dichtesten besetzt (namlich

11 mal) und der Modus ist

20 + 30

2= 25

StatSoz 83

Page 7: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Median (Zentralwert)

Empirischer Median, Stichproben–Median(sample median)

Voraussetzung: Merkmale mussen mindestensordinalskaliert sein.

Bezeichnung: med, medx

Median: Beobachtungswert, der sich in der

,,mittleren” Position der geordneten Stichpro-

be befindet (bei geradem Stichprobenumfang

gibt es zwei Beobachtungen in einer mittleren

Position und es wird gemittelt).

Zahlenbeispiel:

3 4 4 5 6 3 4 4 5 6 7

med = 4 med =4 + 5

2= 4.5

StatSoz 84

Page 8: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

Die geordnete Stichprobe der 30 Daten lautet:

5 5 6 9 10 11 11 12 12 1416 17 19 21 21 21 21 21 22 2324 24 26 26 31 31 36 42 44 77

In der mittleren Position sind die 15–te und

die 16–te Ordnungsgroße, beide haben den Wert

21. Der Median ist dann das arithmetische Mittel

dieser beiden Ordnungsgroßen:

med =x(15) + x(16)

2=

21 + 21

2= 21

Um allgemein den Median von Daten x1, . . . , xn

zu bestimmen, sind zunachst die Werte der

Große nach zu sortieren. Bezeichne

x(1) ≤ x(2) ≤ . . . ≤ x(n)

wieder die geordneten Daten.

StatSoz 85

Page 9: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Definition:Der empirische Median ist definiert durch

med =

{x(n+1

2 ), n ungerade(x(n2)

+ x(n2+1)

)/2, n gerade

Hinweis: Der Median teilt die Stichprobe so,

dass mindestens 50% der Daten kleiner oder

gleich diesem Wert und mindestens 50% der

Daten großer oder gleich diesem Wert sind.

Beispiel Pendler–Daten: Von den 30 Beob-

achtungen sind 18 Beobachtungen kleiner oder

gleich dem Median, also 60%, 17 Beobachtungen

sind großer oder gleich dem Median, gerundet

57%.

StatSoz 86

Page 10: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Arithmetisches Mittel

Mittelwert, Stichprobenmittel (sample mean)

Voraussetzung: metrisch skaliertes Merkmal oder

Merkmal ist binar und 0/1–kodiert.

Bezeichnung: x, xn

Definition:Das arithmetische Mittel einer Stichprobe

x1, . . . , xn ist definiert durch

x =1

n· (x1 + . . . + xn) =

1

n

n∑i=1

xi

Bemerkung: Selbstverstandlich kommt es bei

der Aufsummierung nicht auf die Reihenfolge

an. So andert sich der Wert des arithmetischen

StatSoz 87

Page 11: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Mittels nicht, wenn man z. B. die geordneten

Daten aufsummiert:

x =1

n· (x(1) + . . . + x(n))

Fortsetzung von Bsp. 3.1 (Pendler–Daten):

x30 =1

30· (5 + 5 + 6 + 9 + . . . + 77) = 21.93

aufgerundet 22 (Minuten).

Bei einem binaren Merkmal, dessen Auspragun-

gen mit 0 und 1 kodiert sind, ist das arithmeti-

sche Mittel identisch mit der relativen Haufig-keit der Auspragung 1:

x =Anzahl der Daten xi mit xi = 1

n

100 · x gibt den prozentualen Anteil der Aus-

pragung 1 wieder.

StatSoz 88

Page 12: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Median oder arithmetisches Mittel?

Median und arithmetisches Mittel haben unter-

schiedliche Eigenschaften:

• Der Median wird von Ausreißern kaum oder

gar nicht beeinflusst (Ausreißer sind Beobach-

tungen die (augenfallig) weit entfernt von den

ubrigen Daten liegen.) Man sagt: Der Median

ist robust. Das arithmetische Mittel reagiert

hingegen außerst sensibel auf Ausreißer (und

kann daher zu sachlich verzerrten Aussagen

fuhren). Aber Achtung! Robustheit ist eineEigenschaft, kein Gutekriterium!

• Fur schiefe Verteilungen ist der Median bes-

ser interpretierbar als das arithmetische Mittel.

Bei (annahernd) symmetrischen Verteilungen

ist das arithmetische Mittel dem Median vor-

zuziehen.

StatSoz 89

Page 13: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Der Median setzt lediglich ein ordinales Ska-

lenniveau voraus, wahrend das arithmetische

Mittel metrisch skalierte Merkmale voraus-

setzt (Ausnahme: binare, 0/1– kodierte Merk-

male).

• Das arithmetische Mittel gibt einen rechneri-

schen Bezug zur Summe aller Beobachtungs-

werte, der Median gibt eher einen typischen

Wert im Zentrum der Verteilung wieder.

Fortsetzung von Bsp. 3.1 (Pendler–Daten):

Lasst man die großte Beobachtung 77 weg, so

erhalt man

x29 = 20.03 med = x(15) = 21

Der Mittelwert hat um 1.9 abgenommen, der

Median hingegen bleibt in diesem Beispiel sogar

unverandert.

StatSoz 90

Page 14: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Robustifizierung des arithmetischen Mittels:Weglassen der k kleinsten und großten Beobach-

tungen (k ≤ n/2). Das Ergebnis

xn,k =1

n− 2 · k

n−k∑j=k+1

x(j) (4.1)

ist das sogenannte gestutzte oder getrimmteMittel (trimmed mean).

Beispiel: 5%–getrimmtes Mittel (Weglassen der

5% kleinsten und 5% großten Beobachtungen)

Bemerkung: In der Darstellung (4.1) werden

alle Daten gleich gewichtet. Das Gewicht ist

1

n− 2 · k

Es gibt aber auch andere Festlegungen.

StatSoz 91

Page 15: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

4.2 Weitere Maßzahlen der Lage

In diesem Abschnitt werden Maßzahlen vorge-

stellt, die haufig zur Beschreibung der nicht

zentralen Lage der Daten verwendet werden.

• • | • • | • • | • •

↑ ↑ ↑ ↑ ↑min Q1 Q2 = med Q3 max

• Minimum: Kleinster Beobachtungswert

x(1) = min(x1, , . . . , xn)

• Maximum: Großter Beobachtungswert

x(n) = max(x1, , . . . , xn)

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

x(1) = 5, x(30) = 77

StatSoz 92

Page 16: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Quartile

Die Interpretation von Quartilen ist die Folgende:

Das 1. Quartil (1st quartile) Q1 teilt die Stich-

probe so, dass ungefahr 25% der Daten darunter

liegen. Das 2. Quartil (2nd quartile) Q2 teilt

die Stichprobe so, dass ungefahr 50% der Daten

darunter liegen (entspricht dem Median) und das

3. Quartil (3rd quartile) Q3 teilt die Stichprobe

so, dass etwa 75% der Daten darunter liegen.

Die Bestimmung von Quartilen geschieht wie

folgt:

1. Quartil: Division von 1·(n+1) durch 4 ergibt

n + 1

4= k1 + Rest

Der Rest kann nur die Werte 0, 0.25, 0.5 und

0.75 annehmen (den Wert 0, wenn n + 1 durch

4 teilbar ist).

StatSoz 93

Page 17: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Definition: 1. Quartil

Q1 = x(k1) + Rest ·(x(k1+1) − x(k1)

)Im Fall Rest = 0 ist Q1 = x(k1).

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

Hier ist n = 30 und

n + 1

4=

30 + 1

4= 7.75 = 7 + 0.75

Also ist k1 = 7, Rest = 0.75 und

Q1 = x(7) + 0.75 · (x(8) − x(7))

= 11 + 0.75 · (12− 11) = 11.75

Von den 30 Daten liegen 7 Daten unterhalb des

1. Quartils, also etwa 23%.

StatSoz 94

Page 18: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

2. Quartil: Division von 2·(n+1) durch 4 ergibt

2 · (n + 1)

4=

n + 1

2= k2 + Rest

Der Rest kann den Wert 0 annehmen, wenn

n + 1 durch 2 teilbar ist. In diesem Fall ist

k2 =n + 1

2

Der Rest kann den Wert 0.5 annehmen, wenn

n+ 1 ungerade, also n gerade ist. In diesem Fall

ist

k2 =n

2

StatSoz 95

Page 19: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Definition: 2. Quartil

Q2 = x(k2) + Rest ·(x(k2+1) − x(k2)

)=

{x(n+1

2 ), n ungerade

0.5 · x(n2)+ 0.5 · x(n2+1),n gerade

= med

3. Quartil: Division von 3·(n+1) durch 4 ergibt

3 · (n + 1)

4= k3 + Rest

Der Rest kann nur die Werte 0, 0.25, 0.5 und

0.75 annehmen (den Wert 0, wenn 3 · (n + 1)

durch 4 teilbar ist).

StatSoz 96

Page 20: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Definition: 3. Quartil

Q3 = x(k3) + Rest ·(x(k3+1) − x(k3)

)Im Fall Rest = 0 ist Q3 = x(k3).

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

Wegen 31 · 0.75 = 23.25 ist k3 = 23, Rest =

0.25 und

Q3 = x(23) + 0.25 · (x(24) − x(23))

= 26 + 0.25 · (26− 26) = 26

Von den 30 Daten sind 22 Daten kleiner als das

3. Quartil, also etwa 73%, 24 Daten sind kleiner

oder gleich dem 3. Quartil, also 80%.

Hinweis: Es gibt auch geringfugig andere Festlegungen

von Quartilen.

StatSoz 97

Page 21: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

4.3 Maßzahlen der Streuung

Variabilitatsmaße, Dispersionsmaße (measu-

res of dispersion)

Lagemaße geben i. A. wenig Auskunft daruber,

wie weit die Daten vom Zentrum entfernt lie-

gen, wie stark also die Daten um das Zentrum

variieren (,,streuen”).

Zahlenbeispiel 4.1 (wird fortgesetzt): Fur

die beiden Stichproben 0, 0, 10, 10 und

0, 0, 2, 8, 10, 10 gilt (nachrechnen!):

x = 5

Minimum = 0

Maximum = 10

Q1 = 0

Q2 (med) = 5

Q3 = 10

StatSoz 98

Page 22: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Spannweite (range)

Voraussetzung: ordinal skalierte Merkmale

Definition:Die Spannweite einer Stichprobe x1, . . . , xn

ist die Differenz zwischen großtem und klein-

stem Beobachtungswert:

Spannweite = x(n) − x(1)

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

Spannweite = 77− 5 = 72

Nachteile: Die Spannweite

– ist extrem ausreißerempfindlich

– berucksichtigt nicht die (Lage der) Daten, die

StatSoz 99

Page 23: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

zwischen Minimum und Maximum liegen

– wird mit wachsendem Stichprobenumfang nie

kleiner.

• Quartilsabstand (interquartile range, IQR)

Dieses Streuungsmaß, auch Quartilsdifferenz(quartile deviation) genannt, ist eine Robustifi-

zierung der Spannweite.

Definition:Der Quartilsabstand einer Stichprobe

x1, . . . , xn ist die Differenz zwischen dem

dritten und ersten Quartil:

IQR = Q3 −Q1

StatSoz 100

Page 24: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Bemerkung: Der Quartilsabstand hat eine sehr

anschauliche Interpretation: Er misst die Lange

des Intervalls, das etwa die Halfte der ,,mittle-

ren” Beobachtungen enthalt. Das Intervall

[Q1, Q3]

umfasst die Beobachtungen zwischen Q1 und

Q3.

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

IQR = Q3 −Q1 = 26− 11.75 = 14.25

Im Intervall [11.75, 26] liegen die (mittleren) Be-

obachtungenwerte

12 12 14 16 17 19 21 21 21

21 21 22 23 24 24 26 26

Dies sind rund 57% aller Beobachtungwerte.

StatSoz 101

Page 25: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Standardabweichung (standard deviation)

Genauer: empirische Standardabweichung,

Stichproben–Standardabweichung

Bezeichnungsweisen: s, sn

Voraussetzung: metrisch skalierte Merkmale

Definition:Die Standardabweichung von x1, . . . , xn

ist definiert durch

s = sn =

√√√√ 1

n− 1

n∑i=1

(xi − x)2

Die Standardabweichung

– betrachtet die Summe der quadratischen Ab-

weichungen vom arithmetischen Mittel

StatSoz 102

Page 26: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

– nimmt Bezug zum Stichprobenumfang n

– zieht die Wurzel aus der Summe der quadra-

tischen Abweichungen, damit das Streuungs-

maß die gleiche Maßeinheit besitzt wie die

Stichprobenwerte.

Beachte: Nur die Abweichungen (also ohne

Quadrat) zu nehmen, ist sinnlos. Es gilt stets

n∑i=1

(xi − xn) = 0

(Aufgabe 3 (ii), Blatt 2).

Fortsetzung von Zahlenbeispiel 4.1: Die

Stichprobe 0, 0, 10, 10 (x = 5) besitzt die Stan-

dardabweichung

s4 =

√1

3· 100 = 5.77

StatSoz 103

Page 27: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

die Stichprobe 0, 0, 2, 8, 10, 10 (x = 5) besitzt

die Standardabweichung

s6 =

√1

5· 118 = 4.86

Das Quadrat der (Stichproben–)Standardab-

weichung

s2 = s2n =1

n− 1

n∑i=1

(xi − x)2

heißt (Stichproben–)Varianz.

Fortsetzung von Bsp. 3.1: (Pendler–Daten)

Varianz (in Minuten2)

s2 =1

29

((5− 21.93)2 + . . . + (77− 21.93)2

)= 208.13

StatSoz 104

Page 28: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Standardabweichung (in Minuten)

s =√

208.13 = 14.43

Bemerkungen:

(i) Die Maßeinheit der Varianz ist das Quadrat

der Maßeinheit der Stichprobenwerte. Die Vari-

anz ist daher nur schwer interpretierbar.

(ii) Standardabweichung bzw. Varianz werden

von Ausreißern stark beeinflusst, sind also nicht

robust.

Beispiel: (Pendler–Daten) Wurde man die ex-

treme Beobachtung 77 weglassen, so ergabe sich

eine Standardabweichung von 10.18 – eine deut-

liche Verringerung gegenuber 14.43.

StatSoz 105

Page 29: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

(iii) Im Gegensatz zum Quartilsabstand hat die

Standardabweichung s keine anschauliche Inter-

pretation (vgl. Bemerkung im Anschluss an De-

finition des Quartilsabstandes). Als Faustregel

sollte man sich aber merken, dass fur annahernd

normalverteilte Stichproben das Intervall

[x− s, x + s]

ungefahr 2/3 aller Beobachtungen enthalt; un-

gefahr die Halfte liegt im Intervall

[x− 0.67 · s, x + 0.67 · s]

Was normalverteilt bedeutet, wird in der Wahr-

scheinlichkeitsrechnung erklart.

(iv) Mochte man Standardabweichungen von

verschiedenen Stichproben vergleichen, so ist es

haufig sinnvoll, diese in Bezug zu den arithmeti-

schen Mitteln zu setzen (vgl. Aufgabe 8, Blatt 2).

StatSoz 106

Page 30: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

4.4 Lineare Transformationen, Schiefemaße

Wie wirkt sich eine Anderung der Maßeinheit auf

Lage– und Streuungsmaße aus? Beispiele:

Wahrung: USD ($) und Euro [e]

1e = 1.320$

Zeitmessung:

1 Stunde = 60 Minuten

Allgemein lasst sich der Ubergang zu einer an-

deren Maßeinheit durch eine lineare Funktion

(man sagt auch lineare Transformation) be-

schreiben:

y = a + b · x, b > 0

Die x–Werte werden erst mit einem Faktor b > 0

gewichtet und dann um den Wert a verschoben.

StatSoz 107

Page 31: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Im Fall der Wahrung ist b = 1.320 und a = 0:

y = 1.320 · x (xEuro sind 1.320 · x USD)

Im Fall der Zeitmessung ist b = 60 und a = 0:

y = 60 · x (x Stunden sind 60 · x Minuten)

Wendet man eine lineare Transformation

y = a + b · x, b > 0

auf eine Stichprobe x1, . . . , xn an, so erhalt man

die linear transformierten Daten

y1 = a + b · x1, . . . , yn = a + b · xn

Alle Lage– und Streuungsmaße (außer die Va-

rianz) sind dadurch charakterisiert, dass siesich bei linearen Transformationen in einerbestimmten Weise mitverandern:

StatSoz 108

Page 32: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Lagey = a + b · Lagex

Streuungy = b · Streuungx

Fur die vorgestellten Lagemaße gilt also

y = a + b · xQ1,y = a + b ·Q1,x

medy = a + b ·medx

Q3,y = a + b ·Q3,x

und fur die vorgestellten Streuungmaße gilt

sy = b · sxIQRy = b · IQRx

StatSoz 109

Page 33: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Selbst wenn Stichproben in Lage und Streuung

ubereinstimmen sollten, bleiben im Allgemeinen

Unterschiede, die man unter dem Begriff Formzusammenfasst.

Die Form der Verteilung ist das, was

sich unter linearen Transformationen nicht

andert.

Ein anschaulicher Aspekt der Form ist die

Schiefe (skewness).

Schiefe ist die Abweichung von der Symme-trie. Ausreißer bewirken, dass Mittelwert und

Median voneinander abweichen. In diesen Fallen

ist die Verteilung schief.

StatSoz 110

Page 34: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Rechtsschiefe (Linkssteilheit) in den Daten liegt

vor, wenn mehr Beobachtungen unterhalb des

Mittelwertes liegen als oberhalb, also der Median

kleiner als der Mittelwert ist

medx < x

Die Pendler–Daten von Bsp. 3.1 sind rechts-

schief (siehe Abb. 3–4).

Linksschiefe (Rechtssteilheit) in den Daten liegt

vor, wenn mehr Beobachtungen oberhalb des

Mittelwertes liegen als unterhalb, also der Medi-

an großer als der Mittelwert ist

medx > x

Im Fall x = medx spricht man von Symmetrie.

StatSoz 111

Page 35: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Beachte: Unter linearen Transformationen

a + b · x, b > 0

bleibt

(i) eine rechtsschiefe Verteilung (medx < x)

rechtsschief:

a + b ·medx < a + b · x

(ii) eine linksschiefe Verteilung (medx > x)

linksschief:

a + b ·medx > a + b · x

(iii) eine symmetrische Verteilung (medx = x)

symmetrisch:

a + b ·medx = a + b · x

StatSoz 112

Page 36: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

• Schiefemaße

Ein Schiefemaß ist ein Maß fur die Ausgepragt-

heit der Schiefe einer Verteilung, fur den Grad

der Asymmetrie.

Konvention:

· Bei rechtsschiefer Verteilung wird die Maß-

zahl positiv

· bei linksschiefer Verteilung wird die Maßzahl

negativ

· bei symmetrischer Verteilung wird die Maß-

zahl Null.

Schiefemaß nach Yule–Pearson:

Schiefe YP =3 · (x−med)

s

StatSoz 113

Page 37: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Schiefemaß 3. Moment:

Schiefe M =1

n

n∑i=1

(xi − x

s

)3

(4.2)

Fortsetzung von Bsp. 3.1 (Pendler–Daten) Mit

x = 21.93, med = 21 und s = 14.43 erhalt man

Schiefe YP =3 · (21.93− 21)

14.43= 0.19

Schiefe M =1

30

(5− 21.93

14.43

)3

+ . . . +

(77− 21.93

14.43

)3 = 1.85

Dies deutet auf eine Rechtsschiefe hin.

StatSoz 114

Page 38: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Da die Form einer Verteilung sich unter linea-

ren Transformationen a + b · x, b > 0, nicht

andert, ist es vernunftig, von einem Schiefemaß

zu fordern, dass es sich ebenfalls unter linearen

Transformationen nicht andert (Aufgabe 2, Blatt

3).

Bemerkung: Rechtsschiefe Verteilungen sind

weit verbreitet. Logarithmus– und Wurzel-transformation

x1, , . . . , xn −→√x1, . . . ,

√xn

x1, , . . . , xn −→ ln(x1), . . . , ln(xn)

fuhren zu einer Abnahme der Rechtsschiefe. Dies

ist oft ein Grund fur ihre Anwendung: Man

mochte nicht–schiefe Haufigkeitsverteilungen er-

halten. Dies ist vor allem im Hinblick auf viele

Methoden der schließenden Statistik von Vorteil.

StatSoz 115

Page 39: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Standardisierte Stichproben

Jede Stichprobe lasst sich mittels einer linearen

Transformation a + b · x, b > 0, in eine Stich-

probe uberfuhren, deren (mittlere) Lage 0 und

Streuung 1 ist. Sei x1, . . . , xn eine Stichprobe.

Standardisierung A: Als Lagemaß sei das arith-

metische Mittel x und als zugehoriges Streu-

ungsmaß die Standardabweichung sx gewahlt.

Fur die transformierten Beobachtungswerte

zi =xi − x

sx= − x

sx︸︷︷︸=a

+1

sx︸︷︷︸=b

·xi

i = 1, . . . , n, gilt dann

z = 0, sz = 1

(Aufgabe 3, Blatt 3). Der standardisierte Wert

zi wird als

StatSoz 116

Page 40: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

z–score (z–Wert)

des ursprunglichen Wertes xi bezeichnet. Er be-

sitzt keine Maßeinheit und kennzeichnet, um das

,,Wievielfache der Streuung” der Ursprungswert

vom Zentrum (x) entfernt ist. z1, . . . , zn heißt

standardisierte Stichprobe.

Standardisierung B: (Robuste Variante) Als

Lagemaß sei der Median medx und als zugehori-

ges Streuungsmaß der Quartilsabstand IQRx

gewahlt. Fur die transformierten Beobachtungs-

werte

zi =xi −medxIQRx

= −medxIQRx︸ ︷︷ ︸=a

+1

IQRx︸ ︷︷ ︸=b

·xi

i = 1, . . . , n, gilt dann

medz = 0, IQRz = 1

(Aufgabe 3, Blatt 3).

StatSoz 117

Page 41: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

4.5 Der Box–Plot

Genauer: Box– and Whiskers–PlotEr benutzt Quartile zur graphischen Darstellung

von Lage und Streuung, gibt Hinweise auf Sym-

metrie oder Schiefe, und hebt potenzielle Aus-

reißer hervor.

Ziel: Schneller visueller Vergleich verschiedener

Stichproben.

Ausgangspunkt dieser Darstellung (bei vertikaler

Orientierung) bildet eine Box, deren untere und

obere Begrenzungslinien durch das untere und

obere Quartil festgelegt sind. Die Lange der Box

ist also der Quartilsabstand. Innerhalb der Box

wird der Median durch eine horizontale Linie

markiert.

Die Whiskers (vertikale Linienstucke) werden

unterhalb und oberhalb der Box abgetragen. Die

StatSoz 118

Page 42: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Linienendpunkte sind durch die großte und klein-

ste Beobachtung definiert. Wenn allerdings die

Beobachtungen vom oberen bzw. unteren Rand

der Box zu weit entfernt liegen, namlich mehr als

1.5 ·(Q3−Q1), endet die Linie bei dem hochsten

bzw. niedrigsten Beobachtungswert, der gera-

de noch innerhalb dieses Bereiches liegt (man

spricht von der großten ,,normalen” und klein-

sten ,,normalen” Beobachtung). Alle Messwer-

te, die extremer sind, werden einzeln, meistens

durch Sterne, gekennzeichnet. Dies sind dann

potenzielle Ausreißer. Die Zahl 1.5 ist so gewahlt,

dass fur ,,normale” Stichproben Folgendes gilt:

Etwa 99% der Daten liegen im Intervall

[Q1 − 1.5 · IQR,Q3 + 1.5 · IQR]

Ist der Boxplot unsymmetrisch, so zeigt dieser

eine Schiefe in den Daten.

StatSoz 119

Page 43: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

*

� großte ,,normale” Beobachtung(≤ Q3 + 1.5 · IQR)

� Q3

� Q2� Q1

� kleinste ,,normale” Beobachtung(≥ Q1 − 1.5 · IQR)

** � extreme Beobachtung

Abbildung 4–1 Aufbau eines Box–Plots

Man beachte, dass alle im Box–Plot verwendeten

Kennzahlen relativ robust gegenuber Ausreißern

sind, denen damit praktisch die Moglichkeit ge-

nommen wird, sich hinter bereits beeinflussten

Kennzahlen zu verstecken (,,masking”).

StatSoz 120

Page 44: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Abbildung 4–2 Box–Plot der Pendler–Daten

StatSoz 121

Page 45: 4 Statistische Maˇzahlen - Rechenzentrum: Startseite · Statistische Maˇzahlen {dienen der Beurteilung einzelner Beobach-tungswerte innerhalb der Gesamtheit aller Be-obachtungswerte,

Fur die Pendler–Daten ergibt sich wegen

1.5 · IQR = 1.5 · 14.25 = 21.375

das Intervall

[Q1 − 1.5 · IQR,Q3 + 1.5 · IQR]

= [11.75− 21.375, 26 + 21.375]

= [−9.625, 47.375]

Die kleinste Beobachtung 5 liegt in diesem Inter-

vall. Der untere Whisker endet somit bei 5. Die

großte Beobachtung (Beobachtung Nummer 9)

betragt 77 und liegt nicht in diesem Intervall.

Diese Beobachtung wird daher als potenzieller

Ausreißer gekennzeichnet. Die großte ,,normale”

Beobachtung ist dann 44, wo auch der obere

Whisker endet. Der Median von 21 liegt naher

an 5 (kleinste normale Beobachtung) als an 44.

Dies deutet auf eine Rechtsschiefe hin.

StatSoz 122