25
WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 14.05.2013 Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013 Streuungsmaße 1. Normierte Entropie 2. Spannweite, Quartilsabstand, Boxplot 3. Standardabweichung, Variationskoeffizient Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 37-50. Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 79-109. von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online Ausgabe S. 83-119. Übungsaufgaben: SS 00, A1 b); WS 00/01, A2; SS 01, A3; SS05, A1 b); WS 08/09, A2; WS 10/11, A1; WS 11/12, A1 c), A4.

Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

Embed Size (px)

Citation preview

Page 1: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

WISTAWIRTSCHAFTSSTATISTIK

PROF. DR. ROLF HÜPEN

FAKULTÄT FÜR

WIRTSCHAFTSWISSENSCHAFT

Seminar für Theoretische Wirtschaftslehre

Vorlesungsprogramm 14.05.2013

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Streuungsmaße

1. Normierte Entropie

2. Spannweite, Quartilsabstand, Boxplot

3. Standardabweichung, Variationskoeffizient

Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 37-50.

Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl.,

Berlin-Heidelberg-New York 2009, S. 79-109.

von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online Ausgabe S. 83-119.

Übungsaufgaben: SS 00, A1 b); WS 00/01, A2; SS 01, A3; SS05, A1 b);

WS 08/09, A2; WS 10/11, A1; WS 11/12, A1 c), A4.

Page 2: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

2

Streuungsmaße Begriff

Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines

Merkmals bzw. der Homogenität einer statistischen

Masse

Ziel: Das Streuungsmaß soll darüber Aufschluss geben, inwieweit der

Mittelwert tatsächlich die zentrale Tendenz einer statistischen Masse

repräsentiert. Streuungsmaße sind wichtige Ergänzungen zu

Mittelwerten und können als Gütekriterium für den Mittelwert

interpretiert werden. Bei geringer Streuung ist der Mittelwert eher ein

typischer Wert einer Verteilung als bei einer starken Variabilität der

Daten.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 3: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

3

Streuungsmaße Begriff

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Beispiel in Anlehnung an v. d. Lippe 1993, S. 84f: Vier Häufigkeitsverteilungen mit identischem

Modus, Median und arithmetischem Mittel: Mod = Med = AM = 3.

Verteilung A Verteilung B Verteilung C Verteilung D

xi hi fi xi hi fi xi hi fi xi hi fi1 1 0,1 1 2 0,2

2 2 0,2 2 2 0,2 2 2 0,2

3 10 1 3 6 0,6 3 4 0,4 3 2 0,2

4 2 0,2 4 2 0,2 4 2 0,2

5 1 0,1 5 2 0,2

0

2

4

6

8

10

12

1 2 3 4 5

0123456789

10

1 2 3 4 5

0123456789

10

1 2 3 4 50

2

4

6

8

10

1 2 3 4 5

Die Streuung nimmt von links nach rechts zu. Bei Verteilung A (sogenannte Einpunktverteilung)

ist sie Null, der Mittelwert repräsentiert die Verteilung vollständig. Verteilung D ist eine

sogenannte „Gleichverteilung“ (Rechteckverteilung), alle 𝑚 verschiedenen Merkmalsausprägun-gen sind gleich häufig 𝑓𝑖 = 1/𝑚 ∀𝑖 und es gibt keinen Modalwert.

Page 4: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

4

Streuungsmaße Begriff

Ab Nominalskala: Modus – normierte Entropie

Ab Intervallskala: Median – mittlerer Quartilsabstand,

mittlere Spannweite

Ab Intervallskala: Arithmetisches Mittel – Standardabweichung

Ab Verhältnisskala: Arithmetisches Mittel – Variationskoeffizient

In Abhängigkeit vom Skalenniveau sind folgende Paare von Mittelwert und Streuungsmaß

zulässig:

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 5: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

5

Die Entropie E eignet sich als Streuungsmaß bereits für nominalskalierte Merkmale,

weil sie nur von den (relativen) Häufigkeiten, nicht aber von den Merkmalswerten

abhängig ist.

Streuungsmaße Entropie

𝐸 =

𝑖=1

𝑚

𝑓𝑖 ⋅ 𝑙𝑑1

𝑓𝑖𝐸 = −

𝑖=1

𝑚

𝑓𝑖 ⋅ 𝑙𝑑 𝑓𝑖

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

𝑚 = Anzahl der voneinander verschiedenen Merkmalsausprägungen

𝑓𝑖 = relative Häufigkeit der Merkmalsausprägung 𝑥𝑖

𝑖 = 1,… ,𝑚

𝑙𝑑 = 𝑙𝑜𝑔2 = Logarithmus zur Basis 2 logarithmus dualis

0 ∙ 𝑙𝑑 0 ≡ 0

Page 6: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

6

Streuungsmaße Entropie

Wegen

𝑖=1

𝑚

𝑓𝑖 ⋅ 𝑙𝑑 𝑓𝑖 = −

𝑖=1

𝑚ℎ𝑖𝑛⋅ 𝑙𝑑ℎ𝑖𝑛= −

𝑖=1

𝑚ℎ𝑖 ⋅ 𝑙𝑑 ℎ𝑖 − 𝑙𝑑 𝑛

𝑛

=1

𝑛⋅

𝑖=1

𝑚

[ℎ𝑖 ⋅ 𝑙𝑑 𝑛 − ℎ𝑖 ⋅ 𝑙𝑑 ℎ𝑖 ] =1

𝑛⋅ 𝑛 ⋅ 𝑙𝑑 𝑛 −

𝑖=1

𝑚

[ℎ𝑖 ⋅ 𝑙𝑑 ℎ𝑖 ]

gilt auch:

𝐸 = 𝑙𝑑 𝑛 −1

𝑛∙

𝑖=1

𝑚

ℎ𝑖 ∙ 𝑙𝑑 ℎ𝑖

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

ℎ𝑖 = absolute Häufigkeit der Merkmalsausprägung 𝑥𝑖

𝑛 =

𝑖=1

𝑚

ℎ𝑖 = Anzahl der Beobachtungswerte

Page 7: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

7

Streuungsmaße normierte Entropie

Bei einer Einpunktverteilung (keine Streuung!) ist 𝑬 = 𝟎. Bei einer Gleichverteilung

ℎ𝑖 =𝑛

𝑚⟺ 𝑓𝑖 =

1

𝑚∀𝑖 = 1,… ,𝑚 nimmt die Entropie ihren maximalen Wert 𝑬 = 𝒍𝒅(𝒎) an.

Also gilt für den Wertebereich der Entropie:

𝟎 ≤ 𝑬 ≤ 𝒍𝒅(𝒎)

Es ist üblich, die Entropie zu normieren:

𝑬𝒏𝒐𝒓𝒎 =𝑬

𝒍𝒅(𝒎)

Die normierte Entropie kann dann nur noch Werte zwischen Null und Eins annehmen:

𝟎 ≤ 𝑬𝒏𝒐𝒓𝒎 ≤ 𝟏

Für die Berechnung der normierten Entropie muss nicht der duale Logarithmus, sondern es kann

jeder beliebige Logarithmus, also z.B. der natürliche oder der dekadische, verwendet werden. Die

Berechnung mittels Taschenrechner ist also „handlicher“. Die Formel lautet:

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

𝑬𝒏𝒐𝒓𝒎 =log 𝑛 −

𝑖=1

𝑚ℎ𝑖 ⋅ log(ℎ𝑖)

𝑛log(𝑚)

=

𝒊=𝟏

𝒎

𝒇𝒊 ⋅ 𝐥𝐨𝐠𝟏𝒇𝒊

𝒍𝒐𝒈(𝒎)

Page 8: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

8

Streuungsmaße Entropie Zahlenbeispiel

Im anfangs angeführten Beispiel erhält man:

Nicht normierte Entropie:

Verteilung A: 𝐸 = 1 ∙ 𝑙𝑑 1 = 0

Verteilung B: 𝐸 = 0,2 ∙ 𝑙𝑑1

0,2+ 0,6 ∙ 𝑙𝑑

1

0,6+ 0,2 ∙ 𝑙𝑑

1

0,2= 1,3710

Verteilung C: 𝐸 = 0,1 ∙ 𝑙𝑑1

0,1+ 0,2 ∙ 𝑙𝑑

1

0,2+ 0,4 ∙ 𝑙𝑑

1

0,4+ 0,2 ∙ 𝑙𝑑

1

0,2+ 0,1 ∙ 𝑙𝑑

1

0,1= 2,1219

Verteilung D: 𝐸 = 5 ∙ 0,2 ∙ 𝑙𝑑1

0,2= 𝑙𝑑 5 = 2,3219

Normierte Entropie:

Verteilung A: 𝐸𝑛𝑜𝑟𝑚 = 0 𝑙𝑑 1 = 0

Verteilung B: 𝐸𝑛𝑜𝑟𝑚 = 1,3710 𝑙𝑑 3 = 1,3710 1,5850 = 0,8650

Verteilung C: 𝐸𝑛𝑜𝑟𝑚 = 2,1219 𝑙𝑑 5 = 2,1219 2,3219 = 0,9139

Verteilung D: 𝐸𝑛𝑜𝑟𝑚 = 2,3219 2,3219 = 1

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Hinweis: In der Informationstheorie wird die Entropie als Maß für den Informationsgehalt einer Nachricht

verwendet. In der Physik misst sie den Anteil gebundener, d.h. nicht mehr zur Abgabe von Arbeit verwendbarer

Energie (2. Hauptsatz der Thermodynamik).

Page 9: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

9

Streuungsmaße Normierte Entropie Zahlenbeispiel

Verteilung B

xi hi fi

2 2 0,2

3 6 0,6

4 2 0,2

𝐸𝑛𝑜𝑟𝑚 =0,2 ⋅ log

10,2+ 0,6 ⋅ log

10,6+ 0,2 ⋅ log

10,2

log(3)= 0,8650

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Nochmals: Berechnung der normierten Entropie

𝐸𝑛𝑜𝑟𝑚 =

𝑖=1

𝑚

𝑓𝑖 ∙ log1𝑓𝑖

log 𝑚

Page 10: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

10

Streuungsmaße Normierte Entropie Zahlenbeispiel

Verteilung C

xi hi fi

1 1 0,1

2 2 0,2

3 4 0,4

4 2 0,2

5 1 0,1

Daumenregel:

Ist 𝐸𝑛𝑜𝑟𝑚 > 0,7, dann gilt die Streuung als groß und der Modus gilt als schlechter Repräsentant

der Verteilung.

𝐸𝑛𝑜𝑟𝑚 =0,1 ⋅ log

10,1+ 0,2 ⋅ log

10,2+ 0,4 ⋅ log

10,4+ 0,2 ⋅ log

10,2+ 0,1 ⋅ log

10,1

log(5)= 0,9139

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Nochmals: Berechnung der normierten Entropie

𝐸𝑛𝑜𝑟𝑚 =

𝑖=1

𝑚

𝑓𝑖 ∙ log1𝑓𝑖

log 𝑚

Page 11: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

11

Streuungsmaße Spannweite

Spannweite (range) R = Differenz zwischen dem größten und dem

kleinsten Beobachtungswert.

Berechnung der Spannweite:

• Datenlage A (𝑛 Einzelwerte): 𝑅 = 𝑥(𝑛) − 𝑥(1)Geordnete Urliste 𝑥(1) ≤ 𝑥(2) ≤ ⋯ ≤ 𝑥(𝑛)

• Datenlage B (Häufigkeitsverteilung, 𝑚Merkmalsausprägungen): 𝑅 = 𝑥𝑚 − 𝑥1Differenz zwischen größter und kleinster Merkmalsausprägung.

• Kaum gebräuchlich bei Datenlage C (gruppierte Daten, 𝑘 Klassen): 𝑅 = 𝑎𝑘 − 𝑎0Differenz zwischen Obergrenze der letzten und Untergrenze der ersten Klasse.

Eigenschaften der Spannweite:

• Sehr einfache Berechnung

• Beschreibt den gesamten Streubereich der Beobachtungswerte.

• Nur die beiden extremen, unter Umständen atypische, Beobachtungswerte gehen in die

Berechnung ein.

• außerordentlich empfindlich gegenüber Ausreißern.

• Anwendung bei Ausreißertests und in der statistischen Qualitätskontrolle.

• wird wegen der genannten Einwände aber kaum verwendet.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 12: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

12

Streuungsmaße Quartilsabstand

Quartilsabstand =𝑸𝟑 − 𝑸𝟏

Der Quartilsabstand

• misst die Differenz zwischen dem oberen und unterem Quartil.

• beschreibt den Bereich, in dem die mittleren 50% der geordneten Beobachtungswerte liegen.

• ist unempfindlich gegenüber Ausreißern.

Im Zahlenbeispiel aus der Absolventenumfrage, Merkmal „Lebensalter beim Examen“ gilt:

(Min ; Q1 ; Q2 ; Q3 ; Max) = (23 ; 26 ; 27 ; 29 ; 34)

Spannweite = 34 – 23 = 11 Jahre

Quartilsabstand = 29 – 26 = 3 Jahre

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 13: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

13

Streuungsmaße Boxplot

Boxplot = Graphische Darstellung elementarer Informationen einer

Häufigkeitsverteilung (Median, Quartilsabstand, Spannweite)

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

MaxMin

Q3 + ½ Quartilsabstand

Q3Q2Q1

Q1 – ½ Quartilsabstand

Referenzskala

• Aus dem Box-Plot lässt sich sofort ablesen, ob die Verteilung linkssteil, rechtssteil oder symmetrisch ist.

• Beobachtungswerte außerhalb der Grenzen 𝑄3 +1

2⋅ 𝑄3 −𝑄1 bzw. 𝑄1 −

1

2⋅ 𝑄3 −𝑄1 gelten als Ausreißer-

verdächtig.

Page 14: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

14

Streuungsmaße Boxplot Beispiel

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 15: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

15

Streuungsmaße Boxplot Zahlenbeispiel

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zahlenbeispiel Absolventenumfrage,

Merkmal AlterNr.

Merkmals-

ausprägung

einfache Häufigkeit kumulierte Häufigkeit

absolut relativ absolut relativ

i xi hi fi Hi Fi

1 23 1 0,0256 1 0,0256

2 24 1 0,0256 2 0,0513

3 25 6 0,1538 8 0,2051

4 26 10 0,2564 18 0,4615

5 27 4 0,1026 22 0,5641

6 28 5 0,1282 27 0,6923

7 29 4 0,1026 31 0,7949

8 30 4 0,1026 35 0,8974

9 31 2 0,0513 37 0,9487

10 32 1 0,0256 38 0,9744

11 33 0 0,0000 38 0,9744

12 34 1 0,0256 39 1

Summe 39 1

Minimum = 23 Jahre

Maximum = 34 Jahre

Q1 = 26 Jahre

Q2 = 27 Jahre

Q3 = 29 Jahre

Spannweite = 34 – 23 = 11 Jahre

Quartilsabstand = 29 – 26 = 3 Jahre

22 23 24 25 26 27 28 29 30 31 32 33 34 35

Lebensalter beim Examen

Page 16: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

16

Streuungsmaße Mittlere Spannweite

Mittlere Spannweite (MSP) = Wertepaar in Prozent, das darüber informiert,

um wie viel Prozent der größte bzw. kleinste

Wert vom Median abweicht.

𝑀𝑆𝑃 = −𝑄2 −𝑀𝑖𝑛

𝑄2⋅ 100 ;

𝑀𝑎𝑥 − 𝑄2𝑄2

⋅ 100

• MSP ist ein relatives Streuungsmaß.

• Das Merkmal muss mindestens verhältnisskaliert sein.

• MSP informiert über die Streuung insgesamt.

• Die Verteilung ist

linkssteil, wenn 𝑄2 – 𝑀𝑖𝑛 < 𝑀𝑎𝑥 – 𝑄2.

symmetrisch, wenn 𝑄2 – 𝑀𝑖𝑛 ≈ 𝑀𝑎𝑥 – 𝑄2.

rechtssteil, wenn 𝑄2 – 𝑀𝑖𝑛 > 𝑀𝑎𝑥 – 𝑄2.

• Da die MSP sich auf den Median bezieht, kann sie als

Gütekriterium für den Median herangezogen werden.

• Üblich ist folgende Daumenregel:

Die Streuung gilt als gering, wenn die Summe der

Absolutbeträge der beiden Prozentzahlen der MSP

kleiner als 200% ist.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Im Zahlenbeispiel aus der Absolventenumfrage,

Merkmal „Lebensalter beim Examen“ mit

(𝑀𝑖𝑛; 𝑄1; 𝑄2; 𝑄3; 𝑀𝑎𝑥) = (23; 26; 27; 29; 34) ist

𝑀𝑆𝑃 = −27 − 23

27⋅ 100 ;

34 − 27

27⋅ 100

= (−14,8% ;+25,9%)

linkssteile Verteilung, da 14,8% < 25,9%

Da −14,8 + 25,9 = 40,7 < 200, ist der Median

ein recht guter Repräsentant der Verteilung.

Page 17: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

17

Streuungsmaße Mittlerer Quartilsabstand

Mittlerer Quartilsabstand (MQA) = prozentuale Abweichung des oberen bzw.

unteren Quartils vom Median.

𝑀𝑄𝐴 = −𝑄2 − 𝑄1𝑄2⋅ 100 ;

𝑄3 − 𝑄2𝑄2⋅ 100

• MQA ist ein relatives Streuungsmaß.

• Das Merkmal muss mindestens verhältnisskaliert sein.

• MQA informiert über die Streuung und den

Verteilungstyp in der Mitte der Verteilung, also über die

mittleren 50% aller Beobachtungswerte.

• Die Verteilung ist in der Mitte

linkssteil, wenn 𝑄2 − 𝑄1 < 𝑄3 − 𝑄2. symmetrisch, wenn 𝑄2 − 𝑄1 ≈ 𝑄3 − 𝑄2. rechtssteil, wenn 𝑄2 − 𝑄1 > 𝑄3 − 𝑄2.

• Daumenregel:

Die Streuung gilt in der Mitte als gering, wenn die

Summe der Absolutbeträge der beiden Prozentzahlen

der MQA kleiner als 100% ist.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Im Zahlenbeispiel aus der Absolventenumfrage,

Merkmal „Lebensalter beim Examen“ mit

(𝑀𝑖𝑛; 𝑄1; 𝑄2; 𝑄3; 𝑀𝑎𝑥) = (23; 26; 27; 29; 34) ist

𝑀𝑄𝐴 = −27 − 26

27⋅ 100 ;

29 − 27

27⋅ 100

= (−3,7% ;+7,4%)

In der Mitte linkssteil, da 3,7% < 7,4%

Da −3,7 + +7,4 = 11,1 < 100, ist der Median

ein recht guter Repräsentant der mittleren 50%

der Verteilung.

Page 18: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

18

Streuungsmaße Varianz und Standardabweichung

Mittlere quadratische Abweichung 𝒔𝟐 (Varianz)

= durchschnittliche quadratische Abweichung der Beobachtungswerte von

ihrem arithmetischen Mittel 𝑥

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Die Berechnung hängt von der Datenlage ab:

Datenlage A: 𝑠2 =1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖 − 𝑥2

Datenlage B: 𝑠2 =1

𝑛⋅

𝑖=1

𝑚

ℎ𝑖 ∙ 𝑥𝑖 − 𝑥2 =

𝑖=1

𝑚

𝑓𝑖 ∙ 𝑥𝑖 − 𝑥2

Datenlage C: 𝑠2 =1

𝑛⋅

𝑖=1

𝑘

ℎ𝑖 ∙ 𝑥𝑖 − 𝑥2 =

𝑖=1

𝑘

𝑓𝑖 ∙ 𝑥𝑖 − 𝑥2

Page 19: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

19

Streuungsmaße Varianz und Standardabweichung

Standardabweichung 𝒔

= positive Quadratwurzel aus der Varianz

• 𝑠 = + 𝑠2

• s besitzt dieselbe Dimension wie das Untersuchungsmerkmal.

• Informationen über die Größenordnung der Werte gehen bei der Berechnung von s bzw. s2

verloren. Beispiel: (200-400)² = (2200 – 2400)² = 40.000.

• Konstruktionsprinzip: durchschnittliche Abweichung der Merkmalswerte vom arithmetischen

Mittel 𝑥.

• Da die Summe der einfachen Abweichungen von 𝑥 gleich Null ist (Schwerpunkteigenschaft),

nimmt man die quadratischen Abweichungen.

• Da das arithmetische Mittel die Summe der quadratischen Abweichungen minimiert

(Minimaleigenschaft von 𝑥), passen 𝑠 bzw. 𝑠2 besonders gut zum arithmetischen Mittel.

• Normalverteilung: Lage der Wendepunkte. Ferner gilt:

Im Bereich 𝑥 ± 𝑠 liegen ca. 68% der Beobachtungswerte.

Im Bereich 𝑥 ± 2𝑠 liegen ca. 95% der Beobachtungswerte.

Im Bereich 𝑥 ± 3𝑠 liegen ca. 99% der Beobachtungswerte, also praktisch alle.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 20: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

20

Streuungsmaße Variationskoeffizient

• 𝑣 = Standardabweichung in Prozent des arithmetischen Mittels.

• 𝑣 setzt die Streuung in Beziehung zur Größenordnung der Merkmalsausprägungen.

• 𝑣 ist ein relatives Streuungsmaß und erst ab Verhältnisskalenniveau sinnvoll zu berechnen.

• 𝑥 muss von Null verschieden und positiv sein, damit 𝑣 sinnvoll interpretiert werden kann.

• 𝑣 ist dimensionslos und damit maßstabsunabhängig. 𝑣 kann daher zum Vergleich der

Streuung unterschiedlicher statistischer Massen herangezogen werden.

• Daumenregel: Die Streuung gilt als gering, wenn 𝑣 < 100% ist. Das arithmetische Mittel

gilt in diesem Fall als guter Repräsentant der Verteilung.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Variationskoeffizient 𝒗

𝑣 =𝑠

𝑥∙ 100

Page 21: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

21

Streuungsmaße Standardabweichung, Variationskoeffizient Zahlenbeispiel

Zahlenbeispiel Absolventenumfrage, Merkmal „Alter“

Nr.Merkmals-

ausprägung

einfache Häufigkeitkumulierte

Häufigkeit

absolut relativ absolut relativ

i xi hi fi Hi Fi

1 23 1 0,0256 1 0,0256

2 24 1 0,0256 2 0,0513

3 25 6 0,1538 8 0,2051

4 26 10 0,2564 18 0,4615

5 27 4 0,1026 22 0,5641

6 28 5 0,1282 27 0,6923

7 29 4 0,1026 31 0,7949

8 30 4 0,1026 35 0,8974

9 31 2 0,0513 37 0,9487

10 32 1 0,0256 38 0,9744

11 33 0 0,0000 38 0,9744

12 34 1 0,0256 39 1

Summe 39 1

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Es liegt Datenlage B vor.

Passende Formel:

𝑠2 =1

𝑛⋅

𝑖=1

𝑚

ℎ𝑖 ∙ 𝑥𝑖 − 𝑥2

bzw.

𝑠2 =

𝑖=1

𝑚

𝑓𝑖 ∙ 𝑥𝑖 − 𝑥2

Zur Berechnung der Standardabweichung und des Variationskoeffizienten stellt man

zweckmäßigerweise eine Arbeitstabelle auf, die die notwendigen Spalten enthält.

Page 22: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

22

Streuungsmaße Standardabweichung, Variationskoeffizient Zahlenbeispiel

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Arbeitstabelle zum Zahlenbeispiel Absolventenumfrage

i xi hi ℎ𝑖 ∙ 𝑥𝑖 𝑥𝑖 − 𝑥 𝑥𝑖 − 𝑥2 ℎ𝑖 ∙ 𝑥𝑖 − 𝑥

2

1 23 1 23 -4,4103 19,4504 19,4504

2 24 1 24 -3,4103 11,6298 11,6298

3 25 6 150 -2,4103 5,8093 34,8560

4 26 10 260 -1,4103 1,9888 19,8882

5 27 4 108 -0,4103 0,1683 0,6732

6 28 5 140 0,5897 0,3478 1,7390

7 29 4 116 1,5897 2,5273 10,1091

8 30 4 120 2,5897 6,7068 26,8271

9 31 2 62 3,5897 12,8863 25,7725

10 32 1 32 4,5897 21,0657 21,0657

11 33 0 0 5,5897 31,2452 0,0000

12 34 1 34 6,5897 43,4247 43,4247

Summe 39 1 069 215,4359

Formel:

𝑠2 =1

𝑛⋅

𝑖=1

𝑚

ℎ𝑖 ∙ 𝑥𝑖 − 𝑥2

𝑥 =1069

39= 27,41 𝑠2 =

215,4359

39= 5,52 𝑠 = 5,52 = 2,35 𝑣 =

2,35

27,41⋅ 100 = 8,57%

Page 23: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

23

Streuungsmaße Standardabweichung Verschiebungssatz

Zur Berechnung der Standardabweichung

Liegen n Einzelwerte vor (Datenlage A), kann die Varianz 𝑠2 wegen

𝑠2 =1

𝑛∙

𝑖=1

𝑛

𝑥𝑖 − 𝑥2 =1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖2 − 2 ⋅ 𝑥𝑖 ⋅ 𝑥 + 𝑥

2=1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖2 −2 ⋅ 𝑥

𝑛⋅

𝑖=1

𝑛

𝑥𝑖 +𝑛 ⋅ 𝑥2

𝑛=1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖2 − 2 ⋅ 𝑥

2+ 𝑥2

auch mit der Formel

𝑠2 =1

𝑛∙

𝑖=1

𝑛

𝑥𝑖2 − 𝑥

2

berechnet werden.

Liegen die Daten als Häufigkeitstabelle vor (Datenlage B und C), gilt entsprechend:

𝑠2 =1

𝑛∙

𝑖=1

𝑛

ℎ𝑖 ∙ 𝑥𝑖2 − 𝑥

2

bzw.

𝑠2 =

𝑖=1

𝑛

𝑓𝑖 ∙ 𝑥𝑖2 − 𝑥

2

mit 𝑖 = 1,… ,𝑚 verschiedenen Merkmalsausprägungen 𝑥𝑖 (Datenlage B) bzw. 𝑖 = 1,… ,𝑚 Klassen mit den Mittelpunkten 𝑥𝑖 (Datenlage C).

Für die Berechnung der Standardabweichung in der Praxis haben diese Formeln den Vorteil, dass man die

Abweichungen der Beobachtungswerte vom arithmetischen Mittel nicht kennen muss.

Die letzte Formel (mit relativen Häufigkeiten) hat darüber hinaus den Vorteil, dass im Zuge der Berechnung

nicht so große Zahlen entstehen.

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Page 24: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

24

Streuungsmaße Standardabweichung, Variationskoeffizient Zahlenbeispiel

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Arbeitstabelle zum Zahlenbeispiel Absolventenumfrage

Formel:

𝑠2 =1

𝑛⋅

𝑖=1

𝑚

ℎ𝑖 ∙ 𝑥𝑖2 − 𝑥

2

𝑥 =1069

39= 27,41 𝑠2 =

29517

39− 27,412 = 5,52 𝑠 = 5,52 = 2,35 𝑣 =

2,35

27,41⋅ 100 = 8,57%

i xi hi ℎ𝑖 ∙ 𝑥𝑖 𝑥𝑖2 ℎ𝑖 ∙ 𝑥𝑖

2

1 23 1 23 529 529

2 24 1 24 576 576

3 25 6 150 625 3 750

4 26 10 260 676 6 760

5 27 4 108 729 2 916

6 28 5 140 784 3 920

7 29 4 116 841 3 364

8 30 4 120 900 3 600

9 31 2 62 961 1 922

10 32 1 32 1 024 1 024

11 33 0 0 1 089 0

12 34 1 34 1 156 1 156

Summe 39 1 069 29 517

Page 25: Vorlesungsprogramm 14.05 - Ruhr-Universität Bochum · 2 Streuungsmaße Begriff Streuungsmaß = Kennzahl zur Beschreibung der Variabilität eines Merkmals bzw. der Homogenität einer

25

Streuungsmaße Standardabweichung, Variationskoeffizient Zahlenbeispiel

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Arbeitstabelle zum Zahlenbeispiel Absolventenumfrage

Formel:

𝑠2 =

𝑖=1

𝑚

𝑓𝑖 ∙ 𝑥𝑖2 − 𝑥

2

𝑥 = 27,41 𝑠2 = 756,8462 − 27,412 = 5,52 𝑠 = 5,52 = 2,35 𝑣 =2,35

27,41⋅ 100 = 8,57%

i xi fi 𝑓𝑖 ∙ 𝑥𝑖 𝑥𝑖2 𝑓𝑖 ∙ 𝑥𝑖

2

1 23 0,0256 0,5897 529 13,5641

2 24 0,0256 0,6154 576 14,7692

3 25 0,1538 3,8462 625 96,1538

4 26 0,2564 6,6667 676 173,3333

5 27 0,1026 2,7692 729 74,7692

6 28 0,1282 3,5897 784 100,5128

7 29 0,1026 2,9744 841 86,2564

8 30 0,1026 3,0769 900 92,3077

9 31 0,0513 1,5897 961 49,2821

10 32 0,0256 0,8205 1 024 26,2564

11 33 0,0000 0,0000 1 089 0,0000

12 34 0,0256 0,8718 1 156 29,6410

Summe 1,0000 27,4103 756,8462

Klausuraufgabe …