54
Statistik Prof. Dr. Jan Kirenz Deskriptive Statistik Photo Credit: Unsplash, Roman Mager ANALYTICS Grundlagen

Analytics Grundlagen: Deskriptive Statistik

Embed Size (px)

Citation preview

Page 1: Analytics Grundlagen: Deskriptive Statistik

Statistik

Prof. Dr. Jan Kirenz

Deskriptive Statistik

Photo Credit: Unsplash, Roman Mager

ANALYTICS Grundlagen

Page 2: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Was ist deskriptive Statistik?

Mit Hilfe der deskriptiven Statistik werden empirische Daten (z.B. Umfrageergebnisse) durch Kennzahlen, Tabellen und Grafikenübersichtlich dargestellt.

Deskriptive Statistik

Der Begriff „deskriptiv“ bedeutet dasselbe wie „beschreibend“.

Page 3: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Was ist deskriptive Statistik?

Welche Tabellen, Kennzahlen und Visualisierungen wir für die Beschreibung der Daten nutzen können, hängt insbesondere von dem Skalenniveau der Variablen ab.

Deskriptive Statistik

Page 4: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

In einer Umfrage wurden 15 Personen nach ihrem Familienstand befragt

Beispiel

Variable = Familienstand

Ausprägungen = ledig, verheiratet, geschieden, verwitwet.

Familienstand

Photo Credit: Unsplash, Helloquence

Page 5: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Was für „Berechnungen“ können wir mit der nominal skalierten Variable „Familienstand“ durchführen?

Frage: Wie können wir das Ergebnis übersichtlich darstellen?

Folgende Informationen haben wir durch die Befragung erhalten:

Ausprägung = 8 ledig, 4 verheiratet, 2 geschieden, 1 verwitwet.

Photo Credit: Unsplash, Roman Mager

Page 6: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Da die Variable nominal skaliert ist, können wir bspw. Häufigkeiten in einer Tabelle aufzeigen. Hierbei sollten die beobachteten und die prozentualen Häufigkeiten angegeben werden.

Merkmals-ausprägung

Beobachtete Häufigkeit

Relative Häufigkeit

Verheiratet 4 27 %

Ledig 8 53 %

Geschieden 2 13 %

Verwitwet 1 7 %

SUMME 15 100 %

Tabelle: Häufigkeiten

Page 7: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Ergebnisse nominaler Variablen werden üblicherweise als Balkendiagramme und/oder Kuchendiagramme dargestellt.

Visualisierungen:

4

8

2 102468

10

Verh

eira

tet

Ledi

g

Ges

chie

den

Verw

itwet

27%

53%

13% 7%

Verheiratet Ledig

Geschieden Verwitwet

Page 8: Analytics Grundlagen: Deskriptive Statistik

Statistik

Lagemaße

Photo Credit: Unsplash, Roman Mager

Prof. Dr. Jan Kirenz

ANALYTICS Grundlagen

Page 9: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Kennzahlen: Lagemaß und StreuungsmaßEs gibt zwei verschiedene Arten von Kennzahlen, die wir hier berechnen können: Lagemaße und Streuungsmaße.

Lagemaße geben Auskunft über die zentrale Tendenzvon Ausprägungen.

Streuungsmaße geben Auskunft über die Verteilungder Werte.

Page 10: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Kennzahlen: Lagemaß und Streuungsmaß

Wir werden insbesondere die folgenden Kennzahlen behandeln:

Lagemaße:• Modus • Median • Arithmetisches Mittel

Streuungsmaße• Quartilsabstand• Standardabweichung

Page 11: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Kennzahlen: Lagemaß und Streuungsmaß

Wir werden insbesondere die folgenden Kennzahlen behandeln:

Lagemaße:• Modus • Median • Arithmetisches Mittel

Streuungsmaße• Quartilsabstand• Standardabweichung

Page 12: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Zusammenhang zwischen Lagemaßen und

SkalenniveausSkalenniveau Operationen Interpretation Berechenbare

Lagemaße

Nominalskala =/≠ gleich oder ungleich Modus

Ordinalskala =/≠; </> kleiner, gleich oder größer Modus. Median

Metrisch =/≠; </>; +/−; ×/÷

Aussagen zu Verhältnissen

Modus. Median,arithmetisches Mittel

Page 13: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

x: Größe in cm

20 erwachsene deutsche Frauen

KleinsteFrau

GrößteFrau

Beispiel: Körpergröße

Wir messen die Größe von 20 Frauen und reihen sie der Größe nach auf. Die kleinste Frau steht ganz links, die größte ganz rechts.

Page 14: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Beispiel KörpergrößeZum besseren Verständnis der Kennzahlen reihen wir die 20 Frauen entsprechen ihrer Größe nebeneinander auf:

Dabei steht die kleinste Frau ganz links und die größte ganz rechts. Frauen mir gleicher Größe stehen hintereinander.

x: Größe in m

20 Frauen

1,62

KleinsteFrau

GrößteFrau

1,63 1,64 1,65 1,66 1,67 1,68

Page 15: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Umfrageergebnis der Studie:

Wir haben die Größe von 20 Frauen erfragt.

In der Tabelle ist das Ergebnis der Befragung abgetragen.

Merkmals-ausprägung Häufigkeit Relative

Häufigkeit

1.62 1 5 %

1.63 2 10 %

1.64 4 20 %

1.65 6 30 %

1.66 4 20 %

1.67 2 10 %

1.68 1 5 %

20 100 %

Page 16: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Merkmals-ausprägung Häufigkeit Relative

Häufigkeit

1.62 1 5 %

1.63 2 10 %

1.64 4 20 %

1.65 6 30 %

1.66 4 20 %

1.67 2 10 %

1.68 1 5 %

20 100 %

Lesebeispiel:6 der Frauen sind 1,65 m groß.

Da dies die häufigste Ausprägung ist, ist dies der Modus

Lagemaße: Modus

Page 17: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Modus

• Modus = die häufigste Ausprägung.

• Der Modus gibt an, welche Merkmalsausprägung (z.B. in einer Befragung) am häufigsten vorkommt

• Falls keine Ausprägung häufiger als alle anderen vorkommt gibt es keinen Modus

Page 18: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Median Median : der Wert, der bei einer der Größe nach geordneten Zahlenreihe an der mittleren (zentralen) Stelle steht.

x: Größe in m

20 Frauen

1,62

KleinsteFrau

GrößteFrau

1,63 1,64 1,65 1,66 1,67 1,68

Übung: Berechnung des Medians

Page 19: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Median Hinweise:

Ist die Anzahl der Werte ungerade, so ist es, bei in Reihenfolge sortierten Werten, der mittlere Wert.

Zahlenwerte:

489 113 141 120 217 109 675 218 96 225 132

sortierte Werte:

96 109 113 120 132 141 217 218 225 489 675

MEDIAN

Page 20: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Median

Hinweise:

Im Falle einer geraden Anzahl von Werten ist der Median der Mittelwert aus den beiden mittleren Werten.

sortierte Werte:

96 109 113 120 132 141 217 218 225 489 675 690

Median = (141+217)/2 = 179

Page 21: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Median Median : der Wert, der bei einer der Größe nach geordneten Zahlenreihe an der mittleren (zentralen) Stelle steht.

x: Größe in m

20 Frauen

1,62

KleinsteFrau

GrößteFrau

1,63 1,64 1,65 1,66 1,67 1,68

Übung: Berechnung des Medians1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,661,64 1,66 1,66 1,67 1,67 1,68

1,65 1,65+2

Page 22: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Arithmetisches MittelArithmetisches Mittel: Addition aller Werte eines Datensatzes und Teilung der Summe durch die Anzahl aller Werte.

Page 23: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Arithmetisches Mittel: Addition aller Werte eines Datensatzes und teilt die Summe durch die Anzahl aller Werte.

x: Größe in m

20 Frauen

1,62

KleinsteFrau

GrößteFrau

1,63 1,64 1,65 1,66 1,67 1,68

1,62 1,63 1,63 1,64 1,64 1,64 1,65 1,65 1,65 1,65 1,65 1,65 1,66 1,661,64 1,66 1,66 1,67 1,67 1,68+ + + + + + + + + + + + + + + + + + +

20

= 1,65

Lagemaße: Arithmetisches Mittel

Page 24: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Frage: Was können wir noch aus den vorliegenden Informationen ermitteln?

x: Größe in m

20 Frauen

1,62

KleinsteFrau

GrößteFrau

1,63 1,64 1,65 1,66 1,67 1,68

Page 25: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Stellen wir uns nun vor, wir hätten Daten von 1.000 Frauen erhoben...

Page 26: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

x: Größe in cm

1.000 erwachsene deutsche Frauen

165 20690

KleinsteFrau

GrößteFrau

Arithmetischer Mittelwert

Page 27: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Punkte = 1.000 erwachsene deutsche Frauen

x: Größe in cm

KleinsteFrau

GrößteFrau

165 20690

f(x)

Wahrscheinlichkeitsdichtefunktionen

Page 28: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 28

Wahrscheinlichkeitsdichtefunktionen

Nun können wir (mit Hilfe der Dichtefunktion) bspw. die Frage beantworten, wie viele Frauen zwischen 150 cm und 165 cm groß sind: 20% bzw. 200 Frauen

Page 29: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Warscheinlichkeitsdichtefunktion:

Hinweise:

• Die Wahrscheinlichkeitsdichtefunktion oder „Dichte“ (engl. probability density function) ist ein

Hilfsmittel zur Beschreibung einer stetigenWahrscheinlichkeitsverteilung.

Page 30: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Warscheinlichkeitsdichtefunktion:

Hinweise:

• Stetig sind solche Merkmale, die theoretisch unendlich viele Ausprägungen aufweisen können (z.B. Körpergröße, Länge, Gewicht, Zeit).

• Das Gegenteil von stetig ist diskret.

• Diskret sind solche Merkmale, die nur endlich viele Ausprägungen annehmen können. Insbesondere sind alle Merkmale diskret, deren Werte man durch Zählen ermitteln kann (z.B. Seiten eines Würfels)

Page 31: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Warscheinlichkeitsfunktion:

• Bei diskreten Werten können Wahrscheinlichkeitsfunktionen ermittelt werden

• Bsp.: Wahrscheinlichkeitsfunktion eines Würfels (Merkmal: Augenzahl)

Werte sind diskret.

D.h., dass z.B. zwischen den Werten 1 und 2 keine weiteren Werte liegen (es gibt „Lücken“)

Page 32: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Warscheinlichkeitsfunktion:

Frage: wie sieht die Wahrscheinlichkeitsfunktion von zwei Würfelwürfen mit zwei Würfeln aus (als Säulendiagramm dargestellt)?:

Die Augen sind das Merkmal.Deren Anzahl ist die Merkmalsausprägung.

Die Funktion gibt die Wahrscheinlichkeit des Auftretens einer bestimmten Ausprägung an.

Page 33: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Warscheinlichkeitsfunktion:

Page 34: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 34

Warscheinlichkeitsdichtefunktion:

Körpergröße ist stetig (es kann theoretisch jeder beliebige Wert vorkommen – also theoretisch unendlich viele)

Page 35: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 35

Frage: wie viel Prozent der Frauen sind zwischen 90 cm und 165 cm groß?

Warscheinlichkeitsdichtefunktion:

Page 36: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 36

Frage: wie viel Prozent der Frauen sind zwischen 90 cm und 165 cm groß?

Warscheinlichkeitsdichtefunktion:

50% der Frauen

Page 37: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 37

50% der Werte

Normalverteilung

50% der Werte

Arithmetisches Mittel

Diese Art der Verteilung nennt man „Normalverteilung“ (oder auch Gaußverteilung)

Merkmale:• Kurvenverlauf ist

symmetrisch• Median, Mittelwert

und Modus sind identisch

= Median = Modus

Page 38: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 38

Linksschiefe Verteilung ≠ Normalverteilung

Arith

met

isch

esM

ittel

Med

ian

Diese Art der Verteilung nennt man „linksschief“ (zum Vergleich in blau die Normalverteilung)

Mod

us

Page 39: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 39

Rechtsschiefe Verteilung≠ Normalverteilung

Diese Art der Verteilung nennt man „rechtsschief“ (zum Vergleich in blau die Normalverteilung)

Med

ian

Mod

us

Arith

met

isch

esM

ittel

Page 40: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 40

Rechtsschiefe Verteilung≠ Normalverteilung

Page 41: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Median vs. arithmetisches Mittel• Bsp: monatliches Einkommen von 4 Personen.• Keine Normalverteilung • Verteilung ist ___________________

• Mittelwert = ____________ Euro im Moment

• Median = ____________ Euro im Monat

• Frage: welcher Wert beschreibt das durchschnittliche Einkommen der Mehrzahl der Personen besser?

Page 42: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Median vs. arithmetisches Mittel

• Sobald keine Normalverteilung vorliegt ist es nicht sinnvoll, das arithmetische Mittel zu berechnen.

• Der Median bleibt immer in der „Mitte“ der Verteilung – er ist bei nicht normalverteilten Daten dem arithmetischen Mittel vorzuziehen.

Page 43: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Deskriptive Statistik

Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahl

(1) WelchesSkalenniveau liegt vor?

(2) Welche Verteilung liegt vor? --> Lagemaße

Nominal Verteilung nicht relevant

Modus

Ordinal Verteilung nichtrelevant

ModusMedian

Metrisch

Fall 1: Daten sind nicht normalverteilt

ModusMedian

Fall 2: Daten sind normalverteilt

ModusMedian

Mittelwert

Logik zur Auswahl der Lagemaße

Page 44: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Lagemaße: Zusammenfassung

Modus Median Arithmetisches Mittel

Häufigster Wert Zentraler Wert Durchschnittlicher Wert

Gibt die Kategorie an, die am häufigsten besetzt ist

Gibt den mittleren Wert an, der eine nach der Größe geordnete Reihe von Messwerten halbiert

Definiert als Quotient aus der Summe aller beobachteten Werte und der Anzahl der Werte.

Bestimmbar für alle Skalenniveaus

Bestimmbar für ordinale und metrische Skalenniveaus (auch wenn keine Normalverteilung vorliegt)

Nur bei metrischenSkalenniveaus mit Normalverteilung

Page 45: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Wiederholungsfragen

Bitte geben Sie jeweils an, ob die Aussage richtig oder falsch ist:

Markieren Sie dafür das Kästchen vor der Ziffer: Richtige Aussage þ / Falsche Aussage: ý .

1. o Bei nominalskalierten Variablen ist es sinnvoll, einen Mittelwert zu berechnen.

2. o Der Modalwert ist der am häufigsten vorkommende Wert.

3. o Bei metrischen Merkmalen können wir nur den Modalwert berechnen.

4. o Diskret sind solche Merkmale, die nur endlich viele Ausprägungen annehmen können.

5. o Stetig sind solche Merkmale, die überabzählbar viele Ausprägungen aufweisen können (z.B. Länge, Gewicht, Zeit).

6. o Die Normalverteilung ist ein wichtiger Typ stetiger Wahrscheinlichkeitsverteilungen.

7. o Der Median kann auch dann berechnet werden, wenn bei metrischen Merkmalen keine Normalverteilung vorliegt

8. o Das arithmetische Mittel kann auch bei ordinalen Merkmalen berechnet werden.

45

Page 46: Analytics Grundlagen: Deskriptive Statistik

Statistik

Streuungsmaße

Photo Credit: Unsplash, Roman Mager

Prof. Dr. Jan Kirenz

ANALYTICS Grundlagen

Page 47: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Kennzahlen: Lagemaß und Streuungsmaß

Wir werden insbesondere die folgenden Kennzahlen behandeln:

Lagemaße:• Modus • Median • Arithmetisches Mittel

Streuungsmaße• Quartilsabstand• Standardabweichung

Page 48: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 48

Streuungsmaße: Standardabweichung

Mittelwert

Die Standardabweichung ist ein Maß für die Streubreite der Werte um dessen Mittelwert (nur bei Normalverteilung)

Kleinster Wert Größter Wert-1s-2s 2s1s

1 Standard-abweichung nach links

1 Standard-abweichung nach rechts

Im Intervall von -1s bis +1s liegen bei Normalverteilungen immer zwei Drittel (68,27%) aller Werte

68,27%

Page 49: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 49

Mittelwert

Die Standardabweichung ist ein Maß für die Streubreite der Werte um dessen Mittelwert

Kleinster Wert Größter Wert-1s-2s 2s1s

1 Standard-abweichung nach links

1 Standard-abweichung nach rechts

Im Intervall von -2s bis +2s liegen bei Normalverteilungen immer etwa 95,45% aller Werte.

95,45%

Streuungsmaße: Standardabweichung

Page 50: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

• Übung:

• 1.000 Personen wurden befragt, wie hoch ihre monatliche Handyrechnung ist:

• Die gewonnenen Daten sind normalverteilt.• Der Mittelwert liegt bei 40 Euro• Die Standardabweichung liegt bei 5 Euro (d.h., dass die

durchschnittliche Entfernung aller Antworten zum Mittelwert 27 Euro beträgt)

• Frage: welche Werte haben +s1 und –s1? Wieviel Prozent der Personen befinden sich zwischen -s1 und +s1

Streuungsmaße: Standardabweichung

Page 51: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 51

(Median)

Der Quartilsabstandermittelt, in welchem Bereich sich die mittleren 50% der Werte befinden

Quartil 1 Quartil 2

Auch anwendbar wenn keine Normalverteilung vorliegt

25%

Streuungsmaße: Quartilsabstand

Quartil 350% 75%Enthält: ... aller Werte

Der Quartilsabstand entspricht der Differenz zwischen dem oberen (3) und unteren (1) Quartil

Quartilsabstand = Q3-Q1

25% 25% 25% 25%

Page 52: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz 52Median

Mit einem Boxplot lassen sich die Quartile gut visualisieren

25%

Streuungsmaße: Quartile & Boxplot

50% 75%

oberer Whisker

Der Boxplot (auch Box-Whisker-Plot) ist ein Diagramm, das zur grafischen Darstellung der Verteilung eines mindestens ordinalskaliertenMerkmals verwendet wird.

unteres Quartil oberes Quartil

Quartil 1 Quartil 2 Quartil 3unterer Whisker

25% 25% 25% 25%

Page 53: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Deskriptive Statistik

Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen

(1) Skalenniveau (2) Verteilung Streuungsmaße

Nominal Verteilung nicht relevant

(es gibt keine Streuung)

Ordinal Verteilung nichtrelevant

Quartilsabstand

Metrisch

Fall 1: Daten sind nicht normalverteilt Quartilsabstand

Fall 2: Daten sind normalverteilt

Quartilsabstand,Standardabweichung

Logik zur Auswahl der Streuungsmaße

Page 54: Analytics Grundlagen: Deskriptive Statistik

Prof. Dr. Jan Kirenz

Deskriptive Statistik

Schritte zur Ermittlung der passenden Kennzahlen Statistische Kennzahlen

(1) Skalenniveau (2) Verteilung Lagemaße Streuungsmaße

Nominal Verteilung nicht relevant

Modus -

Ordinal Verteilung nichtrelevant

ModusMedian Quartilsabstand

Metrisch

Fall 1: Daten sind nicht normalverteilt

ModusMedian Quartilsabstand

Fall 2: Daten sind normalverteilt

ModusMedian

Mittelwert

QuartilsabstandStandardabweichung

Logik zur Auswahl der Kennzahlen