View
6
Download
0
Category
Preview:
Citation preview
Mathematische Statistik
dient dazu, anhand von Stichproben Informationen zugewinnen. Während die WahrscheinlichkeitsrechnungPrognosen über das Eintreten zufälliger (zukünftiger)Ereignisse macht, werden in der Statistik beobachtete Datenbetrachtet.
Diese erhält man z. B. als Realisierungen von Zufallsvariablen(z. B. beobachtete Augenzahlen bei 10 mal Würfeln) oderdurch Ziehen einer Stichprobe aus einer Grundgesamtheit(z. B. Meinungsumfrage).
Zur Notation
Während Zufallsvariablen meist mit Groÿbuchstaben(typischerweise X , Y , Z ) benannt werden, werden für ihreRealisierungen Kleinbuchstaben benutzt.
statistik.pdf, Seite 1
Teilgebiete der Statistik
Es wird unterschieden zwischen
I Beschreibende (deskriptive) Statistik: übersichtlicheDarstellung, Ermittlung von Kenngröÿen wie Mittelwert,Varianz
I Explorative Statistik: Suche nach Strukturen undZusammenhängen mit Hilfe von Stichproben
I Induktive (schlieÿende) Statistik: Ziehen vonallgemeineren Schlussfolgerungen aus einer Stichprobemit Mitteln der Wahrscheinlichkeitsrechnung
statistik.pdf, Seite 2
Eine Stichprobe
besteht aus Realisierungen von Zufallsvariablen bzw. wird auseiner Grundgesamtheit (die mathematisch eine Mengedarstellt, von der die Stichprobe eine Teilmenge ist) gezogen.Dabei werden bestimmte Merkmale (oder Variablen) erfasst.
Der Umfang der Stichprobe ist die Zahl ihrer Elemente, d. h.die Zahl der in der Stichprobe erfassten Einheiten aus derGrundgesamtheit. Man spricht von einer Zufallsstichprobe,wenn sie als Teilmenge der Grundgesamtheit zufälligausgewählt wird.
Beispiel
Grundgesamtheit: Alle Studierenden der h_da
Stichprobe: Teilnehmer einer Umfrage
Merkmale: Studienfach, Alter, Schuhgröÿe, Körpergewicht, ...
statistik.pdf, Seite 3
Ausprägungen
sind die Werte, die ein Merkmal annehmen kann.
BeispielI Das Merkmal Geschlecht hat die Ausprägungen männlichund weiblich.
I Das Merkmal Lebensalter hat die Ausprägungen0, 1, 2, 3, 4, ...
Diskret und stetigI Ein diskretes Merkmal hat nur endlich oder abzählbarviele Ausprägungen.Beispiel: Geschlecht, Alter in Jahren
I Ein stetiges Merkmal hat Ausprägungen, die in einemIntervall ⊂ R liegen.Beispiel: Körpergewicht (bei beliebig hoher Messgenauigkeit)
statistik.pdf, Seite 4
Skalenniveaus
Ein Merkmal heiÿt
I nominalskaliert, wenn es für seine Ausprägungen keinenatürliche Reihenfolge gibt. In der Regel sind dieAusprägungen keine Zahlenwerte.Beispiel: Geschlecht, Lieblingsfarbe, Partei, Lottozahlen
I ordinalskaliert, wenn es für die Ausprägungen einenatürliche Ordnung gibt.Beispiel: Dienstgrad, Hotel�Sterne
I intervallskaliert, wenn die Ausprägungen Zahlen sind unddie Di�erenz zweier Ausprägungen als �Abstand�interpretiert werden kann.Beispiel: Zeitpunkt, Temperatur
I verhältnisskaliert, wenn es zusätzlich einen �absolutenNullpunkt� gibt.Beispiel: Gewicht, Kontostand
statistik.pdf, Seite 5
Bemerkungen
I Nominal- und ordinalskalierrte Merkmale werden auch alsqualitative Merkmale bezeichnet, während intervall- undverhältnisskalierte Merkmale als quantitative Merkmalebezeichnet werden.Im erstenen Fall liegt eine Kardinalskala, im zweiten Falleine metrische Skala vor.
I Die vorgestellten Begri�e sind nicht immer klarvoneinander abgegrenzt.
statistik.pdf, Seite 6
Stichproben
Man unterscheidet zwischen der Erhebung von univariatenDaten, wo nur ein Merkmal betrachtet wird, und multivariatenDaten, wo mehrere Merkmale gleichzeitig betrachtet werden.
Bei einer univariaten Stichprobe vom Umfang n erhält maneine Urliste x1, ..., xn der beobachteten Werte.
Häu�gkeiten
Bei diskreten Merkmalen kann man zählen, wie oft einebestimmte Ausprägung vorkommt.
Die absolute Häu�gkeit hi einer Ausprägung ai ist die Zahl derxk aus der Urliste mit xk = ai ,
die relative Häu�gkeit ist gegeben durch fi =1
nhi .
statistik.pdf, Seite 7
Beispiel
Bei einer Umfrage zur Lieblingsfarbe erhält man die Antworten
x1 = rot, x2 = grün, x3 = grün, x4 = gelb, x5 = rot,x6 = grün, x7 = blau, x8 = gelb, welche die Urliste bilden.
Es treten die Ausprägungen a1 = rot, a2 = grün, a3 = gelbund a4 = blau auf mit den absoluten Häu�gkeitenh1 = h3 = 2, h2 = 3 und h4 = 1.
Die relativen Häu�gkeiten sind
f1 = f3 =2
8= 25%, f2 = 3
8= 37, 5% und f4 =
1
8= 12, 5%.
statistik.pdf, Seite 8
Bemerkungen
I Die Reihenfolge der Daten spielt für die Häu�gkeitenkeine Rolle. Daher emp�ehlt es sich, die Urliste zunächstzu ordnen, im Beispielrot, rot, grün, grün, grün, gelb, gelb, blau
I Die absoluten Häu�gkeiten können mit Hilfe einerStrichliste ermittelt werden.
I Die Häu�gkeitsverteilung einer Stichprobe (d. h. dierelativen Häu�gkeiten aller aufgetretenen Ausprägungen)kann in einem Stabdiagramm dargestellt werden.
statistik.pdf, Seite 9
Stabdiagramm zur Lieblingsfarbe
statistik.pdf, Seite 10
Klassierung
Bei vielen verschiedenen Ausprägungen (die typischerweise beistetigen Merkmalen auftreten) teilt man diese in Klassen ein.Man spricht dann von einer klassierten Stichprobe.
Eine Klasse ist eine Teilmenge der Menge aller möglichenAusprägungen (typischerweise ein Intervall).
Häu�gkeiten von Klassen
Die absolute Häu�gkeit hi der i�ten Klasse ist die Zahl derbeobachteten Werte aus der Urliste, die in dieser Klasse liegen.
Die relative Häu�gkeit fi = hi/n ist auch hier die absoluteHäu�gkeit geteilt durch den Umfang der Stichprobe.
statistik.pdf, Seite 11
Histogramme
Die Häu�gkeitsverteilung einer klassierten Stichprobe wird oftin einem Histogramm dargestellt. Dort gehört zu jeder Klasseein Rechteck, dessen Fläche gleich der relativen Häu�gkeit ist.
Die Klassen werden dabei im Normalfall gleich breit gewählt.
Bemerkung
Eine Klassierung erhöht die Übersichtlichkeit der Darstellung,bedeutet aber einen Verlust von Information, da nicht mehrdie genauen Ausprägungen, sondern nur noch dieKlassenzugehörigkeiten betrachtet werden.
Faustregel
Die Zahl der Klassen sollte im Normalfall zwischen 5 und 20gewählt werden und nicht deutlich gröÿer als
√n sein.
statistik.pdf, Seite 12
Beispiel
Körpergröÿe im cm (gerundet) der deutschenFuÿball�Nationalspieler (WM�Kader 2014) liefert die Urliste
193, 188, 188, 192, 183, 190, 187, 187, 191, 198, 184, 187,189, 190, 182, 170, 182, 183, 171, 182, 186, 182, 183.
Für die 6 Klassen k1 = [170; 175), k2 = [175; 180),k3 = [180; 185), k4 = [185; 190), k5 = [190; 195) undk6 = [195; 200) erhält man die folgenden absoluten undrelativen Häu�gkeiten hi und fi :
i 1 2 3 4 5 6ki [170;175) [175;180) [180;185) [185;190) [190;195) [195;200)hi 2 0 8 7 5 1fi 2/23 0 8/23 7/23 5/23 1/23fi 8, 7 % 0 % 34, 8 % 30, 4 % 21, 8 % 4, 3 %
statistik.pdf, Seite 13
Histogramm zum Beispiel Körpergröÿe
Die Höhe jedes Rechtecks ist gleich 1
5fi , so dass die Fläche der
relativen Häu�gkeit fi der jeweiligen Klasse entspricht. DieGesamt�äche ist somit gleich 1.
statistik.pdf, Seite 14
Kenngröÿen einer Stichprobe
charakterisieren die wichtigsten Eigenschaften vonStichproben, deren Ausprägungen Zahlen sind.
Lagekennwerte geben an, in welchem Bereich sich die�typischen� Werte einer Stichprobe be�nden. Dazu gehörendas arithmetische, geometrische und das harmonische Mittel,der Median sowie die Quantile.
Streuungsmaÿe geben an, wie weit diese Werteauseinanderliegen. Dazu gehören die empirische Varianz, dieStandardabweichung, die Spannweite und derInterquartilsabstand.
statistik.pdf, Seite 15
Das arithmetisches Mittel
oder einfach der Mittelwert x einer Stichprobe vom Umfang nist de�niert als
x = xarithm = 1
n(x1 + ...+ xn).
Beispiel
Bei einer Stichprobe (Körperlänge von n = 10 Fuÿballspielern)erhält man die (geordnete) Urliste183, 187, 187, 188, 188, 190, 191, 192, 193, 198.
Das arithmetische Mittel ist die Durchschnittsgröÿe
x = 1
10· (183+ 187+ 187+ 188+ 188+ 190+ 191+ 192+ 193+ 198)
= 1
10· 1897 = 189, 7.
Weitere Anwendungsbeispiele für das arithmetische Mittel sindmittleres Einkommen oder eine Durchschnittsnote.
statistik.pdf, Seite 16
Das geometrische Mittel
xgeom = n√x1 · ... · xn
kommt zur Anwendung bei der Berechnung vondurchschnittlichen Wachstumsraten, Kursgewinnen undähnlichem.
Es ist nur dann sinnvoll de�niert, wenn xk > 0 für alleStichprobenwerte xk .
Beispiel
Das geometrische Mittel der Stichprobe
x1 = 1, 2, x2 = 0, 8, x3 = 1, 1, x4 = 1, 3, x5 = 0, 7, x6 = 1, 2ist
xgeom = (1, 2 · 0, 8 · 1, 1 · 1, 3 · 0, 7 · 1, 2)1/6
≈ 1, 1531/6 ≈ 1, 024
statistik.pdf, Seite 17
Das harmonische Mitteleiner Stichprobe mit xk > 0 für alls k ist de�niert als
xhar =n
1
x1+ ...+ 1
xn
= 1
/[1n
(1x1
+ ...+1xn
)],
d. h. es wird zunächst das arithmetische Mittel der Kehrwerte1
xkberechnet und davon wiederum der Kehrwert gebildet.
Eine typische Anwendung ist die Berechnung einerDurchschnittsgeschwindigkeit.
BeispielDie Stichprobe x1 = 50, x2 = 150 und x3 = 100 hat dieKehrwerte y1 =
1
x1= 1
50, y2 = 1
x2= 1
150und y3 =
1
x3= 1
100.
Diese haben das arithmetische Mittel
y = 1
3·(
1
50+ 1
150+ 1
100
)= 1
3· 11
300= 11
900≈ 0, 012.
Das harmonische Mittel der ursprünglichen Stichprobe istsomit xhar = 1/y = 900
11≈ 81, 8.
statistik.pdf, Seite 18
Anwendung/InterpretationEin Fahrzeug legt eine Strecke von 120 km zurück, davonjeweils ein Drittel (also s = 40 km) mit einer Geschwindigkeitvon v1 = 100 km/h, v2 = 50 km/h und v3 = 150 km/h.
Wie groÿ ist dann die Durchschnittsgeschwindigkeit?
Dazu können zunächst die Fahrzeiten für die einzelnenStreckenabschnitte bestimmt werden: t1 = s
v1= 0, 4 Stunden
= 24 Minuten für das erste Drittel sowiet2 =
sv2
= 48 Minuten und t3 =sv3
= 16 Minuten für daszweite bzw. dritte Drittel. Die Gesamtfahrzeit ist damitt = t1 + t2 + t3. Auf der Gesamtstrecke 3s = 120 km erhältman die Durchschnittsgeschwindigkeit
3st
=3s
t1 + t2 + t3=
3ssv1+ s
v2+ s
v3
=1
1
3·(
1
v1+ 1
v2+ 1
v3
)= vhar ≈ 81, 8 km/h.
statistik.pdf, Seite 19
Der Median
oder Zentralwert x̃ einer Stichprobe ist der Wert �in der Mitte�der geordneten Urliste.
Hat die Urliste die Form x1, x2, ..., xn mit xk ≤ xk+1 für alle k ,so ist
x̃ =
{x n+1
2
falls n ungerade
1
2
(x n2+ x n
2+1
)falls n gerade
Beispiel
Die Stichprobe 1, 2, 4, 5, 8, 9 hat den Umfang n = 6, also istder Median gleich
x̃ = 1
2(x3 + x4) =
1
2(4+ 5) = 41
2.
Bei der Stichprobe -1; 0; 0,2; 0,9; 1,6; 3,8; 6,1 ist n = 7,
also ist der Median x̃ = x4 = 0, 9.
statistik.pdf, Seite 20
Bemerkungen
I Im Gegensatz zum (arithmetischen) Mittel ist der Median�unemp�ndlich� gegenüber starken Ausreiÿern.
I Sind alle Elemente der Urliste verschieden, so liegen�links� und �rechts� vom Median jeweils gleich vieleElemente.
I Eine Verallgemeinerung sind Quantile für p ∈ (0, 1):Links vom p�Quantil x̃p liegt der Anteil p allerStichprobenwerte, rechts davon der Anteil 1− p.
I Der Modalwert einer Stichprobe ist die Ausprägung mitder gröÿten Häu�gkeit.Beispiel: Lieblingsfarbe grün
statistik.pdf, Seite 21
Quantile
Zu einer Stichprobe vom Umfang n und p ∈ (0, 1) de�niertman das p�Quantil x̃p wie folgt:
I Ist k = n · p eine ganze Zahl, so nimmt man einen Wertzwischen xk und xk+1:x̃p = 1
2· (xk + xk+1)
I Ist np 6∈ Z, so wählt man die nächstgröÿere ganze Zahl kund setzt x̃p = xk .
Für p = 0, 5 entspricht dies der De�nition des Medians,
die Quantile für p = 0, 25 und p = 0, 75 werden als unteresund oberes Quartil bezeichnet.
statistik.pdf, Seite 22
Beispiel
Für eine Stichprobe vom Umfang n = 10 liegt das30%�Quantil x̃0,3 zwischen x3 und x4, genauerx̃0,3 =
1
2(x3 + x4).
Sind x3 und x4 verschieden, so liegen x1, x2 und x3 (also genau30% aller Stichprobenwerte) links von x̃0,3 und die übrigen70% rechts von x̃0,3.
Konkretes Beispiel: Bei einer Stichprobe mit der geordnetenUrliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist
x̃0,3 =1
2(2+ 3) = 21
2.
statistik.pdf, Seite 23
Fortsetzung Beispiel mit n = 10
Urliste 1, 2, 2, 3, 4, 6, 6, 7, 9, 10 ist
Mit p = 0, 75 ist n · p = 7, 5 6∈ Z, aufgerundet erhält man 8.Damit ist das obere Quartil (= 75%�Quantil) der 8. Wert dergeordneten Stichprobe
x̃0,75 = x8 = 7.
x = x8 ist die kleinste Zahl, für die mindestens 75% derStichprobenwerte ≤ x sind und gleichzeitig die gröÿte Zahl,für die mindestens 25% der Stichprobenwerte ≥ x sind.
Darüber hinaus ist für jedes p mit 0, 7 < p < 0, 8 dasp�Quantil x̃p = x8, analog ist z. B. x̃p = x4 für alle p mit0, 3 < p < 0, 4.
statistik.pdf, Seite 24
Empirische Verteilungsfunktion
Die empirische Verteilungsfunktion einer Stichprobe vomUmfang n ist de�niert als
F (x) =1n#{k : xk ≤ x
},
d. h. für x ∈ R ist F (x) der relative Anteil derStichprobenwerte, die ≤ x sind.
F ist eine Treppenfunktion, d. h. sie ist auf Teilintervallenkonstant mit Sprungstellen dazwischen.
statistik.pdf, Seite 25
Beispiel Stichprobe 1, 2, 2, 3, 4, 6, 6, 7, 9, 10
Empirische Verteilungsfunktion F (x) mit 30%- und75%�Quantil
statistik.pdf, Seite 26
Quantile und empirische Verteilungsfunktion
Bei der Bestimmung des Quantils x̃p durch die empirischeVerteilungsfunktion F (x) sind zwei Fälle zu unterscheiden:
1. Der Wert p wird von der empirschen Verteilungsfunktionangenommen, d. h. es gibt ein Teilintervall [x1, x2) mitF (x) = p für alle x ∈ [x1, x2).In diesem Fall wird das p�Quantil als Mittelpunkt diesesIntervall gewählt, also x̃p = 1
2(x1 + x2).
2. Der Wert p wird von der empirschen Verteilungsfunktionnicht angenommen.Dann ist x̃p die Sprungstelle von F (x), an der der Wert p�übersprungen� wird.In diesem Fall gilt F (x) < p für alle x < x̃p und F (x) > pfür alle x ≥ x̃p.
statistik.pdf, Seite 27
Varianz
Ein Maÿ für die Streuung der Werte einen Stichprobe vomUmfang n ≥ 2 um den Mittelwert x ist die (empirische)Varianz oder Stichprobenvarianz
s2 =1
n − 1
n∑k=1
(xk − x)2 =1
n − 1
((x1 − x)2 + ...+ (xn − x)2
)s =√s2 wird als empirische Standardabweichung bezeichnet.
Eine kleine Rechnung zeigt (mit der De�nition von x)
s2 =1
n − 1
(x21+ x2
2+ ...+ x2n − n · x2
)Achtung: Im Unterschied zur Varianz einer Zufallsvariable istbei der Stichprobenvarianz der Vorfaktor 1
n−1statt 1
n.
statistik.pdf, Seite 28
Weitere Streuungsmaÿe
I Spannweite: Di�erenz zwischen dem gröÿten und demkleinsten Wert der Stichprobe.
I Interquartilsabstand dQ = x̃0,75 − x̃0,25: Di�erenz zwischendem 75%�Quantil und dem 25%�Quantil.
Interpretation: Die Hälfte der Stichprobenwerte liegtinnerhalb des Interquartilsabstandes, jeweils ein Viertelsind Ausreiÿer nach oben bzw. nach unten, die keinenEin�uss auf den Interquartilsabstand haben.
statistik.pdf, Seite 29
BeispielDie Stichprobe 0, 1, 1, 2, 3, 5, 8, 12, 13 hat
I Mittelwert x = 1
9(0+ 1+ 1+ 2+ 3+ 5+ 8+ 12+ 13) = 5
I Median x̃ = x̃0,5 = x5 = 3I Modalwert (häu�gster Wert) 1I Quartile x̃0,25 = x3 = 1 und x̃0,75 = x7 = 8I empirische Varianz s2 =
1
8(02 + 12 + 12 + 22 + 32 + 52 + 82 + 122 + 132 − 9 · 52)
= 1
8
((0− 3)2 + (1− 3)2 + (1− 3)2 + (2− 3)2
+(3− 3)2 + (5− 3)2 + (8− 3)2 + (12− 3)2 + (13− 3)2)
= 1
8(9+ 4+ 4+ 1+ 0+ 4+ 25+ 81+ 100) = 24
I Standardabweichung s =√s2 =
√24 ≈ 4, 9
I Spannweite 13− 0 = 13I Interquartilsabstand 8− 1 = 7
statistik.pdf, Seite 30
Boxplots
dienen der graphischen Darstellung statistischer Kennzahleneiner Stichprobe. Der zentrale Teil ist ein Rechteck (die�Box�), die vom unteren bis zum oberen Quartil reicht und amMedian in zwei Teile unterteilt ist. Die Gesamtbreite der Boxist somit der Interquartilsabstand. Verlängert die Box anbeiden Seiten durch Linien, welche die Daten jenseits derQuartile kennzeichnen.
statistik.pdf, Seite 31
Recommended