Statistik
Sommersemester 2012
Dr. Matthias Arnold
Universitat Erfurt Sommersemester 2012 - Statistik
Vorlesung
Vorlesung: Mi 12.15 – 13.45, Audimax
Dr. Matthias ArnoldRaum 163 in LG 1
[email protected].: 0361/737-4592
Sprechstunde: Mittwoch 10.00 - 11.30 Uhr
1. Klausurtermin: Montag, 23.7.2012, 16 Uhr
2. Klausurtermin: Mittwoch, 8.8.2012, 12 Uhr
Dr. Matthias Arnold 2
Universitat Erfurt Sommersemester 2012 - Statistik
Ubung
Fabian Kleine
Termine:
Mo 14.00 – 16.00Di 14.00 – 16.00Mi 14.00 – 16.00Mi 16.00 – 18.00Do 16.00 – 18.00
Dr. Matthias Arnold 3
Universitat Erfurt Sommersemester 2012 - Statistik
Was ist Statistik
”Umfassendes methodisch-quantitatives Instrumentarium zur
Charakterisierung und Auswertung empirischer Befunde [...] mituniversellen Einsatzmoglichkeiten in Politik, Wirtschaft und
Gesellschaft und allen Geistes-, Sozial- und Naturwissenschafteneinschließlich Medizin und Technik, in denen mit Zahlen gearbeitet
wird.“
(Gabler Wirtschaftslexikon)
→ Wissenschaftsdisziplin, die Methoden entwickelt, um aus Zahlen(”Daten“) Informationen, Wissen zu extrahieren
Dr. Matthias Arnold 4
Universitat Erfurt Sommersemester 2012 - Statistik
Wozu Statistik?
Hilfreich/notwendig bei...
� ...der Erstellung von Mietspiegeln
� ...der Prufung von Kreditwurdigkeiten
� ...der Auswertung der Sonntagsfrage
� ...klinischen Studien (”Medikament A besser als Medikament
B?“)
� ...der Beantwortung grundlegender Fragen von Politik undGesellschaft
• Arbeitsmarktpolitik: Auswirkungen der Einfuhrung vonMindestlohnen
• Gesundheitspolitik: Bewertung von Vorsorgeuntersuchungen
� ...
Dr. Matthias Arnold 5
Universitat Erfurt Sommersemester 2012 - Statistik
Wozu Statistik?
Hilfreich bei der Planung der Energiewende
Dr. Matthias Arnold 6
Universitat Erfurt Sommersemester 2012 - Statistik
Windenergie
Einspeisung ins Netz im Zeitablauf
Dr. Matthias Arnold 7
Universitat Erfurt Sommersemester 2012 - Statistik
Energiewende: erforderlicher Netzausbau
Regionale Unterschiede Stromerzeugung/Stromverbrauch
Dr. Matthias Arnold 8
Universitat Erfurt Sommersemester 2012 - Statistik
Wozu Statistik?
Hilfreich/notwendig ...
� ... bei der Entscheidung uber den Bau neuer Kraftwerke
� ... zur Politikberatung: Entwicklung Strompreise, Strombedarf
� ... fur die Planung von Speicherkapazitaten (z.B.Pumpspeicherkraftwerke)
� ... bei Entscheidungen uber den Netzausbau
� ... bei der Festlegung von Einspeisevergutungen
Dr. Matthias Arnold 9
Universitat Erfurt Sommersemester 2012 - Statistik
Wozu Statistik?Statistische Unkenntnis → Fehlinterpretationen/ Blamagen drohen
� Mitteilung der Universitat Virginia im Jahr 1984: Absolventendes Bachelor-Studiengangs
”Rhetorik und Kommunikation“
haben durchschnittliches Einstiegsgehalt von 55.000 Dollar→ wertlose/irrefuhrende Info, denn einer der Studenten:
R. Sampson, spater Houston Rockets (Quelle: Washington Post)
Dr. Matthias Arnold 10
Universitat Erfurt Sommersemester 2012 - Statistik
Prominenter Statistik-Fursprecher
The ability to take data – to be able to understand it, to processit, to extract value from it, to visualize it, to communicate it –that’s going to be a hugely important skill in the next decades.
(H. R. Varian, US-amerikanischer Okonom, geb. 1947)
Dr. Matthias Arnold 11
Universitat Erfurt Sommersemester 2012 - Statistik
Themengebiete
Teil A: Deskriptive Statistik
(Komprimierung/ubersichtliche Darstellung von Daten)
� Grafische Darstellung von Daten
� Lage-, Streuungs- und Zusammenhangsmaße
� Preisindizes
Teil B: Wahrscheinlichkeitsrechnung
(Beschreibung/Modellierung zufalliger Ereignisse, notw. fur Teil C)
� Zufallige Ereignisse und ihre Wahrscheinlichkeiten
� Zufallsvariablen
� Erwartungswert, Varianz und Kovarianz von Zufallsvariablen
� Ausgewahlte Verteilungen
Dr. Matthias Arnold 12
Universitat Erfurt Sommersemester 2012 - Statistik
Themengebiete
Teil C: Schließende Statistik(allgemeine Frage wird auf Basis einer Stichprobe beantwortet)
� Punkt- und Intervallschatzung
� Statistische Signifikanztests
� Regressionsanalyse
Dr. Matthias Arnold 13
Universitat Erfurt Sommersemester 2012 - Statistik
Zur Struktur/Nummerierung
Themengebiete A-C (s.o.)
� Unterteilung in Kapitel
• Kapitel 1: Grundlegende Begriffe
• Kapitel 2: Grafische Darstellung von Daten
• ...
Dr. Matthias Arnold 14
Universitat Erfurt Sommersemester 2012 - Statistik
Zur Struktur/Nummerierung
Dem jeweiligen Kapitel entsprechend werden Definitionen undBeispiele nummeriert
� Kapitel 1
• Beispiel 1.1, Beispiel 1.2, Definition 1.1,...
� Kapitel 2
• Beispiel 2.1, Definition 2.1, Definition 2.2,...
� ...
Keine Nummerierung von Bemerkungen
� Querverweise haben die Form”gemaß der Bemerkung nach
Definition 1.1 gilt...“
Dr. Matthias Arnold 15
Universitat Erfurt Sommersemester 2012 - Statistik
Literatur
• Bamberg, G., Baur, F. und Krapp, M. (2009), Statistik, 15.Auflage, Oldenbourg, Munchen.
• Bleymuller, J., Gehlert, G. und Gulicher, H. (2008), Statistik furWirtschaftswissenschaftler, 15. Auflage, Verlag Vahlen, Munchen.
• Kramer, W. (2008), Statistik verstehen – Eine Gebrauchsanweisung,7. Auflage, Piper, Munchen.
• Pflaumer, P., Heine, B. und Hartung, J. (2005), Statistik furWirtschafts- und Sozialwissenschaften: Deskriptive Statistik, 3.Auflage, Oldenbourg, Munchen.
• Pflaumer, P., Heine, B. und Hartung, J. (2001), Statistik furWirtschafts- und Sozialwissenschaften: Induktive Statistik,Oldenbourg, Munchen.
• Schira, J. (2009), Statistische Methoden der VWL und BWL –Theorie und Praxis, 3. Auflage, Pearson Studium, Munchen.
Dr. Matthias Arnold 16
Universitat Erfurt Sommersemester 2012 - Statistik
Teil A: Deskriptive Statistik
Dr. Matthias Arnold 17
Universitat Erfurt Sommersemester 2012 - Statistik
Aufgaben der deskriptiven Statistik
� Erhebung von Daten
� Tabellarische und grafische Darstellung von Daten
� Charakterisierung großer Datenmengen durch aussagekraftigeMaßzahlen
Dr. Matthias Arnold 18
Universitat Erfurt Sommersemester 2012 - Statistik
Kapitel 1: Grundlegende Begriffe
Beispiel 1.1
a) Farben der Fahrzeuge auf dem Uniparkplatz(1. Wagen rot; 2. Wagen blau,...)
b) Schulnoten einer Grundschulklasse(sehr gut bis ungenugend)
c) Einwohnerzahlen in deutschen Stadten(Stadt 1: 581.308; Stadt 2: 376.319,...)
d) Korpergroße der Studenten (in cm) in diesem Horsaal(Student 1: 175,3; Student 2: 163,8;...)
→ Eigenschaften von Objekten werden durch Datenwiedergegeben
Objekte hier: Fahrzeug, Schuler, Stadt, Student
Eigenschaften hier: Farbe, Note, Einwohnerzahl, Korpergroße
Dr. Matthias Arnold 19
Universitat Erfurt Sommersemester 2012 - Statistik
Bezeichnungen
� Die Eigenschaften (der Objekte) werden auch Merkmale oderVariablen genannt
� Die zugehorigen Objekte heißen Merkmalstrager
� Das notierte Merkmal an einem bestimmten Merkmalstragerheißt Merkmalsauspragung oder Beobachtung
� Merkmale werden mit großen Buchstaben bezeichnet
� Merkmalsauspragungen werden mit kleinen Buchstaben undder Nummer des Merkmalstragers bezeichnet
Dr. Matthias Arnold 20
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 1.2
(vgl. Beispiel 1.1)
a) Merkmal W=Fahrzeugfarbe; Merkmalstrager=Fahrzeug;Merkmalsauspragung von Merkmalstrager 5 : w5 =rot
b) Merkmal X=Note; Merkmalstrager=Schuler;Merkmalsauspragung von Merkmalstrager 3 : x3 =befriedigend
c) Merkmal Y=Einwohnerzahl; Merkmalstrager=Stadt;Merkmalsauspragung von Merkmalstrager 10 : y10 =150.386
d) Merkmal Z=Korpergroße; Merkmalstrager=Student;Merkmalsauspragung von Merkmalstrager 40 : z40 =181,6
Ersichtlich außerdem: Art/Typ der Daten ist unterschiedlich!
Dr. Matthias Arnold 21
Universitat Erfurt Sommersemester 2012 - Statistik
Definition 1.1
Betrachte abermals Beispiel 1.1
� Daten vom Typ a) sind keine Zahlen und lassen sich nichtordnen; Derartige Merkmale heißen qualitativ odernominal skaliert (Datenauspragungen als Namen auffassbar)
� Daten vom Typ b) konnen in eine Rangordnung gebrachtwerden (sehr gut, gut,...,ungenugend) und sind numerischkodierbar: 1 < 2 < ... < 6; Solche Merkmale heißenordinal skaliert (nicht qualitativ; Merkmalsauspragungenlassen sich in naturlicher Reihenfolge anordnen, wobei dieAbstande zwischen den Beobachtungen nicht sinnvollinterpretierbar sind)
Dr. Matthias Arnold 22
Universitat Erfurt Sommersemester 2012 - Statistik
Definition 1.1 (Fortsetzung)
� In c) entsprechen die Merkmalsauspragungen Zahlen→ derartige Merkmale heißen kardinal skaliert oderquantitativ; Merkmalsauspragungen lassen sich in naturlicherReihenfolge anordnen, Abstande ebenfalls interpretierbar
� Datenstruktur von d) ahnlich zu c)
� Unterschied c) und d): In d) konnte Korpergroße theoretischbeliebig genau gemessen werden→ Merkmalsauspragung kann jeden reellen Zahlenwert imIntervall [0,210] annehmen (Unterstellung hier: 210cm=Maximalgroße)→ derartige Merkmale heißen quantitativ stetig; In c) konnendie Beobachtungen nur ganzzahlige Werte annehmen→ derartige Merkmale heißen quantitativ diskret
Dr. Matthias Arnold 23
Universitat Erfurt Sommersemester 2012 - Statistik
Bemerkung
� Jede Messung eines stetigen Merkmals ist aufgrundbegrenzter Messgenauigkeit praktisch diskret; Die Stetigkeit,das heißt die Annahme, dass jede beliebige Zahl realisierbarist, ist eine Idealisierung
� In der Praxis werden diskrete Merkmale mit”vielen“
Merkmalsauspragungen oft wie stetige Merkmale behandelt(Beispiel: Einkommen); auch umgekehrter Fall (durchKlassieren der Daten) moglich
Beispiel 1.3
� Weitere nominal skalierte Merkmale: Geschlecht (w/m),Geburtsort, Konfession, Familienstand der Studenten indiesem Horsaal,...
� Weitere ordinal skalierte Merkmale: Sozialer Status,Aggressivitat, Kundenzufriedenheit, Tabellenplatze,...
Dr. Matthias Arnold 24
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 1.3 (Fortsetzung)
� Weitere quantitativ diskrete Merkmale: Einkommen, Anzahlgeschossener Tore, Anzahl Krankschreibungen pro Person undJahr,...
� Weitere quantitativ stetige Merkmale: Zeit, Gewicht,Temperatur,...
Definition 1.2Gegeben sei ein Merkmal X
� Die Menge N aller moglichen Merkmalstrager heißtGrundgesamtheit (x1, ..., xN zugehorige Beobachtungen)
� Erhebung aller N Beobachtungen ↔ Vollerhebung
� Meist jedoch: Betrachtung einer Stichprobe von nMerkmalstragern wobei n < N
Dr. Matthias Arnold 25
Universitat Erfurt Sommersemester 2012 - Statistik
Kapitel 2: Grafische Darstellung von Daten
Beispiel 2.1
� Heimtore Borussia Dortmund, Saison 2009/2010 (17 Spiele):1, 1, 1, 0, 2, 2, 0, 4, 1, 1, 2, 4, 3, 3, 2, 1, 1
Quelle: www.spox.com
Dr. Matthias Arnold 26
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.1 (Fortsetzung)
� Was sieht man?
� Betrachte z.B., wie oft sich die funf auftretenden Anzahlen anToren (0-4) uber die Saison verteilt realisieren
Anzahl Tore 0 1 2 3 4
Wie oft aufgetreten 2 7 4 2 2
→ Eins ist der (mit Abstand) am haufigsten auftretende Wert
Dr. Matthias Arnold 27
Universitat Erfurt Sommersemester 2012 - Statistik
Definition 2.1
� Gegeben sei ein Merkmal X mit k moglichenMerkmalsauspragungen a1, ..., ak
� Beobachte nun n Auspragungen x1, ..., xn
� Die Anzahl der xi mit xi = aj wird mit H(aj) bezeichnet undheißt absolute Haufigkeit der Auspragung aj
� h(aj) = H(aj)/n heißt relative Haufigkeit von aj
Dr. Matthias Arnold 28
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.2
(BVB-Tore, vgl. Beispiel 2.1)
Tore aj H(aj) h(aj)
0 2 2/17=0,117
1 7 7/17=0,412
2 4 4/17=0,235
3 2 2/17=0,117
4 2 2/17=0,117∑= 17
∑= 1
Dr. Matthias Arnold 29
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.2 (Fortsetzung)
Moglichkeiten der grafischen Darstellung?
� z.B. Saulendiagramm
0 1 2 3 4
0.0
0.1
0.2
0.3
0.4
0.5
Tore aj
rel.
Häu
figke
it h(
aj)
� Saulendiagramm auch mit absoluten Haufigkeiten erstellbar;Stabe statt Rechtecken → Stabdiagramm
Dr. Matthias Arnold 30
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.2 (Fortsetzung)
� Vertausche im Saulendiagramm x− und y−Achse →Balkendiagramm
01
23
4
0 1 2 3 4 5 6 7
Tore
aj
Abs. Häufigkeit H(aj)
Dr. Matthias Arnold 31
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.2 (Fortsetzung)
� Andere Moglichkeit zur grafischen Darstellung der BVB-Tore:Kreisdiagramm
0
1
2
3
4
� Große des einzelnen”Tortenstucks“ ist proportional zur
entsprechenden Haufigkeit
Dr. Matthias Arnold 32
Universitat Erfurt Sommersemester 2012 - Statistik
grafische Darstellung: angemessen
Dr. Matthias Arnold 33
Universitat Erfurt Sommersemester 2012 - Statistik
beliebter Trick: y-Achse abschneiden
Dr. Matthias Arnold 34
Universitat Erfurt Sommersemester 2012 - Statistik
Wirtschaftswachstum
Dr. Matthias Arnold 35
Universitat Erfurt Sommersemester 2012 - Statistik
Postsendungen
Dr. Matthias Arnold 36
Universitat Erfurt Sommersemester 2012 - Statistik
Bildung und Forschung
Dr. Matthias Arnold 37
Universitat Erfurt Sommersemester 2012 - Statistik
auch schlecht: eingebaute Bewertung
���������� ��������������������������������
Dr. Matthias Arnold 38
Universitat Erfurt Sommersemester 2012 - Statistik
Definition 2.2
� Situation wie in Definition 2.1 (Merkmal X, moglicheAuspragungen a1, ..., ak, Beobachtung von n Auspragungenx1, ..., xn)
� X mindestens ordinal skaliert
� Die empirische Verteilungsfunktion Fn(x) ist gleich derSumme der relativen Haufigkeiten allerMerkmalsauspragungen kleiner oder gleich x
� Formell:
Fn(x) =∑ai≤x
h(ai) (x ∈ R)
� Fn(x) entspricht dem Anteil an Beobachtungen, die hochstensden Wert x haben
Dr. Matthias Arnold 39
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.3
(BVB-Tore, vgl. die Beispiele 2.1 und 2.2)
F17(x) =
⎧⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎩
0 fur x < 0
h(0) = 2/17 fur 0 ≤ x < 1
2/17 + h(1) = 9/17 fur 1 ≤ x < 2
9/17 + h(2) = 13/17 fur 2 ≤ x < 3
13/17 + h(3) = 15/17 fur 3 ≤ x < 4
1 fur x ≥ 4
Dr. Matthias Arnold 40
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.3 (Fortsetzung)
−1 0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
●
●
●
●
●
BVB−Tore x
F17
((x))
Fn(x) der BVB−Tore
Dr. Matthias Arnold 41
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.3 (Fortsetzung)
−1 0 1 2 3 4 5
0.0
0.2
0.4
0.6
0.8
1.0
●
●
●
●
●
BVB−Tore x
F17
((x))
Fn(x) der BVB−Tore − Ablesebeispiel
→ In ca. 80 Prozent der Spiele (genauer: in F17(2) · 100 = 76, 5Prozent) sind weniger als drei Tore gefallen
Dr. Matthias Arnold 42
Universitat Erfurt Sommersemester 2012 - Statistik
Bemerkung (Eigenschaften von Fn(x))
� Fn(x) ∈ [0, 1] fur alle x
� Fn(x) ist monoton nicht fallend
� Es gilt:
limx→−∞Fn(x) = 0 und lim
x→∞Fn(x) = 1.
Dr. Matthias Arnold 43
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.4
� Lebensdauer (in Betriebsstunden) von Ventilen inkunststoffverarbeitendem Betrieb, vgl. Bamberg et al. (2007)
� 110, 520, 490, 30, 120, 290, 370, 305, 415, 170, 280, 70, 540,460, 260, 345, 150, 220, 435, 425, 470, 350, 130, 380, 230,320, 360, 240, 330, 580
� 30 unterschiedliche Beobachtungen → Saulen/Kreisdiagrammbringen keinen Informationsgewinn
30 120 170 240 290 330 360 415 460 520
0.00.2
0.40.6
0.81.0
30
70
110
120
130150
170220230240
260
280
290
305
320
330
345
350
360
370380
415 425 435460
470
490
520
540
580
Dr. Matthias Arnold 44
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.4 (Fortsetzung)
� Empirische Verteilungsfunktion konstruierbar
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
Lebensdauer der Ventile x (in Stunden)
F 30((x
))Fn(x) der Ventillebensdauern
Dr. Matthias Arnold 45
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.4 (Fortsetzung)
� Weitere Moglichkeit: Klassierung der Daten, z.B. in Intervalleder Lange 100 (jetzt H(ai) bzw. h(ai) absolute bzw. relativeKlassenhaufigkeit)
Klasse von ... bis h(ai)
Nr. unter ... Stunden H(aj) h(ai) Klassenbreite
1 0 - 200 7 7/30 7/60002 200 - 300 6 6/30 6/30003 300 - 400 8 8/30 8/30004 400 - 600 9 9/30 9/6000
Dr. Matthias Arnold 46
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.4 (Fortsetzung)
� Histogramm: Betrachte aneinander angrenzende Rechteckein Klassenbreite; Hohe der Rechtecke: h(ai)/Klassenbreite
0 100 200 300 400 500 600
0.00
000.
0005
0.00
100.
0015
0.00
200.
0025
0.00
30
Lebensdauer der Ventile x (in Stunden)
Bal
kenh
öhe
Dr. Matthias Arnold 47
Universitat Erfurt Sommersemester 2012 - Statistik
Bemerkung
� Die Flache der einzelnen Balken im Histogramm istproportional zur relativen Haufigkeit im entsprechendenIntervall:Balkenhohe=h(ai)/Klassenbreite→ h(ai) = Balkenhohe · Klassenbreite = Balkenflache
� Probleme bei zu grober Klasseneinteilung: Zu vielInformationsverlust
� Probleme bei zu feiner Klasseneinteilung: Unubersichtlichkeit,da viele Klassen gering/gar nicht besetzt sind
� Bei großer Variation der Daten konnen unterschiedlicheKlassenbreiten sinnvoll sein, wenn moglich sind jedoch Klassenmit gleicher Breite wunschenswert
Dr. Matthias Arnold 48
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.5
(Lebensdauer Ventile, vgl. Beispiel 2.4)
0 100 200 300 400 500 600
0.00
000.
0005
0.00
100.
0015
0.00
200.
0025
0.00
30
Lebensdauer der Ventile x (in Stunden)
Bal
kenh
öhe
Histogramm der Ventillebensdauern, andere Klassierung
Dr. Matthias Arnold 49
Universitat Erfurt Sommersemester 2012 - Statistik
Beispiel 2.5 (Fortsetzung)
0 100 200 300 400 500 600
0.0
0.2
0.4
0.6
0.8
1.0
●●
●●●●●
●●●●●●●●●●●●●●
●●●
●●●
●●
●
●
●
●
●
●
●
Lebensdauer der Ventile x (in Stunden)
F 30((x
))
Fn(x) Ventile, unklassierte & klassierte Daten
Sprungstelle hier: Klassenuntergrenze; weitere Moglichkeiten:Klassenobergrenze, Klassenmitte,...
Dr. Matthias Arnold 50
Universitat Erfurt Sommersemester 2012 - Statistik
Bemerkung
� Saulen/Stab-, Balken- und Kreisdiagramm fur nominal,ordinal und kardinal skalierte Merkmale geeignet
� Empirische Verteilungsfunktion fur ordinal und kardinalskalierte Merkmale geeignet
� Histogramm nur fur kardinal skalierte Merkmale geeignet
Dr. Matthias Arnold 51