Statistik: 14.10.04
Erheben von Daten Kategoriale Merkmale
11.10.04 PI Statistik, WS 2004/05 2
Datenquellen
Primäre Daten, aus Vollerhebung Stichprobenerhebung
Sekundäre Daten Volkszählungsdaten Daten von Statistik Austria, von der
OeNB Daten aus der Hörerevidenz der WU Personal-, Lagerkartei
11.10.04 PI Statistik, WS 2004/05 3
Messen
Messen: Ist Ergebnis eines Messprozesses mit Messinstrumenten Messverfahren messenden Personen
Beispiele: gemessen werden (1) die Länge eines Tisches, (2) die Länge eines Eies, (3) die Härte von Stahl, (4) die Zufriedenheit des Käufers eines PKW
11.10.04 PI Statistik, WS 2004/05 4
Qualität von Messungen
Kriterien für die Qualität von Messungen Genauigkeit (accuracy): bezieht sich auf einzelnen Messvorgang systematischer Fehler (Bias) Präzision, Variabilität
Reproduzierbarkeit: bezieht sich auf MesssystemStabilität: zeitlicher Aspekt des Messsystems
11.10.04 PI Statistik, WS 2004/05 5
Prozesse: Messen - Variabilität
Beobachten (Messen) ist zentrales Element für Qualität von Produktions- und DienstleistungsprozessenProzessvariabilität Messvariabilität
Beispiele: Qualität des Kaffees Wartezeit im Call-Center
11.10.04 PI Statistik, WS 2004/05 6
Datenerhebungen (surveys)
Vollerhebung (census) und Stichprobe Grundgesamtheit (Umfang N; N meist sehr groß)Statistische Einheiten, ElementeStichprobenrahmen (Liste aller Elemente der Grundgesamtheit) Stichprobe (Umfang n; n meist klein)
11.10.04 PI Statistik, WS 2004/05 7
Auswahl der Stichprobe Auswahl ohne Zufallsmechanismus (non-probability sample survey) Bequemlichkeits-Stichprobe (convenience
sampling) Systematische StichprobeAuswahl nach Zufallsprinzip (probability sample survey) Einfache Zufallsstichprobe (simple random
sample) Geschichtete Zufallsstichprobe (stratified
random sample) Systematische Zufallsstichprobe Klumpen- (Cluster)stichprobe
11.10.04 PI Statistik, WS 2004/05 8
Einfache Zufallsstichprobe
jede mögliche Stichprobe vom Umfang n hat die gleiche Wahrscheinlichkeit, gezogen zu werden
11.10.04 PI Statistik, WS 2004/05 9
Beispiel: Einfache Zufalls-SP
G = {a,b,c,d,e}, n=2: es gibt 10 mögliche Stichproben: (a,b), (a,c), ..., (a,e), ..., (d,e) Urne enthält 10 Zettel mit den 10 Paaren; wir wählen zufällig einen ausUrne enthält 5 Zettel mit den 5 Buchstaben; wir wählen zufällig zwei (ohne Zurücklegen) ausZufallszahlen
11.10.04 PI Statistik, WS 2004/05 10
Zufallszahlen
In Büchern; z.B. in Hackl & Katzenbeisser, S. 434 Statistik-Software kann Pseudozufallszahlen erzeugen, z.B. EXCEL: Analyse-Funktionen >> Zufallszahlengenerierung >> Diskrete Verteilung
11.10.04 PI Statistik, WS 2004/05 11
Einfache ZSP: Vor-/Nachteile
Vorteile Ergebnisse haben keinen
systematischen Fehler (Bias); sie sind "unverzerrt"
kontrollierter Stichprobenfehler
Nachteil in Praxis nicht leicht realisierbar, oft
aufwendig
11.10.04 PI Statistik, WS 2004/05 12
Geschichtete Zufallsstichprobe
Zerlegung der Grundgesamtheit in Schichten Innerhalb jeder Schicht: einfache ZufallsstichprobeVorteil: reduzierter Stichprobenfehler
11.10.04 PI Statistik, WS 2004/05 13
Beispiel: Einkommen
Reine ZSP Geschichtete ZSPa=2, b=3,
MW=2.5nicht möglich
a=2, c=6, MW=4.0
a=2, c=6, MW=4.0
a=2, d=7, MW=4.5
a=2, d=7, MW=4.5
b=3, c=6, MW=4.5
b=3, c=6, MW=4.5
b=3, d=7, MW=5.0
b=3, d=7, MW=5.0
c=6, d=7, MW=6.5
nicht möglich
11.10.04 PI Statistik, WS 2004/05 14
Klumpenstichprobe
Vollerhebung in zufällig ausgewählten Teilmengen (Klumpen; Teilmengen, die die Grundgesamtheit gut repräsentieren)
Geschichtete und Klumpenstichprobe: sind Beispiele für zweistufige Stichprobenverfahren
11.10.04 PI Statistik, WS 2004/05 15
ErhebungsfehlerReiner Stichprobenfehler (pure sampling error) Variation des Ergebnisses dadurch, dass bestimmte
Elemente ausgewählt werden; quantifizierbar Stichprobenverfälschungen, z.B. Fehler im
Stichprobenrahmen
Nicht-Stichprobenfehler (non-sampling error): Fehlende Antwort (non-response), Fehler der beteiligten Personen (Interviewer, Interviewter), Fehler bei Verarbeitung; schlechte Fehlerkontrolle, etc.; kaum messbar
11.10.04 PI Statistik, WS 2004/05 16
Kategoriale Merkmale
Auch qualitative und kategorielle Merkmale genannt Ordnet der Beobachtungs- oder Untersuchungseinheit eine von endlich vielen Klassen (Kategorien) zu; Dazu gehören nominale und ordinale Merkmale Ist immer diskret (die Menge der Merkmalsausprägungen ist endlich oder abzählbar)
Population Merkmal M-Ausprägungen
WU-Studierende
Geschlecht m, w
Note 1, 2, 3, 4, 5
Produktion Qualität gut, schlecht
11.10.04 PI Statistik, WS 2004/05 17
Kreisdiagramm
Häufigkeiten der Augenfarbe
blau
grün
braun
grau
schwarz
blau
grün
braun
grau
schwarz
Augenfarbe Häuf'kt
blau 15
grün 12
braun 19
grau 2
schwarz 1
Beispiel: Augenfarbe von Studierenden
11.10.04 PI Statistik, WS 2004/05 18
Kreisdiagramm
Häufigkeiten der Augenfarbe
blau grün braun grau schwarz
Explodierter 3D-Kreis
Augenfarbe Häuf'kt
blau 15
grün 12
braun 19
grau 2
schwarz 1
11.10.04 PI Statistik, WS 2004/05 19
Säulen-, Stabdiagramm
Augenfarbe Häuf'kt
blau 15
grün 12
braun 19
grau 2
schwarz 1
Häufigkeit der Augenfarbe
0
5
10
15
20
blau grün braun grau schwarz
11.10.04 PI Statistik, WS 2004/05 20
Absolute & relative Häufigkeit
(absolute) Häufigkeit: gibt an, wie oft eine bestimmte Kategorie in der Datenmenge vorkommt; typisches Symbol: H i
z.B.: 15 Studierenden haben blaue Augenrelative Häufigkeit (Anteil) h i
n: Umfang der Datenmenge Oft als Prozente (Prozentanteil) angegeben
n
Hh ii
11.10.04 PI Statistik, WS 2004/05 21
Kumulierte (relative) Häufigkeiten
Summe der relativen Häufigkeiten aller vorhergehenden Kategorien, einschließlich der aktuellen Nur für ordinale Merkmale sinnvoll
1 1
,i i
i j i jj j
C H c h
11.10.04 PI Statistik, WS 2004/05 22
abs H'kt rel H'kt
kum rel H'kt
1 7 13,5% 13,5%
2 22 42,3% 55,8%
3 15 28,8% 84,6%
4 6 11,5% 96,2%
5 2 3,8% 100,0%
52
Noten von 52 Studierenden Noten: absolute Häufigkeiten
0
5
10
15
20
25
1 2 3 4 5
Abs. und Rel. Häufigkeiten
0,0%
20,0%
40,0%
60,0%
80,0%
100,0%
120,0%
1 2 3 4 5
Noten
11.10.04 PI Statistik, WS 2004/05 23
Pivot Table-Bericht
„Ein PivotTable-Bericht ist eine interaktive Tabelle, die große Datenmengen rasch kombinieren und vergleichen kann.“ Wichtige Hilfe zum Auszählen von Datenmengen
11.10.04 PI Statistik, WS 2004/05 24
Fragestellungen
Kommen alle Kategorien gleich häufig vor ?Entsprechen die Häufigkeiten in den Kategorien einer bestimmten Vorgabe ?Entspricht die Häufigkeit (Prozentsatz, Anteil) in einer bestimmten Kategorie einem bestimmten Wert?In welchem Bereich kann man den Anteil einer Kategorie in der Grundgesamtheit erwarten ?