View
104
Download
2
Category
Preview:
Citation preview
Juni 2011 G. Beroggi ©
zum roten Faden
Decision Support Tools
MAS Business ConsultingProf. Dr. Giampiero Beroggi
1
Juni 2011 G. Beroggi ©
zum roten Faden2
Ihr Dozent: Giampiero Beroggi• Fachgebiet: Decision Support Systems/Tools, Entscheidungsanalyse, Statistik, Operations Research, Risikomanagement
• Akademische Tätigkeit:– Professor für Wirtschaftsinformatik HWZ (seit 2004)– Privatdozent für Wirtschaftsinformatik Universität Zürich (seit 2006)– Gastprofessor ETH-Zürich (2000)– Assozierter Professor Technische Universität Delft, NL (92-01)– Research Associate Rensselear Polytechnic Institute, New York (88-91)
• Praktische Erfahrung:– Chef Statistisches Amt des Kantons Zürich (seit 2006)– Geschäftsführer Spring Analytica AG (02-06)– Associate Mercer Management Consulting (01-02)– Ingenieur E. Basler & Partner AG (86-88)
• Ausbildung:– Habilitation Universität Zürich (2006)– Dr. Phil., New York, USA (1991)– Master of Science in Operations Research und Statistik, New York, USA (1989)– Dipl.-Ing. ETH (1986)
• erreichbar unter: gb@fhhwz.ch (nur für Absender mit e-mail: „…@fhhwz.ch“)
Juni 2011 G. Beroggi ©
zum roten Faden3
Decision Support Tools: Aufbau des Kurses Einleitung und Übersicht von Decision Support Tools (DST)
in der Praxis
Das Konzept der mathematischen Optimierung mit praktischen Übungen mit Excel
Formulierung von Entscheidungs-Hypothesen mit DST
Realisierung eines Decision Support Tools im Internet für Datenerhebung
Einführung in statistische Tests zur optimalen Entscheidungs-findung mit Übungen in Excel
Analyse der Daten und Ableitung von optimalen Entscheidungen mit statistischen Tests in Excel
Th
eore
tisc
her
Tei
l m
it Ü
bu
ng
en
Auswahl der Software, Realisierung im Internet und Erhebung von Daten
Auswahl des Themas und Formu-lierung des Entscheidungspro-blems zur Integration in ein DST
Durchführung der statistischen Tests für das gewählte Entscheidungsproblem
Interpretation der Resultate für praktische Handlungsanleitungen
Erstellung des Schlussberichts resp. Präsentation
Blocktag 1 Morgen 30.04.10Blocktag 1 Nachmittag(zum Projektbeschrieb)
Links zu den Folien
Blocktag 2 Morgen 11.06.10Blocktag 2 Nachmittag
Blocktag 3 Morgen 03.07.10Blocktag 3 Nachmittag
rote
r Fad
en (hier klicke
n)
Unterlagen vomInternet
Pra
ktis
cher
Tei
l al
s P
roje
kt
Juni 2011 G. Beroggi ©
zum roten Faden4
Blocktag 1: Morgen
• Einführung, Ziel des Kurses• Beispiele von DST• Methodische Ansätze für DST
Juni 2011 G. Beroggi ©
zum roten Faden5
Decision Support Systems Architektur
DecisionMaker
Interface
Datenbanken
Infobanken
Wissensbanken
- Bewerten - Berechnen- Suchen- Optimieren
Berechnen(Algorithmen)
Modelle
Schwerpunkt der Vorlesung(Decision Support Tools)
DSS
Realität
Juni 2011 G. Beroggi ©
zum roten Faden6
Entscheidungsprozess
Analysiere Problem;Datensammlung durch …
Formuliere mathematisches Entscheidungsproblem
Simulation(Modell)
Erstelle DSS mit Steuerungsvariablen
Fin
de u
nd im
plem
en-
tiere
Ent
sche
id
Erhebung(DWH)
Befragung(Akteure)
Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort).
Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen.
Erstelle Decision Support Sysetm (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung.
Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden.
Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden.
Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch.
Juni 2011 G. Beroggi ©
zum roten Faden7
Beispiele von DSS
Juni 2011 G. Beroggi ©
zum roten Faden8
Beispiele
Analysiere Problem;Datensammlung durch …
Formuliere mathematisches Entscheidungsproblem
Simulation(Modell)
Erstelle DSS mit Steuerungsvariablen
Fin
de u
nd im
plem
en-
tiere
Ent
sche
id
Erhebung(DWH)
Befragung(Akteure)
Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort).
Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen.
Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung.
Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden.
Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden.
Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch.
Juni 2011 G. Beroggi ©
zum roten Faden9
Entscheidungsvariablen, Zielfunktion und Randbedingungen
• Bsp. 1: Entscheide (resp. berechne), welche Zahl zu 3 hinzugezählt werden muss, damit man 10 erhält.
• Entscheidungsvariable: x• Modell: 3 + x = 10• Zielwert: Summe der zwei Zahlen ist gleich 10
• Lösung x = 7
• Bsp. 2: Entscheide (resp. berechne), welche zwei ganze Zahlen zusammengezählt 10 ergeben und deren Differenz gleich 2 ist.
• Entscheidungsvariablen: x, y• Modell: x + y = 10; x - y = 2• Ziel: Summe der zwei Zahlen ist gleich 10• Randbedingung: Differenz der beiden Zahlen ist gleich 2.
• Lösung x = 6, y = 4.
Matrizenschreibweise: A . X = b
x y1 1 6.00 10.00 = 10 Ziel1 -1 4.00 2.00 = 2 Randbedingung
x =
Ctrl+Shift+Enter
Der „Solver“ im Excel such mit einem Algorithmus für x und y Werte, so dass das Ziel und die Randbedingung erfüllt sind.
Juni 2011 G. Beroggi ©
zum roten Faden10
xT
xS
0 1 2 3 4 5 6 7 8
8
7
6
5
4
3
2
1
0
A
C
Mathematische OptimierungEntscheidungsvariablen: Wie viele Mio. Fr. (xS) soll eine Gemeinde in das Sozialprogramm (S) und wie viele (xT) in
das Transportprogramm (T) investieren?
Kriterien• Anz. Arbeiter, die für jede Mio. anzustellen sind: 4 for S and 1 for T.• Anz. Computer, die für jede Mio. gebraucht werden: 1 for S and 3 for T.• Profit für jede Mio.: 1 for S and 2 for T.
• Zielfunktion Maximiere Profit: P*=max: 1xS + 2xT
Randbedingungen
• Tot. Anz. anzustellender Arbeiter: A*= 32 4xS + 1xT
• Tot. Anz. zu kaufender Computer: C*= 23 1xS + 3xT
xS = 6.64xT = 5.45P*=17.55
Nie vergessen!xS 0; xT 0;
Achtung: Gerundete reelleLösung ist oft nicht die optimale ganzzahlige Lösung!
4xS + 1xT 32 = A*
1xS + 3xT 23 = C*
1xS + 2xT = max = P*
4 15 31 2
32 23max
= xs
xt
4 1 6.64 321 3 x 5.45 : 231 2 17.55
4 1 51 3 x 6 :1 2
4 1 0 321 3 x 0 : 231 2 0
A x =mmult(A,x)
Juni 2011 G. Beroggi ©
zum roten Faden11
Lösung mit Excel Solver
Falls Solver nicht installiert ist:
Juni 2011 G. Beroggi ©
zum roten Faden12
Lösung mit Open Office
Juni 2011 G. Beroggi ©
zum roten Faden13
Lösung mit Google Spreadsheetshttp://docs.google.com/support/bin/answer.py?answer=139704&hl=en
Juni 2011 G. Beroggi ©
zum roten Faden14
Optimierung einer Einsatzplanung
EV: xij (ganzzahlig): Anzahl Pfleger in Schicht Si und Sj
Zielfunktion: min: x12+x23+x34+x45+x56 +x61
Schicht Nr. Zeit benötigte Pf leger
1 00:00 - 04:00 32 04:00 - 08:00 23 08:00 - 12:00 44 12:00 - 16:00 55 16:00 - 20:00 66 20:00 -24:00 8
Problem: Wie viele Pfleger müssen angestellt werden, wenn die minimale Anzahl Pfleger pro Schicht eingehalten werden muss (links) und jeder Pfleger in zwei sich folgenden Schichten arbeiten muss.
Schicht Nr. anwesende Pfleger benötigte Pfleger 1 x61+x12 3 2 x12+x23 2 3 x23+x34 4 4 x34+x45 5 5 x45+x56 6 6 x56+x61 8
Andere Lösungen:3/2/4/5/8/83/2/6/5/6/8
1 0 0 0 0 1 1 x12 3 S11 1 0 0 0 0 1 x23 2 S20 1 1 0 0 0 5 x34 4 S30 0 1 1 0 0 x 0 x45 5 S40 0 0 1 1 0 6 x56 6 S50 0 0 0 1 1 2 x61 8 S61 1 1 1 1 1 = 15 N
Juni 2011 G. Beroggi ©
zum roten Faden15
Optimierung der Transportverteilung
S1: 12
S2: 15
S3: 18
D1: 10
D2: 9
D3: 14
D4: 12
12
14
20
16
14
8
14
10k32
Achtung: wenn man die Randbedingung xij 0 weglässt, dann konvergiert die Lösung nicht!
1 1 0 0 0 0 0 0 7 x11 12 S10 0 1 1 1 0 0 0 5 x13 15 S20 0 0 0 0 1 1 1 3 x21 18 S31 0 1 0 0 0 0 0 x 0 x22 = 10 D10 0 0 1 0 1 0 0 12 x24 9 D20 1 0 0 0 0 1 0 9 x32 14 D30 0 0 0 1 0 0 1 9 x33 12 D4
12 14 14 20 8 16 14 10 0 x34 562 C
Problem: Gesucht ist der billigste Versand der produzierten Autos von den drei Stationen an die vier Destinationen, so dass alle in den drei Stationen produzierten Autos weggehen und alle vier Destinationen genau die bestellte Anzahl Autos erhalten.
0:Lösung negative keine
:ankommen Autos bestellten alle
:müssen weg Autos alle :RB
:Kosten tot.min. :ZF
bringenzu nach von Autoein umKosten :
nach von Autos Anzahl :g)(ganzzahli :EV
3
1
4
1
4
1
3
1
ij
ji
ij
jiij
j iijij
jiij
jiij
x
dx
sx
xk
D Sk
D Sx
Juni 2011 G. Beroggi ©
zum roten Faden16
2 5
4
5
1 2
1
5
1
2 1
6
4
3
13
4
6
7
-1 -1 -1 0 0 0 0 0 0 0 0 0 0 x12 -1 C11 0 0 -1 -1 0 0 0 0 0 0 0 0 x13 0 C20 -1 0 0 0 1 1 0 0 0 0 0 1 x14 0 C30 0 1 1 0 1 0 -1 -1 -1 0 0 0 x24 0 C40 0 0 0 1 0 0 1 0 0 -1 0 x 0 x25 = 0 C50 0 0 0 0 0 1 0 1 0 0 -1 0 x34 0 C60 0 0 0 0 0 0 0 0 1 1 1 0 x36 1 C75 4 1 2 1 2 1 1 5 6 4 3 1 x45 6 C
0 x460 x471 x570 x67
Schnellster WegProblem: Gesucht ist der schnellste Weg von San Francisco nach Kairo.
sonst 0
7für 1
1für 1
: - von Weg:RB
: Zeit tot.min. :ZF
nach Ort Zeit von :
0sonst ist, n Wegsschnellste des Teil Verbindung wenn 1
nach Ort von Verbindung :(binär) :EV
7
1
7
171
7
1
7
1
k
k
xxOO
xt
O Ot
x
O Ox
i jkjik
j iijij
jiij
ij
jiij
Juni 2011 G. Beroggi ©
zum roten Faden17
Lösung von Konflikten
Lea‘s Nutzen hängt von Lea‘s p und Jan‘s q ab!Jan‘s Nutzen hängt von Jan‘s q und Lea‘s p ab!
Lea Jan
p% 100-p%
q% 100-q%
Investition A Investition B
p% geht zu A
und 100-p% zu Bp% geht zu A
und 100-p% zu B
q% geht zu A
und 100-q% zu Bq% geht zu A
und 100-q% zu B
Lea
InvesitionenA B
Jan
A
BInve
stit
ion
en
genügend sehr gut
schlecht gut
genügend
sehr gut
schlecht
gut
• Annahme: Beide Akteure können ihre Investitionen ausschliesslich entweder in A oder B tätigen (d.h. p und q = 0 oder 100%).
• Wenn Lea annimmt, dass Jan alles in A investiert, dann sollte sie auch alles in A investieren („genügend“ > „schlecht“).
• Wenn sie annimmt, dass Jan alles in B investiert, dann sollte sie auch alles in A investieren.• Somit sollte Lea, unabhängig von Jan, immer alles in A investieren.• Die analogen Überlegungen für Jan führen zum Schluss, dass auch er, unabhängig von Lea,
alles in A investieren sollte. Somit führt die individuelle Rationalität dazu, dass alles in A investiert werden müsste.
• Das Systemoptimum wäre aber, wenn beide alles in B investieren würden. Diese Lösung ist aber nicht stabil, denn wenn einer vom anderen weiss, dass er/sie alles in B investiert, dann ist er/sie versucht, alles in A zu investieren, denn das führt zum gewünschten individuellen Optimum.
Lea
InvesitionenA B
Jan
A
BInve
stit
ion
en
100 300
0 200
100
300
0
200
Der erwartete Nutzen (n) der beiden ist: nLea=100pq+300p(1-q)+0(1-p)q+200(1-p)(1-q)
nJan=100pq+0p(1-q)+300(1-p)q+200(1-p)(1-q)
Juni 2011 G. Beroggi ©
zum roten Faden18
Dynamische Plots für virtuelle Verhandlungen
Auswahl einerAusgangsverteilung
für p und q
VerzichtetGegenpartei
auf Reaktion?
Gleichgewichtist erreicht!
Akteure verändernabwechselnd p oder q
ja
nein
web
Juni 2011 G. Beroggi ©
zum roten Faden19
• Sicherheits-Niveau (SN): Garantiertes Minimum bei
unabhängigen Entscheiden
• 0p1+100p2 u* und 300p1+200p2 u*
• Substitution: x1= p1/u* und x2= p2/u*
• 0x1+100x2 1 und 300x1+200x2 1
• x1+x2: min
• 0q1+300q2 u* und 100q1+200q2 u*
• Substitution: x1= q1/u* und x2= q2/u*
• 0x1+300x2 1 und 100x1+200x2 1
• x1+x2: min
alles zu A alles zu B
q1 q2=(1- q1)
alles zu A
p1 0,0 300,100
alles zu B
p2=(1- p1) 100,300 200,200
Sicherheits-NiveauNeue numerische Verteilung:
0 100 0.000 1.000300 200 x 0.010 = 2.000
1 1 0.010 = 1/u*
p1= 0 = x1 u* 100 = u*p2= 1 = x2 u*
Lea
0 100 0.000 1.000300 200 x 0.010 = 2.000
1 1 0.010 = 1/u*
q1= 0 = x1 u* 100 = u*q2= 1 = x2 u*
Jan
Juni 2011 G. Beroggi ©
zum roten Faden20
• Nash-Gleichgewicht (NG): 1-Bewegungs-Horizont• 0q + 300(1-q) = 100q + 200(1-q)
q = 1/2; nSN = 150
• 0p + 300(1-p) = 100p + 200(1-p)
p = 1/2; nSN = 150
• Nash-Punkt (NP): min: (nL - nSN) (nJ – nSN)
• nL = nJ = 200
Gleichgewichtszustände
alles zu A alles zu B
q1 q2=(1- q1)
alles zu A
p1 0,0 300,100
alles zu B
p2=(1- p1) 100,300 200,200
Nashpunkt
Nashgleichgewicht
Sicherheitsniveau
Lea
Jan
100 200 300
300
200
100
Definition Nash-Gleichgewicht: Keiner der beiden Akteure kann (im nächsten Zug) seine eigene Position verbessern, ohne die Hilfe des anderen.
Juni 2011 G. Beroggi ©
zum roten Faden21
Blocktag 1: Nachmittag
• Bildung Projektteams, Auswahl Thema• Formulierung von Hypothesen anhand von Literatursuche
Juni 2011 G. Beroggi ©
zum roten Faden22
Gegenstand des Kurses DST
Analysiere Problem;Datensammlung durch …
Formuliere mathematisches Entscheidungsproblem
Simulation(Modell)
Erstelle DSS mit Steuerungsvariablen
Fin
de u
nd im
plem
en-
tiere
Ent
sche
id
Erhebung(DWH)
Befragung(Akteure)
Befragung: Formuliere Hypothesen zum Problem, möglichst abgeleitet aus vorhandenem Wissen. Beim Fragebogen unterscheide zwischen Aussagefragen (was ist die Frage) und Faktorenfragen (wer gibt die Antwort).
Handelt es sich um ein explizites oder implizites Entschei-dungsproblem? Identifiziere die Entscheidungsvariablen (EV) (binär, ganzzahlig oder kontinuierlich), Kriterien, Akteure und Szenarien. Definiere Zielfunktion und Randbedingungen mit EV. Unterscheide zwischen logistischen und inhaltlichen Randbedingungen. Wähle geeignete Entscheidungstheorie (AHP, MAUT, Spieltheorie etc.) für subjektive Bewertungen.
Erstelle Decision Support System (DSS) mit Darstellung von Information und Wissen und mit Steuerungsvariablen für Sensitivitätsanalyse und Entscheidungsfindung.
Achtung: Kunde verwechselt oft Problem mit Massnahmen. Bsp.: Kunde sagt, das Problem wären die zu hohen Flugbewegungen und die Frage ist, wie diese zu reduzieren wären; dabei ist das Problem der Lärm und dieser könnte mit leiseren Flugzeugen trotz hoher Flugbewegungen reduziert werden.
Erhebung: Man sammle nicht alles mögliche an Daten, sondern nur geschäftsrelevante Daten. Formuliere Hypothesen zum Problem und teste sie mit statistischen Methoden.
Simulation: Beschreibe das System anhand der relevanten Ereignisse. Definiere mathematisches Modell um die Ereignisse zu beschreiben. Lass das Modell durchlaufen und führe Sensitivitätsanalyse durch.
Juni 2011 G. Beroggi ©
zum roten Faden23
MAS-BC DST: Projekt
• Bis zu 4 Studenten bilden eine Gruppe.• Man wähle ein Thema (HWZ Bibliothek, LexisNexis).• Man definiere mindestens 3 Hypothesen, je eine mit Zielvariable
und Faktor als: (1) beide kontinuierlich, (2) beide kategorisch, (3) ZV kontinuierlich und F kategorisch.
• Man leite von den Hypothesen einen Internetfragebogen ab, schalte ihn aufs Internet auf.
• Man simuliere n (>100) Antworten.• Man erstelle einen Bericht gemäss Strukturvorgabe (nächste Folie).• Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am
23.12.2008 (18:00) inklusive funktionierendem Link für Internetfragebogen an: gb@fhhwz.ch nur von HWZ accounts aus.
Bsp.
Juni 2011 G. Beroggi ©
zum roten Faden24
Struktur der Berichterstattung (roter Faden)
• Management Summary (20% der Note): zuerst Resultate, dann Bedeutung und Empfehlung, erst jetzt Methode und schliesslich nächste Schritte.
• Das Problem / der Auftrag (20%): Einleitung, worum geht es, Stand des Wissens, Ziel der Arbeit, Hypothesen (abgeleitet aus dem Stand des Wissens), Auswahl der Untersuchungsmethodik (Art der Erhebung).
• Erhebung / Befragung (20%): Zielgruppe, Repräsentativität, Festlegung des Stichprobendesigns und des -umfangs, Erstellung Fragebogen (Ableitung der Fragen aus den Hypothesen), Programmierung und Aufschaltung des Fragebogens im Internet, Testlauf und Durchführung der Erhebung, Bereitstellung der Datenbank (Excel) für Resultate und Analyse.
• Analyse der Resultate (20%): Rücklaufbeschrieb (Rate, Probleme bei der Erhebung, Analyse der Repräsentativität, Verfälschungen (Bias) und deren Korrektur), Test der Hypothesen und Diskussion von weiteren Resultaten mit Angabe der Signifikanz.
• Schlussfolgerungen (20%): Zusammenfassung der wichtigsten Erkenntnisse und Empfehlungen, Relativierung der Resultate aufgrund von möglichen Einschränkungen seitens der Methodik, Verallgemeinerung der Resultate für verwandte Themen, weiteres Vorgehen.
• Note: 0.5 x Note für persönlichen Teil + 0.5 x Gruppennote (Durchschnitt aller Teile).
Hier klicken um Vorlage für (und Beispiel von) Bericht zu sehen
Juni 2011 G. Beroggi ©
zum roten Faden25
Formulierung von Hypothesen
2. Messung (Operationalisierung)
a)Raten: Die relative Anzahl der Jungen, die schlecht verdienen ist signifikant grösser, als die relative Anzahl der Alten, die schlecht verdienen.
b)Mittelwerte: Das Durchschnittssalär der Jungen ist signifikant kleiner, als das Durchschnittssalär der Alten.
c)Trends: Je älter man ist, desto mehr verdient man.
3. Fragebogen
Zielvariable: Wie viel verdienen Sie? (Fr. pro Jahr)
Faktor: Wie alt sind sie? (Anzahl Jahre)
1. Fragestellung / Antwort
Frage: „Gibt es in der Firma Altersdiskri-minierung bezüglich des Salärs (d.h. verdienen „Alte“ mehr als „Junge“, resp. hat das Alter Einfluss auf das Salär)?“
Antwort: Wenn die Unterschiede in Schritt 4 signifikant sind, dann wird die Frage bejaht, sonst verneint.
4. Auswertung (Statistische Tests)
rel.
Anz
ahl
Alt Jung
signifi-kant gross?
35%
25%
Dur
chsc
hnitt
s-S
alär
(1‘
000)
Alt Jung
signifi-kantgross?
93
82
Alter
Sal
är
a) Raten b) Mittelwerte c) Trends
signifi-kantklein?
Zu den Tests
Trendlinie
Juni 2011 G. Beroggi ©
zum roten Faden26
Vergleiche mit mehreren Ausprägungen Mehrere Raten (T41)„Hat die Position einen Einfluss auf den Gebrauch des ÖV?“
Mehrere Mittelwerte für einen Faktor (T22)„Hat die Position einen Einfluss auf das Salär?“
rela
tive
Anz
ahl
ÖV
-Ben
utze
r
Angest. Kader Direktion
signifi-kantgross?
20%
15%
28%
Dur
chsc
hnitt
s-S
alär
(1‘
000
Fr.
)
Angest. Kader Direktion
signifi-kantgross?
90
60
110
Mehrere Mittelwerte für zwei Faktoren (T78)„Sind Länder und Jahre unabhängig bezüglich Medaillengewinne?“
Gibt es signifikante Unterschiede zwischen den Ländern, zwischen den Jahren und zwischen Ländern und Jahren
bezüglich der Anzahl gewonnener Medaillen?
Mehrere Ereignisse (T38)„Sind die Anzahl Fehlermeldungen in mehreren Computersystemen signifikant unterschiedlich?“
Anh
zahl
Feh
lerm
el-
dung
en in
den
Sys
tem
en
Syst. A Syst. B Syst. C
signifi-kantgross?
90
60
110
05
1015
2025
3035
40
2007 2008 2009An
zah
l gew
on
nen
e M
edai
llen
USA
GB
CH
Link zum Buch: „100 Statistical Tests“
Juni 2011 G. Beroggi ©
zum roten Faden27
Weitere Hypothesen und Messformen Ausfallraten (T6/25)„Bank A hat 13 Kunden in den letzten 6 Tagen verloren, Bank B 7 Kunden in den letzten 4 Tagen. Geht es Bank A schlechter, als Bank B?“
Vorher-Nachher Befragung (T23)„Von 105 befragten Leuten fanden 30 ein Restaurant sowohl vor wie auch nach dem Besitzerwechsel gut, 51 fanden es weder vor noch nachher gut, 9 fanden es vorher gut aber nachher schlecht und 15 fanden es nachher gut und vorher schlecht. Hat der Wechsel etwas gebracht?“
Abg
änge
pro
Tag
Bank A Bank B
signifi-kantgross?
2.2
1.8
Anz
ahl
nach gut vor gut vor schlecht nach schlecht
signifi-kantgross?
15
9
Ranglisten (T59)„Das Abschneiden von vier Produkten (A: Äpfel etc.) in Region 1 ist (A,B,C,D) und in Region 2 (B,A,C,D). Stellen die zwei Regionen signifikant unterschiedliche Märkte dar?“
Trendfluktuationen (T70)„Der Umsatz geht mal rauf, mal runter. Sind diese Trendfluktuationen zufällig oder gibt es ein signifi-kantes Muster?“
ABCD
BACD
signifi-kant
anders?Je h
öher
dest
o be
sser
01234567
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ist ein signifikantes Muster für dieTrendfluktuation vorhanden?
Region 1 Region 2
Juni 2011 G. Beroggi ©
zum roten Faden28
Noch mehr Hypothesen und Messformen Veränderung von Raten (T84)„Die als Raten gemessene Altersdiskriminierung wird vor und nach der Einführung von Gegen-massnahmen gemessen. Ist der Unterschied signifikant?“
Hierarchische Gruppierung (T80)„Geben unterschiedliche Lehrer an unterschiedli-chen Schulen signifikant unterschiedliche Noten?“
Scheintrends„Ist der beobachtete Trend „Je grösser die Ausstellungsfläche, desto mehr Orangen werden verkauft“ nur ein Scheintrend, der vom Standort der Ware verursacht wird (d.h. bei konstantem Standort gibt es den Trend nicht)?“
Konditionierte Trends„Hängt der Trend „Je kälter/wärmer das Getränke ist, desto besser schmeckt es“ davon ab, von der Jahreszeit (Sommer/Winter) ab?“
signifi-kant
anders?
rel.
Anz
ahl
Alt Jung
35%
25%
vor Gegen-massnahmen
rel.
Anz
ahl
Alt Jung
35%
32%
nach Gegen-massnahmen
beideTrend-liniensind
signifi-kant?
Temperatur
Woh
lbef
inde
nTrendlinie
Temperatur
Woh
lbef
inde
n
Trendlinie
SommerWinterAusstellungsfläche
Um
satz Laden-
eingang
Laden-ende
gibt es für beideStandorte keine
SignifikantenTrendlinien?
Gibt es signifikante Unterschiede unter den Lehrer an den drei Schulen und unter den Schülern für die drei Lehrer?
Scheintrend
0
1
2
3
4
5
6
Lehrer 1 Lehrer 2 Lehrer 3
Du
rch
sch
nit
tsn
ote
n
Schule 1
Schule 2
Schule 3
Juni 2011 G. Beroggi ©
zum roten Faden29
Themen und Hypothesen2008• Das Fluktuationsverhalten von Mitarbeitenden
• H: Um die guten MAs zu halten, muss man die schlechten schicken
• H: Hohe Basissaläre verhindern keine Fluktuation
• Das Tresorgeschäft in Zeiten der Bankkrise
• H: In der Bankkrise gibt es mehr Tresorkunden auf dem Land als in der Stadt
• H: Grosses Vertrauen in die Bank verstärkt Vertrauen in eigenen Tresor
• Einfluss der Finanzkrise auf den Immobilienmarkt
• H: Personen mit höherem Einkommen reduzieren das Investitionsvolumen mehr als solche mit tieferem Einkommen
• H: In der Süd-CH sinken die Mietkosten stärker als in der Deutsch-CH.
• Wirkung einer Preiserhöhung bei der SBB auf die Passagierszahl
• H: Schlechter Verdienende sind eher bereit nach Alternativen zu suchen
• H: Personen, die geschäftlich unterwegs sind, haben eine höhere Zahlungsbereitschaft für ein kostenintensives Ticket als Privatreisende
Juni 2011 G. Beroggi ©
zum roten Faden30
Themen und Hypothesen2007• Boreout
• H: Boreout betrifft mehr Mitarbeiter in administrativen Berufen
• H: Boreout kommt bei über 18-jährigen Arbeitstätigen im Kanton Zürich vor
• Die Leserschaft von Gratiszeitungen
• H: Die örtliche & zeitliche Verfügbarkeit einer Gratiszeitung ist entscheidend für ihren Erfolg
• H: Auch bei Gratiszeitungen entscheiden die Leser nach Themen und Aufmachung
• Bedeutung des Kino heute
• Die Wahl Kino oder Heimkino wird massgebend durch das Genre bestimmt
• H: Steigende Preise bei Kinotickets (bei sinkenden Preisen für DVDs) wirken sich negativ auf die Kinobesuche aus.
• Empfundene Produktqualität und Einkaufspräferenz bei Migros und Coop
• H: Wenn Migros die Preise leicht über Coop heben würde, würden die Migroskunden weiterhin bei Migros einkaufen
• H: Die Produktqualität bei Migros wird als besser empfunden als bei Coop
Juni 2011 G. Beroggi ©
zum roten Faden31
Themen und Hypothesen2007• Powernapping
• H: Mitarbeiter, die power-nappen, arbeiten effizienter
• H: Manager betreiben aus Image-Gründen kein Powernapping
• Mobility - CarSharing
• H: Je höher das Einkommen, desto höher die Ansprüche an CarSharing bezüglich Komfort und Qualität der Dienstleistungen
• H: Je dichter das Standortnetz desto mehr Kunden
Juni 2011 G. Beroggi ©
zum roten Faden32
Themen und Hypothesen2006• Abfallentsorgung in der Stadt Zürich
• H: Die Bevölkerung möchte Zeitungen/Karton/PET zur Sammelstelle bringen
• H: Das Trennverhalten der Personen wird vom Bildungsstand beeinflusst
• EURO 08
• H: Frauen sind wider Erwartungen keine Fussballmuffel
• H: Die Spiele werden mehrheitlich auswärts verfolgt (Stadion, Rest. etc.)
• Musik im Internet
• H: Frauen sind sich der Illegalität eher bewusst als Männer
• H: Ältere Personen sind bereit für Musik einen höheren Preis zu bezahlen als jüngere Personen
• Alkoholwerbung und Trinkverhalten
• H: Personen, die regelmässig Alkohol konsumieren, reagieren auch aktiver auf Alkohol-Werbung
• H: Jugendliche sind durch Alkoholwerbung beeinflussbarer als Erwachsene
Juni 2011 G. Beroggi ©
zum roten Faden33
Themen und Hypothesen2006• Roadpricing
• H: Roadpricing in Zürich wird abgelehnt
• H: Die Zahlungsbereitschaft für Roadpricing in Zürich ist tief
• Leistungsorientiertes-Qualifikations-System für Lehrpersonen an der Volksschule Zürich
• H: Lehrpersonen haben eine negative Einstellung zum LQS
• H: Das LQS macht das Berufsbild der Lehrpersonen attraktiver
Juni 2011 G. Beroggi ©
zum roten Faden34
Themen und Hypothesen
Fiktive Beispiele• Entwicklung des Immobilienmarktes in der Region Zürich
• H: Trotz vielen neuen Wohnungen ziehen Familien weg von den Städten
• H: Singles ziehen vermehrt in die Stadt in Mietwohnungen
• Diskriminierung am Arbeitsplatz und in der Gesellschaft
• H: Kinder haben schadet der Karriere nicht
• H: Die Alterdiskriminierung ist im Vormarsch
• Mobilitätsmuster im Grossraum Zürich
• H: Mobility zieht neue Autofahrer-Gruppen an
• H: Glatttalbahn erhöht Pendlerströme
• Wahlprognosen für die Nationalratswahlen 2011
• H: Die grossen Parteien sind „wählergesättigt“
• H: Frauen interessieren sich vermehrt für Politik
• Bedeutung der Alkoholwerbung auf das Trinkverhalten im Kt. ZH
• H: Werbung animiert jugendliche mit dem Trinken anzufangen
• H: Warnhinweise halten Autofahrer nicht ab, angetrunken zu fahren
Juni 2011 G. Beroggi ©
zum roten Faden35
Nach- und Vorbereitung Studierende Tag 1
Aufwand (ca) Thema Hilfsmittel Besonderes
3 Std. Abschluss der unvollendeten Arbeiten während Tag 1 (bis und mit Formulierung der Hypothesen)
Internet Gruppenarbeit
2 Std. Repetition Excel-Übungen vom Morgen Excel Einzelarbeit
Juni 2011 G. Beroggi ©
zum roten Faden36
Blocktag 2: Morgen
• Ablauf einer Internetbefragung• Zielgruppen und Stichproben• Definition von statistischen Hypothesen• Repräsentativität und Fehler bei der Erhebung• Testen von Statistischen Hypothesen
Juni 2011 G. Beroggi ©
zum roten Faden37
Befragungen
„Die sorgfältigere Entwerfung der Erhebungsformulare ist eine Errungenschaft der neuesten Entwicklung der Statistik. … Der Wunsch möglichst rasch alles zu erfahren, was man wissen wollte, liess keine Zeit zu einer sorgfältigeren Fertigstellung der Erhebungsmethode. Man begnügte sich mit der Angabe der Gliederung, in welcher das Ergebnis der betreffenden Erhebung schliesslich erscheinen sollte, ohne sich über die Art der primären Fragestellung zu äussern … Eine solche in hohem Grade bedenkliche Behandlung selbst wichtiger Zweige der Statistik ragt teilweise noch bis in die neueste Zeit herein.“
Die Gesetzmässigkeit im Gesellschaftsleben. Statistische Studien von Dr. Georg Mayr (1877), S. 40.
Juni 2011 G. Beroggi ©
zum roten Faden38
Ablauf der Befragung
Problem / Auftrag
Formulierung von Fragen
Überprüfung / Korrektur Rücklauf
Ableitung vonHypothesen
Problem / Auftrag: Worum geht es, was ist das wahre Problem des Kunden, was ist der Stand des Wissens zum Problem, was das Ziel der Arbeit. Z.B. Junge Leute werden dicker und bewegen sich weniger.
Hypothesen: Man leite aus dem Stand des Wissens Hypothsen ab. Hypothesen sind nicht persönliche Fragestellungen, sondern allgemein unbeantwortete Vermutungen oder Theorien zu kausalen Ursache-Wirkung Zusammenhängen (z.B. “Schlechte Nahrung macht dick und träge”).
Fragen: Man formuliere Fragen, mit denen die Hypothesen getestet werden können respektive Antworten auf das Problem gefunden werden können. Keine unnötigen Fragen stellen. Z.B. “Wie oft essen Sie Fastfood?”, “Wie schwer sind Sie?” und “Wie oft bewegen Sie sich?”.
Zielgruppe/Stichprobe: Über wen soll etwas ausgesagt werden respektive über wessen Problem soll eine Antwort gefunden werden? Geht es nur um Jugendliche oder alle Personen, welche Altersgruppen, welche Regionen etc.? Der Umfang und die Zusammenstellung der Stichprobe muss repräsentativ für die Zielgruppe sein. Man führe den Kuchentest durch: “Wie soll ich möglichst wenig vom Kuchen probieren, um möglichst viel über den Kuchen aussagen zu können.
Durchführung: Einladung der Stichprobe, Vergabe von Passwörtern, Aufschaltung auf das Internet, Überwachung der Datensammlung, Nacheinladung bei Nichtbeantwortung etc.
Rücklauf: Was ist die Rücklaufrate? Sind die Proportionen der Antworten repräsentativ? Wenn nicht, soll man Nichtbeantworter nochmals kontaktieren oder Antworten einfach Hochrechnen?
Analyse: Man teste die Hypothesen, sind die Zusammenhänge statistisch signifikant? Gibt es noch weitere interessante Zusammenhänge?
Definition Zielgruppe, Auswahl
Stichprobe
Durchführung Erhebung
Datenanalyse, Interpretation,
Antworten
Juni 2011 G. Beroggi ©
zum roten Faden39
Definition von Hypothesen
Salär(CHF)
Alter(Jahre)
Position(Ka/SB)
Geschl.(M/F)
Note(1-6)
Fach(SW/IW)
Branche(B/V/I)
Zielvariablen(Aussagevariablen)
Faktoren(erklärende Variablen)
• Jeder Pfeil stellt eine mögliche Hypothese dar (0- oder 1-Faktor Hypothese)
• 1-Faktor Hypothesen z. B. „Position hängt vom Geschlecht ab“ (z. B. Männer sind öfters Kader als Frauen), stellen Abhängigkeiten zwischen Faktoren und Zielvariablen dar.
n-Faktor HypothesenName Alter Gesch. Note Sem. Fach Branche Pos. Salär
1 26 F 5 5 SW Bank SB 802 26 F 5 8 IW Vers SB 120
0-FaktorHypothesen
n-FaktorHypothesen
Juni 2011 G. Beroggi ©
zum roten Faden40
Fragebogen
• Begrüssung, Angabe der benötigten Zeit für das Ausfüllen
• Zuerst die Zielgrössen fragen, dann die Faktoren• Nicht zu viele Fragen, nur jene, um die
Hypothesen testen zu können• Skalen: kontinuierlich, kategorisch, oder offene• Kategorische Skala („Likert Scale“):
gar nicht eher nicht neutral eher dafür sehr dafür keine Meinung
Juni 2011 G. Beroggi ©
zum roten Faden41
Zielgruppe und StichprobeZielgruppe(Wahrheit)
Stichprobe(Beobachtung
)
• Die Hypothesen werden für die gesamte und unbekannte Zielgruppe formuliert.• Um Aufwand, Geld und Zeit zu sparen, werden sie aber anhand einer Stichprobe
getestet.• Damit die Resultate aus der kleinen Stichprobe möglichst gültig sind für die
gesamte Zielgruppe, ist wichtig dass:• die Stichprobe ein möglichst guter Querschnitt der Zielgruppe ist (d.h. die
Stichprobe ist repräsentativ für die Zielgruppe),• die Resultate der Stichprobe möglichst signifikant sind, d.h. die Unsicherheit
(Irrtumswahrscheinlichkeit), dass die Folgerungen auf die Zielgruppe falsch sein könnten, muss möglichst klein sein.
2. Auswahl der Stichprobe aus der
Zielgruppe
3. Erhebung der Daten aus der Stichprobe
1. Definition der Hypothesen resp. Fragestellungen
4. Test der Hypothesen und Rück-
schlüsse auf die Zielgruppe
Juni 2011 G. Beroggi ©
zum roten Faden42
Richtiger Rückschluss:(WS = 1-)
Richtiger Rückschluss(WS = 1-)
Falscher Rückschluss(WS = )
Falscher Rückschluss(WS = )
Wir möchten die Irrtumswahrscheinlichkeiten (ein Schuldiger wird vom Gericht freigesprochen) und (ein Unschuldiger wird vom Gericht schuldig gesprochen) möglichst klein haben.
Wir möchten die Irrtumswahrscheinlichkeiten (ein Schuldiger wird vom Gericht freigesprochen) und (ein Unschuldiger wird vom Gericht schuldig gesprochen) möglichst klein haben.
Wirklichkeit
Gericht
Rücksch
luss
Testen von Hypothesen
H0: schuldig H1: unschuldig
unsc
huld
ig
sc
huld
ig
Ist der Angeklagte schuldig?H0: Der Angeklagte ist schuldig.H1: Der Angeklagte ist unschuldig.
Unsere Zielgruppe ist die Wirklichkeit.Unsere Stichprobe ist das Gericht.
Juni 2011 G. Beroggi ©
zum roten Faden43
Was heisst Unsicherheit?
100% 0%
ProzentualeSchuldsprechungder Geschworenen
H0 (in Wirklichkeit schuldig) • Wir nehmen an, dass die „Verteilung“ der Prozen-tualen Schuldsprechungen einer Dreiecksverteilung entspricht.
• Die Fläche des Dreiecks ist 100%. Somit ist die Höhe des Dreiecks gleich 2.
100% 0%
ProzentualeSchuldsprechungder Geschworenen
H0 (in Wirklichkeit schuldig)
22.36%
100%
• Wenn wir (d.h. die Wahrscheinlichkeit, dass ein Schuldiger freigesprochen wird) z.B. 5% haben möchten, respektive wir möchten zu 95% sicher sein, dass ein Schuldiger nicht freigesprochen wird, dann kann man mittels einfachen Dreiecksberechnungen berechnen, bei welcher Prozentzahl die blaue Fläche 5% ist, wenn man weiss, dass die gesamte Fläche 100% ist.
• Die Lösung ist, dass die = 5% dem Wert von 22.36% entsprechen.
• D.h. mit 5% Wahrscheinlichkeit stimmen höchstens 22.36% den Angeschuldigten schuldig.
• M.a.W. wenn höchstens 22.36% der Geschworenen den Angeklagten schuldig sprechen, dann verwerfen wir H0 zugunsten von H1, d.h. wir schliessen, dass er unschuldig ist und täuschen uns in dieser Aussage zu höchstens 5%, resp. wir sind mind. 95% sicher, dass er unschuldig ist.
Juni 2011 G. Beroggi ©
zum roten Faden44
Zusammenhang zwischen und
100% 0%
ProzentualeSchuldsprechungder Geschworenen
H0 (in Wirklichkeitschuldig)
100% 0%
H1 (in Wirklichkeitunschuldig)
ProzentualeSchuldsprechungder Geschworenen
Verhältnis von alpha und beta
0.00
20.00
40.00
60.00
80.00
100.00
0.00 20.00 40.00 60.00 80.00 100.00
alpha (%)
be
ta (
%)
• Wenn wir nebst H0 auch H1 eintragen, dann nehmen wir an, dass die Verteilung entsprechend spiegelbildlich ist.
• Die Fläche für ist die Wahrscheinlichkeit, dass man einen unschuldigen für schuldig erklärt.
• Gerne möchte man und möglichst klein haben.• Man sieht aber, dass je kleiner man macht, desto
grösser wird . Der Zusammenhang ist unten dargestellt.
22.36%
• Wie können wir sowohl wie auch möglichst klein halten?
• Indem wir die Anzahl Beobachtungen in der Stichprobe erhöhen. Dann verändert sich die Dreieckskurve in eine Kurve folgender Art:
klein
und
klein
Juni 2011 G. Beroggi ©
zum roten Faden45
Wie wählen wir und , resp. n ?• Zuerst müssen wir wissen, was der Zusammenhang (d.h. die
Funktion) zwischen dem Stichprobenumfang n und und ist.• Angenommen wir wissen dies (f(n) und f(n)), dann stellt sich die
Frage, was kosten uns die zwei Fehlerarten, respektive was für einen Ertrag bringen uns korrekte Entscheide.
Richtiger Rückschluss:(WS = 1-,Ertrag = E0)
Richtiger Rückschluss(WS = 1-,Ertrag = E1)
Falscher Rückschluss(WS = ,
Schaden = S0)
Falscher Rückschluss(WS = ,
Schaden = S1)
Wirklichkeit
Ger
icht
H0: schuldig H1: unschuldig
unsc
huld
ig
sc
huld
ig
• Der erwartete Nutzen ist: N = E0(1-) + E1(1-) + S0 + S1,
• respektive als Funktion von n: N = E0(1-f(n)) + E1(1-f(n) + S0f(n) + S1f(n).
• Somit können wir entscheiden, wie wir n wählen müssen, um den Profit zu maximieren.
Juni 2011 G. Beroggi ©
zum roten Faden46
Rechner für Stichprobenumfang
Link
Juni 2011 G. Beroggi ©
zum roten Faden47
Zufällige Auswahl der Stichprobe
Jede Person der Zielgruppe wird zufällig gewählt oder nicht. Die Wahrscheinlichkeit der Wahl wird vorgegeben.
Zufallsstichprobe
einfacher Zufall
systematischeStichprobe
geschichteteStichprobe
Klumpen-stichprobe
Juni 2011 G. Beroggi ©
zum roten Faden48
Einfacher Zufall
• Jede Person hat die gleiche Wahrscheinlichkeit gewählt zu werden.
• Auswahl kann mit oder ohne “Zurücklegen” geschehen (z.B. eine Person könnte mehrmals befragt werden).
• Zufallszahlen werden vom Computer generiert.
• Falls der Stichprobenumfang gross ist im Vergleich zur Gesamtheit, dann hat man automatisch eine repräsentative Stichprobe.
Juni 2011 G. Beroggi ©
zum roten Faden49
• Lege gewünschten Stichprobenumfang fest: n.
• Teile Gesamtheit N in Gruppen von k Personen:
k = N / n.
• Wähle zufällig eine Person aus der ersten Gruppe.
• Danach wähle jede k-te Person.
• Bsp.: Qualitätskontrolle
Systematische Stichproben
N = 64
n = 8
k = 8
Juni 2011 G. Beroggi ©
zum roten Faden50
Geschichtete Stichproben
• Die Zielgruppe ist in zwei oder mehr Gruppen geteilt, gemäss gewissen Kriterien (z.B. Kantone).
• Aus jeder Gruppe wird eine einfache Stichprobe gezogen.
• Die Stichproben werden zu einer Gesamtstichprobe zusammengefügt.
Juni 2011 G. Beroggi ©
zum roten Faden51
Klumpenstichprobe• Die Gesamtheit ist in verschiedene Schichten aufgeteilt,
wobei jede Sicht repräsentativ ist für die Gesamtheit (z.B. Parallelklassen).
• Von jeder Schicht wird eine einfache Zufallsstichprobe gewählt.
• Die Stichproben werde zu einer Gesamtstichprobe zusammengefügt.
Gesamtheit in 4 Schichten geteilt.
Juni 2011 G. Beroggi ©
zum roten Faden52
• Modeling bias: z.B. falsche Verteilungsannahmen
• Confirmation bias: Suche nach Bestätigung von Vermutungen
• Publication bias: Suche nach Neuem zum Publizieren
• Problem bias: Problem falsch verstanden
• Questionnaire bias: z.B. suggestive Fragen/Antworten
• Survey bias: z.B. inkonsistente Befragungsweise
• Universe bias: Falsche Zielgruppe
• Selection bias: z.B. nur verärgerte Personen nehmen teil
• Recall bias: Erinnerung bestimmt Antwort
• Response bias: z.B. Männer sind befragungsmüde
• List of cognitive biases: Denkfehler
• Data Mining: Unfähigkeit der Statistiker zu Modellieren
Fehler über Fehler
Juni 2011 G. Beroggi ©
zum roten Faden53
Zielvariable(n)Faktoren
Alter(J/A)
Region(D/F/I)
Ges.(M/F)
Position(Ka/SB)
Sind die Verhältnisse der Faktoren richtig erfasst?
M F
KaSB
J A
KaSB
Population
20% 30%
40% 10%
10% 40%
35% 15%
?=
M F
KaSB
J A
KaSB
Stichprobe
20% 30%
40% 10%
10% 40%
35% 15%
Repräsentativität
D F I
KaSB
40% 10% 5%
10% 30% 5%
D F I
KaSB
40% 10% 5%
10% 30% 5%
H1
H2
H3
H1
H2
H3
Juni 2011 G. Beroggi ©
zum roten Faden54
Blocktag 2: Nachmittag
• Gestaltung, Realisierung und Aufschaltung eines Internetfragebogens
• Generierung von Antworten in Excel
Juni 2011 G. Beroggi ©
zum roten Faden55
Fragestellungen:
• Verdienen bessere Studenten mehr als schlechtere?
• Brauchen Soz-Wiss (SW) Studenten länger für ihr Studium als Ing-Wiss (IW) Studenten?
• Weitere Fragen: ...
Erhebungsmaske
Name Alter
Seme-ster
Geschl.
Diplom-note
PositionBran-che
Salär
Fach
Beispiel: Absolventenstudie
Name Alter Gesch. Note Sem. Fach Branche Pos. Salär
1 26 F 5 5 SW Bank SB 802 26 F 5 8 IW Vers SB 1203 23 M 5.5 6 IW Indus SB 954 32 M 4.5 10 SW Bank Ka 1505 35 F 4 9 SW Vers Ka 2106 24 M 4.5 7 SW Bank SB 1057 25 M 6 6 IW Bank SB 758 25 F 4.5 9 IW Indus Ka 1329 31 F 4 8 SW Indus Ka 145
10 29 M 5 7 IW Vers SB 126
Datenbank
Juni 2011 G. Beroggi ©
zum roten Faden56
Name Alter Gesch. Note Sem. Fach Branche Pos. Salär
1 26 F 5 5 SW Bank SB 802 26 F 5 8 IW Vers SB 1208 25 F 4.5 9 IW Indus Ka 1329 31 F 4 8 SW Indus Ka 1455 35 F 4 9 SW Vers Ka 2107 25 M 6 6 IW Bank SB 753 23 M 5.5 6 IW Indus SB 956 24 M 4.5 7 SW Bank SB 105
10 29 M 5 7 IW Vers SB 1264 32 M 4.5 10 SW Bank Ka 150
Datenbank
Datenübersicht:• Datenvalidierung• Umgang mit fehlenden Daten
Datenpunkt
Datensatz
Datenübersicht
Juni 2011 G. Beroggi ©
zum roten Faden57
Beispiel Fragebogen
Zielvariablen(interessierte Aussagen)
Faktoren(Eigenschaften der Befragten)
Juni 2011 G. Beroggi ©
zum roten Faden58
Juni 2011 G. Beroggi ©
zum roten Faden59
Software für Internetbefragungen
• LetMeKnow (via HWZ)• Umfrage Online• SPSS• Online-Umfragen• SurveyMonkey• LimeSurvey• UniPark Software• PoppyDog• 2ask • Weitere Software• E-Mail Survey• Google Survey
Juni 2011 G. Beroggi ©
zum roten Faden60
Nach- und Vorbereitung Studierende Tag 2
Aufwand (ca) Thema Hilfsmittel Besonderes
3 Std. Generierung von Antworten in Excel Excel Gruppenarbeit
2 Std. Erstellung der Struktur des Berichtes Word Gruppenarbeit
Funktionierender Link für Internetfragebogen bis am xx.12.09 an: gb@fhhwz.ch nur von HWZ e-mail Adressen aus.
Juni 2011 G. Beroggi ©
zum roten Faden61
Blocktag 3: Morgen
• Deskriptive Statistische Analysen mit Diagrammen• Induktive Statistische Analysen der Hypothesen für
Proportionen (Chi2-Test) • Induktive Statistische Analysen der Hypothesen für
Mittelwerte (t-Test)
Juni 2011 G. Beroggi ©
zum roten Faden62
Histrogramm
Histogramm
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
75 120 165 210 undgrößer
Bin Salär
Häu
fig
keit
0.00%
10.00%
20.00%
30.00%
40.00%50.00%
60.00%
70.00%
80.00%
90.00%
100.00%
Häufigkeit
Kumuliert %
ExtrasAnalysefunktionen
Histogramm
Bin Häufigkeit Kumuliert % p75 1 10.00% 10.00%
120 4 50.00% 40.00%165 4 90.00% 40.00%210 1 100.00% 10.00%
und größer 0 100.00% 0.00%
Juni 2011 G. Beroggi ©
zum roten Faden63
Drei Arten der Datenanalyse
1. Deskription (Beschreibung): Suche in den Daten nach interessanten Informationen
2. Verifikation: Testen von vorgegebenen Hypothesen
3. Induktion: Extrapolation (z.B. Prognosen) oder Interpolation (z.B. Schätzungen von Zwischen-werten)
Juni 2011 G. Beroggi ©
zum roten Faden64
Populationskenngrössen
Populationskenngrössen
ExtrasAnalyse-Funktionen
n
iix
nm
1
1 :Mittelwert
2
1
2 )(1
1 :Varianz xx
ns
n
ii
3)(1
:Kurtosis1
44
n
ii xx
ns
2
3
1
2
1
3
)(
)(:Schiefe
n
ii
n
ii
xx
xxn
n
sFehler Standard
2 :weichungStandardab ss
Salär
Mittelwert 123.8Standardfehler 12.5324468Median (126-120)/2 123Modus #NVStandardabweichung 39.6310765Stichprobenvarianz 1570.62222Kurtosis 1.5048117Schiefe 0.97675467Wertebereich 135Minimum 75Maximum 210Summe 1238Anzahl 10Konfidenzniveau(95.0%) 28.3503642
Mit 95% Wahrscheinlichkeit enthält das Interval von 123.8-28.35 bis 123.8+28.35 den wahren Mittelwert der Population.
Es gibt keinen eindeutigen Modalwert (siehe Histogramm)
Juni 2011 G. Beroggi ©
zum roten Faden65
Schätzung der Gesamtpopulationsmenge
tnmittelwerStichprobe
szahlPopulation
Total
X
N
XNPunktschätzer für die totale Population:
Vertrauensintervall für das Total:1
)( 1
N
nN
n
StNXN n
Bsp.: Die Summe von N=5‘000 Rechnungen ist gesucht, wenn n=100 Stichproben genommen wurden, mit X = 110.27 CHF und S = 28.95 CHF.Für das 95% KI erhalten wir t99 = 1.9842:
- Total = 5‘000x110.27 = 551‘350 CHF- KI = ± 551’350x1.9842x28.95/10x((5’000-100)/(5’000-1)) = 28’436.00 CHF
Juni 2011 G. Beroggi ©
zum roten Faden66
Pivot TabellenName Alter Gesch. Note Sem. Fach Branche Pos. Salär
1 26 F 5 5 SW Bank SB 802 26 F 5 8 IW Vers SB 1208 25 F 4.5 9 IW Indus Ka 1329 31 F 4 8 SW Indus Ka 1455 35 F 4 9 SW Vers Ka 2107 25 M 6 6 IW Bank SB 753 23 M 5.5 6 IW Indus SB 956 24 M 4.5 7 SW Bank SB 105
10 29 M 5 7 IW Vers SB 1264 32 M 4.5 10 SW Bank Ka 150
Juni 2011 G. Beroggi ©
zum roten Faden67
Grundsätze1. Jede Abbildung muss
selbsterklärend sein mit Titel, Text, beschrifteten Achsen, Einheiten und Werte in der Abbildung.
2. Jede Abbildung muss im Text besprochen werden, mit zusätzlichen Erklärungen und Interpretationen.
Graphische Darstellung in Excel
Juni 2011 G. Beroggi ©
zum roten Faden68
Linien (2D)
Durchschnittssalär in Funktion der Note
177.50
129.00
108.6795.00
75.00
0
20
40
60
80
100
120
140
160
180
200
4 4.5 5 5.5 6
Note (1 - 6)
Du
rch
sch
nit
tssa
lär
(1'0
00 C
HF
)
Beachte: Abb. 1 und Abb. 2 sind analog. Nur eine durchgezogene Linie in Abb. 1 (ohne die Punkte und die Werte) wäre irreführend, denn die Verbindungslinie stellt ja keine Beobachtungen dar, sondern dient lediglich der Illustration des Trends.
Durchschnittssalär in Funktion der Note177.50
129.00
108.6795.00
75.00
0
20
40
60
80
100
120
140
160
180
200
4 4.5 5 5.5 6
Note (1 - 6)
Du
rch
sch
nit
tssa
lär
(1'0
00
CH
F)
Abb. 1: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab. Abb. 2: Das Durchschnittssalär nimmt mit zunehmender Note stetig ab.
Mittelwert von SalärNote Ergebnis4.0 177.54.5 129.05.0 108.75.5 95.06.0 75.0
Juni 2011 G. Beroggi ©
zum roten Faden69
Kreis (2D)
Durchschnittssaläre pro Branche
Bank; 102.5
Indus; 124
Vers; 152 Bank
Indus
Vers
Durchschnittssaläre pro Branche
102.5
124
152
0
20
40
60
80
100
120
140
160
Bank Indus Vers
Branche
Du
rch
sc
hn
its
ss
alä
re
(1'0
00
CH
F)
Abb. 3: Durchschnittssaläre nach Branchen in 1‘000 CHF.
Beachte: Abb. 3 und Abb. 4 sind analog. Jedoch ist eine Kuchendarstellung (Abb. 3) für Durchschnittssaläre irreführend, denn die Summe der drei Durchschnittssaläre (100%) macht keinen Sinn.
Abb. 4: Durchschnittssaläre nach Branchen in 1‘000 CHF.
Bank 102.5Indus 124Vers 152Gesamtergebnis 123.8
Juni 2011 G. Beroggi ©
zum roten Faden70
Punkt (XY) (2D)
Salär vs. Alter
0
50
100
150
200
250
20 22 24 26 28 30 32 34 36
Alter (J)
Sa
lär
(1'0
00
CH
F)
Abb. 5: Saläre und Alter von 10 Personen.
Name Alter Gesch. Note Sem. Fach Branche Pos. Salär
1 26 F 5 5 SW Bank SB 80
2 26 F 5 8 IW Vers SB 120
8 25 F 4.5 9 IW Indus Ka 132
9 31 F 4 8 SW Indus Ka 145
5 35 F 4 9 SW Vers Ka 210
7 25 M 6 6 IW Bank SB 75
3 23 M 5.5 6 IW Indus SB 95
6 24 M 4.5 7 SW Bank SB 105
10 29 M 5 7 IW Vers SB 126
4 32 M 4.5 10 SW Bank Ka 150
Juni 2011 G. Beroggi ©
zum roten Faden71
Säulen Stabdiagramme (3D)
Frau MannIngenieurwiss. Bank 0 75
Indus 132 95Vers 120 126
Sozialwiss. Bank 80 127.5Indus 145 0Vers 210 0
Durchschnittssaläre
0
132
120
80
145
210
75
95
126
127.5
0
0
0% 20% 40% 60% 80% 100%
Bank
Indus
Vers
Bank
Indus
Vers
Inge
nieu
rwis
s.S
ozia
lwis
s.
Frau
Mann
Abb. 6: Durchschnittssaläre (1‘000 CHF) nach Branchen, Studienrichtung und Geschlecht.
Beachte: Ähnlich wie in Abb. 3 macht die Darstellung der Summe der Durchschnittssaläre für Frauen und Männer auf der x-Achse auch hier wenig Sinn, denn die Summe der beiden Durchschnitte ist nicht gleich dem Gesamtdurchschnitt in der jeweiligen Branche pro Studienrichtung.
Juni 2011 G. Beroggi ©
zum roten Faden72
Blase (4D)
Alter Gesch. Note Salär
26 F 5 8026 F 5 12025 F 4.5 13231 F 4 14535 F 4 21025 M 6 7523 M 5.5 9524 M 4.5 10529 M 5 12632 M 4.5 150
Alter vs. Salär mit Noten
6
5.54.5
5
4.5
5
54.5
4
4
0
50
100
150
200
250
21 23 25 27 29 31 33 35 37 39
Alter (J)
Sal
är (
1'00
0 C
HF
)
Männer
Frauen
Abb. 7: Saläre (1‘000 CHF) und Alter für 10 Personen mit Abschlussnoten (1-6 als Radius der Kreise).
Juni 2011 G. Beroggi ©
zum roten Faden73
Netz (mD)
Alter Note Sem. Salär Alter Note Sem.26.00 5.00 5.00 80.00 0.75 0.50 1.0026.00 5.00 8.00 120.00 0.75 0.50 0.4025.00 4.50 9.00 132.00 0.83 0.25 0.2031.00 4.00 8.00 145.00 0.33 0.00 0.4035.00 4.00 9.00 210.00 0.00 0.00 0.2025.00 6.00 6.00 75.00 0.83 1.00 0.8023.00 5.50 6.00 95.00 1.00 0.75 0.8024.00 4.50 7.00 105.00 0.92 0.25 0.6029.00 5.00 7.00 126.00 0.50 0.50 0.6032.00 4.50 10.00 150.00 0.25 0.25 0.00
B 23.00 6.00 5.00 210.00S 35.00 4.00 10.00 75.00
Normalisierung:
xi – xs
xb - xs
yi =
0.00
0.20
0.40
0.60
0.80
1.00Alter
Note
Sem.
Salär
Reihe1
Reihe2
Reihe3
Reihe4
Reihe5
Reihe6
Reihe7
Reihe8
Reihe9
Reihe10
Abb. 8: Normierte Werte für 10 Personen (Reihe 1 bis 10).
xi : zu transformierender Wertxs : schlechtester Wertxb : bester Wertyi : transformierter Wert
Normalisierte Werte(je weiter draussen, desto besser)
Juni 2011 G. Beroggi ©
zum roten Faden74
- Bsp.: Die n = 10 Mitarbeitenden haben ein beobach-tetes Durchschnittssalär von m = 123.8 und eine beobachtete Standardabweichung von s = 39.6 (siehe Zahlenwerte links in der Excel Tabelle).
- Um die Wahrscheinlichkeit zu berechnen, dass ein Durchschnittssalär grösser ist als z.B. 115 muss man zuerst Z berechnen:
- Mit Z berechnet man die Wahrscheinlichkeit wie folgt:- „=1-NORMVERT(1.156;0;1;WAHR)“ = 12.4%.- Mit einem akzeptablen Höchstwert von 5% müssten
wir die Hypothese „Das Durchschnittssalär der Gesamtbelegschaft ist grösser als 115“ ablehnen.
Aussagen und Testen von 0-Faktor Hypothesen
Salär
80
120
132
145
210
75
95
105
126
150
123.8 Mittelw ert =MITTELWERT(A2:A11)
39.6 Standardabw eichung =STABW(A2:A11)
24.6 Konfidenz =KONFIDENZ(0.05;A13;10)
„Ist das Durchschnittssalär grösser als 115?“
Salär(Fr.)
Salär: kategorisch. Frage: „Wie genau kann das Durchschnittssalär bestimmt werden?“
Antwort: „Das Durchschnittssalär der zehn Personen ist 123.8 ± 24.6.”Oder: “Mit 95% Sicherheit liegt das Durchschnittssalär zwischen 99.2 und 148.4.”
- Bsp.: von n =100 Mitarbeitenden einer Stichprobe sind 23 (23%, p=0.23) im Kader.
- Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 23-c und 23+c.
- Mit 95% Sicherheit liegt die Prozentzahl der Kaderleute zwischen 14.2% und 31.3%.
- Die aus der Stichprobe geschätzte Prozentzahl der Kaderleute ist 23 ± 8.3 Prozentpunkte.
Mittelwerte
Proportionen
ZZ =0 Z = 1.64
p = 5%
Z = 1.156
p = 12.4%156.1
10/6.39
1158.12364.1
/64.1
ns
mZ
3.8100
77.023.096.1
)1(96.1
n
ppc
- Bsp.: Von den n =100 Mitarbeitenden aus der Stichprobe sind 23% (p=0.23) im Kader.
- Um die Wahrscheinlichkeit zu berechnen, dass in der Gesamtfirma mehr als z.B. 20% im Kader sind muss man zuerst Z berechnen:
- Mit Z berechnet man die Wahrscheinlichkeit wie folgt:- „=1-NORMVERT(1.169;0;1;WAHR)“ = 12.1%.- Mit einem akzeptablen Höchstwert von 5% müssten
wir die Hypothese „In der Gesamtfirma sind mehr als 20% im Kader“ ablehnen.
169.1100/77.023.0
20.023.064.1
/)1(64.1
npp
pZ
„Ist der Prozentanteil der Kaderleute grösser als 20%?“
Position(Ka/SB)
ZZ =0 Z = 1.64
p = 5%
Z = 1.169
p = 12.1%
Juni 2011 G. Beroggi ©
zum roten Faden75
Testen von 1-Faktor Hypothesen
Salär(hoch/tief)
Alter(jung/alt)
„Alter hat Einfluss auf Salär“(Alter und Salär sind abhängig)
Salär(hoch/tief)
Alter(jung/alt)
„Alter hat keinen Einfluss auf Salär“(Alter und Salär sind unabhängig)
H Tjung 20 30 40.00%alt 40 10 80.00%
Anteile mit hohem Salär
40.00%
80.00%
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
jung alt
Salär: kategorischAlter: kategorisch
H Tjung 38 12 76.00%alt 40 10 80.00%
Anteile mit hohem Salär
76.00% 80.00%
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
jung alt
0
0.5
1
1.5
2
0 0.5 1 1.5 2
Alter
Salä
r
0
0.5
1
1.5
2
2.5
0 0.5 1 1.5 2
Alter
Sal
är
Salär: kontinuierlichAlter: kontinuierlich
Salär: kontinuierlichAlter: kategorisch
H Tjung 20 30 85alt 40 10 125
Durchschnittssalär
85.00
125.00
0.00
50.00
100.00
150.00
jung alt
H Tjung 20 30 115alt 40 10 125
Durchschnittssalär
115.00 125.00
0.00
50.00
100.00
150.00
jung alt
zum Chi2-Test
zum t-Test
zur Regression
Juni 2011 G. Beroggi ©
zum roten Faden76
beobachtete Wertehoch tief
64.0% M 16 9 2520.0% F 5 20 25
21 29 50
erwartete Werte 0.16% p-Wert für Chi^2-Test
hoch tief42.0% M 11 15 2542.0% F 11 15 25
21 29 50
Prozent hohes Salär (beobachtet)
0.0%
20.0%
40.0%
60.0%
80.0%
M F
Prozent hohes Salär (erw artet)
0.0%
10.0%
20.0%
30.0%
40.0%
50.0%
M F
Chi2-Test (MF)
Die beobachteten Werte (rote Zahlen in der gelben Kontingenztabelle) unterscheiden sich signifikant von den erwarteten* Werten (blaue Zahlen in der blauen Tabelle). Somit ist das Salär vom Geschlecht abhängig. Mit der Aussage „Das Salär ist vom Geschlecht abhängig“ irrt man sich zu 0.16%, was eine sehr kleine Irrtumswahrscheinlichkeit (resp. Signifikanzniveau) ist.* „erwartet“ im Sinne, dass Geschlecht keinen Einfluss auf Salär hat.
Salär(hoch/tief)
Geschl.(M/F)
1-Faktor Hypothese(beide kategorische Werte: M/F und h/t)
• Frage: „Hängt das Salär vom Geschlecht ab.“
• Z.B. „Überproportionale viele Männer (pM) haben hohe Saläre als Frauen (pF).“
• H: M > F.• Chi-2-Test
Verteilung
a b a+bc d c+d
a+c b+d N
))()()((
)( 22
dcdbcaba
bcadN
Juni 2011 G. Beroggi ©
zum roten Faden77
t-Test (GS)
Gesch. Salär
F 80F 120F 132F 145F 210M 75M 95M 105M 126M 150
Der p-Wert ist grösser als 5%; somit schliessen wir, dass das Geschlecht keinen Einfluss hat auf das Salär.
F MMittelwert 137.4 110.2Varianz 2238.8 832.7Beobachtungen 5 5Hypothetische Differenz der Mittelwerte 0Freiheitsgrade (df) 7t-Statistik 1.0974346P(T<=t) einseitig 0.1543808Kritischer t-Wert bei einseitigem t-Test 1.8945786P(T<=t) zweiseitig 0.3087616Kritischer t-Wert bei zweiseitigem t-Test 2.3646243
t
tt =0 t = 1.89
t = -2.36 t =0 t = 2.36
p = 2.5%
p = 5%
p = 2.5%
t = 1.097
p = 15.4%
• Frage: „Hängt das Salär vom Geschlecht ab?“
• Z.B. „Männer (mM) verdienen im Schnitt mehr, als Frauen (mF).“
• H: M > F.• t-Test• 1-Faktor Varianzanalyse (ANOVA)
Salär(Fr.)
Geschl.(M/F)
1-Faktor Hypothese(kategorische Werte (M/F) und kontinuier-liche Werte (Fr.)
2
)1()1( ;
222
mn
smsns
s
yx
mn
nmt yx
Juni 2011 G. Beroggi ©
zum roten Faden78
Blocktag 3: Nachmittag
• Induktive Statistische Analyse der Hypothesen für Korrelationen (Regressionsanalyse)
• Abschluss des Berichtes
Juni 2011 G. Beroggi ©
zum roten Faden79
Ausstellungsfläche und Umsatz für Orangen
02468
1012
0 2 4 6 8 10 12
Ausstellungsfläche (qm)
Um
satz
(C
HF
)
hinten
Mitte
Eingang
Statistik und InterpretationAustellungsfläche und Umsatz für Orangen
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Austellungsfläche (qm)
Um
sa
tz (
CH
F)
Jeder Punkt im obigen Diagramm zeigt für verschiedene Filialen deren Ausstellungsfläche (AF) für Orangen und die erzielten Umsätze (U).1. Interpretation (Korrelation): Je grösser die AF, desto mehr U wird gemacht. Somit müssen alle Filialen mit kleinen AF ihre AF sofort vergrössern, damit sie mehr U machen.
Austellungsfläche und Umsatz für Orangen
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Austellungsfläche (qm)
Um
sa
tz (
CH
F)
2. Interpretation (Kausalität): AF und U haben keinen Zusammenhang. Die Tatsache, dass es in der markierten Zone im Diagramm keine Filialen hat bedeutet, dass Filialen mit kleinen AF offenbar die AF nicht genügend schnell nachfüllen, wenn sie leer werden, und sie deshalb bei kleiner AF weniger Umsatz machen.
3. Interpretation (Partielle Korrelation): Die drei Gruppen im Diagramm stehen für Filialen, welche die Orangen beim Eingang, in der Ladenmitte und hinten im Laden aufgestellt haben. U wird nicht von AF beeinflusst, sondern es ist die Lage, welche sowohl U wie auch AF beeinflusst. D.h. bei konstanter Lage (z.B. „Mitte“) gibt es keine Korrelation zwischen AF und U.
4. Interpretation (Interaktion): U hängt nicht nur von der Lage der Orangen ab, sondern auch von der Lage der Äpfel. Werden Orangen und Äpfel nebeneinander verkauft, sinkt der totale Umsatz, liegen sie aber weiter auseinander, nimmt er zu.
Austellungsfläche und Umsatz für Orangen
0
2
4
6
8
10
12
0 2 4 6 8 10 12
Austellungsfläche (qm)
Um
sa
tz (
CH
F)
Äpfel weit weg
Äpfel in der Nähe
Juni 2011 G. Beroggi ©
zum roten Faden80
1-Faktor Regressionsanalyse (00, 10)
Name Alter Gesch. Note Sem. Fach Branche Pos. Salär
7 25 M 6 6 IW Bank SB 751 26 F 5 5 SW Bank SB 803 23 M 5.5 6 IW Indus SB 956 24 M 4.5 7 SW Bank SB 1052 26 F 5 8 IW Vers SB 120
10 29 M 5 7 IW Vers SB 1268 25 F 4.5 9 IW Indus Ka 1329 31 F 4 8 SW Indus Ka 1454 32 M 4.5 10 SW Bank Ka 1505 35 F 4 9 SW Vers Ka 210
Salär und Alter
y = 8.62x - 114.10
R2 = 0.74
0
50
100
150
200
250
20 25 30 35 40Alter
Sal
är
AUSGABE: ZUSAMMENFASSUNG
Regressions-StatistikMultipler Korrelationskoeffizient 0.859046Bestimmtheitsmaß 0.73796 R2Adjustiertes Bestimmtheitsmaß 0.705205Standardfehler 21.5177Beobachtungen 10
ANOVAFreiheitsgrade (df)Quadratsummen (SS)Mittlere Quadratsumme (MS)Prüfgröße (F) F krit
Regression 1 10431.51026 10431.5103 22.52971 0.001452Residue 8 3704.089744 463.011218Gesamt 9 14135.6
Koeffizienten Standardfehler t-Statistik P-Wert Untere 95%Obere 95%Untere 95.0%Obere 95.0%Schnittpunkt (Parameter b) -114.103 50.58096264 -2.2558401 0.054072 -230.742 2.537345 -230.742 2.537345Alter (Parameter a) 8.619658 1.815984774 4.74654757 0.001452 4.43199 12.80733 4.43199 12.80733
Um die Signifikanz der Koeffizienten a und b zu testen, muss man die Regressionsanalyse durchführen.Offenbar sind die beiden Koeffizienten signifikant, denn beide p-Werte sind kleiner als 5%.Wir akzeptieren die Hypothese, dass das Salär vom Alter abhängig ist.
1-Faktor Hypothese(beide kontinuierliche Werte: Jahre, Fr.) Salär
(CHF)Alter(Jahre)
• Frage: „Hängt das Salär vom Alter ab?“• Z.B. „Je älter man ist, desto mehr verdient man: positive
Korrelation (rAS).• H: AS > 0.• Korrelationsanalyse, Kurvenanpassung• 1-Faktor Regressionsanalyse
Salär = 8.62xAlter – 114.103
Salär = 1Alter + 0
Juni 2011 G. Beroggi ©
zum roten Faden81
• Regressionslinie: y = ax + b
• a = r sy / sx
• r: Regressionskoeffizient• sx: Standardabweichung der x Werte• sy: Standardabweichung der y Werte
• b = my – a mx
• mx: Mittelwert der x Werte• my: Mittelwert der y Werte
x
yy = ax + by = ax + b
b a =
1-Faktor RegressionsanalyseZusammenhang zwischen der Steigung a und dem Korrelationskoeffizienten r
dydx
dy
dx
Juni 2011 G. Beroggi ©
zum roten Faden82
2-Faktor Regressionsanalyse
AUSGABE: ZUSAMMENFASSUNG
Regressions-StatistikMultipler Korrelationskoeffizient 0.909702906Bestimmtheitsmaß 0.827559377Adjustiertes Bestimmtheitsmaß 0.778290627Standardfehler 18.66069849Beobachtungen 10
ANOVAFreiheitsgrade (df) Quadratsummen (SS) Mittlere Quadratsumme (MS) Prüfgröße (F) F krit
Regression 2 11698.04832 5849.024162 16.79684149 0.002129308Residue 7 2437.551676 348.221668Gesamt 9 14135.6
Koeffizienten Standardfehler t-Statistik P-Wert Untere 95% Obere 95% Untere 95.0%Schnittpunkt 77.9972067 109.86384 0.709944297 0.500697861 -181.7894937 337.7839071 -181.7894937Alter 5.99301676 2.092149136 2.864526557 0.02418052 1.045870177 10.94016334 1.045870177Note -24.91759777 13.06546716 -1.907134085 0.098170563 -55.81251827 5.977322741 -55.81251827
2-Faktor Hypothese(alles kontinuierliche Werte)
• „Das Salär hängt vom Alter und von der Note ab?“• Z.B. „Je älter man ist und je besser die Note, desto
mehr verdient man (Salär ist lineare Funktion von A und N: S = k1xA + k2xN + k3).
• H: k1 > 0, k2 > 0, k3 > 0.• 2-Faktor Regressionsanalyse
Note(1-6)
Salär(Fr.)
Alter(Jahre)
• Gleiches Vorgehen im EXCEL, wie mit einem Faktor, mit dem Unterschied, dass es zwei x-Variablen (Alter und Note) hat.
• Gesucht wird das Modell, welches maximales adjustiertes Bestimmtheitsmass (adj. R2) hat und alle Koeffizienten signifikant sind (p <= 5%). Mit beiden Variablen ist das Regressionsmodell nicht zulässig, da der p-Wert des Schnittpunktes nicht signifikant ist.
• Da nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen; Alter und Note sind signifikant und somit wird adj. R2 = 0.86.
• Alter und Note haben grosse Korrelation; das Modell hat somit eine grosse Multikollinearität. Es müsste deshalb untersucht werden, ob nur das Alter als unabhängige Variable genommen werden sollte. Mit nur dem Alter als unabhängige Variable erhält man adj. R2 = 0.71.
Alter Note SalärAlter 1Note -0.658305 1Salär 0.8590461 -0.790836 1
Salär = 7.33xAlter – 16.41xNote
Salär = 1Alter + 2Note + 0
Juni 2011 G. Beroggi ©
zum roten Faden83
AF VMxi yi
195 56230 59265 72280 72300 91310 89325 98340 125350 145360 172
y = 0.6342x - 89.513
R2 = 0.7865
y = 13.009e0.0066x
R2 = 0.893
50
70
90
110
130
150
170
190
190 240 290 340 390Ausstellungsfläche
Ve
rka
ufs
me
ng
e
Typs zur Regressionsanalyse (1/3)• Gesucht wird das Modell, welches maximales adjustierte Bestimmtheitsmass (adj. R2) hat und alle Koeffizienten signifikant sind
(p ≤ 5%).
• Wenn nur der Koeffizient des Schnittpunkts nicht signifikant ist, kann man in EXCEL den Schnittpunkt = 0 festlegen.
• Grosse Multikollinearität (Korrelation zwischen unabhängigen Variablen) muss vermieden werden. Es lohnt sich, schrittweise das Modell zu bilden, indem man zuerst nur mit jener unabhängigen Variablen beginnt, die am stärksten mit der abhängigen Variablen korreliert; dann fügt man neue Variablen hinzu, solange das adj. R2 wächst.
• Wenn zwei unabhängige Variablen grosse Interaktion aufweisen, dann muss man eine neue Variable einführen, welche das Produkt der beiden Variablen ist; das lineare Modell wird somit erweitert zu einem nicht-linearen Modell mit Termen höherer Ordnung.
• Kategorische Variablen (z.B. Berufsklassen) können auch berücksichtigt werden, indem man für diese Indikatorvariablen (nehmen Werte 0 oder 1 an) einführt. Bei n Kategorien, führt man n-1 Indikatorvariablen ein. Die Indikatorvariable nimmt den Wert 1 an, wenn die entsprechende Beobachtung zutrifft, sonst 0.
• Wenn eine unabhängige Variable nicht linear, sondern gemäss einer anderen Funktion korreliert, dann kann man diese Variable transformieren und somit die Korrelation mit der abhängigen Variablen erhöhen (siehe unten).
Die lineare Regression ergibt ein R2 = 79%, während die exponentielle Funktion ein R2 = 89% hat.Somit soll man die x-Werte gemäss dieser exponentiellen Funktion glätten und dann mit den geglätteten Werten eine Regressionsanalyse durchführen.
Juni 2011 G. Beroggi ©
zum roten Faden84
• Mit der ANOVA Tabelle können wir das
Bestimmtheitsmass r2 berechnen:• r2 = SSR/SST berechnen.
ANOVAQuarat- Mittleresummer Q.-Summe Prüfgröße (F)
FG (SS) (MS) (F) F krit
Regression (SSR) 9 369.689 41.077 75.383 7.9635E-109
Residuen 1120 610.293 0.545
Gesamt (SST) 1129 979.982
• Der Anteil, den eine Variable Xk zur Erklärung
der totalen Variabilität leistet, r2k, stellt die
Wichtigkeit dieser Variablen dar und berechnet
sich wie folgt:
SSRalle-k: SSR aus der Regression
unter Ausschluss von Variable k
Typs zur Regressionsanalyse (2/3)
Salär Fehler
beobachtet vorhergesagt b - v
80.00 108.56 -28.56
120.00 108.56 11.44
132.00 109.44 22.56
145.00 161.63 -16.63
210.00 190.96 19.04
75.00 84.82 -9.82
95.00 78.36 16.64
105.00 102.10 2.90
126.00 130.56 -4.56
150.00 160.76 -10.76
Wichtigkeit einer Variablen
1. Voraussetzung für Lineare Regression
Normalverteilung der Fehler mit Mittelwert = 0 („beobachtetes Salär“ minus „mit Regression vorausgesagtes Salär“)
kalle
kallek SSRSST
SSRSSRr
2
Ist die Annahme einer Normal-verteilung des Fehlers nicht gegeben, dann gelten die statistischen Tests nicht und das R2 wird zu klein.
Normalverteilung der Fehler liegt nicht vor (Abb. links)
Salär = 7.33xAlter – 16.41xNote
Histogramm
0
1
2
3
4
5
-6.83 2.96 12.7622.56 undgrößer
Klasse
Hä
ufi
gk
eit
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
Häufigkeit
Kumuliert %
Juni 2011 G. Beroggi ©
zum roten Faden85
Alter Fehler
25 -29
26 11
23 23
24 -17
26 19
29 -10
25 17
31 3
32 -5
35 -11-40
-30
-20
-10
0
10
20
30
20 30 40
Alter
Feh
ler
fj0 0 0 02 -2 1.3 -14 -4 2 -26 -6 3 -38 -8 4 -4
10 -10 5.3 -512 -12 6.4 -614 -14 7.2 -716 -16 8.5 -818 -18 9 -9
-20
-15
-10
-5
0
5
10
15
20
0 2 4 6 8 10
x-Werte
Fe
hle
r
Typs zur Regressionsanalyse (3/3)
Woche Fehler
1 -28.56
2 11.44
3 22.56
4 -16.63
5 19.04
6 -9.82
7 16.64
8 2.9
9 -4.56
10 -10.76
-40
-30
-20
-10
0
10
20
30
-3 2 7 12
Woche
Feh
ler
3. Voraussetzung für Lineare Regression
Vermeidung von Autokorrelation (y-Werte korrelieren mit der Zeit, zu der sie gemessen wurden)
• Die Fluktuation der Fehler in einem „rauf-runter“ Muster ist ein Anzeichen der Autokorrelation.
• Autokorrelation führt dazu, dass der p-Wert unterschätzt wird, d.h. man kommt einfacher zum Schluss, dass die Regressionsfunktion Gültigkeit hat.
2. Voraussetzung für Lineare RegressionHomoskedastizität (Streuung der Fehler hängt nicht mit der Grösse der x-Werte ab; kleine x-Werte haben kleinere Varianz, während grössere x-Werte haben grössere Varianz)
• Bild links; die Fehler nehmen mit zunehmenden x-Werte zu.
• Die Verletzung der Homoskedastizität führt dazu, dass die statistische Signifikanz der Regression falsch interpretiert wird. Man kann dieses Phänomen durch die sog. „gewichtete Methode der kleinsten Quadrate“ beheben.
• Eine Verletzung der Homoskedastizität nennt man Heteroskedastizität; d.h. die Varianz der Residuen ist nicht homogen.
Beispiel
Homoskedastizität liegt nicht vor (Abb. oben)(analoges mit der „Note“ untersuchen)
Autokorrelation liegt vor (Abb. links)
Salär = 7.33xAlter – 16.41xNote
Salär = 7.33xAlter – 16.41xNote
Fazit: alle drei Voraussetzungen für eine Lineare Regression werden verletzt; somit ist das Modell nicht haltbar.
Juni 2011 G. Beroggi ©
zum roten Faden86
Nach- und Vorbereitung Studierende Tag 3
Aufwand (ca) Thema Hilfsmittel Besonderes
5 Std. Abschluss der Statistischen Tests Excel Gruppenarbeit
5. Std. Abschluss und Abgabe des Berichts Word Gruppenarbeit
Abgabe Bericht (als pdf) mit xls Datei, beide gezipped bis am xx.12.2008 (18:00) inklusive funktionierendem Link für Internetfragebogen an: gb@fhhwz.ch nur von HWZ accounts aus.
Recommended