393
Seite 1 Fachbereich Wirtschaftswissenschaften Statistik Christian Reinboth M.Sc., Dipl.-Wi.Inf.(FH) Sommersemester 2020 Berufsbegleitender Bachelorstudiengang Betriebswirtschaftslehre Sommersemester 2020 Christian Reinboth, M.Sc.

Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 1

Fachbereich Wirtschaftswissenschaften

Statistik

Christian Reinboth

M.Sc., Dipl.-Wi.Inf.(FH)

Sommersemester 2020

Berufsbegleitender Bachelorstudiengang Betriebswirtschaftslehre

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 2: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 2

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

"Statistical thinking will one day be as

necessary for efficient citizenship as

the ability to read and write."

H.G. Wells

Page 3: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 3

Fachbereich Wirtschaftswissenschaften

Auftakt mit Spaß:Das Ziegenproblem

Eisbrecheraufgabe

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 4: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 4

Fachbereich Wirtschaftswissenschaften

Für welche Tür sollte man sich entscheiden?

Sommersemester 2020

Christian Reinboth, M.Sc.

1 2 3

Für welche Tür

entscheiden

Sie sich?

Ich

nehme

die 1!

Page 5: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 5

Fachbereich Wirtschaftswissenschaften

Für welche Tür sollte man sich entscheiden?

Sommersemester 2020

Christian Reinboth, M.Sc.

1 2 3

Hinter der 3 ist

übrigens eine

Ziege!

Määäh!

Bleibe ich jetzt

bei der 1, oder

wechsele ich?

Page 6: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 6

Fachbereich Wirtschaftswissenschaften

Einige interessante Fragestellungen

– Das Ziegenproblem lässt sich nahezu beliebig weiterdiskutieren...

– Würde ein neuer Kandidat auf der Bühne erscheinen, nachdem sich der erste

Kandidat bereits endgültig für eine Tür entschieden hat – könnte dieser sich mit

einer 50/50-Siegwahrscheinlichkeit zwischen den verbliebenen Türen entscheiden?

– Wenn von Anfang an zwei Kandidaten/innen mitspielen, von denen eine/r Tür 1

und eine/r Tür 2 wählt – können sich dann wirklich die Gewinnchancen beider

erhöhen, wenn sie auf die jeweils andere Tür wechseln, nachdem Tür 3

geöffnet wurde?

– ...

Sommersemester 2020

Christian Reinboth, M.Sc.

Noch viel mehr Varianten in: „Das Ziegenproblem – Denken in

Wahrscheinlichkeiten“ von Gero von Randow (rororo-Verlag, 2004)

Lesetipp

Page 7: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 7

Fachbereich Wirtschaftswissenschaften

Statistik I

Christian Reinboth

M.Sc., Dipl.-Wi.Inf.(FH)

Sommersemester 2020

Berufsbegleitender Bachelorstudiengang Betriebswirtschaftslehre

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 8: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 8

Fachbereich Wirtschaftswissenschaften

StatistikWesentliche Kursinhalte (1)

Kurzvorstellung

Organisatorisches

Bücher und Software

Grundlagen

Einordnung

Grundbegriffe

Skalenniveaus

Variablentypen

Qualitative und

quantitative Forschung

Unterschiede

Vor- und Nachteile

Methoden der Datenerhebung

Methoden der Datenauswertung

Sommersemester 2020

Christian Reinboth, M.Sc.

Erhebungsplanung

und -durchführung

Erhebungsarten

Zufällige Auswahl

Klumpenstichprobe

Willkürliche Auswahl

Auswahl typischer Fälle

Konzentrationsverfahren

Mindeststichprobengröße

Gütekriterien

Bedeutung

Validität

Reliabilität

Objektivität

Repräsentativität

Sonstige Gütekriterien

Gutes Fragebogendesign

Zieldefinition

Anschreiben

Incentivierung

Frageformulierung

Gängige Fragetypen

Deskriptive Statistik

Häufigkeiten

Häufigkeiten

Häufigkeitstabellen

Bildung von Klassen

Verteilungsfunktion

Summenfunktion

Statistik I

Page 9: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 9

Fachbereich Wirtschaftswissenschaften

StatistikWesentliche Kursinhalte (2)

Statistische Lagemaße

Statistische Lagemaße

Arithmetisches Mittel

Median

Quartile

Modus

Dispersionsparameter

Dispersionsparameter

Spannweite

Interquartilsabstand

Fünf-Werte-Zusammenfassung

Varianz

Standardabweichung

Variationskoeffizient

Sommersemester 2020

Christian Reinboth, M.Sc.

Verteilungsmaße

Verteilungsmaße

Momentenkoeffizient

Quartilskoeffizient

Kurtosis / Exzeß

Korrelationskoeffizienten

Korrelationskoeffizienten

Korrelation und Kausalität

Bravais-Pearson-Koeffizient

Rangkorrelationskoeffizienten

Spearman-Koeffizient

Kendall-Koeffizient

Explorative Statistik

Grafische Darstellungen

Box-Whisker-Plot

Stem-and-Leaf-Plot

Objektivität von Grafiken

Ausreißer und

fehlende Werte

Start der Präsenzlehre

Statistik II

Page 10: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 10

Fachbereich Wirtschaftswissenschaften

StatistikWesentliche Kursinhalte (2)

Induktive Statistik

Lineare Regression

Zielstellung

Voraussetzungen

Interdependenzproblem

Methode der kl. Quadrate

Ergebnisinterpretation

Bestimmtheitsmaß

Statistische Testverfahren

Statistische Tests

Chi-Quadrat-Test

Alpha-Fehlerinflation

Sommersemester 2020

Christian Reinboth, M.Sc.

Mengenlehre

Mengenlehre

Logische Operatoren

Kommutativgesetz

Assoziativgesetz

Distributivgesetz

De Morgansche Regel

Venn-Diagramme

Wahrscheinlichkeitslehre

Laplace-Wahrscheinlichkeit

Axiome von Kolmogoroff

Additionssatz

Multiplikationssatz

Pfaddiagramme

Kombinatorik

Satz von Bayes

Konfidenzintervalle

Statistische Software

Kostenlose Software

Einführung in R

Klausurvorbereitung

Übungsaufgaben

Probeklausur

Fragestunde

Statistik II

Page 11: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 11

Fachbereich Wirtschaftswissenschaften

KurzvorstellungArbeit, Forschung und Lehre

Sommersemester 2020

Christian Reinboth, M.Sc.

Arbeit bei der HarzOptics GmbH

- An-Institut der HS Harz (seit 2007)

- Gegründet 2006, 4 Mitarbeiter/innen

- Entwicklung optischer Messverfahren

zur Qualitätssicherung in der Luftfahrt

- Projektierung des Breitbandausbaus im

Auftrag von Kreisen und Kommunen

- Fernlehrgang „Technische Optik“

Arbeit an der Hochschule Harz

- Seit 2010 Forschung im Bereich AAL

und Telepflege, seit 2013 Fundraising

- IHK-Forschungspreis 2006

- 3. Platz Hugo-Junkers-Preis 2008

- 3. Platz Hugo-Junkers-Preis 2012

- NoAE Innovation Award 2011/2012

Bisherige Lehrerfahrung

- Lehrbeauftragter an der HS Harz von

2006 bis 2010 und seit 2015 (Statistik,

Marktforschung, SPSS, HTML, BIS und

strategisches Informationsmanagement)

- Dozent für die Harzer Hochschulgruppe

(2007 - 2008) und die Sternwarte Sankt

Andreasberg / VHS Goslar (2011 - 2013)

© MDKK GmbH

Page 12: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 12

Fachbereich Wirtschaftswissenschaften

Mein zentrales ForschungsthemaUmweltfreundliche Beleuchtungsplanung

Sommersemester 2020

Christian Reinboth, M.Sc.

Innenraumsimulation mit DIALux (Sternwarte Sankt Andreasberg) Außenraumsimulation mit DIALux (Ortsteil Freiheit in Osterode)

Page 13: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 13

Fachbereich Wirtschaftswissenschaften

OrganisatorischesWie wird dieser Kurs ablaufen?

Sommersemester 2020

Christian Reinboth, M.Sc.

– Beherrschung der Grundbegriffe von

Statistik und Wahrscheinlichkeitslehre

– Sichere deskriptive Analyse von Daten

– Grundkenntnisse über statistische

Testverfahren und die univariate

lineare Regressionsanalyse

– Vorlesung mit eingestreuten Übungen

– Übungsaufgaben zur eigenständigen

Vorbereitung der Abschlussprüfung

– Klausuren über 60 und 120 Minuten

Page 14: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 14

Fachbereich Wirtschaftswissenschaften

Empfohlene Literatur(Weitere Hinweise in der Modulbeschreibung)

Christian Reinboth, M.Sc.

I. Rößler & A. Ungerer: Statistik für Wirtschaftswissenschaftler.

Eine anwendungsorientierte Darstellung, Springer-Verlag, 4.

Auflage, Luxemburg, 2014, ISBN: 978-3-642-41259-2

G. Bourier: Beschreibende Statistik. Praxisorientierte

Einführung mit Aufgaben und Lösungen, Gabler-Verlag,

9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7

C. Reinboth: Induktive Statistik – Übungsaufgaben mit

Musterlösungen, eBook, GRIN-Verlag für wissenschaftliche

Texte, 75 Seiten, München, 2013, ISBN: 978-3-656-53867-7

Sommersemester 2020

Page 15: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 15

Fachbereich Wirtschaftswissenschaften

Nutzung von Stud.IPhttps://studip.hs-harz.de

Sommersemester 2020

Christian Reinboth, M.Sc.

- Foliensätze - Musterlösungen

- Übungsaufgaben - PAST-Datensätze

- Diskussionsforum - PSPP-Datensätze

- Kollaboratives Wiki - Klausureingrenzung

- Formelsammlungen - ...und vieles mehr...

Page 16: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 16

Fachbereich Wirtschaftswissenschaften

Begleitender Vorlesungsblog im „Thurm“https://wissenschafts-thurm.de/grundlagen-der-statistik/

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 17: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 17

Fachbereich Wirtschaftswissenschaften

Was ist SPSS?Statistical Package for Social Sciences

SPSS ist eines der marktführenden Softwareprodukte für Datenanalysen in der

Sozial- und Gesundheitswissenschaft sowie in der Markt- und Meinungsforschung

Es wurde 1983 von SPSS Inc. Entwickelt (Ausgründung der Stanford University)

Der Name wechselte mehrfach von „Statistical Package for Social Sciences“ über

„Superior Performing Software System“ und „Predictive Analysis Software“ (PASW)

bis zu IBM SPSS STATISTICS seit der Übernahme von SPSS Inc. durch IBM in 2009

Sommersemester 2020

Christian Reinboth, M.Sc.

www.ibm.com/software/de/analytics/spss/

Page 18: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 18

Fachbereich Wirtschaftswissenschaften

Empfehlenswerte freie Statistik-Software(Kategorie: Allgemeine Datenanalyse)

Sommersemester 2020

Christian Reinboth, M.Sc.

PAST (Windows, Mac)

- Paleontological Statistics Software

Package for Education and Data Analysis

(Universities of Copenhagen and Oslo)

http://folk.uio.no/ohammer/past/

PSPP (Windows, Mac, Linux)

- Open Source-“Nachbau“ von SPSS

- Identische Funktionen und Bedienung,

„Look & Feel“ ist sehr gut vergleichbar

https://www.gnu.org/software/pspp/

SSP (Windows, Mac)

- Smith's Statistical Package

- “Ein-Mann-Entwicklung” von Prof.

Gary Smith vom Pomona College

http://economics-files.pomona.edu/

GarySmith/StatSite/ssp.html

Page 19: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 19

Fachbereich Wirtschaftswissenschaften

Empfehlenswerte freie Statistik-Software(Kategorie: Spezielle Anforderungen)

Sommersemester 2020

Christian Reinboth, M.Sc.

JASP (Windows, Mac, Linux)

- Just Another Stats Program

- Bietet liquiden Output, der sich mit

jedem Klick ändert (ideal für Lerner)

https://jasp-stats.org

SOFA (Windows, Mac, Linux)

- Statistics Open For All

- Bietet vielfältige Möglichkeiten der

grafischen Aufbereitung von Daten

http://www.sofastatistics.com

MacANOVA (Windows, Mac, Linux)

- Entwickelt an der Uni Minnesota

- Der Schwerpunkt der Software liegt

auf der Varianzanalyse (ANOVA)

http://www.stat.umn.edu/macanova/

Page 20: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 20

Fachbereich Wirtschaftswissenschaften

Softwarealternativen zu SPSSFür Übungen am heimischen Rechner…

Sommersemester 2020

Christian Reinboth, M.Sc.

Software URL System(e)

PSPP https://www.gnu.org/software/pspp/ Alle

PAST http://folk.uio.no/ohammer/past/ Win, Mac

SSP http://economics-files.pomona.edu/

GarySmith/StatSite/ssp.html

Win, Mac

SOFA http://www.sofastatistics.com Alle

SciLab http://www.scilab.org Alle

FreeMat http://freemat.sourceforge.net Alle

Gnumeric http://www.gnumeric.org Linux

Page 21: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 21

Fachbereich Wirtschaftswissenschaften

Grundlagen

Teil I

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 22: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 22

Fachbereich Wirtschaftswissenschaften

Kurze Einordnung der Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Mathematik

Stochastik

Statistik

Wahrscheinlichkeitstheorie

Diverse Teilgebiete

wie z.B. Analysis,

Algebra, Logik…

deskriptiv

explorativ

induktiv „Erhebung, Zusammenfassung, Darstellung und Analyse

von Daten sowie Methoden zum Ziehen von Schlüssen

auf Grundlage von Daten“ - Tobias Hell, LFU Innsbruck

Page 23: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 23

Fachbereich Wirtschaftswissenschaften

Kurze Einordnung der Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

deskriptiv explorativ

induktiv

Statistik

Beschreiben

DarstellenZusammenfassen

Erkunden

Schlussfolgern

Auffinden

(von Gesetz-

mäßigkeiten)

Analysieren

Schätzen

Testen

Untersuchen

Page 24: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 24

Fachbereich Wirtschaftswissenschaften

Kurze Einordnung der Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

deskriptiv explorativ

induktiv

Statistik

Lagemaße

Streuungsmaße

Korrelationskoeffizienten

Chi²-Test

Grafiken

Lineare Regression

Ausreißeranalyse

Fehlende Werte

Verteilungsmaße

Page 25: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 25

Fachbereich Wirtschaftswissenschaften

Grundbegriffe der StatistikWer erinnert sich noch?

Grundgesamtheit / Population

= Menge aller relevanten statistischen Einheiten

Teilgesamtheit / Teilpopulation

= Betrachtete Teilmenge einer Grundgesamtheit

Stichprobe

= Real untersuchte Teilmenge einer Grundgesamtheit

Statistische Einheiten

= Einzelne im Rahmen einer Erhebung untersuchte Objekte

Merkmal

= Interessierende Größe der statistischen Einheit (Variable)

Ausprägung

= konkreter Merkmalswert einer statistischen Einheit (Wert)

Sommersemester 2020

Christian Reinboth, M.Sc.

Alle Studenten

an der HS Harz

(davon) genau 35

befragte Studenten

Alter

23 Jahre

Klaus

Meier

(davon) alle

BWL-Studenten

Page 26: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 26

Fachbereich Wirtschaftswissenschaften

Übung: Grundbegriffe der Statistik

– Eine Wohnungsbaugesellschaft will aus der Menge all ihrer Mieterinnen und Mieter

diejenigen mit einem Alter oberhalb von 65 Jahren zum Thema „seniorenfreundliches

Wohnen“ befragen. Hierzu werden per Zufall 150 ältere Mieterinnen und Mieter aus

der Kundenkartei herausgesucht und angeschrieben. Gefragt wird unter anderem

nach der persönlichen Einschätzung von barrierefreien Korridoren, wobei lediglich

einer der Befragten angab, dass diese für ihn „überhaupt nicht von Bedeutung“ sei.

– Grundgesamtheit:

– Teilgesamtheit:

– Stichprobe:

– Statistische Einheit(en):

– Merkmal:

– Ausprägung:

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 27: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 27

Fachbereich Wirtschaftswissenschaften

Übung: Grundbegriffe der Statistik

– Eine Wohnungsbaugesellschaft will aus der Menge all ihrer Mieterinnen und Mieter

diejenigen mit einem Alter oberhalb von 65 Jahren zum Thema „seniorenfreundliches

Wohnen“ befragen. Hierzu werden per Zufall 150 ältere Mieterinnen und Mieter aus

der Kundenkartei herausgesucht und angeschrieben. Gefragt wird unter anderem

nach der persönlichen Einschätzung von barrierefreien Korridoren, wobei lediglich

einer der Befragten angab, dass diese für ihn „überhaupt nicht von Bedeutung“ sei.

– Grundgesamtheit: Alle Mieterinnen und Mieter der Wohnungsbaugesellschaft

– Teilgesamtheit: Nur ältere Mieterinnen und Mieter oberhalb von 65 Jahren

– Stichprobe: 150 per Zufall selektierte ältere Mieterinnen und Mieter

– Statistische Einheit(en): Einzelne befragte Mieterinnen und Mieter

– Merkmal: Persönliche Einschätzung von barrierefreien Korridoren

– Ausprägung: Ist für Befragten „überhaupt nicht von Bedeutung“

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 28: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 28

Fachbereich Wirtschaftswissenschaften

Statistische SkalenniveausWelches Informationsniveau haben Daten?

Nominalskala

Daten sind nur Bezeichnungen ohne Rangordnung

Feststellbar ist lediglich Gleichheit oder Ungleichheit

Ordinalskala

Daten weisen eine natürliche (!) Rangordnung auf

Abstände zwischen Daten sind nicht interpretierbar

Intervallskala

Daten können in eine Rangordnung gebracht werden

Abstände zwischen Daten sind ebenfalls interpretierbar

Verhältnisskala

Genau wie Intervallskala – nur mit natürlichem Nullpunkt

Sommersemester 2020

Christian Reinboth, M.Sc.

Geschlecht, Telefonnummern,

Kontonummern, Geschmack…

Schulnoten, Präferenzrangfolgen,

Dienstränge, Zufriedenheiten…

Temperaturen in Celsius oder

Fahrenheit, Jahreszahlen…

Temperaturen in Kelvin, Zeit,

Streckenlängen, Wassertiefen…

Page 29: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 29

Fachbereich Wirtschaftswissenschaften

Diskrete und stetige VariablenWie viele Ausprägungen gibt es?

Diskrete Variablen („zählen“)

Endlich oder abzählbar unendlich viele Ausprägungen

Variablen mit nur zwei Ausprägungen sind dichotom

Stetige Variablen („messen“)

Alle Werte eines Intervalls sind mögliche Ausprägungen

Die Zahl möglicher Ausprägungen ist somit unendlich

Quasi-stetige Variablen („ungenau messen“)

Diskrete Variablen mit sehr vielen Ausprägungen

werden in der Praxis oft wie stetige Variablen

behandelt (und damit „quasi-verstetigt“)

Quasi-stetig sind auch stetige Variablen, die

nur diskret genau gemessen werden können

Sommersemester 2020

Christian Reinboth, M.Sc.

Augen beim Würfeln, Kinderzahl,

Haarfarbe, Geschlecht, Berufe...

Wassertiefe, Luftfeuchtigkeit,

Wassertemperatur, Zeitintervall...

Nettoeinkommen, Produktpreise...

Was bedeutet

„abzählbar

unendlich“?

Page 30: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 30

Fachbereich Wirtschaftswissenschaften

Skalenniveaus und Variablentypen

Sommersemester 2020

Christian Reinboth, M.Sc.

Daten

Nominalskala OrdinalskalaKardinalskala /

metrische Skala

meist

stetig

meist

diskret

meist

diskret

häufbar(mehrere Ausprägungen)

nicht häufbar(nur eine Ausprägung)

Intervallskala(kein natürlicher Nullpunkt)

Verhältnisskala(natürlicher Nullpunkt)

• Keine Rangordnung

Beispiele

• Geschlecht

• Studiengang

• Familienstand

• Telefonnummer

• Rangordnung

• Keine interpretier-

baren Abstände

Beispiele

• Schulnoten

• Steuerklassen

• Präferenzrankings• Rangordnung

• Interpretierbare Abstände

Beispiele

• Preis in EUR

• Distanz in cm

Warum

ist das

wichtig?

Page 31: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 31

Fachbereich Wirtschaftswissenschaften

Übung: Skalenniveaus und Variablentypen

– Wassertiefe eines Schwimmbeckens

– Telefonnummern von Versandkunden

– Geschmacksrichtungen von Speiseeis

– Schulnoten auf einer Skala von 1 bis 6

– Abstand zwischen zwei Gebäuden in cm

– Preis eines Neuwagens in Euro und Cent

– Haarfarbe von Kundinnen im Friseursalon

– Temperatur eines glimmenden Holzscheits

– Produktwertung auf einer Skala von 1 bis 5

– Klausurnoten auf einer Skala von 1,0 bis 5,0

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 32: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 32

Fachbereich Wirtschaftswissenschaften

Übung: Skalenniveaus und Variablentypen

– Wassertiefe eines Schwimmbeckens metrisch, stetig

– Telefonnummern von Versandkunden nominal, diskret

– Geschmacksrichtungen von Speiseeis nominal, diskret

– Schulnoten auf einer Skala von 1 bis 6 ordinal, diskret

– Abstand zwischen zwei Gebäuden in cm metrisch, stetig

– Preis eines Neuwagens in Euro und Cent metrisch, diskret

– Haarfarbe von Kundinnen im Friseursalon nominal, diskret

– Temperatur eines glimmenden Holzscheits metrisch, stetig

– Produktwertung auf einer Skala von 1 bis 5 ordinal, diskret

– Klausurnoten auf einer Skala von 1,0 bis 5,0 ordinal, diskret

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 33: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 33

Fachbereich Wirtschaftswissenschaften

Qualitative und quantitative Forschung

Teil II

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 34: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 34

Fachbereich Wirtschaftswissenschaften

Was unterscheidet beide Ansätze?

Quantitative Forschung

– Hypothesen werden vorab

festgelegt und überprüft

– Erkenntnisse aus der Stichprobe

sollen für Grundgesamtheit gelten

– Im Vordergrund steht

die (hoffentlich) objektive

Perspektive der Forschenden

Sommersemester 2020

Christian Reinboth, M.Sc.

Qualitative Forschung

– Hypothesen werden neu aus

erhobenen Daten entwickelt

– Erkenntnisse aus Erhebungen

werden nicht verallgemeinert

– Im Vordergrund steht

die (gewollt) subjektive

Perspektive der Betroffenen

Kombination

via „mixed

methods“

Page 35: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 35

Fachbereich Wirtschaftswissenschaften

Beispielhafte Erhebungsverfahren

Quantitative Forschung

– Versuche

– Experimente

– Befragungen

– Beobachtungen

– Automatische Erfassung

Sommersemester 2020

Christian Reinboth, M.Sc.

Qualitative Forschung

– Interviews

– Shadowing

– Delphi-Verfahren

– Einzelfallanalysen

– Gruppendiskussionen

Forscher entscheiden, was wichtig ist Betroffene entscheiden, was wichtig ist

Page 36: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 36

Fachbereich Wirtschaftswissenschaften

Beispielhafte Auswertungsverfahren

Quantitative Forschung

– Clusteranalyse

– Varianzanalyse

– Faktorenanalyse

– Statistische Tests

– Regressionsanalyse

– Answer-Tree-Verfahren

Sommersemester 2020

Christian Reinboth, M.Sc.

Qualitative Forschung

– Laddering

– Diskursanalyse

– Kategorisierung

– Narrative Analyse

– Konversationsanalyse

– Hermeneutische Analyse

Kernkompetenz: Mathematik / Statistik Kernkompetenz: Text- / Inhaltsanalyse

Page 37: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 37

Fachbereich Wirtschaftswissenschaften

Qualitative Methodik: Das Laddering

– Interview-Methode der 1980er,

die dem Ziel der Aufdeckung des

subjektiven Kundennutzens von

Produkteigenschaften dient

– Grundgedanke: Es wird immer

weiter nach dem Nutzen gefragt,

bis keine tiefere Antwortebene mehr

erreichbar ist → unbewusste Motive

und verdeckte Einstellungen der

Befragten werden offengelegt

Sommersemester 2020

Christian Reinboth, M.Sc.

Produkteigenschaft: Auto-Save

Warum ist das wichtig?

Ausschluss doppelter Arbeit

Warum ist das wichtig?

Mehr Zeit für die Familie…

Page 38: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 38

Fachbereich Wirtschaftswissenschaften

Quantitative vs. qualitative Forschung

Sommersemester 2020

Christian Reinboth, M.Sc.

quantitativqualitativ

exakt offen

flexibel

übertragbar

objektiv subjektiv

suchend

bestätigendindividuell

vorgegeben

mathematisch

formell

Liefert: Zahlen, Daten und Fakten Liefert: Verständnis und Ideen

persönlich

anonym

schließend vertiefend

Page 39: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 39

Fachbereich Wirtschaftswissenschaften

Planung und Durchführungquantitativer Erhebungen

Teil III

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 40: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 40

Fachbereich Wirtschaftswissenschaften

Formen der Stichprobenziehung

Planung und Durchführungquantitativer Erhebungen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 41: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 41

Fachbereich Wirtschaftswissenschaften

Die Phasen der Markt- und Meinungsforschung

Definition Formulierung der Fragestellung und

Erstellung des Forschungsdesigns

Design Festlegung der Datenquellen und

der zu verwendenden Methoden

Datengewinnung Durchführung von Beobachtungen,

Befragungen oder Experimenten

Datenanalyse Datenbereinigung, Kodierung,

Auswertung und Interpretation

Dokumentation Erstellung des Abschlussberichts

und Präsentation der Ergebnisse

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 42: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 42

Fachbereich Wirtschaftswissenschaften

Methoden der Datengewinnung

Sommersemester 2020

Christian Reinboth, M.Sc.

Frage: Wie werden Daten erhoben?

primärstatistisch sekundärstatistisch tertiärstatistisch

Nur noch

aggregierte

Daten

Neu

erhobene

Daten

Bereits

existierende

Daten

Methodik Ablauf Umfang

Experiment

Erfassung

Beobachtung

Befragung

Querschnitt

Längsschnitt

mündlich

schriftlich

Vollerhebung

Teilerhebung

willkürlich

zufällig

bewusst

Page 43: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 43

Fachbereich Wirtschaftswissenschaften

Methoden der Stichprobenziehung (1)

– Willkürliche Auswahl

– z.B. willkürliche Ansprache von Passantinnen und Passanten in der

Fußgängerzone oder von Teilnehmerinnen und Teilnehmern einer

Demo; empirisch wertlos (es sei denn für qualitative Vorstudien)

– Zufallsauswahl

– Einfache Zufallsstichprobe: Jedes Element der Grundgesamtheit hat

die exakt gleiche Chance, in die Stichprobe aufgenommen zu werden

(z.B. Zufallsauswahl aus einem Register aller Kundinnen und Kunden)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 44: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 44

Fachbereich Wirtschaftswissenschaften

Methoden der Stichprobenziehung (2)

– Geschichtete Zufallsstichprobe: Durchführung mehrerer einfacher

Zufallsstichproben in disjunkten Schichten der Grundgesamtheit

(z.B. aus kinderlosen Familien und aus Familien mit Kindern)

– Klumpenstichprobe: Unterteilung einer Grundgesamtheit

in natürliche Klumpen auf Basis eines einzelnen Merkmals

und anschließende Vollerhebung innerhalb dieser Klumpen

(z.B. Untersuchung von Planquadraten auf einer Landkarte)

[Das Risiko bei diesem Verfahren besteht insbesondere

in der irrtümlichen Auswahl nichtrepräsentativer Klumpen]

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 45: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 45

Fachbereich Wirtschaftswissenschaften

Methoden der Stichprobenziehung (3)

– Bewusste Auswahl

– Quotenstichprobe: Konstruktion einer Stichprobe, die bestimmte

Merkmale perfekt abbildet, auf Basis dieser Merkmale (z.B. Befragung

von Akademikern und Nichtakademikern nach Bevölkerungsanteilen)

[Das Problem bei diesem Verfahren besteht insbesondere im stetig

schwindenden Spielraum bei der Auswahl der „letzten Fälle“, die oft

eine Vielzahl von Merkmalsbedingungen zu erfüllen haben, darunter

ggf. auch seltene oder unmögliche Merkmalskombinationen]

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 46: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 46

Fachbereich Wirtschaftswissenschaften

Methoden der Stichprobenziehung (4)

– Konzentrationsverfahren: Konzentration auf besonders relevante

Teilgesamtheiten (z.B. vorrangige Befragung von Großkunden in

einer Kundenbefragung, um deren Bedeutung widerzuspiegeln)

– Auswahl typischer Fälle: (Möglichst objektive) Auswahl „typischer“

Fälle (etwa typischer Kundinnen und Kunden, typischer Studierender

oder typischer Mitarbeiterinnen und Mitarbeiter) und deren möglichst

vollumfängliche Untersuchung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 47: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 47

Fachbereich Wirtschaftswissenschaften

Methoden der Stichprobenziehung (5)

Sommersemester 2020

Christian Reinboth, M.Sc.

Frage: Wie werden Daten erhoben?

willkürlich zufällig bewusst

bewusste

Konstruktionplanlos

faire

Zufalls-

auswahl

einfache

Zufallsstichprobe

geschichtete

Zufallsstichprobe

Klumpen-

stichprobe

Quotenauswahl

Konzentrations-

verfahren

Auswahl

typischer Fälle

Page 48: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 48

Fachbereich Wirtschaftswissenschaften

Wie groß sollte meine Stichprobe sein?

– Stichproben sind nur (streng) repräsentativ, wenn sie drei Bedingungen erfüllen:

– Echte Zufallsauswahl aus einer vollständig erfassten Grundgesamtheit

– Generierung einer Stichprobe mit ausreichendem Stichprobenumfang

– Hohe Rücklaufquote idealerweise von 90% und mehr der Probanden

– Wie man sich leicht vorstellen kann, ist eine Auswahl von 3 Personen aus 1.000

nicht repräsentativ – auch dann nicht, wenn es sich um eine echte Zufallsauswahl

handelt und alle 3 Probanden/innen an der Erhebung teilnehmen (100% Rücklauf)

– Da Zufallsauswahl und Rücklaufquote bereits in Statistik I besprochen wurden,

bleibt für Statistik II nun nur noch eine offene Frage: Welchen Umfang sollte

eine Zufallsstichprobe mindestens haben?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 49: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 49

Fachbereich Wirtschaftswissenschaften

Eine Möglichkeit (von vielen): Cochran-Formel

– William G. Cochran entwickelte 1963 die nach ihm benannte Formel

basierend auf dem bereits bekannten Prinzip der Konfidenzintervalle

– n = Stichprobenumfang (Zielgröße)

– N = Größe der Grundgesamtheit (z.B. 10.000)

– e = Breite des Konfidenzintervalls (z.B. +/- 5%)

– p = Stichprobenanteil (z.B. 20%)

– q = (1-p) (ergibt sich)

– Z = Z-Wert aus der Standard-

normalverteilung für die gewollte

Sicherheit des Konfidenzintervalls (z.B. 1,96 bei 95%)

– Ist der Stichprobenanteil (der Anteil an Probanden/innen, welche die untersuchte

Merkmalsausprägung aufweisen) unbekannt – was häufig der Fall ist – setzt man

mit p=0,5 den konservativsten Schätzwert (maximale Stichprobengröße) ein

Sommersemester 2020

Christian Reinboth, M.Sc.

Ne

qpZ

e

qpZ

n

1**

1

**

2

2

2

2

−+

=

Page 50: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 50

Fachbereich Wirtschaftswissenschaften

Beispielrechnung nach Cochran

– Gegeben sei eine Grundgesamtheit von 50.000 Personen (N), ein unbekannter

Stichprobenanteil (p=0,5; q=0,5), sowie eine gewünschte Intervallbreite von +/-

5% um den Stichprobenanteilswert (e=0,05) bei 95%iger Sicherheit (Z=1,96)

– Interpretation: Bei einer Grundgesamtheit von 50.000 Personen wären mindestens

382 Personen zu befragen, wenn man sich zu 95% sicher sein möchte, dass der

reale Anteilswert um maximal +/- 5% vom Stichprobenwert abweicht

Sommersemester 2020

Christian Reinboth, M.Sc.

23,381

50000

105,0

5,0*5,0*96,1

1

05,0

5,0*5,0*96,1

1**

1

**

2

2

2

2

2

2

2

2

=

+

=

−+

=

Ne

qpZ

e

qpZ

n

Aufrunden!

Page 51: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 51

Fachbereich Wirtschaftswissenschaften

Der Sample Sizer als Stichproben-Tool

Sommersemester 2020

Christian Reinboth, M.Sc.

− Was passiert eigentlich bei....

− größerer Grundgesamtheit?

− kleinerer Grundgesamtheit?

− bekannten Anteilswerten?

− kleinerer Intervallbreite?

− größerer Intervallbreite?

− kleinerer Sicherheit?

− größerer Sicherheit?

− Nicht zulässig ist natürlich

das nachträgliche „Anpassen“

der Parameter an das gewollte

Ergebnis / die realisierbare Größe

Kostenloser Download unter:

https://www.hs-harz.de/creinboth/lehre/

Page 52: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 52

Fachbereich Wirtschaftswissenschaften

Wesentliche Gütekriterien

Planung und Durchführungquantitativer Erhebungen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 53: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 53

Fachbereich Wirtschaftswissenschaften

Die Gütekriterien quantitativer Forschung (1)

Objektivität

– Erhebungen sind objektiv, wenn sie frei von subjektiven Einflüssen sind,

die Ergebnisse also nicht von den durchführenden Personen abhängen

– Objektiver Idealfall: Bei der Verwendung des gleichen Messinstruments

gelangen unterschiedliche Personen zu den exakt gleichen Resultaten

– Es wird (je nach Stadium der Erhebung) in Durchführungsobjektivität,

Auswertungsobjektivität und Interpretationsobjektivität unterschieden

Sommersemester 2020

Christian Reinboth, M.Sc.

Messe ich „fair“ und unabhängig?

Page 54: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 54

Fachbereich Wirtschaftswissenschaften

Die Gütekriterien quantitativer Forschung (2)

Reliabilität

– Die Reliabilität bezeichnet den Grad der Zuverlässigkeit, mit der ein

Merkmal erfasst wird – grundsätzlich sollte das Ergebnis möglichst

unabhängig von einem konkreten Mess-/Erhebungsvorgang sein

– Reliabler Idealfall: Solange sich die Ausprägung eines Merkmals

nicht ändert, führen Messungen mit einem reliablen Instrument

immer wieder zu identischen Ergebnissen

– Fehlende Werte reduzieren die Reliabilität einer Erhebung

Sommersemester 2020

Christian Reinboth, M.Sc.

Messe ich sicher und zuverlässig?

Page 55: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 55

Fachbereich Wirtschaftswissenschaften

Die Gütekriterien quantitativer Forschung (3)

Validität

– Eine Messung ist dann valide, wenn sie das

Merkmal misst, welches gemessen werden soll

– Es ist zwischen interner und externer Validität zu unterscheiden

– Interne Validität: Alle Störvariablen sind ausgeschaltet, so dass nur die zu

untersuchenden Merkmale erfasst werden (möglichst kontrollierte Umgebung)

– Externe Validität: Die Ergebnisse sind möglichst gut generalisierbar, lassen sich

also auf andere Situationen übertragen (möglichst natürliche Umgebung)

Sommersemester 2020

Christian Reinboth, M.Sc.

Für alle

Merkmale

gleich

schwierig?

Wider-

spruch?

Messe ich, was ich messen will?

Page 56: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 56

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

Reliabilität

Validität

hoch niedrig

hoch

niedrig

Tatsächlicher Wert (Wiederholte) Messwerte

Page 57: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 57

Fachbereich Wirtschaftswissenschaften

Weitere Kriterien für die Güte erhobener Daten

– Relevanz für den Untersuchungsgegenstand

– Vollständigkeit und Korrektheit der Datenerfassung

– Aktualität („Nichts ist so alt wie die Zeitung von gestern…“)

– Weiterverwendbarkeit der Daten (Open Access, Datenschutz…)

Tauchen in den Medien nicht immer zwei andere Kriterien auf…?

– Repräsentativität der erhobenen Daten → mehr dazu gleich

– Signifikanz der durchgeführten Tests → mehr dazu später

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 58: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 58

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

"Die drei R der guten quantitativen

Forschung sind Repräsentativität,

Reproduzierbarkeit und

R-gebnisoffenheit."

Lars Fischer

Page 59: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 59

Fachbereich Wirtschaftswissenschaften

Wann sind Daten repräsentativ?Nicht immer stimmt die Behauptung...

– Eine Stichprobe ist repräsentativ, wenn sie alle für die Grundgesamtheit

charakteristischen Merkmale und Merkmalskombinationen getreu der

realen relativen Häufigkeiten in der Grundgesamtheit aufweist, d.h.

ein exaktes Merkmalsabbild der Grundgesamtheit darstellt

– Der Begriff hat eine hohe Suggestivwirkung und wird in der Praxis der

Markt- und Meinungsforschung leider sehr häufig zu Unrecht verwendet

– Faustregel: Der Begriff sollte nur verwendet werden, wenn eine faire

statistische Zufallsauswahl ausreichenden Umfangs mit sehr hoher

(idealerweise maximaler) Rücklaufquote aus einer klar definierten

Grundgesamtheit vorliegt

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 60: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 60

Fachbereich Wirtschaftswissenschaften

Exkurs: Das Literary Digest Disaster von 1936

Sommersemester 2020

Christian Reinboth, M.Sc.

Karte: Matté, Public Domain

Franklin D. Roosevelt (1882 -

1945) [Foto: U.S. National

Archives, Public Domain]

Alfred Landon (1887 - 1987)

[Foto: Library of Congress,

Public Domain´]

George Gallup (1901 - 1984)

[Foto: Wikimedia, gemeinfrei]

Page 61: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 61

Fachbereich Wirtschaftswissenschaften

Die große Reproduktionskrise der Psychologie

Sommersemester 2020

Christian Reinboth, M.Sc.

– 2015: Wiederholung von 100

psychologischen Experimenten

→ in nur 39% aller Fälle ließ sich

das Ergebnis reproduzieren

– Mögliche Ursachen

– Publication Bias: Nur signifikante

Ergebnisse werden veröffentlicht

– Häufig viel zu kleine Stichproben

– Bevölkerung entwickelt sich weiter

→ Effekte sind daher nicht statisch

p <= 0.05? Hurra!

„Ob einem jemand

sympathisch erscheint,

entscheidet sich in den

ersten 30 Sekunden!“

„Jüngere Geschwister sind

oft durchsetzungsstärker!“

„Ein höherer Blutzucker

steigert die Fähigkeit zur

Konzentration!“

Page 62: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 62

Fachbereich Wirtschaftswissenschaften

Was macht gutes Frage(bogen)design aus?

Planung und Durchführungquantitativer Erhebungen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 63: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 63

Fachbereich Wirtschaftswissenschaften

Warum überhaupt eine schriftliche Befragung?

– Der Hauptunterschied zwischen einer schriftlichen und

anderen Befragungstypen ist der fehlende Interviewer

– Der größte Vorteil eines persönlichen Interviews ist die

Möglichkeit der individuellen Anpassung an die Situation

– Überraschende Antworten lassen sich hinterfragen

– Emotionale Wiederstände lassen sich ausräumen

– Eine Beeinflussung durch Dritte ist ausgeschlossen

– Der Verzicht auf einen Interviewer bedeutet Nachteile

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 64: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 64

Fachbereich Wirtschaftswissenschaften

Warum überhaupt eine schriftliche Befragung?

– Ein Interviewer kann aber auch ein Problem sein

– Er kann dem Probanden unsympathisch sein

– Er kann bei der Befragung Fehler machen

– Er kann den Probanden beeinflussen

– Das größte Problem ist das der sozialen Erwünschtheit

– Probanden versuchen unbewusst, sich nach den subjektiv

wahrgenommenen Ansichten des Interviewers zu richten

(Grundlage ist das „geschätzt sein wollen“ der meisten)

Sommersemester 2020

Christian Reinboth, M.Sc.

„Haben Sie

ihre Kinder

schon mal

geschlagen?“

Page 65: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 65

Fachbereich Wirtschaftswissenschaften

Warum überhaupt eine schriftliche Befragung?

– Zwei wesentliche Ursachen für erfolglose Gespräche sind

die sogenannten Interviewbarrieren und Interviewblocker

– Interviewbarrieren: Schlechter erster Eindruck des Partners,

„gewollte Wahrnehmung“ durch den Interviewer, schlechte

Erfahrungen mit Befragungen etc. → unbewusste Einflüsse

– Interviewblocker: Rückmeldungen des Interviewers während

des Interviews („Sind Sie sicher?“), Diagnose des Probanden

(„Sie sind sehr emotional“) etc. → bewusstes Fehlverhalten

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 66: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 66

Fachbereich Wirtschaftswissenschaften

Warum überhaupt eine schriftliche Befragung?

– Diese Probleme sind beim Fragebogen ausgeräumt

– Es gibt keine (unmittelbare) Beeinflussung durch den Interviewer

– Für alle Probanden verläuft die Befragung (halbwegs) identisch

– Die Abwesenheit des Interviewers erhöht außerdem die Chancen dafür,

dass Probanden auf sensible Fragen wie zum Beispiel zu Einkommen,

Aussehen oder Sexualverhalten antworten – und dass die Antworten

kaum durch den Effekt der sozialen Erwünschtheit beeinflusst werden

– Gelingensvoraussetzung ist gutes Fragen- und Fragebogendesign

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 67: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 67

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

„The quality of the questions asked

will have an impact on the quality

of the answers received.“

Lee Smith

Page 68: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 68

Fachbereich Wirtschaftswissenschaften

Bevor man mit dem Schreiben anfängt…

– Welche Fragestellungen sollen beantwortet werden?

– Wie viel Zeit haben die Probanden für die Befragung?

– Wie sollen die Daten anschließend ausgewertet werden?

– Beim Fragebogendesign sind viele Aspekte zu berücksichtigen:

– Anschreiben, Datenschutzerklärung, Eisbrecherfrage, Design…

– Aus Zeitgründen konzentrieren wir uns nachfolgend auf typische

Fehler bei der Formulierung von Fragen und deren Vermeidung

Sommersemester 2020

Christian Reinboth, M.Sc.

Skalen-

niveaus!

Page 69: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 69

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Die Doppelfrage

Welches ist der höchste Bildungsabschluss, über den Sie verfügen

oder den Sie derzeit anstreben?

– Diese Frage kombiniert zwei Fragestellungen miteinander → bei

der Auswertung bleibt unklar, auf welche der beiden Fragen der

jeweilige Proband bzw. die Probandin wirklich geantwortet hat

– Lösung: Werden mehrere Antworten benötigt (Länge des Frage-

bogens beachten!), sind immer auch mehrere Fragen zu stellen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 70: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 70

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Fehlende Antwortoptionen

Welches ist ihr derzeit höchster akademischer Abschluss?

a) Bachelor b) Master c) Magister d) Promotion

– Werden wirklich nur Akademiker*innen befragt? Falls nicht: Was

sollen Befragte ohne akademischen Abschluss ankreuzen?

Wie unterscheidet man sie von Auskunftsverweigerern?

– Lösung: Gründliche Prüfung aller Antwortmöglichkeit und Einbau

einer Non-Option zur Unterscheidung zwischen Personen, die die

Frage nicht beantworten wollten und solchen, die es nicht konnten

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 71: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 71

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Kategorieüberschneidungen

Welcher Altersgruppe gehören Sie an?

a) 15 – 20 Jahre b) 20 – 25 Jahre c) 25 – 30 Jahre

– Wie schon bei Doppelfragen müssen manche Probandinnen und

Probanden auch bei sich überschneidenden Antwortkategorien

praktisch willkürlich entscheiden, wo sie ihr Kreuz setzen

– Lösung: Vorgegebene Antwortkategorien dürfen sich –

insbesondere dann, wenn nur eine Antwort zugelassen

ist – niemals überschneiden

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 72: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 72

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Viel zu viele Fragen

– Angenommen, Sie würden für die Teilnahme an einer Befragung

ein Incentive (z.B. einen Einkaufsgutschein) im Wert von 15 Euro

erhalten. Wie viel Minuten würden Sie maximal aufwenden wollen?

– [Zusatzfrage: Beeinflusst das verfügbare Einkommen die Bewertung

der Angemessenheit von Incentives? Wozu könnte das führen?]

– Lösung: Der Fragebogen sollte niemals länger sein, als unbedingt

erforderlich (Lean Design) → darüber hinaus haben Zeitangaben zu

Beginn der Befragung unbedingt realistisch zu sein (Frustabbrüche)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 73: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 73

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Falsches Skalenniveau

Bewerten Sie Ihre Zufriedenheit mit dem Produkt auf einer

Schulnoten-Skala von 1 (sehr gut) bis 6 (ungenügend).

– An dieser Frage ist ja eigentlich gar nichts falsch…

– Aber: Wenn die Daten in eine Varianzanalyse einfließen sollen,

ist die Skala falsch gewählt, da sie ordinale Daten produziert

– Lösung: Bei der Fragenformulierung ist stets zur berücksichtigen,

wie die erhobenen Daten im Nachgang ausgewertet werden sollen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 74: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 74

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Abschreckende Fragen

Geben Sie bitte Ihr Jahresbruttoeinkommen (möglichst genaue

Angabe) aus nichtselbständiger Tätigkeit für das Jahr 2015 an.

– Bei bestimmten Fragen muss man damit rechnen, dass ein Großteil

der Probandinnen und Probanden diese nicht beantworten wird –

oder die Befragung schlimmstenfalls sogar verärgert abbricht

– Lösung: Wenn solche Fragen gestellt werden müssen, sind

sie am Ende der Befragung zu stellen → dadurch minimiert

sich das Risiko eines Totalabbruchs der Erhebung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 75: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 75

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Unverständliche Begriffe

Rechnen Sie sich selbst der Altersgruppe der ‘Best Ager’ zu?

– Befragte, die z.B. einen Fachbegriff nicht kennen, werden eine Frage

möglicherweise falsch beantworten (da sie sie falsch interpretieren)

oder überspringen, obwohl sie sie eigentlich beantworten könnten

– Lösung: Fachbegriffe sollten nur dann ohne Erläuterungen

verwendet werden, wenn man Expertinnen und Experten zum

Thema befragt → für alle anderen gilt: Umschreiben oder erklären

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 76: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 76

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Zu allgemeine Fragen

Was halten Sie von Umweltschutz?

a) Finde ich eher wichtig. b) Finde ich weniger wichtig.

– Der Bezugsrahmen dieser Frage bleibt unklar: Will man die Meinung

der Probanden zum Umweltschutz im eigenen Lebensumfeld, in der

Industrie oder zur Umweltschutzpolitik der Regierung erfragen?

– Lösung: Fragen sollten stets möglichst eindeutig formuliert werden

→ eine der größten Herausforderungen bei der Fragenerstellung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 77: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 77

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Zu große Matrizen

Sommersemester 2020

Christian Reinboth, M.Sc.

Note 1 Note 2 Note 3 Note 4 Note 5 Note 6

Autokorrektur

Displaygröße

Schnellwahltaste

App-Verwaltung

Arbeitsspeicher

Tastengröße

Lautstärkeregler

max.

5 x 5

Page 78: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 78

Fachbereich Wirtschaftswissenschaften

Typische Fehler: Leading Questions

Die Vorratsdatenspeicherung (VDS) gilt als effizientes Instrument

gegen internationalen Terrorismus und Menschenhandel. Finden Sie,

dass das Bundesverfassungsgericht das Verbot der VDS angesichts

der jüngsten Gewalttaten wieder aufheben sollte?

– Warum ist “Wie würden Sie die Beziehung zu Ihrem Ehepartner

beschreiben?” eine bessere Frageformulierung als “Welche

Probleme haben Sie mit Ihrem Ehepartner?”

– Lösung: Fragen sollten stets möglichst neutral formuliert werden

→ eine der größten Herausforderungen bei der Fragenerstellung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 79: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 79

Fachbereich Wirtschaftswissenschaften

Deskriptive Statistik

Teil IV

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 80: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 80

Fachbereich Wirtschaftswissenschaften

Häufigkeiten

Deskriptive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 81: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 81

Fachbereich Wirtschaftswissenschaften

Absolute und relative Häufigkeiten

– Absolute Häufigkeit: Die Anzahl an statistischen Einheiten, die hinsichtlich eines

Merkmals die gleiche Ausprägung besitzen (Ergebnis einer einfachen Zählung)

– Relative Häufigkeit: Die Anzahl an statistischen Einheiten, die hinsichtlich eines

Merkmals die gleiche Ausprägung besitzen, im Verhältnis zur Gesamtzahl der

statistischen Einheiten (d.h. der prozentuale Anteil der absoluten Häufigkeit)

– Die Gesamtzahl aller absoluten bzw. relativen Häufigkeiten (in einer Tabelle oder

einer Grafik) wird als absolute bzw. relative Häufigkeitsverteilung bezeichnet

– Beispiel: 25 Studierende werden nach ihrem Alter befragt. Von diesen 25 geben

13 an, derzeit 24 Jahre alt zu sein. Die absolute Häufigkeit der Altersausprägung

„24“ liegt daher bei 13, die relative Häufigkeit dagegen bei 0,52 bzw. 52% (13/25)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 82: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 82

Fachbereich Wirtschaftswissenschaften

Beispiel für eine Häufigkeitstabelle

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

Sommersemester 2020

Christian Reinboth, M.Sc.

Sind Häufigkeitstabellen

eher bei mehr oder

eher bei weniger

Ausprägungen

aussagekräftig?

Page 83: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 83

Fachbereich Wirtschaftswissenschaften

Bildung von Klassen

– Liegen in einem Datensatz sehr viele Ausprägungen vor, lohnt sich

unter Umständen eine Klassenbildung, d.h. die Unterteilung der Daten

in Klassen (idealerweise gleicher Breite – dazu in einigen Wochen mehr)

– Bei der Klassenbildung ist zu berücksichtigen, dass eindeutig definiert werden

muss, zu welcher Klasse die Elemente der jeweiligen Klassengrenzen gehören

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

[20 – 24) Jahre 9 0,36 36,00%

[24 – 28) Jahre 16 0,64 64,00%

Σ 25 1,00 100,00%

𝐾1 = 𝑔0, 𝑔1 ; 𝐾2 = 𝑔1, 𝑔2 ; . . . 𝐾𝑗 = 𝑔𝑗−1, 𝑔𝑗 Warum liegt die Grenze

der zweiten Klasse bei

28 statt 27 Jahren?

Page 84: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 84

Fachbereich Wirtschaftswissenschaften

Empirische Verteilungsfunktion

– Mit Hilfe der empirischen Verteilungsfunktion lässt sich die Frage beantworten,

welcher Anteil der Daten eine Grenze (nicht) überschreitet bzw. unterschreitet:

F(x) = Welcher Anteil der Daten ist kleiner oder gleich x? („höchstens x“)

(z.B.: Welcher Anteil der befragten Studierenden ist höchstens 23 Jahre alt?)

– Für alle Werte kleiner als die kleinste Ausprägung ist F(x) = 0

– Für alle Werte größer als die größte Ausprägung ist F(x) = 1

– Die empirische Verteilungsfunktion lässt sich grafisch (Treppendiagramm) oder

tabellarisch (Tabelle mit kumulierten absoluten / relativen Häufigkeiten) darstellen

Sommersemester 2020

Christian Reinboth, M.Sc.

xaund

ax

xa

ax

für

für

für

fafafxF j

k

j

j

i

ij

=++= +

=

1

1

1

1

1

)(...)(

0

)(

Page 85: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 85

Fachbereich Wirtschaftswissenschaften

Beispiel für eine Kumulationstabelle

Ausprägung kumulierte

abs. Häufigkeit

kumulierte

rel. Häufigkeit

kumulierte %

20 Jahre 3 0,12 12,00%

21 Jahre 5 0,20 20,00%

22 Jahre 6 0,24 24,00%

23 Jahre 9 0,36 36,00%

24 Jahre 22 0,88 88,00%

25 Jahre 24 0,96 96,00%

26 Jahre 24 0,96 96,00%

27 Jahre 25 1,00 100,00%

Σ 25 1,00 100,00%

Sommersemester 2020

Christian Reinboth, M.Sc.

Welcher Anteil der

befragten Studierenden ist

höchstens 23 Jahre alt?

Page 86: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 86

Fachbereich Wirtschaftswissenschaften

Beispiel für ein Treppendiagramm

Sommersemester 2020

Christian Reinboth, M.Sc.

100%

80%

60%

40%

20%

0%

20 21 22 23 24 25 26 27Jahre

Ausprägung kumulierte %

20 Jahre 12,00%

21 Jahre 20,00%

22 Jahre 24,00%

23 Jahre 36,00%

24 Jahre 88,00%

25 Jahre 96,00%

26 Jahre 96,00%

27 Jahre 100,00%

Page 87: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 87

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit der Verteilungsfunktion

– Frage: Welcher Anteil der befragten Studierenden ist höchstens 23 Jahre alt?

– Lösungsmöglichkeit 1: Ablesen aus der Kumulationstabelle (36%)

– Lösungsmöglichkeit 2: Berechnung mit der Verteilungsfunktion

Sommersemester 2020

Christian Reinboth, M.Sc.

xaund

ax

xa

ax

für

für

für

fafafxF j

k

j

j

i

ij

=++= +

=

1

1

1

1

1

)(...)(

0

)(

Page 88: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 88

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit der Verteilungsfunktion

– Frage: Welcher Anteil der befragten Studierenden ist höchstens 23 Jahre alt?

– Lösungsmöglichkeit 1: Ablesen aus der Kumulationstabelle (36%)

– Lösungsmöglichkeit 2: Berechnung mit der Verteilungsfunktion

Sommersemester 2020

Christian Reinboth, M.Sc.

%3636,012,004,008,012,0

)23()22()21()20()23(

==+++=

+++= ffffF

xaund

ax

xa

ax

für

für

für

fafafxF j

k

j

j

i

ij

=++= +

=

1

1

1

1

1

)(...)(

0

)(

Page 89: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 89

Fachbereich Wirtschaftswissenschaften

Summenfunktion

– Bei klassierten Daten wird die empirische Verteilungsfunktion als stetige

empirische Verteilungsfunktion oder als Summenfunktion bezeichnet

(1) Zunächst wird der Wert der empirischen Verteilungsfunktion bis zum Ende der

Klasse berechnet, die vor der Klasse liegt, welche den gesuchten Wert enthält

(2) Anschließend wird die Differenz zwischen gesuchtem Wert und unterer

Klassengrenze in der nächsten Klasse berechnet, durch die Klassenbreite

geteilt und abschließend mit der relativen Häufigkeit dieser Klasse multipliziert

(3) Zum Schluss werden beide Summen miteinander addiert

Sommersemester 2020

Christian Reinboth, M.Sc.

k

iii

i

ii

gx

gxg

gx

für

für

für

fd

gxgFxF

−+= −

−− 1

0

11

1

*)(

0

)(Annahme: Die Werte

innerhalb jeder Klasse

sind gleichmäßig verteilt

Page 90: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 90

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit der Summenfunktion

– Frage: Welcher Anteil der befragten Studierenden ist höchstens 25 Jahre alt?

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

[20 – 24) Jahre 9 0,36 36,00%

[24 – 28) Jahre 16 0,64 64,00%

Σ 25 1,00 100,00%

k

iii

i

ii

gx

gxg

gx

für

für

für

fd

gxgFxF

−+= −

−− 1

0

11

1

*)(

0

)(

Page 91: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 91

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit der Summenfunktion

– Frage: Welcher Anteil der befragten Studierenden ist höchstens 25 Jahre alt?

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

[20 – 24) Jahre 9 0,36 36,00%

[24 – 28) Jahre 16 0,64 64,00%

Σ 25 1,00 100,00%

%5252,016,036,0 ==+

16,064,0*4

2425*1 =

−=

− − fidi

gx i

36,0)24()( 1 ==− FgF i Wie kommt es zu der

Abweichung im Vergleich

zur Berechnung mit den

nichtklassierten Daten?

Page 92: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 92

Fachbereich Wirtschaftswissenschaften

Lagemaße / Maße der zentralen Tendenz

Deskriptive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 93: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 93

Fachbereich Wirtschaftswissenschaften

Lagemaße / Maße der zentralen Tendenz

Sommersemester 2020

Christian Reinboth, M.Sc.

Daten

Nominalskala OrdinalskalaKardinalskala /

metrische Skala

meist

stetig

meist

diskret

meist

diskret

Intervallskala(kein natürlicher Nullpunkt)

Verhältnisskala(natürlicher Nullpunkt)

• Modus • Median

• Quartile

• Quantile

• Perzentile

• geometrisches Mittel

• harmonisches Mittel

• arithmetisches Mittel(inkl. gewichtet, getrimmt...)

Lagemaße, welche ein niedriges Skalenniveau

voraussetzen, können problemlos für Datensätze

auf einem höheren Skalenniveau berechnet werden

„Abwärts-, aber nicht aufwärtskompatibel“

Page 94: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 94

Fachbereich Wirtschaftswissenschaften

Das arithmetische Mittel

– Das arithmetische Mittel ist das bekannteste statistische Lagemaß (Standardmittel)

– Es kann nur für metrisch skalierte Daten berechnet werden (Intervall-/Verhältnisskala)

– Vorsicht: SPSS „berechnet“ das arithmetische Mittel auch für nichtmetrische Daten

– Anwender/innen benötigen daher Methodenkenntnisse (typischer Fehler: Schulnoten)

– Liegen von einem metrischen Merkmal x

insgesamt n Werte vor, berechnet sich das

arithmetische Mittel auf Basis dieser Formel:

– Das arithmetische Mittel ist nicht robust, d.h. empfindlich gegenüber Ausreißern:

(1, 2, 3, 4) → (1+2+3+4) / 4 = 2,5

(1, 2, 3, 50) → (1+2+3+50) / 4 = 14

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=n

i

ixn

x1

1

Ursache: Jeder Wert in

der Verteilung beeinflusst

das Mittel gleichermaßen

Page 95: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 95

Fachbereich Wirtschaftswissenschaften

Exkurs: Lebenserwartung im Mittelalter

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausschnitt aus dem Dresdner Totentanz von 1534 (Wikimedia, gemeinfrei)

Page 96: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 96

Fachbereich Wirtschaftswissenschaften

Übung: Arithmetisches Mittel

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=n

i

ixn

x1

1

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

Page 97: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 97

Fachbereich Wirtschaftswissenschaften

Übung: Arithmetisches Mittel

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=n

i

ixn

x1

1

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

28,2325

582

25

)272525...202020(==

++++++=x

Page 98: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 98

Fachbereich Wirtschaftswissenschaften

Schulnoten und das arithmetische MittelEin (leider) nie endendes Missverständnis

Sommersemester 2020

Christian Reinboth, M.Sc.

100% 75% 50% 25% 0%

1 2 3 4 5

1 2 3 4 5

Page 99: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 99

Fachbereich Wirtschaftswissenschaften

Getrimmtes arithmetisches Mittel

– Treten in einem Datensatz einzelne besonders große oder kleine Werte auf

(sogenannte Ausreißer), verzerren diese das arithmetische Mittel erheblich

– Möglich ist in diesen Fällen entweder ein Ausweichen auf ein anderes Maß der

zentralen Tendenz oder die Berechnung des getrimmten arithmetischen Mittels

– Hierfür werden beispielsweise die 2% oder 5% der jeweils größten und kleinsten

Werte aus dem Datensatz entfernt, bevor das arithmetische Mittel berechnet wird

– Nachteil: Da nicht nur die Ausreißer entfernt werden, sondern die Trimmung

symmetrisch erfolgt, kann es zur Entfernung nicht-extremer Werte kommen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 100: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 100

Fachbereich Wirtschaftswissenschaften

Der Median

– Der Median ist derjenige Wert, der in der Mitte der geordneten Verteilung liegt

– Die Berechnung des Medians setzt daher mindestens ordinalskalierte Daten voraus

– Bei einer ungeraden Anzahl an Werten wird der

mittlere Wert der geordneten Verteilung gewählt

– Bei einer geraden Anzahl an Werten wird das

arithmetische Mittel der mittleren Werte gewählt

– Der Median ist äußerst robust, d.h. er wird von Ausreißern kaum beeinflusst:

(1, 2, 3, 4) → Median: 2,5

(1, 2, 3, 50) → Median: 2,5

Sommersemester 2020

Christian Reinboth, M.Sc.

)2

1(+= nmed xx

)(2

1

)12

()2

( ++= nnmed xxx

Ursache: Nur zwei Werte

(bzw. ein Wert) gehen in

die Berechnung ein

Page 101: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 101

Fachbereich Wirtschaftswissenschaften

Übung: Median

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

)2

1(+= xmed xxungerade Anzahl an Werten (25):

Page 102: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 102

Fachbereich Wirtschaftswissenschaften

Übung: Median

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

2413)

2

125(

=== + xxxmed

20; 20; 20; 21; 21; 22; 23; 23; 23; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 25; 25; 27

Lässt sich dieses

Ergebnis auch direkt aus

der Tabelle ablesen?

Page 103: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 103

Fachbereich Wirtschaftswissenschaften

Die Perzentilwerte

– Perzentilwerte sind Werte, unterhalb derer ein definierter Anteil aller Werte liegt

– Für die Perzentilberechnung müssen mindestens ordinalskalierte Daten vorliegen

– Der bekannteste Perzentilwert ist das 50%-Perzentil – der bereits bekannte Median

– Häufig erfolgt eine „Vierteilung“ des Wertebereichs mit den sogenannten Quartilen:

– 25%-Perzentil (25% aller Werte liegen unterhalb dieses Wertes, 75% liegen oberhalb)

– 50%-Perzentil – Median (50% aller Werte liegen unter- bzw. oberhalb dieses Wertes)

– 75%-Perzentil (75% aller Werte liegen unterhalb dieses Wertes, 25% liegen oberhalb)

– Die Quartile spielen u.a. für die Bildung von Box-Plots (Grenzen der Box)

sowie für die Unterscheidung in Ausreißer und Extremwerte (IQR) eine Rolle

– Wie der Median sind auch die restlichen Perzentile robust gegenüber Ausreißern

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 104: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 104

Fachbereich Wirtschaftswissenschaften

Die Perzentilwerte

– Die Berechnung von Perzentilwerten erfolgt gemäß folgender Formel(n):

– Ergibt (n * p) keinen ganzzahligen Wert,

ist k die auf (n * p) folgende ganze Zahl

– Ergibt (n * p) einen ganzzahligen Wert,

entspricht k dem Ergebnis von (n * p)

(1) Der gewünschte Perzentilwert (z.B. 0,25 für das 25%-Perzentil) wird mit der Anzahl der

Werte im Datensatz (n) multipliziert. In vielen Fällen kommt dabei ein ungerader Wert

heraus, der auf den nächsthöheren Wert (k) aufzurunden ist. Der gesuchte Perzentil-

wert entspricht in diesen Fällen dem k-ten Wert im Datensatz.

(2) Für den Fall, dass sich bei der Multiplikation von n und p doch einmal eine gerade Zahl

(k) ergeben sollte, wird das arithmetische Mittel des k-ten Wertes im Datensatz und des

auf den k-ten Wert folgenden Wertes im Datensatz berechnet.

Sommersemester 2020

Christian Reinboth, M.Sc.

)(kp xx =

)(2

1)1()( ++= kkp xxx

Page 105: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 105

Fachbereich Wirtschaftswissenschaften

Perzentilwerte und Box-Plots

– Box-Plots bieten einen Verteilungsüberblick und gestatten Verteilungsvergleiche

– Wesentliche Konstruktionsgröße ist der Interquartilsabstand (IQR = x0,75 – x0,25)

Sommersemester 2020

Christian Reinboth, M.Sc.

Median

Oberes Quartil

Unteres Quartil

Größter Nicht-Ausreißer

Kleinster Nicht-Ausreißer

*

42

16

27

Ausreißer

Ausreißer

Extremwert

IQR4 IQR7 IQR

Page 106: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 106

Fachbereich Wirtschaftswissenschaften

Übung: Quartile

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

Bei der Multiplikation von n und p

ergeben sich ausschließlich nicht

ganzzahlige Werte, daher gilt:

x0,25 =

x0,50 =

x0,75 =)(kp xx =

Page 107: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 107

Fachbereich Wirtschaftswissenschaften

Übung: Quartile

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

=

=

=

75,0

50,0

25,0

x

x

x

20; 20; 20; 21; 21; 22; 23; 23; 23; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 25; 25; 27

20; 20; 20; 21; 21; 22; 23; 23; 23; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 25; 25; 27

20; 20; 20; 21; 21; 22; 23; 23; 23; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 24; 25; 25; 27

7

13

19

Page 108: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 108

Fachbereich Wirtschaftswissenschaften

Der Modus

– Der Modus (oder Modalwert) ist der in den Daten am häufigsten auftretende Wert

– Bei klassierten Daten entspricht der Modus die Klassenmitte der Klasse mit den

meisten Fällen (dies gilt allerdings nur beim Vorliegen gleichbreiter Klassen)

– Der Modus eignet sich vor allem für diskrete Daten (Punktwahrscheinlichkeit)

– Er wird v.a. für nominalskalierte Daten gebildet, für die sich kein anderes Lagemaß eignet

– Bei metrisch skalierten Daten kann der Modus über gleichbreite Klassen gebildet werden

(in dem Fall entspricht der Modus der Klassenmitte der Klasse mit den meisten Werten)

– Vorteil: Der Modus ist ohne Rechnung erkennbar und lässt sich leicht bestimmen

– Nachteil: Der Modus ist nur interpretierbar, wenn ein klares Maximum existiert

– Achtung: Sind in einem diskreten Datensatz mehrere Werte mit gleicher Häufigkeit

vertreten, gibt SPSS nur den in der Häufigkeitstabelle zuoberst stehenden Wert aus

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 109: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 109

Fachbereich Wirtschaftswissenschaften

Modus und Verteilungsform

Unimodale Verteilung

Bimodale Verteilung

Multimodale Verteilung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 110: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 110

Fachbereich Wirtschaftswissenschaften

Übung: Modus

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

24mod =x Warum?

Page 111: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 111

Fachbereich Wirtschaftswissenschaften

Zusammenfassung der Lagemaße

– Lagemaße beschreiben das Zentrum einer Verteilung

– Arithmetisches Mittel

– Sogenanntes „Standardmittel“

– Nicht robust gegenüber Ausreißern

– Daten müssen stets metrisch skaliert sein

– Getrimmtes arithmetisches Mittel

– Arithmetisches Mittel nach Entfernung einiger Randdaten

– Trimmung der Daten erfolgt stets beidseitig symmetrisch

– Ziel ist die Verringerung des Einflusses von Ausreißern

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=n

i

ixn

x1

1

=

=n

i

ixn

x1

1

Page 112: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 112

Fachbereich Wirtschaftswissenschaften

Zusammenfassung der Lagemaße

– Median

– Mittlerer Wert der geordneten Verteilung

– Von Ausreißern praktisch nicht beeinflussbar

– Daten müssen mindestens ordinalskaliert sein

– Für gerade und ungerade n existieren zwei Formeln

– Perzentile

– „Verallgemeinerung“ des Medians

– Anstelle von 50% werden andere Prozentzahlen gewählt

– In der Praxis spielen vor allem Quantile und Quartile eine Rolle

– Für ganzzahlige und nicht ganzzahlige (n*p) existieren zwei Formeln

Sommersemester 2020

Christian Reinboth, M.Sc.

)2

1(+= nmed xx

)(2

1

)12

()2

( ++= nnmed xxx

)(kp xx =

)(2

1)1()( ++= kkp xxx

Page 113: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 113

Fachbereich Wirtschaftswissenschaften

Zusammenfassung der Lagemaße

– Modus

– Am häufigsten auftretender Wert in den Daten

– Kann schon für nominalskalierte Werte bestimmt werden

– Nur sinnvoll, wenn ein einzelnes, klares Maximum vorliegt

– Geometrisches Mittel

– Lagemaß für relative Veränderungen (Wachstum)

– In solchen Fällen das einzig zugelassene Lagemaß

– Faktoren können unterschiedlich gewichtet werden

– Harmonisches Mittel

– Kommt bei Quotienten zum Einsatz (z.B. Geschwindigkeiten)

– Kann analog zum geometrischen Mittel gewichtet werden

Sommersemester 2020

Christian Reinboth, M.Sc.

maxmod xax =

nngeom xxx ...1=

=

=n

i i

har

x

nx

1

1

Warum funktioniert

das a.M. hier nicht?

Page 114: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 114

Fachbereich Wirtschaftswissenschaften

Helmholz-Wissenschaftscomic: Mittelwertehttps://blogs.helmholtz.de/augenspiegel/2018/03/klar-soweit-no-50/

Sommersemester 2020

Christian Reinboth, M.Sc.

Helmholtz-Wissenschaftscomic No.50 | Bilder: Veronika

Mischitz | Helmholtz-Gemeinschaft, CC-BY-ND 4.0

Page 115: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 115

Fachbereich Wirtschaftswissenschaften

Das „SPSS-Analyseproblem“

– SPSS führt JEDE Analyse unabhängig von den Voraussetzungen durch!

– ...also auch die Berechnung des arithmetischen Mittels

– ... aus Schulnoten

– ... aus Geschlechtern

– ... aus Kontonummern

– ... aus Telefonnummern

– ... aus Präferenzrängen

– Bei komplexen Verfahren sind noch weit schlimmere „Vergehen“ denkbar

– Die fachlichen Kenntnisse der Anwender/innen sind daher entscheidend

– Darum: KEINE Analyse ohne vorherige Prüfung der Voraussetzungen!

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 116: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 116

Fachbereich Wirtschaftswissenschaften

Übung: Maße der zentralen Tendenz

– Berechne: Arith. Mittel, um 5% getrimmtes arith. Mittel, Median und Modus

– Berechne: Arith. Mittel, um 5% getrimmtes arith. Mittel, Median und Modus

Sommersemester 2020

Christian Reinboth, M.Sc.

Schulnote Anzahl Schulnote Anzahl

1 5 4 4

2 8 5 3

3 12 6 1

Alter Anzahl Alter Anzahl

40 3 34 1

39 4 33 3

38 2 32 4

37 6 31 2

36 2 30 5

35 1 29 1

Page 117: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 117

Fachbereich Wirtschaftswissenschaften

Übung: Maße der zentralen Tendenz

– Berechne: Arith. Mittel, um 5% getrimmtes arith. Mittel, Median und Modus

– Berechne: Arith. Mittel, um 5% getrimmtes arith. Mittel, Median und Modus

Sommersemester 2020

Christian Reinboth, M.Sc.

Schulnote Anzahl Schulnote Anzahl

1 5 4 4

2 8 5 3

3 12 6 1

Alter Anzahl Alter Anzahl

40 3 34 1

39 4 33 3

38 2 32 4

37 6 31 2

36 2 30 5

35 1 29 1

3

3

mod =

=

x

xmed

00,37

50,35

80,34

79,34

mod =

=

=

=

x

x

x

x

med

get

Warum

kein

Modus?

Page 118: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 118

Fachbereich Wirtschaftswissenschaften

Streuungsmaße / Dispersionsparameter

Deskriptive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 119: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 119

Fachbereich Wirtschaftswissenschaften

Wozu werden Streuungsmaße benötigt?

Sommersemester 2020

Christian Reinboth, M.Sc.

Mitarbeiter Abt. A Einkommen Mitarbeiter Abt. B Einkommen

MA 1 2.500,00 Euro MA 1 4.130,00 Euro

MA 2 2.550,00 Euro MA 2 1.060,00 Euro

MA 3 2.480,00 Euro MA 3 1.110,00 Euro

MA 4 2.630,00 Euro MA 4 5.020,00 Euro

MA 5 3.000,00 Euro MA 5 4.000,00 Euro

MA 6 2.210,00 Euro MA 6 1.250,00 Euro

Summe 15.370,00 Euro Summe 16.570,00 Euro

Arithmetisches Mittel 2.561,67 Euro Arithmetisches Mittel 2.761,67 Euro

Sollte man die

Mittelwerte

direkt

miteinander

vergleichen?

Page 120: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 120

Fachbereich Wirtschaftswissenschaften

Die Spannweite

– Die Spannweite ist als der absolute Abstand zwischen dem jeweils kleinsten

(Minimum) und größten (Maximum) Wert im untersuchten Datensatz definiert

– Die Spannweite ist als Streuungsmaß in den meisten Fällen ungenügend, da

sie – soweit vorhanden – extrem stark von Ausreißern beeinflusst wird

– Existieren an beiden Verteilungsrändern Ausreißer, wird der Wert der

Spannweite tatsächlich sogar ausschließlich (!) durch diese bestimmt

(1, 2, 3, 4, 5) → Spannweite: 4

(1, 2, 3, 4, 50) → Spannweite: 49

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 121: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 121

Fachbereich Wirtschaftswissenschaften

Der Interquartilsabstand

– Der Interquartilsabstand (IQR = Inter-Quartile Range) ist definiert als

der Abstand zwischen dem oberen (75%) und dem unteren Quartil (25%)

– Da die Quartile bekanntlich nicht von Ausreißern beeinflusst werden

können, ist der IQR als Streuungsmaß deutlich robuster als die Spannweite

– Quartile, Minimum und Maximum bilden die Fünf-Werte-Zusammenfassung

Sommersemester 2020

Christian Reinboth, M.Sc.

IQR

Page 122: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 122

Fachbereich Wirtschaftswissenschaften

Varianz und Standardabweichung

– Die Varianz (bzw. empirische Varianz) ist das meistgenutzte Streuungsmaß

– Sie berechnet sich als Summe der quadrierten Abweichungen

der Einzelwerte (Ausgleich negativer und positiver Abweichungen)

vom arithmetischen Mittel, geteilt durch die Gesamtzahl aller Werte

– Bei der Berechnung der Stichproben-Varianz (SPSS) stehen die Freiheitsgrade im Nenner

– Die Varianz wird immer kleiner, je näher die Einzelwerte am arithmetischen Mittel liegen

– Sind alle Werte mit dem Mittel identisch (keine Streuung), ergibt sich eine Nullvarianz

– Bei der Interpretation ist zu beachten, dass mit quadrierten Werten gerechnet wird

– Auch die Varianz ist also in der quadrierten Einheit dimensioniert (z.B. in €² statt in €)

– Die Standardabweichung als Quadratwurzel der Varianz erleichtert die Interpretation

Sommersemester 2020

Christian Reinboth, M.Sc.

=

−=n

i

i xxn

s1

22 )(1

Durch-

schnitt-

liche Ab-

weichung

Page 123: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 123

Fachbereich Wirtschaftswissenschaften

Übung: Varianz und Standardabweichung

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

=

−=−++−=n

i

n xxn

xxxxn

s1

2

1

22

1

2 )(1

)(...)(1

28,23=x

Page 124: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 124

Fachbereich Wirtschaftswissenschaften

Übung: Varianz und Standardabweichung

Sommersemester 2020

Christian Reinboth, M.Sc.

8416,225

04,71

04,71

8384,13)28,2327(

9584,2)28,2325(

...

7584,10)28,2320(

7584,10)28,2320(

2

2

2

2

=

=

=−

=−

=−

=−

80,54425

13620

13620

72927

62525

...

40020

40020

2

2

2

2

=

=

=

=

=

=

6857,1

8416,2

8416,29584,54180,544

9584,54128,23

2

2

=

=

=−

=

s

s

In welcher

Einheit stehen

die Ergebnisse?

Wie sind die

Ergebnisse zu

interpretieren?

Page 125: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 125

Fachbereich Wirtschaftswissenschaften

Streuungsmaße / Dispersionsparameter

– Streuungsmaße geben Auskunft darüber, wie stark Daten

um das Zentrum einer Verteilung (Mittelwert) streuen

– Empirische Varianz

– Mittlere quadrierte Abweichung vom arithmetischen Mittel

– Kann daher nur für metrisch skalierte Daten berechnet werden

– Varianz ist nicht robust, d.h. empfindlich gegenüber Ausreißern

– Die hier dargestellte Formel ist die vereinfachte Rechenvariante

– Standardabweichung

– Durch die Quadratur ist die Varianz schwer interpretierbar,

da sie sich in Einheiten wie z.B. €² oder Stunden² ausdrückt

– Die Standardabweichung ist die positive Wurzel der Varianz

Sommersemester 2020

Christian Reinboth, M.Sc.

2

1

22 1xx

ns

n

i

i −

= =

2ss +=

Page 126: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 126

Fachbereich Wirtschaftswissenschaften

Streuungsmaße / Dispersionsparameter

– Variationskoeffizient

– Streuungen in unterschiedlichen Einheiten sind nicht vergleichbar

– Beispiel: Währungsschwankungen in verschiedenen Währungen

– Ist der Mittelwert positiv, können die Daten aber normiert werden

– Der entstehende Variationskoeffizient gestattet direkte Vergleiche

– Spannweite

– Differenz zwischen größtem und kleinstem Wert

– In die Berechnung fließen also nur wenige Daten ein

– Ausreißer beeinflussen die Spannweite daher erheblich

Sommersemester 2020

Christian Reinboth, M.Sc.

0

=

x

x

sv

minmax xxds −=

Page 127: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 127

Fachbereich Wirtschaftswissenschaften

Streuungsmaße / Dispersionsparameter

– Interquartilsabstand (IQR)

– Der IQR ist der Abstand zwischen oberem und unterem Quartil

– Er wird für Box-Plot und Fünf-Werte-Zusammenfassung benötigt

– Fünf-Werte-Zusammenfassung

– Hochkomprimierte Darstellung von Streuung und Lage einer Verteilung,

bestehend aus dem Minimum, dem Maximum und den drei Quartilen

Sommersemester 2020

Christian Reinboth, M.Sc.

25,075,0 xxIQR −=

max75,025,0min ;;;; xxxxx med

Page 128: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 128

Fachbereich Wirtschaftswissenschaften

Übung: Streuungsmaße

– Berechne: Spannweite, IQR, Varianz und Standardabweichung

– Berechne: Spannweite, IQR, Varianz und Standardabweichung

Sommersemester 2020

Christian Reinboth, M.Sc.

Schulnote Anzahl Schulnote Anzahl

1 5 4 4

2 8 5 3

3 12 6 1

Alter Anzahl Alter Anzahl

40 3 34 1

39 4 33 3

38 2 32 4

37 6 31 2

36 2 30 5

35 1 29 1

Page 129: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 129

Fachbereich Wirtschaftswissenschaften

Übung: Streuungsmaße

– Berechne: Spannweite, IQR, Varianz und Standardabweichung

– Berechne: Spannweite, IQR, Varianz und Standardabweichung

Sommersemester 2020

Christian Reinboth, M.Sc.

Schulnote Anzahl Schulnote Anzahl

1 5 4 4

2 8 5 3

3 12 6 1 1)23( =−=IQR

53,3

45,12

6)3238(

11)2940(

2

=

=

=−=

=−=

s

s

IQR

ds

Alter Anzahl Alter Anzahl

40 3 34 1

39 4 33 3

38 2 32 4

37 6 31 2

36 2 30 5

35 1 29 1

Page 130: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 130

Fachbereich Wirtschaftswissenschaften

Schiefe und Wölbung

Deskriptive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 131: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 131

Fachbereich Wirtschaftswissenschaften

Schiefe und Wölbung

Sommersemester 2020

Christian Reinboth, M.Sc.

• Verteilungen können nach Schiefe unterschieden werden

• Symmetrische Verteilungen (spiegelbildlich)

• Linkssteile und rechtsschiefe Verteilungen

• Rechtssteile und linksschiefe Verteilungen

• Zudem kann nach der Wölbung unterschieden werden

• Der Wölbungsgrad entspricht

der Wölbung einer Normalverteilung

• Die Wölbung verläuft flacher als

die Wölbung einer Normalverteilung

• Die Wölbung verläuft spitzer als

die Wölbung einer Normalverteilung

Quelle: Wikimedia Commons / User:

Christian Schirm / Lizenz: gemeinfrei

Page 132: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 132

Fachbereich Wirtschaftswissenschaften

Schiefe und Wölbung

– Momentenkoeffizient der Schiefe

– Abweichung der Verteilung von der symmetrischen Form

– Die Daten müssen dabei mindestens intervallskaliert sein

– Es ergeben sich positive Werte für linkssteile Verteilungen

und negative Werte für rechtssteile Verteilungen sowie

Werte nahe 0 für symmetrische Verteilungen

– Quartilskoeffizient der Schiefe

– Koeffizient wird mit den Quartilen gebildet

– Daten müssen daher lediglich ordinalskaliert sein

– Interpretation ist identisch zum Momentenkoeffizient

Sommersemester 2020

Christian Reinboth, M.Sc.

3

1

23

1

3

3

3

3

)(1

)(1

−=

−=

=

=

=

n

i

i

n

i

n

m

xxn

s

xxn

m

s

mg

25,075,0

25,075,0

25,0

)()(

xx

xxxxg

medmed

−−−=

Wichtig: Beide

Maßzahlen für die

Schiefe sind lediglich

für unimodale

Verteilungen sinnvoll

interpretierbar!

Was passiert

bei IQR=0?

Page 133: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 133

Fachbereich Wirtschaftswissenschaften

Schiefe und Wölbung

– Kurtosis / Exzeß

– Abweichung der Wölbung von der einer Normalverteilung

– Es ergeben sich positive Werte für spitze Verteilungen

und negative Werte für flache Verteilungen

Sommersemester 2020

Christian Reinboth, M.Sc.

4

1

24

1

4

4

4

4

)(1

)(1

3

−=

−=

−=

=

=

n

i

i

n

j

j

k

xxn

s

xxn

m

s

mg

Auch die Kurtosis

ist nur bei einer

unimodalen

Verteilung sinnvoll

interpretierbar

Page 134: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 134

Fachbereich Wirtschaftswissenschaften

Lagemaße und Box-Plots

– Aus der Lage des Medians im Box-Plot lässt ebenfalls die Verteilungsform ablesen

Sommersemester 2020

Christian Reinboth, M.Sc.

Symmetrische Verteilung

Linkssteile Verteilung

Rechtssteile Verteilung

Page 135: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 135

Fachbereich Wirtschaftswissenschaften

Lagemaße und Verteilungsformen

Sommersemester 2020

Christian Reinboth, M.Sc.

Lagemaß min. Skalenniveau

Modalwert Nominalskalenniveau

Median / Perzentile Ordinalskalenniveau

Arithmetisches Mittel Metrisches Skalenniveau

Verhältnis der Lagemaße Form der Verteilung

Symmetrische Verteilung

Rechtssteile Verteilung

Linkssteile Verteilung

modxxx med

modxxx med

modxxx med

Page 136: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 136

Fachbereich Wirtschaftswissenschaften

Übung: Quartilskoeffizient und Kurtosis

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

25,075,0

25,075,0

25,0

)()(

xx

xxxxg

medmed

−−−= 4

1

24

1

4

4

)(1

)(1

−=

−=

=

=

n

i

i

n

j

j

xxn

s

xxn

m

34

4 −=s

mgk

Page 137: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 137

Fachbereich Wirtschaftswissenschaften

Übung: Quartilskoeffizient und Kurtosis

Sommersemester 2020

Christian Reinboth, M.Sc.

11

1

2324

)2324()2424(

24

24

23

)()(

25,0

25,0

75,0

50,0

25,0

25,075,0

25,075,0

25,0

−=−

=

−−−=

=

=

=

−−−=

g

g

x

x

x

xx

xxxxg

medmed4

1

24

1

4

4

)(1

)(1

−=

−=

=

=

n

i

i

n

j

j

xxn

s

xxn

m

34

4 −=s

mgk

Wie sind die

Ergebnisse zu

interpretieren?

55,0307,8

66,24

07,884,2

66,2447,616*25

1

44

4

=−=

==

==

kg

s

m

Page 138: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 138

Fachbereich Wirtschaftswissenschaften

Korrelationskoeffizienten

Deskriptive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 139: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 139

Fachbereich Wirtschaftswissenschaften

Wie lassen sich Zusammenhänge aufspüren?

– Für zwei Variablen X und Y kann dann ein Zusammenhang unterstellt werden

(dieser muss aber real nicht existieren), wenn sie sich gleichmäßig verändern

– Gleichsinnig = wird X größer wird Y größer; wird X kleiner wird Y kleiner

– Gegensinnig = wird X größer wird Y kleiner; wird X kleiner wird Y größer

– Die Berechnung von Korrelationskennzahlen orientiert sich am Skalenniveau

– Nominalskalenniveau: Chi²-Koeffizient

– Ordinalskalenniveau: Spearman, Kendall

– Metrisches Skalenniveau: Bravais-Pearson

– Grundsätzlich immer möglich ist auch eine grafische Analyse der Daten

– Diskrete Daten: Gruppierte Balkendiagramme, Bedingte Balkendiagramme

– Stetige Daten: Zwei- und dreidimensionale Streudiagramme, Scatterplot-Matrix

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 140: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 140

Fachbereich Wirtschaftswissenschaften

Analyse bivariater Zusammenhänge

Sommersemester 2020

Christian Reinboth, M.Sc.

Frage: Liegt in einem bivariaten Datensatz ein Zusammenhang vor?

grafisch nominalskaliert ordinalskaliert metrisch

stetig

diskret

Streudiagramm

Scatterplot-Matrix

Balkendiagramme

(gruppiert, bedingt)

Chi²-Koeffizient Konkordanz-

koeffizient

nach Kendall

Rangkorrelations-

koeffizient nach

Spearman

Bravais-Pearson-

Korrelations-

koeffizient

Page 141: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 141

Fachbereich Wirtschaftswissenschaften

Der Bravais-Pearson-Korrelationskoeffizient

– Für metrisch skalierte Merkmale wird in den meisten Fällen der Bravais-Pearson-

Korrelationskoeffizient berechnet (obwohl auch andere Koeffizienten möglich sind)

– Bei der Interpretation zu beachten: Der Bravais-Pearson-Korrelationskoeffizient

misst ausschließlich den linearen Zusammenhang zwischen zwei Variablen

– Nicht-lineare (z.B. quadratische oder logarithmische) Zusammenhänge werden

somit nicht aufgedeckt, auch wenn sie stark oder sogar vollkommen sein sollten

Sommersemester 2020

Christian Reinboth, M.Sc.

==

=

−−

=n

i

i

n

i

i

n

i

ii

ynyxnx

yxnyx

r

1

22

1

22

1

*)(**)(

**)*(

Page 142: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 142

Fachbereich Wirtschaftswissenschaften

Der Bravais-Pearson-Korrelationskoeffizient

– Der Koeffizient r kann Werte zwischen -1 und +1 annehmen

– Bei positiven Werten liegt ein positiver Zusammenhang

vor, d.h. die Wertepaare liegen auf einer steigenden Gerade

– Bei negativen Werten liegt ein negativer Zusammenhang

vor, d.h. die Wertepaare liegen auf einer fallenden Gerade

– Werte nahe Null deuten darauf hin, dass keinerlei lineare

Korrelation zwischen den beiden Variablen vorliegt

– Interpretation des Betrags (!) von r

– r = 0 = keine Korrelation

– 0 < r < 0,5 = schwache Korrelation

– 0,5 <= r < 0,8 = mittlere Korrelation

– 0,8 <= r < 1 = starke Korrelation

– r = 1 = perfekte Korrelation

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 143: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 143

Fachbereich Wirtschaftswissenschaften

Bravais-Pearson-Korrelationskoeffizient

Sommersemester 2020

Christian Reinboth, M.Sc.

Quelle: WikiBooks / User: Philipendula / Lizenz: GNU-Lizenz für freie Dokumentationen

Page 144: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 144

Fachbereich Wirtschaftswissenschaften

Empfohlene Hilfstabelle für die Berechnung

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y x2 y2 (x*y)

... ... ... ... ... ...

... ... ... ... ... ...

... ... ... ... ... ...

Σ ... ... ... ... ...

==

=

−−

=n

i

i

n

i

i

n

i

ii

ynyxnx

yxnyx

r

1

22

1

22

1

*)(**)(

**)*(

Page 145: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 145

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

Befragte/r Größe (m) Gewicht (kg)

1 1,55 64

2 1,68 72

3 1,72 71

4 1,73 75

5 1,82 102

6 1,81 98

7 1,66 71

8 1,78 78

9 1,73 77

10 1,59 69

Page 146: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 146

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

?**)*(1

=−=

n

i

ii yxnyx

?*)(1

22 =−=

n

i

i xnx

?*)(1

22 =−=

n

i

i yny

Welche Größen müssen wir ermitteln? Welche Hilfsgrößen benötigen wir?

10

7,77

707,1

=

=

=

n

y

x

==

=

−−

=n

i

i

n

i

i

n

i

ii

ynyxnx

yxnyx

r

1

22

1

22

1

*)(**)(

**)*(

Page 147: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 147

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y x2 y2 (x*y)

1 1,55 64 2,4025 4096 99,2

2 1,68 72 2,8224 5184 120,96

3 1,72 71 2,9584 5041 122,12

4 1,73 75 2,9929 5625 129,75

5 1,82 102 3,3124 10404 185,64

6 1,81 98 3,2761 9604 177,38

7 1,66 71 2,7556 5041 117,86

8 1,78 78 3,1684 6084 138,84

9 1,73 77 2,9929 5929 133,21

10 1,59 69 2,5281 4761 109,71

Σ 17,07 777 29,2097 61769 1334,67

Page 148: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 148

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=

=

=

=

=−=

67,1334

71,109)69*59,1(

21,133)77*73,1(

...

96,120)72*68,1(

2,99)64*55,1(

?**)*(1

n

i

ii yxnyx

10

7,77

707,1

=

=

=

n

y

x

331,8

)7,77*707,1*10(

67,1334

=

Page 149: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 149

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

?*)(1

22 =−=

n

i

i xnx

?*)(1

22 =−=

n

i

i yny

61769

2097,29

1

2

1

2

=

=

=

=

n

i

i

n

i

i

y

x

10

7,77

707,1

=

=

=

n

y

x

2667,0707,1*102097,29*)( 2

1

22 =−=−=

n

i

i xnx

3644,377,77*1061769*)( 2

1

22 =−=−=

n

i

i yny

Page 150: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 150

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

8360,09651,9

331,8

3644,37*2667,0

331,8

*)(**)(

**)*(

1

22

1

22

1

===

−−

=

==

=

r

ynyxnx

yxnyx

rn

i

i

n

i

i

n

i

ii

Page 151: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 151

Fachbereich Wirtschaftswissenschaften

Übung: B-P-K

Sommersemester 2020

Christian Reinboth, M.Sc.

50

60

70

80

90

100

110

1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85

Page 152: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 152

Fachbereich Wirtschaftswissenschaften

Spearman-Rangkorrelationskoeffizient

– Für ordinalskalierte Merkmale bieten sich zwei Zusammenhangsmaße an:

– Der Rangkorrelationskoeffizient nach Spearman

– Der Konkordanzkoeffizient nach Kendall

– Der Rangkorrelationskoeffizient nach Spearman misst

den monotonen Zusammenhang zweier Variablen

– Für die n Datenpaare werden dabei innerhalb jeder Variablen zunächst Ränge gebildet

– Die kleinste Ausprägung von X erhält den Wert 1, die zweitkleinste den Wert 2 etc. pp.

– Für Y wird identisch vorgegangen, auch hier erhält die kleinste Ausprägung die 1 etc.

– Anschließend werden die Rangdifferenzen d der jeweiligen Datenpaare gebildet

– Auf Basis dieser Differenzwerte lässt sich dann der Rangkorrelationskoeffizient

(nach obenstehender Formel) berechnen

Sommersemester 2020

Christian Reinboth, M.Sc.

nn

drho

i

*)1(

*61

2

2

−−=

Page 153: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 153

Fachbereich Wirtschaftswissenschaften

Spearman-Rangkorrelationskoeffizient

– Die Ergebnisse liegen stets zwischen -1 und +1

– rho > 0 = gleichsinniger monotoner Zusammenhang

(große X-Werte gehen mit großen Y-Werten einher und umgekehrt)

– rho ~ 0 = es besteht kein monotoner Zusammenhang

(damit kann auch kein linearer bestehen!)

– rho < 0 = gegensinniger monotoner Zusammenhang

(große X-Werte gehen mit kleinen Y-Werten einher und umgekehrt)

– Wichtig: Das Verfahren liefert nur dann genaue Resultate, wenn

keine Rangplatzbindungen (die sogenannten ties) auftreten

– Haben Beobachtungen identische Werte, ordnet man

allen identischen Daten einen Durchschnittsrang zu

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 154: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 154

Fachbereich Wirtschaftswissenschaften

Übung: Spearman

Sommersemester 2020

Christian Reinboth, M.Sc.

Befragte/r Größe (m) Gewicht (kg)

1 1,55 64

2 1,68 72

3 1,72 71

4 1,73 75

5 1,82 102

6 1,81 98

7 1,66 71

8 1,78 78

9 1,73 77

10 1,59 69

Page 155: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 155

Fachbereich Wirtschaftswissenschaften

Übung: Spearman

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x rg (x) y rg (y) d d2

1 1,55 1 64 1 0 0

2 1,68 4 72 5 -1 1

3 1,72 5 71 3,5 1,5 2,25

4 1,73 6,5 75 6 0,5 0,25

5 1,82 10 102 10 0 0

6 1,81 9 98 9 0 0

7 1,66 3 71 3,5 -0,5 0,25

8 1,78 8 78 8 0 0

9 1,73 6,5 77 7 -0,5 0,25

10 1,59 2 69 2 0 0

Σ // // // // // 4

Page 156: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 156

Fachbereich Wirtschaftswissenschaften

Übung: Spearman

Sommersemester 2020

Christian Reinboth, M.Sc.

976,0

024,01

990

241

10*)110(

4*61

*)1(

*61

2

2

2

=

−=

−=

−−=

−−=

rho

rho

rho

rho

nn

drho

i Passt das Ergebnis

zum Streudiagramm?

50

60

70

80

90

100

110

1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85

Page 157: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 157

Fachbereich Wirtschaftswissenschaften

Konkordanzkoeffizient nach Kendall

– Alternativ zu Spearman kann für Ordinaldaten auch Kendalls tau berechnet werden

– Die Berechnung benötigt die Anzahl konkordanter (K) und diskordanter (D) Paare

– Zur Bestimmung der Paare wird eine der Datenreihen nach der Größe geordnet

– Anschließend wird untersucht, inwieweit sich die zweite Datenreihe „mitsortiert“ hat

– Für jedes Datenpaar aus den beiden Datenreihen (yi, yj) mit i < j gilt:

– ist yi < yj, so ist das Paar konkordant (K)

– ist yi > yj, so ist das Paar diskordant (D)

– ist yi = yj, so liegt eine Bindung vor (wird nicht mitgezählt)

– Sind alle Paare entsprechend untersucht worden, wird tau (Formel) berechnet

– Auch hier gilt, dass das Ergebnis nur Bestand hat, wenn keine Bindungen auftreten

– Einige wenige Bindungen können ignoriert werden, da sie das Ergebnis kaum verzerren

Sommersemester 2020

Christian Reinboth, M.Sc.

)1(*

)(*2

−=

nn

DKtau

Page 158: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 158

Fachbereich Wirtschaftswissenschaften

Konkordanzkoeffizient nach Kendall

– Die Ergebnisse liegen stets zwischen -1 und +1

– tau > 0 = gleichsinniger monotoner Zusammenhang

(große X-Werte gehen mit großen Y-Werten einher und umgekehrt)

– tau ~ 0 = es besteht kein monotoner Zusammenhang

(damit kann auch kein linearer bestehen!)

– tau < 0 = gegenseitiger monotoner Zusammenhang

(große X-Werte gehen mit kleinen Y-Werten einher und umgekehrt)

– Bei der Interpretation von Korrelationskoeffizienten ist zu beachten:

– Sowohl mit Spearman als auch mit Kendall können nur monotone

Zusammenhänge identifiziert werden, mit dem B-P-K nur lineare

– Ein niedriger Korrelationskoeffizient bedeutet daher nicht, dass keine

andere Korrelation (z.B. eine logarithmische) in den Daten zu finden ist

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 159: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 159

Fachbereich Wirtschaftswissenschaften

Übung: Kendall

Sommersemester 2020

Christian Reinboth, M.Sc.

Befragte/r Größe (m) Gewicht (kg)

1 1,55 64

2 1,68 72

3 1,72 71

4 1,73 75

5 1,82 102

6 1,81 98

7 1,66 71

8 1,78 78

9 1,73 77

10 1,59 69

Page 160: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 160

Fachbereich Wirtschaftswissenschaften

Übung: Kendall

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x rg (x) y rg (y) K D

1 1,55 1 64 1 9 0

2 1,59 2 69 2 8 0

3 1,66 3 71 3,5 6 0

4 1,68 4 72 5 5 1

5 1,72 5 71 3,5 5 0

6 1,73 6,5 75 6 4 0

7 1,73 6,5 77 7 3 0

8 1,78 8 78 8 2 0

9 1,81 9 98 9 1 0

10 1,82 10 102 10 - -

Σ // // // // 43 1

9 x K

0 x D

Page 161: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 161

Fachbereich Wirtschaftswissenschaften

Übung: Kendall

Sommersemester 2020

Christian Reinboth, M.Sc.

39,0

90

84

)110(*10

)143(*2

)1(*

)(*2

=

=

−=

−=

tau

tau

tau

nn

DKtau

Passt das Ergebnis

zum Streudiagramm?

50

60

70

80

90

100

110

1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85

10

1

43

=

=

=

n

D

K

Page 162: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 162

Fachbereich Wirtschaftswissenschaften

Korrelation ist nicht gleich Kausalität

– Eine über einen Korrelationskoeffizienten identifizierte Korrelation sollte

näher untersucht, dabei jedoch niemals inhaltlich interpretiert werden

– Grund dafür ist, dass eine Korrelation nicht notwendigerweise auf einem

Ursache-Wirkungs-Zusammenhang beruht – auch wenn es in vielen

Fällen leider äußerst verführerisch ist, diese Annahme zu treffen

– Tatsächlich kann es verschiedene Erklärungen für Korrelationen geben

– Einseitiger Zusammenhang: X beeinflusst Y bzw. Y beeinflusst X

– Beidseitiger Zusammenhang: X und Y beeinflussen sich gegenseitig

– Es handelt sich um einen reinen Zufallseffekt in den Daten (Scheinkorrelation)

– Eine dritte Variable (Z) beeinflusst X und Y gleichermaßen (Scheinkorrelation)

– Ein klassisches Beispiel für eine Scheinkorrelation ist die Korrelation zwischen

Storchenzahl und Geburtenquote (verbunden über die Variable „Urbanisierung“)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 163: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 163

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

"One of the first things taught in

introductory statistics textbooks is that

correlation is not causation. It is also

one of the first things forgotten."

Thomas Sowell

Page 164: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 164

Fachbereich Wirtschaftswissenschaften

Explorative Statistik

Teil V

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 165: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 165

Fachbereich Wirtschaftswissenschaften

Ausgewählte grafische Darstellungsformen

Explorative Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 166: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 166

Fachbereich Wirtschaftswissenschaften

Die große Vielfalt statistischer Grafiken…

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 167: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 167

Fachbereich Wirtschaftswissenschaften

Grafische Darstellung univariater Daten

Sommersemester 2020

Christian Reinboth, M.Sc.

Mögliche Darstellungsformen

• diskrete Merkmale

• wenige Ausprägungen

• stetige Merkmale

• viele Ausprägungen

Stabdiagramm

Säulendiagramm

Balkendiagramm

Kreisdiagramm

Stem-and-Leaf

Histogramm

Box-Plot

P-P- & Q-Q-Plots

Page 168: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 168

Fachbereich Wirtschaftswissenschaften

Grafische Darstellung multivariater Daten

Sommersemester 2020

Christian Reinboth, M.Sc.

Mögliche Darstellungsformen

Bivariate Darstellungen Multivariate Darstellungen

2D-Streudiagramm

Profildiagramme

Andrews‘ Fourier

Chernoff-Gesichter

3D-Streudiagramm

Streudiagramm-Matrix

Page 169: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 169

Fachbereich Wirtschaftswissenschaften

Stem-and-Leaf-Plots

– Die Stem-and-Leaf-Plots (Stamm-Blatt-Diagramme) eignen sich im Gegensatz

zu Kreis- und Balkendiagrammen vor allem zur Darstellung stetiger Merkmale

– Der große Vorteil gegenüber jeder anderen grafischen Darstellungsform ist,

dass die Originaldaten (zumindest bis zu einer gewissen Genauigkeit) noch aus

dem Diagramm abgelesen werden können

– Das Diagramm ist aufgebaut wie ein gekipptes Histogramm, d.h. flächenproportional

– Der „Stamm“ besteht aus der ersten Ziffer, die „Blätter“ aus der jeweils folgenden

– Sehr große oder sehr kleine Zahlen (Ausreißer) können auf- oder abgerundet

sowie als Extremwerte ausgewiesen oder aus der Grafik gestrichen werden

– Stem-and-Leaf-Plots können – neben den Box-Plots – bemerkenswert gut

dazu genutzt werden, um zwei Verteilungen miteinander zu vergleichen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 170: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 170

Fachbereich Wirtschaftswissenschaften

Stem-and-Leaf-Plots

Sommersemester 2020

Christian Reinboth, M.Sc.

1 | 1 1 1 2 2 3 4 5 7 7

2 | 2 2 4

3 | 3 3 3 4 5 8 8

4 | 1 2 9 9 9 9

2 Extremes

Stem width: 10

Each leaf: 1 case(s) Datensatz A Datensatz B

8 8 8 3 2 | 1 | 1 1 1 2 2 3 4 5 7 7

2 1 | 2 | 2 2 4

9 5 4 43 3 | 3 | 3 3 3 4 5 8 8

4 3 32 1 | 4 | 1 2 9 9 9 9

3 Extremes 2 Extremes

Stem width: 10

Each leaf: 1 case(s)

Singulärer Stem-and-Leaf-Plot

Vergleichender

Stem-and-Leaf-Plot

Page 171: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 171

Fachbereich Wirtschaftswissenschaften

Box-Plots

– Box-Plots bieten einen Verteilungsüberblick und gestatten Verteilungsvergleiche

– Sie stellen Lage und Streuung dar und dienen zudem der Ausreißeridentifikation

Sommersemester 2020

Christian Reinboth, M.Sc.

Median

Oberes Quartil

Unteres Quartil

Größter Nicht-Ausreißer

Kleinster Nicht-Ausreißer

*

42

16

27

Ausreißer

Ausreißer

Extremwert

IQR4 IQR7 IQR

Page 172: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 172

Fachbereich Wirtschaftswissenschaften

Box-Plots

– Aus der Lage des Medians im Box-Plot lässt sich die Form einer Verteilung ablesen

Sommersemester 2020

Christian Reinboth, M.Sc.

Symmetrische Verteilung

Linkssteile Verteilung

Rechtssteile Verteilung

Page 173: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 173

Fachbereich Wirtschaftswissenschaften

Wie leicht sind statistische Diagramme manipulierbar?Trick 17: Die leicht übersehene Achsenverkürzung

Sommersemester 2020

Christian Reinboth, M.Sc.

40

42

44

46

48

50

52

Gruppe 1 Gruppe 2 Gruppe 3 Gruppe 4

Ergebnisse

Page 174: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 174

Fachbereich Wirtschaftswissenschaften

Wie leicht sind statistische Diagramme manipulierbar?...und schon sind die Unterschiede viel geringer...

Sommersemester 2020

Christian Reinboth, M.Sc.

0

10

20

30

40

50

60

Gruppe 1 Gruppe 2 Gruppe 3 Gruppe 4

Ergebnisse

Page 175: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 175

Fachbereich Wirtschaftswissenschaften

Wie 3D-Kegel die Realität verzerren

Sommersemester 2020

Christian Reinboth, M.Sc.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Verwaltung

Produktion

Page 176: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 176

Fachbereich Wirtschaftswissenschaften

Wie 3D-Kegel die Realität verzerren

Sommersemester 2020

Christian Reinboth, M.Sc.

0%

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Verwaltung

Produktion

Page 177: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 177

Fachbereich Wirtschaftswissenschaften

Warum man keine Icons verwenden sollte

Sommersemester 2020

Christian Reinboth, M.Sc.

0

20

40

60

80

100

120

Personalbedarf

Produktion Verwaltung

Page 178: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 178

Fachbereich Wirtschaftswissenschaften

Warum man keine Icons verwenden sollte

Sommersemester 2020

Christian Reinboth, M.Sc.

0

20

40

60

80

100

120

Personalbedarf

Produktion Verwaltung

Page 179: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 179

Fachbereich Wirtschaftswissenschaften

Manchmal täuschen auch unverkürzte Achsen

Sommersemester 2020

Christian Reinboth, M.Sc.

1600000

1800000

2000000

2200000

2400000

2600000

1950 1960 1970 1980 1990 2000 2010

Bevölkerungsentwicklung

Page 180: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 180

Fachbereich Wirtschaftswissenschaften

Manchmal täuschen auch unverkürzte Achsen

Sommersemester 2020

Christian Reinboth, M.Sc.

0

500000

1000000

1500000

2000000

2500000

3000000

3500000

1950 1960 1970 1980 1990 2000 2010

Bevölkerungsentwicklung

Page 181: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 181

Fachbereich Wirtschaftswissenschaften

Umgang mit Ausreißern

Explorative Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 182: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 182

Fachbereich Wirtschaftswissenschaften

Einführung in die Ausreißeranalyse

– Bei einem Ausreißer handelt es sich um einen gemessenen oder erhobenen Wert,

der nicht den Erwartungen entspricht bzw. der nicht zu den übrigen Werten passt

– Es existiert keine eindeutige Definition darüber, wann ein Wert als Ausreißer

bezeichnet werden kann – beim Box-Plot werden z.B. alle Werte außerhalb

des vierfachen IQR-Bereichs um den Median als Ausreißer klassifiziert

– Es gibt drei mögliche Ursachen für das Auftreten eines Ausreißers:

– Der Ausreißer wurde durch einen verfahrenstechnischen Fehler verursacht, so etwa

einen Fehler bei der Dateneingabe, beim Codieren der Daten oder einen technischen

Ausfall bei der Datenerfassung bzw. -speicherung

– Der Ausreißer kennzeichnet einen außergewöhnlichen Wert, etwa eine einzelne aus dem

Rahmen fallende Beobachtung (der einzige Millionär), die sich jedoch erklären lässt – solche

Ausreißer können mitunter ein Hinweis darauf sein, dass die Befragung falsch angelegt wurde

– Der Ausreißer kennzeichnet einen korrekt erfassten Wert, für den es keinerlei Erklärung gibt

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 183: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 183

Fachbereich Wirtschaftswissenschaften

Einführung in die Ausreißeranalyse

– Es ist zwischen normalen und multivariaten Ausreißern zu unterscheiden:

– „Normaler“ Ausreißer = außergewöhnlich großer oder kleiner Wert

(beispielsweise das persönliche Einkommen im Millionenbereich)

– Multivariater Ausreißer = für sich betrachtet im normalen Bereich liegende

Einzelwerte, die in ihrer Kombination quer durch die Variablen jedoch einen

einzigartigen Fall ergeben (beispielsweise die 86jährige Frau mit Internetanschluss)

– Die entscheidende Frage jeder Ausreißeranalyse lautet: Werden die Ausreißer

im Datensatz beibehalten oder können bzw. sollen sie verworfen werden?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 184: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 184

Fachbereich Wirtschaftswissenschaften

Der Leverage-Effekt

Sommersemester 2020

Christian Reinboth, M.Sc.

Ausreißer können eine

Regressionsgerade zu

sich „hinziehen“ und so das

Ergebnis stark beeinflussen

Page 185: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 185

Fachbereich Wirtschaftswissenschaften

Wie ist mit Ausreißern umzugehen?

– Generell gibt es drei Möglichkeiten:

– Eingang in die Analyse

– Ausschluss aus der Analyse

– Kennzeichnung als fehlender Wert

– Insbesondere drei Fragen sind für die Entscheidungsfindung von Bedeutung:

– Wie ist das Auftreten der Ausreißer zu erklären?

– Handelt es sich um Eingabefehler und ist es möglich, diese zu bereinigen?

– Was sagen die Werte über Anlage und Durchführung der Erhebung aus?

– Welche Auswirkungen haben die Ausreißer auf die Ergebnisse der Datenanalyse?

– Beeinflussen sie beispielsweise den Verlauf einer Regressionsgraden? (Leverage-Effekt)

– Welcher Datenverlust entsteht, wenn die Ausreißer aus dem Datensatz entfernt werden?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 186: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 186

Fachbereich Wirtschaftswissenschaften

Umgang mit fehlenden Werten

Explorative Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 187: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 187

Fachbereich Wirtschaftswissenschaften

Das Problem der fehlenden Daten

– Unter fehlenden Daten sind einzelne fehlende Werte zu verstehen

– Typische fehlende Werte bei Personenbefragungen:

– Angaben zum Einkommen

– Angaben zum eigenen Körper

– Angaben zum Sexualverhalten

– Fehlende Werte sind dann ein Problem, wenn ein Zusammenhang zwischen

der Wahrscheinlichkeit des Fehlens und einem anderen Sachverhalt zu

vermuten ist, die Verteilung der fehlenden Werte also keine zufällige ist

– Beispiel: Kommt es bei der Frage nach dem Einkommen tendenziell eher zu

Auskunftsverweigerungen bei Personen mit niedrigem Einkommen, so wird

dies das erhobene Durchschnittseinkommen nach oben verzerren

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 188: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 188

Fachbereich Wirtschaftswissenschaften

Das Problem der fehlenden Daten

– Bei der Untersuchung fehlender Daten ist daher vor allem zu klären:

– Fehlen so viele Werte, dass eine sinnvolle Auswertung des Datensatzes unmöglich ist?

– Sind die fehlenden Werte zufällig gestreut oder lässt sich ein Muster identifizieren?

– Generell bieten sich drei Möglichkeiten des Umgangs mit fehlenden Daten an:

– Einzelne Fälle oder einzelne Variablen werden von der weiteren Auswertung ausgeschlossen

– Es werden ausschließlich die vollständigen Fälle zur weiteren Auswertung zugelassen

– Die fehlenden Werte werden induktiv oder statistisch ersetzt

– Die richtige Entscheidung hängt von den Ursachen für das Fehlen der Werte ab

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 189: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 189

Fachbereich Wirtschaftswissenschaften

Ursachen für fehlende Daten

– Das Fehlen von Daten kann auf vier Ursachen zurückgeführt werden:

– Dateneingabefehler (z.B. Buchstaben in einem Zahlenfeld)

– Codierungs- und Übertragungsfehler während

der Eingabe oder der Speicherung von Daten

– Ungenaue Datenfelder bei der Erhebung

(z.B. „Studienrichtung“ bei einer Befragung von Nicht-Akademikern)

– Aktionen des Befragten wie etwa das Vergessen von Angaben, widersinnige

Angaben (höchster Schulabschluss ist die Mittlere Reife, trotzdem wurde eine

Abiturnote eingetragen), Nichtauskunftsfähigkeit oder bewusste Entscheidung,

eine Frage nicht zu beantworten (Einkommen, Körper, Sexualverhalten...)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 190: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 190

Fachbereich Wirtschaftswissenschaften

Ursachen für fehlende Daten

– Das Auftreten von fehlenden Werten ist bei der Arbeit mit realen

Daten keinesfalls die Ausnahme, sondern vielmehr die Regel

– Die Wahrscheinlichkeit für das Auftreten fehlender Werte

steigt erfahrungsgemäß mit der Größe des Datensatzes

– Bei der Analyse langer Zeitreihen, z.B. der Auswertung der Niederschlagsmengen

der letzten 200 Jahre, werden aufgrund von Katastrophen, Krieg oder anderen

Gründen immer wieder einzelne Werte nicht erfasst worden sein

– Gerade in der sozialwissenschaftlichen Forschung und bei der Marktforschung im

Zuge der Befragung von hunderten oder tausenden Personen, kommt es aufgrund

verschiedenster Ursachen häufig zu Einzelausfällen

– Mit fehlenden Daten ist bei jeder marktforscherischen Untersuchung zu

rechnen – ihr Auftreten sollte demzufolge keinesfalls ignoriert werden!

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 191: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 191

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

© Grafik: Nationalpark Harz, Daten: Deutscher Wetterdienst

Fehlende Werte in einer Zeitreihenbetrachtung

Page 192: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 192

Fachbereich Wirtschaftswissenschaften

Zufälligkeitsgrade

– Man unterscheidet in drei Zufälligkeitsgrade bezüglich des Auftretens fehlender Daten

MCAR,

MAR und

NRM

– Der Zufälligkeitsgrad entscheidet, wie mit fehlenden Werten umzugehen ist

– MCAR = missing completely at random

– Fehlende Werte treten vollkommen zufällig auf

– Die Wahrscheinlichkeit des Fehlens steht nicht in Zusammenhang mit anderen Größen

– Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y

und der Variable Y selbst (niedrige Einkommen werden tendenziell nicht angegeben) oder

eine Korrelation mit einer anderen Variable X (Frauen sind tendenziell weniger bereit,

Auskünfte über ihr Körpergewicht zu machen) feststellbar

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 193: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 193

Fachbereich Wirtschaftswissenschaften

Zufälligkeitsgrade

– MAR = missing at random

– Das Auftreten von fehlenden Werten steht (teilweise)

in Zusammenhang mit einer anderen erhobenen Variablen

– Es ist kein Zusammenhang zwischen dem Auftreten von fehlenden Werten der Variable Y

und der Variable Y selbst feststellbar, wohl aber eine (schwache) Korrelation des Auftretens

von fehlenden Y-Werten mit einer anderen Variable X

– NRM = nonrandom missing

– Das Auftreten von fehlenden Werten folgt klar erkennbaren

Gesetzmäßigkeiten, eine Zufälligkeit ist sicher auszuschließen

– Es kann entweder ein Zusammenhang zwischen dem Auftreten von fehlenden Werten der

Variable Y und der Variable Y selbst oder mit einer anderen Variable X oder auch beides

vorliegen, d.h. das Auftreten eines fehlenden Wertes kann vollständig durch eine andere

Variable oder durch die Variable selbst erklärt werden

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 194: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 194

Fachbereich Wirtschaftswissenschaften

Umgang mit fehlenden Daten

– Der Umgang mit fehlenden Daten hängt wesentlich von deren Zufälligkeitsgrad ab

– CCA = complete case approach

– Es werden ausschließlich vollständige Fälle für die weitere Analyse verwendet

– Alle Fälle mit auch nur einem fehlenden Wert werden aus dem Datensatz entfernt

– Die Methode kann nur bei zufällig fehlenden Daten (MCAR) angewendet werden

– Günstig ist sie bei einer großen Stichprobe, in der Löschungen unkritisch sind

– Ausschluss von Fällen oder Variablen

– Ziel des selektiven Ausschlusses ist die Verringerung des Gesamtanteils fehlender Werte

– Abwägung zwischen Datenverlust und Reduktion der Probleme durch fehlende Werte

– Günstigste Methode für nicht zufällig auftretende fehlende Werte (MAR, NRM)

– Der Ausschluss von Fällen kann fallweise oder paarweise erfolgen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 195: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 195

Fachbereich Wirtschaftswissenschaften

Umgang mit fehlenden Daten

– Ersetzen fehlender Werte

– Grundidee: metrische Daten (und zwar ausschließlich diese)

lassen sich ersetzen, wenn Regelmäßigkeiten erkennbar sind

– Möglich ist der Ersatz von Werten über verschiedene induktive

(nichtmathematische) und statistische (mathematische) Verfahren

– Die wesentlichen Gefahren bei dieser Vorgehensweise bestehen darin, dass

man den Datensatz für vollständig hält bzw. durch Ersetzungen verzerrt

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 196: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 196

Fachbereich Wirtschaftswissenschaften

Ausschlussverfahren

– Fallweiser Ausschluss

– Fehlt ein einzelner Wert, wird der komplette Fall von der weiteren Analyse ausgeschlossen

– Vorteil: Asymmetrien werden vermieden, da keine Teilfälle in die Analyse eingehen

– Nachteil: Relevantes Datenmaterial geht verloren, der Stichprobenumfang sinkt

– Paarweiser Ausschluss

– Fehlen einzelne Werte, wird mit den restlichen Werten des Falles weitergearbeitet

– Vorteil: Alle Fälle bleiben erhalten, der Stichprobenumfang verändert sich nicht

– Nachteil: Bei multivariaten Analysen u.U. unterschiedlich große Datensätze

– Um Fälle zu vermeiden, bei denen auf unterschiedlich große Datensätze

zurückgegriffen und dabei verglichen wird, ist der fallweise Ausschluss

das weitaus häufiger verwendete Ausschlussverfahren

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 197: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 197

Fachbereich Wirtschaftswissenschaften

Ersatzwertverfahren

– Induktive Verfahren

– Die fehlenden Werte werden auf der Basis von

Informationen ersetzt, die über die Stichprobe vorliegen

– Nachbeobachtungen: Zusätzliche Beobachtungen oder Befragungen

werden angestellt (Wie wirkt sich das auf die Repräsentativität aus?)

– Externe Konstanten: Ein konstanter Wert aus einer externen Quelle

oder aus einer früheren Studie wird ersatzweise verwendet

– Statistische Verfahren

– Mittelwertersatz: Der fehlende Wert einer Variable wird durch das Mittel der Variablen ersetzt

– Es existieren verschiedene Formen des Mittelwertersatzes: Ersatz durch das Mittel oder den

Median der Nachbarpunkte, Ersatz durch einen Zeitreihen-Mittelwert und lineare Interpolation

– Vorteil: Die Verfahren sind leicht anwendbar, benötigt werden nur die jeweiligen Mittelwerte

– Nachteil: Die Varianz, die Verteilung der Daten und eventuelle Korrelationen werden verzerrt

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 198: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 198

Fachbereich Wirtschaftswissenschaften

Ersatzwertverfahren

– Linearer Trend: Ein fehlender Variablenwert

wird durch einen linearen Trendwert ersetzt

– Voraussetzung: Für die gültigen Werte lässt sich

ein aussagekräftiger linearer Trend identifizieren

– In diesem Fall können fehlende Werte durch die entsprechenden

Werte der Trendgraden an der betreffenden Stelle ersetzt werden

– Nachteil: Der (durch zufällige Artefakte möglicherweise überschätzte) lineare Trend in

den Variablen wird unbotmäßig verstärkt, die Varianz der Verteilung verringert sich

– Grundsätzlich ist bei allen Ersatzwertverfahren zu beachten, dass die Einbringung

von Schätz- und Ersatzwerten in den Datensatz dokumentiert und im Datensatz

so gut wie möglich kenntlich gemacht werden muss, damit im Rahmen einer

sekundärstatistischen Analyse nicht von realen Werten ausgegangen wird

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 199: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 199

Fachbereich Wirtschaftswissenschaften

Was sollte man für die Klausur können?(alle Angaben natürlich ohne Gewähr)

– Grundbegriffe (Skalenniveaus,

Variablentypen etc.) werden über

ein Multiple Choice-Quiz abgefragt

– Aufstellung von Häufigkeitstabellen

und kumulierten Häufigkeitstabellen

– Berechnung von arithmetischem Mittel,

getrimmtem arithmetischem Mittel,

Median, Quartilen und Modus

– Berechnung von Varianz, Standard-

abweichung, IQR und Spannweite

Sommersemester 2020

Christian Reinboth, M.Sc.

– Berechnung von Momentenkoeffizient,

Quartilskoeffizient, Kurtosis und Exzeß

– Bei den Grafiken sind nur Box-Plots

und Stem-and-Leaf-Plots zu zeichnen

– Von den drei Zusammenhangsmaßen

(B-P-K, Spearman, Kendall) kommen

mindestens zwei in der Klausur vor

Page 200: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 200

Fachbereich Wirtschaftswissenschaften

Ressourcen für die Klausurvorbereitung

– Statistik-Wiki im Stud.IP

– Probeklausuren im Stud.IP

– Diskussionsforen im Stud.IP

– Multiple Choice-Quiz im Stud.IP

http://studip.hs-harz.de

– Übungsblätter zu Statistik I

– Aufgabenheft zu Statistik II

– Foliensätze zu Statistik I und II

– Links zu Open Source-Software

http://www.hs-harz.de/creinboth/

Sommersemester 2020

Christian Reinboth, M.Sc.

Zusätzliches

Tutorium

gewünscht?

Page 201: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 201

Fachbereich Wirtschaftswissenschaften

Statistik II

Christian Reinboth

M.Sc., Dipl.-Wi.Inf.(FH)

Sommersemester 2020

Berufsbegleitender Bachelorstudiengang Betriebswirtschaftslehre

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 202: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 202

Fachbereich Wirtschaftswissenschaften

StatistikWesentliche Kursinhalte (1)

Kurzvorstellung

Organisatorisches

Bücher und Software

Grundlagen

Einordnung

Grundbegriffe

Skalenniveaus

Variablentypen

Qualitative und

quantitative Forschung

Unterschiede

Vor- und Nachteile

Methoden der Datenerhebung

Methoden der Datenauswertung

Sommersemester 2020

Christian Reinboth, M.Sc.

Erhebungsplanung

und -durchführung

Erhebungsarten

Zufällige Auswahl

Klumpenstichprobe

Willkürliche Auswahl

Auswahl typischer Fälle

Konzentrationsverfahren

Mindeststichprobengröße

Gütekriterien

Bedeutung

Validität

Reliabilität

Objektivität

Repräsentativität

Sonstige Gütekriterien

Gutes Fragebogendesign

Zieldefinition

Anschreiben

Incentivierung

Frageformulierung

Gängige Fragetypen

Deskriptive Statistik

Häufigkeiten

Häufigkeiten

Häufigkeitstabellen

Bildung von Klassen

Verteilungsfunktion

Summenfunktion

Statistik I

Page 203: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 203

Fachbereich Wirtschaftswissenschaften

StatistikWesentliche Kursinhalte (2)

Statistische Lagemaße

Statistische Lagemaße

Arithmetisches Mittel

Median

Quartile

Modus

Dispersionsparameter

Dispersionsparameter

Spannweite

Interquartilsabstand

Fünf-Werte-Zusammenfassung

Varianz

Standardabweichung

Variationskoeffizient

Sommersemester 2020

Christian Reinboth, M.Sc.

Verteilungsmaße

Verteilungsmaße

Momentenkoeffizient

Quartilskoeffizient

Kurtosis / Exzeß

Korrelationskoeffizienten

Korrelationskoeffizienten

Korrelation und Kausalität

Bravais-Pearson-Koeffizient

Rangkorrelationskoeffizienten

Spearman-Koeffizient

Kendall-Koeffizient

Explorative Statistik

Grafische Darstellungen

Box-Whisker-Plot

Stem-and-Leaf-Plot

Objektivität von Grafiken

Ausreißer und

fehlende Werte

Start der Präsenzlehre

Statistik II

Page 204: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 204

Fachbereich Wirtschaftswissenschaften

StatistikWesentliche Kursinhalte (2)

Induktive Statistik

Lineare Regression

Zielstellung

Voraussetzungen

Interdependenzproblem

Methode der kl. Quadrate

Ergebnisinterpretation

Bestimmtheitsmaß

Statistische Testverfahren

Statistische Tests

Chi-Quadrat-Test

Alpha-Fehlerinflation

Sommersemester 2020

Christian Reinboth, M.Sc.

Mengenlehre

Mengenlehre

Logische Operatoren

Kommutativgesetz

Assoziativgesetz

Distributivgesetz

De Morgansche Regel

Venn-Diagramme

Wahrscheinlichkeitslehre

Laplace-Wahrscheinlichkeit

Axiome von Kolmogoroff

Additionssatz

Multiplikationssatz

Pfaddiagramme

Kombinatorik

Satz von Bayes

Konfidenzintervalle

Statistische Software

Kostenlose Software

Einführung in R

Klausurvorbereitung

Übungsaufgaben

Probeklausur

Fragestunde

Statistik II

Page 205: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 205

Fachbereich Wirtschaftswissenschaften

Induktive Statistik

Teil VI

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 206: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 206

Fachbereich Wirtschaftswissenschaften

Lineare Regressionsanalyse

Induktive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 207: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 207

Fachbereich Wirtschaftswissenschaften

Lineare Regression: Grundlagen

– Während im Rahmen der Korrelationsanalysen nur „inhaltsfreie“ Zusammenhänge

zwischen Variablen untersucht wurden, unterstellt die lineare Regressionsanalyse

eine Wirkungsrichtung: X beeinflusst Y (ausgedrückt als Gleichung Y = f(X))

– Wie wirkt sich der Preis (X) auf die Verkaufszahlen (Y) aus?

– Wie wirkt sich die Zuckermenge (X) auf den Nährwert (Y) aus?

– Wie wirkt sich die Lerndauer (X) auf den Punktestand (Y) aus?

– Wichtig: Untersucht wird nur ein möglicher linearer Zusammenhang –

eine andere Form des Zusammenhangs (z.B. exponential, logarithmisch)

wird dagegen nicht korrekt abgebildet

– Eine weitere Einschränkung: Im Rahmen dieser Vorlesung wird lediglich die

Einfachregression (mit einer erklärenden Variablen), nicht jedoch die multiple

Regression (mit mehreren erklärenden Variablen) betrachtet

Sommersemester 2020

Christian Reinboth, M.Sc.

Y = f(X)

Page 208: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 208

Fachbereich Wirtschaftswissenschaften

Lineare Regression: Grundlagen

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 209: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 209

Fachbereich Wirtschaftswissenschaften

Lineare Regression: Grundlagen

– Die Regressionsanalyse ist das meistverwendete multivariate Analyseverfahren

– Im Rahmen einer (einfachen) linearen Regressionsanalyse wird die Beziehung

zwischen einer abhängigen und einer unabhängigen Variablen untersucht, um

– Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse)

– Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose)

– Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei

Veränderungen am Produktpreis, den Werbeausgaben oder der Anzahl

der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)?

– Ergebnis des Verfahrens ist die lineare Regressionsfunktion

Y = f(X)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 210: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 210

Fachbereich Wirtschaftswissenschaften

Lineare Regression: Interdependenz

– Ein besonders Problem stellen interdependente Beziehungen dar

– Beeinflusst der Bekanntheitsgrad eines Produkts die Absatzmenge oder

beeinflusst die Absatzmenge den Bekanntheitsgrad eines Produkts?

– Beeinflusst die Qualität einer Vorlesung die Motivation der Studierenden

oder beeinflusst die Motivation der Studierenden die Qualität der Vorlesung?

– Ein solches interdependentes Beziehungssystem ist nicht in einer einzelnen

Regressionsgleichung erfassbar, sondern nur in einem Mehrgleichungsmodell

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 211: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 211

Fachbereich Wirtschaftswissenschaften

Lineare Regression: Voraussetzungen

– Der linearen Regression liegen drei wesentliche Annahmen zugrunde:

– Eine Variable X (die auch als unabhängige Variable bezeichnet wird) wirkt

auf eine Variable Y (die wiederum als abhängige Variable bezeichnet wird),

d.h. es gibt einen eindeutigen (und einseitigen) Wirkungszusammenhang

– Der Zusammenhang zwischen X und Y ist linear

– Sowohl X als auch Y sind metrisch skaliert

– Darüber hinaus wird angenommen, dass die Werte für Y Zufallsschwankungen

unterliegen oder fehlerhaft gemessen werden können, während die Werte für

X fehlerfrei vorliegen. Daraus ergibt sich, dass der Zusammenhang zwischen

X und Y sich nicht fehlerfrei darstellen lässt, vielmehr muss nach dem Modell

mit den wenigsten Fehlern (eben dem Regressionsmodell) gesucht werden.

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 212: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 212

Fachbereich Wirtschaftswissenschaften

Schätzung der Regressionsfunktion

– Der Zusammenhang zwischen den beiden

Variablen im Streudiagramm ist selten perfekt

– Beide Variablen bewegen sich hier im Beispiel

jedoch tendenziell in die gleiche Richtung,

ein linearer Trend ist klar erkennbar

– Es kommen nun theoretisch zahlreiche Geraden in

Frage, um den Verlauf der Punkte nachzuzeichnen

Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 213: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 213

Fachbereich Wirtschaftswissenschaften

Schätzung der Regressionsfunktion

Sommersemester 2020

Christian Reinboth, M.Sc.

Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?

Antwort: Natürlich diejenige Gerade, bei der die

Abstände zwischen Datenpunkten und Gerade

minimal ausfallen. Aber wie findet man diese?

Page 214: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 214

Fachbereich Wirtschaftswissenschaften

Schätzung der Regressionsfunktion

Sommersemester 2020

Christian Reinboth, M.Sc.

Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?

Bessere

Gerade

Page 215: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 215

Fachbereich Wirtschaftswissenschaften

Methode der kleinsten Quadrate

– Lösungsansatz: Minimierung der Summe der quadrierten Abweichungen

(der Geraden von den Werten) = Methode der kleinsten Quadrate (MdkQ)

– Die Methode der kleinsten Quadrate zielt – wie auch die intuitive Methode

der simplen Abstandsminimierung – auf die Minimierung der senkrechten

Abstände der realen Werte von der Gerade ab

– Die Abstände werden jedoch quadriert, so dass negative Vorzeichen wegfallen,

wodurch die Kompensation negativer und positiver Abstände vermieden wird

– Schlussendlich wird diejenige Gerade selektiert, bei der die Summe der quadrierten

Abstände minimal wird → sie ist die an die realen Werte bestangepasste Gerade

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 216: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 216

Fachbereich Wirtschaftswissenschaften

Methode der kleinsten Quadrate

– Regressionsfunktion:

– Abgebildet über:

– Berechnung von b:

(Regressionskoeffizient)

– Berechnung von a:

(Konstantes Glied)

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=

=n

i

i

n

i

ii

xnx

yxnyx

b

1

22

1

*)(

**)*(

xbay *+=

)(XfY =

xbya *−=

Page 217: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 217

Fachbereich Wirtschaftswissenschaften

Methode der kleinsten Quadrate

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y x² (x * y)

… … … … …

… … … … …

… … … … …

Σ … … … …

Ø … … // //

=

=

=n

i

i

n

i

ii

xnx

yxnyx

b

1

22

1

*)(

**)*(

xbya *−= xbay *+=

Page 218: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 218

Fachbereich Wirtschaftswissenschaften

Übung: Methode der kleinsten Quadrate

Sommersemester 2020

Christian Reinboth, M.Sc.

Beispielfall mit bewusst gering gehaltener

(Foliendarstellung…) Anzahl von Werten:

− x = Prozentualer Anteil des Werbebudgets

eines Produkts am Gesamtbudget der Firma

− y = Verkaufte Einheiten des betrachteten

Produkts in einem Untersuchungszeitraum

− Annahme: Das betrachtete Produkt,

der Untersuchungszeitraum sowie

das Gesamtbudget bleiben gleich

(ceteris paribus)

Wie lautet die Regressionsgleichung?

Nr. x y

1 12 10000

2 15 15000

3 8 6000

4 11 11000

5 3 5000

6 17 23000

7 24 37000

Page 219: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 219

Fachbereich Wirtschaftswissenschaften

Übung: Methode der kleinsten Quadrate

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y x² (x * y)

1 12 10000 144 120000

2 15 15000 225 225000

3 8 6000 64 48000

4 11 11000 121 121000

5 3 5000 9 15000

6 17 23000 289 391000

7 24 37000 576 888000

Σ 90 107000 1428 1808000

Ø 12,86 15285,71 // //

Page 220: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 220

Fachbereich Wirtschaftswissenschaften

Übung: Methode der kleinsten Quadrate

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=

=n

i

i

n

i

ii

xnx

yxnyx

b

1

22

1

*)(

**)*(xbya *−=

xbay *+=

1808000)*(

1428)(

71,15285

86,12

7

1

1

2

=

=

=

=

=

=

=

n

i

ii

n

i

i

yx

x

y

x

n

xy

a

b

*92,159754,5263

54,5263

86,12*92,159771,15285

92,159734,270

39,431980

86,12*71428

71,15285*86,12*718080002

+−=

−=

−=

==

−=

Beim Nachrechnen mit PSPP:

Rundungsfehler beachten

Page 221: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 221

Fachbereich Wirtschaftswissenschaften

Interpretation der Regressionsgleichung

– Was lässt sich mit der Gleichung y = -5.263,54 + 1.597,92 * x anfangen?

– Prognose unbekannter Werte: Bei einem Anteil am Werbebudget von 10%

wären -5.263,54 + 1.597,92 * 10 = 10.715,66 verkaufte Einheiten zu erwarten

– Aussage über den linearen Einfluss von X auf Y: Mit jedem Prozent, um den der

Werbeetat angehoben wird, ist mit 1.597,92 zusätzlichen Verkäufen zu rechnen

– Aber: Bei einem Werbeetat von 0% wären -5.263,54 verkaufte Einheiten zu

erwarten – es stellt sich insofern die Frage, ob die Regressionsgleichung für

große und kleine Werte von x noch gilt (klassisches Beispiel hierfür: Prognose

der Geschmacksbewertung von Getränken auf Basis des zugegebenen Zuckers)

– Bei der Konstruktion der Regressionsgeraden entspricht das konstante Glied

a dem Y-Achsenschnittpunkt, der Regressionskoeffizient b der Steigung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 222: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 222

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

-5000

0

5000

10000

15000

20000

25000

30000

35000

40000

0 5 10 15 20 25 30

Verk

au

fte E

inh

eit

en

Anteil Werbebudget

y = -5.263,54 + 1.597,92 * x

Page 223: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 223

Fachbereich Wirtschaftswissenschaften

Das Bestimmtheitsmaß R²

– Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind (nicht

alle Punkte liegen unmittelbar auf der Geraden), natürlich nur imperfekt wieder

– Es ist daher mit der Regressionsfunktion nur selten möglich, sämtliche

Veränderungen in Y ausschließlich durch die Koeffizienten zu erklären

– In der Regel wird ein Teil der Veränderungen erklärt werden können,

ein anderer Teil (die Residuen) wird dagegen unaufgeklärt bleiben

– Das Verhältnis von erklärter Streuung zur Gesamtstreuung

ist ein gutes Maß für die Güte des linearen Regressionsmodells

– Die Residuen werden bei der Berechnung dieser Maßzahl quadriert,

damit sich positive und negative Abweichungen nicht neutralisieren

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 224: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 224

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

-5000

0

5000

10000

15000

20000

25000

30000

35000

40000

0 5 10 15 20 25 30

Verk

au

fte E

inh

eit

en

Anteil Werbebudget

y = -5.263,54 + 1.597,92 * x

(17;23.000,00)

(17;21.901,10)

Y-Durchschnittswert

(bester Schätzer)

Realer Wert im Datensatz

Über Y=f(X) berechneter

Wert (neuer Schätzer)

(17;15.285,71)

Um wieviel besser wird die

Prognose durch das Modell?

);(

*);(

);(

yx

yx

yx

i

i

ii

Page 225: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 225

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

(17;23.000)

(17; 15.285,71)

(17; 21.901,10)

Gesamte

Abweichung

Um wieviel besser wird die

Prognose durch das Modell?

y = -5.263,54 + 1.597,92 * x

Y-Durchschnittswert

(bester Schätzer)

Realer Wert im Datensatz

Über Y=f(X) berechneter

Wert (neuer Schätzer)

Nicht erklärte

Abweichung

Erklärte

Abweichung

Page 226: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 226

Fachbereich Wirtschaftswissenschaften

Das Bestimmtheitsmaß R²

– Die Berechnung des Güßtemaßes R² erfolgt mit:

– TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen

– ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen

– RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen

– Das Verhältnis zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet

– R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder

> Güte der Anpassung und damit Güte des Regressionsmodells

– R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1

– R² = 1 → Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang

– Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab

– Beachte: R² ist ein Maß für den linearen – und nur für diesen – Zusammenhang

Sommersemester 2020

Christian Reinboth, M.Sc.

TSS

ESSR =2

Page 227: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 227

Fachbereich Wirtschaftswissenschaften

Das Bestimmtheitsmaß R²

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y y* (𝒚∗ − ഥ𝒚)𝟐 (𝒚 − 𝒚∗)𝟐

… … … … … …

… … … … … …

… … … … … …

Σ // … // … …

TSS

ESSR =2

ESS RSS

Das Bestimmtheitsmaß entspricht

übrigens dem quadrierten Bravais-Pearson-

Korrelationskoeffizienten (lineare Korrelation)

[Vorsicht: Gilt nur für die lineare Einfachregression]

Page 228: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 228

Fachbereich Wirtschaftswissenschaften

Übung: Bestimmtheitsmaß R²

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y y* (𝒚∗ − ഥ𝒚)𝟐 (𝒚 − 𝒚∗)𝟐

1 12 10000 13911,50 1888453,12 15299832,25

2 15 15000 18705,26 11693322,20 13728951,67

3 8 6000 7519,82 60309047,49 2309852,83

4 11 11000 12313,58 8833556,74 1725492,42

5 3 5000 -469,78 248235465,14 29918493,25

6 17 23000 21901,10 43763384,85 1207581,21

7 24 37000 33086,54 316869548,69 15315169,17

Σ // 15285,71 // 691592778,24 79505372,80

y = -5.263,54 + 1.597,92 * x TSS = ESS + RSS = 771098151,03

Page 229: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 229

Fachbereich Wirtschaftswissenschaften

Übung: Bestimmtheitsmaß R²

Sommersemester 2020

Christian Reinboth, M.Sc.

90,003771098151,

24691592778,2 ===TSS

ESSR Hervorragender

Wert! (max. +1)

Komplexe Beispiele

wie dieses lassen sich

sehr gut in PSPP &

Co. nachrechnen –

man beachte aber

die Rundungsfehler!

Page 230: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 230

Fachbereich Wirtschaftswissenschaften

Statistische Testverfahren

Induktive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 231: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 231

Fachbereich Wirtschaftswissenschaften

Was sind statistische Testverfahren?

− Im Gegensatz zu den bereits bekannten Schätzverfahren, geht es bei den

statistischen Testverfahren nicht mehr um die möglichst genaue Bestimmung

unbekannter Parameter, sondern um die Prüfung vorab festgelegter Hypothesen

− Beispiele für mögliche Hypothesen / Forschungsfragen:

− Im Harz gibt es während des Sommers mehr Regentage als in der Eiffel

− BWL-Studierende geben mehr Geld für Literatur als Informatik-Studierende aus

− Mit dem Alter von Mietern/innen steigt deren Wunsch nach barrierefreien Wohnungen

− Weibliche Abiturientinnen schneiden in Mathematik besser als männliche Abiturienten ab

− Diese und andere Hypothesen können anhand von Daten aus Zufallsstichproben

„getestet“ werden. Da Stichprobendaten zufälligen Schwankungen unterliegen, ist

kein endgültiger Befund über die Richtigkeit der Hypothesen möglich - möglich ist

lediglich eine Wahrscheinlichkeitsaussage.

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 232: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 232

Fachbereich Wirtschaftswissenschaften

Null- und Alternativhypothese

− Jeder Hypothesentest basiert auf einer Nullhypothese H0 (meistens: es existiert kein

Effekt / kein Unterschied) sowie einer Alternativhypothese H1 (gegenteilige Aussage)

− Das Ergebnis des Tests bezieht sich stets auf die Nullhypothese, die

entweder (mit einem gewissen Irrtumsrisiko) verworfen oder aber (dies

ebenfalls einem gewissen Irrtumsrisiko) beibehalten werden kann

− Die Verwerfung geht weder mit einer Annahme der Alternativhypothese

einher, noch ist sie ein Beweis dafür, dass die Nullhypothese nicht zutrifft

Sommersemester 2020

Christian Reinboth, M.Sc.

H0 ist falsch H0 ist richtig

Test verwirft H0 korrekt Fehler 1. Art

Test verwirft H0 nicht Fehler 2. Art korrekt

Page 233: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 233

Fachbereich Wirtschaftswissenschaften

Bedeutende statistische Hypothesentests

− Als Hypothesentest / Signifikanztest wird ein Verfahren bezeichnet, über das man

auf der Basis vorliegender Beobachtungen (meist aus einer Stichprobe) zu einer

begründeten Entscheidung über die Ungültigkeit einer Hypothese gelangen kann

− Im Rahmen dieser Vorlesung (kurz) angesprochene Testverfahren:

− T-Test auf Gleichheit von Mittelwerten

− Chi2-Test auf Unabhängigkeit von Variablen

− Kolmogoroff-Smirnov-Test auf Normalverteilung

− Durbin-Watson-Test auf Autokorrelation von Residuen

− Levene-Test auf Varianzgleichheit / Homoskedastizität

Sommersemester 2020

Christian Reinboth, M.Sc.

Wichtiger Hinweis: Um die zur Verfügung stehende Zeit

optimal auszunutzen, werden wir nachfolgend nur den

Chi2-Test im Detail betrachten (alles weitere im Skript)

Wie

lauten

die H0?

Page 234: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 234

Fachbereich Wirtschaftswissenschaften

Chi-Quadrat-Anpassungstest

Induktive Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 235: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 235

Fachbereich Wirtschaftswissenschaften

Erinnerung: Bivariate Zusammenhangsmaße

Sommersemester 2020

Christian Reinboth, M.Sc.

Frage: Liegt in einem bivariaten Datensatz ein Zusammenhang vor?

grafisch nominalskaliert ordinalskaliert metrisch

stetig

diskret

Streudiagramm

Scatterplot-Matrix

Balkendiagramme

(gruppiert, bedingt)

Chi²-Koeffizient Konkordanz-

koeffizient

nach Kendall

Rangkorrelations-

koeffizient nach

Spearman

Bravais-Pearson-

Korrelations-

koeffizient

Page 236: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 236

Fachbereich Wirtschaftswissenschaften

Chi²-Unabhängigkeitstest

− Beim Chi²-Unabhängigkeitstest (nachfolgend Chi²-Test) werden zwei nominal

skalierte Merkmale auf stochastische Unabhängigkeit geprüft (Nullhypothese

H0: Die Merkmale X und Y sind stochastisch unabhängig voneinander)

− Hierzu werden die real beobachteten Häufigkeiten mit den zu erwartenden

Häufigkeiten bei völliger Unabhängigkeit der beiden Merkmale verglichen

− Die bei Unabhängigkeit der Merkmale zu erwartende Verteilung lässt sich

berechnen, indem man die sogenannten Randsummen multipliziert und

durch die Anzahl der Gesamtwerte teilt

− Auf den folgenden Folien wird hierzu ein zusammenhängendes Beispiel betrachtet:

100 Personen wurden nach ihrem Schulabschluss sowie nach dem Schulabschluss

ihrer Eltern befragt, um festzustellen, ob sich ein Zusammenhang finden lässt

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 237: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 237

Fachbereich Wirtschaftswissenschaften

Chi²-Unabhängigkeitstest

− Zur Berechnung der im Fall völliger Unabhängigkeit zu erwartenden

absoluten Häufigkeiten werden zunächst die Randsummen kalkuliert

− Indem man die Randsummen multipliziert und durch die Gesamtsumme dividiert,

erhält man den bei Unabhängigkeit zu erwartenden Wert, d.h. 55 * 54 / 100 = 29,7

Sommersemester 2020

Christian Reinboth, M.Sc.

Bildungsabschluss/Eltern Eltern haben Abitur Eltern haben kein Abitur

Befragter hat Abitur 43 11

Befragter hat kein Abitur 12 34

Bildungsabschluss/Eltern Eltern haben Abitur Eltern haben kein Abitur Rand

Befragter hat Abitur 43 [29,7] 11 [24,3] 54

Befragter hat kein Abitur 12 [25,3] 34 [20,7] 46

Rand 55 45 100

Page 238: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 238

Fachbereich Wirtschaftswissenschaften

Chi²-Unabhängigkeitstest

− So würden sich also die 100 Befragten auf die vier Kategorien verteilen, gäbe

es überhaupt keinen Zusammenhang zwischen dem eigenen Schulabschluss

und dem Schulabschluss der Eltern

− Dass die tatsächlichen Werte von diesen Werten stark abweichen, ist

bereits ein Indikator dafür, dass es einen Zusammenhang geben könnte

>> Mit Hilfe des Chi²-Tests soll nachfolgend festgestellt werden, ob die

Abweichung so groß ist, dass ein Zusammenhang wahrscheinlich wird

Sommersemester 2020

Christian Reinboth, M.Sc.

Bildungsabschluss/Eltern Eltern haben Abitur Eltern haben kein Abitur

Befragter hat Abitur 29,7 24,3

Befragter hat kein Abitur 25,3 20,7

Page 239: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 239

Fachbereich Wirtschaftswissenschaften

Chi²-Unabhängigkeitstest

− Dazu werden die Differenzen zwischen erwarteten und tatsächlichen Werten

quadriert und durch die zu erwartenden Werte dividiert, die Summe dieser

Berechnungen ergibt dann den entscheidenden Chi2-Wert

(43 – 29,7)2 / 29,7 = 5,955

(11 – 24,3)2 / 24,3 = 7,279

(12 – 25,3)2 / 25,3 = 6,991

(34 – 20,7)2 / 20,7 = 8,545

= 28,77

− Es ergibt sich demnach ein Chi2-Wert von 28,77

− Dieser ist dem Vergleichswert aus der tabellierten Chi²-Verteilung gegenüberzustellen,

wobei ein Fehlerniveau α von 5% (d.h. 1 – α = 0,950) bei einem Freiheitsgrad gewählt

wurde (da sich unter Beibehaltung der Randsummen ein Wert frei festlegen lässt)

Sommersemester 2020

Christian Reinboth, M.Sc.

Warum werden die

Differenzen quadriert?

Page 240: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 240

Fachbereich Wirtschaftswissenschaften

Chi²-Unabhängigkeitstest

− In der Tabelle der Chi2-Verteilung landet man bei dieser Vorgehensweise

bei einem Vergleichswert von 3,84 („kritischer Wert“ des Testverfahrens)

− Wird dieser durch den errechneten Wert überschritten, gilt die Nullhypothese, nach

der die beiden Variablen „eigener Schulabschluss“ und „Schulabschluss der Eltern“

als voneinander völlig unabhängig einzustufen sind, als abgelehnt

− Da dies hier der Fall ist, lautet der Schluss, dass mit hoher Wahrscheinlichkeit

ein statistisch signifikanter Zusammenhang zwischen den Variablen besteht

Sommersemester 2020

Christian Reinboth, M.Sc.

90% 95% 97,5% 99% 99,5% 99,9%

1 2,71 3,84 5,02 6,63 7,88 10,83

2 4,61 5,99 7,38 9,21 10,60 13,82

... ... ... ... ... ... ...

Page 241: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 241

Fachbereich Wirtschaftswissenschaften

Chi²-Unabhängigkeitstest

− Der Chi2-Unabhängigkeitstest läuft somit in vier Stufen ab:

1. Berechnung der Randsummen für alle Zeilen und Spalten

2. Berechnung der zu erwartenden Häufigkeiten bei völliger Unabhängigkeit

durch Multiplikation der jeweiligen Randsummen und Division durch die

Gesamtsumme

3. Berechnung des Chi2-Wertes durch Bildung der Summe der quadrierten

Differenzen zwischen den tatsächlichen und den bei Unabhängigkeit zu

erwartenden Häufigkeiten

4. Vergleich des Chi2-Wertes mit dem kritischen Wert der Chi2-Verteilung und

Entscheidung über die Nullhypothese (Verwerfung oder Nicht-Verwerfung)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 242: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 242

Fachbereich Wirtschaftswissenschaften

Das Problem der α-Fehlerinflation

Sommersemester 2020

Christian Reinboth, M.Sc.

1. Chi2-Test

korrekt: 0,95fehlerhaft: 0,05

2. Chi2-Test

korrekt: 0,95fehlerhaft: 0,05

100. Chi2-Test

„Das

Ergebnis ist

signifikant“

Wahrscheinlichkeit keines Fehlers erster

Ordnung bei 100 Tests: 0,95100 = 0,0059

Page 243: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 243

Fachbereich Wirtschaftswissenschaften

Das Problem der α-Fehlerinflation

− Führt man einen einzelnen Chi2-Test (oder auch ein anderes statistisches

Testverfahren) durch, muss a priori ein Fehlerniveau α festgelegt werden

− Liegt dieses Fehlerniveau z.B. bei 0,05, bedeutet dies, dass ein Fehler

1. Ordnung („false positives“) mit 5%iger Wahrscheinlichkeit auftritt, d.h.

mit 5%iger Wahrscheinlichkeit wird eine falsche Signifikanz ausgewiesen

− Führt man nun aber eine Vielzahl von Tests an den gleichen Daten durch, ergeben

sich fehlerhaft-signifikante Ergebnisse demnach mit steigender Wahrscheinlichkeit

→ dieser Effekt wird als α-Fehler-Kumulierung / α-Fehlerinflation bezeichnet

Sommersemester 2020

Christian Reinboth, M.Sc.

„Je mehr Hypothesen man auf einem Datensatz testet, desto höher

wird die Wahrscheinlichkeit, dass eine davon (fehlerhaft) als zutreffend

angenommen wird.“ (Definition der α-Fehlerinflation in der Wikipedia)

Page 244: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 244

Fachbereich Wirtschaftswissenschaften

Übung: Chi²-Unabhängigkeitstest

− Eine an der Hochschule Harz durchgeführte Befragung, bei der unter anderem

erhoben wurde, ob die Studierenden einem Nebenjob nachgehen, erbrachte

folgendes – nach Geschlechtern aufgeteiltes – Ergebnis:

− Erinnerung: Der Chi2-Unabhängigkeitstest erfolgt in vier Schritten:

1. Berechnung der Randsummen für alle Zeilen und Spalten

2. Berechnung der zu erwartenden Häufigkeiten bei völliger Unabhängigkeit

3. Berechnung des Chi2-Wertes (über die Summe der quadrierten Differenzen)

4. Vergleich des Chi2-Wertes mit dem kritischen Wert (bleibt hier gleich: 3,84)

Sommersemester 2020

Christian Reinboth, M.Sc.

Geschlecht/Nebenjob hat einen Nebenjob hat keinen Nebenjob

Weibliche Studierende 35 26

Männliche Studierende 26 13

Page 245: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 245

Fachbereich Wirtschaftswissenschaften

Übung: Chi²-Unabhängigkeitstest

− Berechnung der Randsummen sowie der erwarteten Häufigkeiten bei Unabhängigkeit

− So würden sich also die 100 Befragten auf die vier Kategorien verteilen, gäbe

es überhaupt keinen Zusammenhang zwischen dem Geschlecht der Befragten

und der Wahrscheinlichkeit dafür, dass diese einen Nebenjob ausüben

− Dass die tatsächlichen Werte von diesen Werten kaum abweichen, ist

bereits ein Indikator dafür, dass es keinen Zusammenhang geben dürfte

Sommersemester 2020

Christian Reinboth, M.Sc.

Geschlecht/Nebenjob hat einen Nebenjob hat keinen Nebenjob Rand

Weibliche Studierende 35 [37,21] 26 [23,79] 61

Männliche Studierende 26 [23,79] 13 [15,21] 39

Rand 61 39 100

Page 246: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 246

Fachbereich Wirtschaftswissenschaften

Übung: Chi²-Unabhängigkeitstest

− Im nächsten Schritt werden die Differenzen zwischen erwarteten und tatsächlichen

Werten quadriert und durch die zu erwartenden Werte dividiert, die Summe dieser

Berechnungen ergibt dann den entscheidenden Chi2-Wert

(35 – 37,21)2 / 37,21 = 0,1313

(26 – 23,79)2 / 23,79 = 0,2053

(26 – 23,79)2 / 23,79 = 0,2053

(13 – 15,21)2 / 15,21 = 0,3211

= 0,8630

− Es ergibt sich demnach ein Chi2-Wert von 0,8630

− Dieser ist dem Vergleichswert aus der tabellierten Chi²-Verteilung gegenüberzustellen,

wobei ein Fehlerniveau α von 5% (d.h. 1 – a = 0,950) bei einem Freiheitsgrad gewählt

wurde (da sich unter Beibehaltung der Randsummen ein Wert frei festlegen lässt)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 247: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 247

Fachbereich Wirtschaftswissenschaften

Übung: Chi²-Unabhängigkeitstest

− In der Tabelle der Chi2-Verteilung landet man bei dieser Vorgehensweise

bei einem Vergleichswert von 3,84 („kritischer Wert“ des Testverfahrens)

− Wird dieser durch den errechneten Wert überschritten, gilt die Nullhypothese,

nach der die beiden Variablen „Geschlecht“ und „Nebenjob“ als voneinander

völlig unabhängig einzustufen sind, als abgelehnt

− Da dies hier nicht der Fall ist, lautet der Schluss, dass die Nullhypothese (Variablen

sind unabhängig) nicht verworfen werden kann (aber: kein Beweis für ihre Gültigkeit)

Sommersemester 2020

Christian Reinboth, M.Sc.

Chi2 90% 95% 97,5% 99% 99,5% 99,9%

1 2,71 3,84 5,02 6,63 7,88 10,83

2 4,61 5,99 7,38 9,21 10,60 13,82

... ... ... ... ... ... ...

Page 248: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 248

Fachbereich Wirtschaftswissenschaften

Wie laufen Testverfahren mit Software ab?

Sommersemester 2020

Christian Reinboth, M.Sc.

„Signifikanzwert“ – was ist das?

hier:

SSP

Page 249: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 249

Fachbereich Wirtschaftswissenschaften

Interpretation des Signifikanzwertes

– Der p-Wert / Signifikanzwert gibt die Wahrscheinlichkeit dafür an, dass die real

beobachteten Werte / Abweichungen auftreten, wenn die Nullhypothese zutrifft

– Am Beispiel des Chi2-Unabhängigkeitstests:

– Nullhypothese: Die betrachteten Merkmale x und y sind stochastisch unabhängig

– Großer p-Wert: Es ist wahrscheinlich, dass die realen Werte bei Gültigkeit der

Nullhypothese erreicht werden konnten → Beibehaltung der Nullhypothese

– Kleiner p-Wert: Es ist unwahrscheinlich, dass die realen Werte bei Gültigkeit

der Nullhypothese erreicht werden konnten → Verwerfung der Nullhypothese

– Der p-Wert wird oft (leicht falsch) als Wahrscheinlichkeit dafür interpretiert, dass

das Zurückweisen einer Nullhypothese H0 falsch ist (Irrtumswahrscheinlichkeit)

Sommersemester 2020

Christian Reinboth, M.Sc.

Großer Signifikanzwert = Nullhypothese beibehalten

Kleiner Signifikanzwert = Nullhypothese zurückweisen

Page 250: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 250

Fachbereich Wirtschaftswissenschaften

Mengenlehre

Teil VII

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 251: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 251

Fachbereich Wirtschaftswissenschaften

Grundbegriffe der Wahrscheinlichkeitslehre

– Zufallsvorgang: Ein Zufallsvorgang ist ein Vorgang, der in einem von mehreren

möglichen Ergebnissen mündet, die sich wiederum gegenseitig ausschließen

– Welches Ereignis eintritt, kann vorab nicht mit Sicherheit ausgesagt werden

– Zufallsexperiment: Ein Zufallsexperiment ist die (beliebig häufige) Wiederholung

eines Zufallsvorgangs unter kontrollierten, gleich bleibenden Rahmenbedingungen

– Typische Beispiele für Zufallsexperimente

– „Kopf oder Zahl“-Spiel mit einer fairen Münze

– Würfeln mit einem (oder mehreren) fairen Würfeln

– Lauf einer Kugel durch den Kessel beim Roulettespiel

– Ziehung von Lottozahlen (ohne Zurücklegen) aus einer Trommel

– Ziehen von Karten (mit oder ohne Zurücklegen) aus einem Kartenstapel

– Ziehen von schwarzen/weißen Kugeln (mit oder ohne Zurücklegen) aus einer Urne

Sommersemester 2020

Christian Reinboth, M.Sc.

Ist die „zufällige“ Auswahl

von Passanten ebenfalls

ein Zufallsexperiment?

Page 252: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 252

Fachbereich Wirtschaftswissenschaften

Grundbegriffe der Mengenlehre

− Um die Ergebnisse von Zufallsexperimenten beschreiben zu können,

wird nachfolgend auf das Vokabular der Mengenlehre zurückgegriffen

Menge

= Eine Gruppe von Elementen (Ω)

Elemente

= Einzelne Mitglieder einer Menge

(nicht teilbare Elementarereignisse)

Leere Menge

= Eine Menge ohne ein Element (Ø)

Teilmenge

= Eine Untermenge einer anderen Menge

(z.B. A ist eine Teilmenge von Ω: A ⊆ Ω )

Sommersemester 2020

Christian Reinboth, M.Sc.

Alle Studenten

an der HS Harz

Medizinstudenten

Studenten

BWL-Studenten

Page 253: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 253

Fachbereich Wirtschaftswissenschaften

Grundbegriffe der Mengenlehre

Schnittmenge

= Eine Menge aller Elemente, die zugleich

in zwei Mengen (A und B) enthalten sind

Vereinigungsmenge

= Eine Menge aller Elemente, die entweder

in A oder B (oder in A und B) enthalten sind

Differenzmenge

= Eine Menge aller Elemente, die zwar

in einer Menge (A), zugleich aber nicht in

einer anderen Menge (B) enthalten sind

Komplementärmenge

= Eine Menge aller Elemente, die nicht

zu einer anderen Menge (A) gehören

(d.h. der Rest des Ereignisraums G)

Sommersemester 2020

Christian Reinboth, M.Sc.

Weibliche BWL-

Studentinnen

BWL-Studenten,

die nicht im ersten

Semester sind

BWL-Studenten

und Studenten im

ersten Semester

Nicht-BWL-

Studenten

Page 254: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 254

Fachbereich Wirtschaftswissenschaften

Logische Operatoren und Mengen

– Logisches UND (Konjunktion, A∩B)

– Logisches ODER (Disjunktion, A∪B)

Sommersemester 2020

Christian Reinboth, M.Sc.

Menge A Menge B UND

W W W

W F F

F W F

F F F

Wahrheitstabelle

Menge A Menge B ODER

W W W

W F W

F W W

F F F

Page 255: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 255

Fachbereich Wirtschaftswissenschaften

Logische Operatoren und Mengen

– Logisches NICHT (Negation, Ā)

– Wie lassen sich zentrale Begriffe mit Operatoren ausdrücken?

– Schnittmenge von A und B: A ∩ B

– Vereinigungsmenge von A und B: A ∪ B

– Differenzmenge von A und B: A \ B

– Komplementärmenge von A: Ā

Sommersemester 2020

Christian Reinboth, M.Sc.

Menge A NICHT

W F

F W

Page 256: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 256

Fachbereich Wirtschaftswissenschaften

Regeln für das Rechnen mit Mengen

– Kommutativgesetz

Die Argumente einer kommutativen Operation können

vertauscht werden, ohne dass sich das Ergebnis ändert

Beispiel: 1 + 2 = 2 + 1

1 * 2 = 2 * 1

– Das Kommutativgesetz in der Mengenlehre:

A ∩ B = B ∩ A

A ∪ B = B ∪ A

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 257: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 257

Fachbereich Wirtschaftswissenschaften

Regeln für das Rechnen mit Mengen

– Assoziativgesetz

Eine zweistellige Verknüpfung ist assoziativ, wenn die Reihenfolge der

Ausführung keine Rolle spielt (die Klammersetzung ist somit beliebig)

Beispiel: (1 + 2) + 3 = 1 + (2 + 3)

(1 * 2) * 3 = 1 * (2 * 3)

– Das Assoziativgesetz in der Mengenlehre:

(A ∩ B) ∩ C = A ∩ (B ∩ C)

(A ∪ B) ∪ C = A ∪ (B ∪ C)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 258: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 258

Fachbereich Wirtschaftswissenschaften

Regeln für das Rechnen mit Mengen

– Distributivgesetz

Das Distributivgesetz regelt die Auflösung

von Klammern (z.B. durch Ausmultiplikation)

Beispiel: (1 + 2) * 3 = (1 * 3) + (2 * 3)

(1 - 2) * 3 = (1 * 3) - (2 * 3)

– Das Distributivgesetz in der Mengenlehre:

(A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C)

(A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 259: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 259

Fachbereich Wirtschaftswissenschaften

Regeln für das Rechnen mit Mengen

– De Morgansche Regel

…müsste eigentlich Ockhamsche Regel heißen,

da sie bereits William von Ockham („Ockhams

Rasiermesser“ / „Occam's razor“) bekannt war

„Von mehreren möglichen Erklärungen für ein und

denselben Sachverhalt ist die einfachste Theorie

allen anderen vorzuziehen.“

– Die De Morgansche Regel lautet:

Sommersemester 2020

Christian Reinboth, M.Sc.

BABA

BABA

=

=

)(

)(

Augustus de Morgan (1806 – 1871)

(Quelle: WikiMedia; Lizenz: gemeinfrei)

William von Ockham (1288 – 1347)

(Quelle: WikiMedia; Lizenz: gemeinfrei)

Page 260: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 260

Fachbereich Wirtschaftswissenschaften

Übung: Logische Operatoren und Mengen

– Die Menge Ω = [1; 2; 3; 4; 5; 6; 7; 8; 9; 10] verfügt über drei Teilmengen

– Menge der geraden Zahlen A = [2; 4; 6; 8; 10]

– Menge der ungeraden Zahlen B = [1; 3; 5; 7; 9;]

– Menge der zweistelligen Zahlen C = [10]

– Die nachfolgenden Beispiele verdeutlichen die Anwendung der Operatoren

– A ∩ B = B ∩ A = Ø

– B ∩ C = C ∩ B = Ø

– A ∩ C = C ∩ A = [10]

– (A ∩ B) ∩ C = A ∩ (B ∩ C) = Ø

– (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C) = Ø

– (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) = [10]

– A ∪ B = B ∪ A = [1; 2; 3; 4; 5; 6; 7; 8; 9; 10]

– (A ∪ B) ∪ C = A ∪ (B ∪ C) = [1; 2; 3; 4; 5; 6; 7; 8; 9; 10]

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 261: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 261

Fachbereich Wirtschaftswissenschaften

Mengenvisualisierung mit Venn-Diagrammen

Sommersemester 2020

Christian Reinboth, M.Sc.

A

CB

Ereignisraum G

Bleiverglastes Fenster mit einem

Venn-Diagramm in Venns Studienort

Cambridge (Quelle: WikiMedia; User:

Schutz; Lizenz: CC BY-SA 2.5)

Page 262: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 262

Fachbereich Wirtschaftswissenschaften

Beispiel: Konstruktion von Venn-Diagrammen

Sommersemester 2020

Christian Reinboth, M.Sc.

A1∩ A2∩ A3

Page 263: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 263

Fachbereich Wirtschaftswissenschaften

Beispiel: Konstruktion von Venn-Diagrammen

Sommersemester 2020

Christian Reinboth, M.Sc.

A1∪ A2∪ A3

Page 264: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 264

Fachbereich Wirtschaftswissenschaften

Beispiel: Konstruktion von Venn-Diagrammen

Sommersemester 2020

Christian Reinboth, M.Sc.

A1∩ A2∩ Ā3

Page 265: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 265

Fachbereich Wirtschaftswissenschaften

Beispiel: Konstruktion von Venn-Diagrammen

Sommersemester 2020

Christian Reinboth, M.Sc.

Ā1∩ Ā2∩ Ā3

Page 266: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 266

Fachbereich Wirtschaftswissenschaften

Mengenvisualisierung mit Venn-Diagrammen

Sommersemester 2020

Christian Reinboth, M.Sc.

A

CB

Welche Fläche

entspricht…?

A ∩ B

A ∩ C

A ∪ B

A ∪ B ∪ C

A ∩ B ∩ C

Ā

Ā ∩ B

Ereignisraum G

Page 267: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 267

Fachbereich Wirtschaftswissenschaften

Wahrscheinlichkeitslehre

Teil VIII

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 268: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 268

Fachbereich Wirtschaftswissenschaften

Der klassische Wahrscheinlichkeitsbegriff

– Besitzt ein Zufallsvorgang A endlich viele Elementarereignisse und verfügt

jedes dieser Ereignisse über die gleiche Eintrittschance, berechnet man die

Wahrscheinlichkeit für das Eintreten eines bestimmten Ereignisses P(A)

(das aus mehreren Elementarereignissen bestehen kann) nach Laplace wie folgt:

P (A) = Σ für A günstiger Elementarereignisse / Σ möglicher Elementarereignisse

– Die Wahrscheinlichkeit auf eine 3 beim einmaligen Würfeln liegt daher bei:

P(3) = [3] / [1; 2; 3; 4; 5; 6] = 1 / 6 = 0,167 = 16,7%

– Die Wahrscheinlichkeit auf eine gerade Zahl beim Würfen liegt dagegen bei:

P (gerade Zahl) = [2; 4; 6] / [1; 2; 3; 4; 5; 6] = 3 / 6 = 0,5 = 50%

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 269: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 269

Fachbereich Wirtschaftswissenschaften

Einige Laplace-Wahrscheinlichkeiten

– Wahrscheinlichkeit für „Kopf“ beim Münzwurf:

– Wahrscheinlichkeit für eine ungerade Zahl beim Würfeln:

– Wahrscheinlichkeit für eine gerade Zahl beim Würfeln:

– Wahrscheinlichkeit für eine Summe > 4 beim Würfeln:

– Wahrscheinlichkeit für sechs Richtige in der Lotterie:

Sommersemester 2020

Christian Reinboth, M.Sc.

2

1

],[

][=

KZ

K

2

1

6

3

]6,5,4,3,2,1[

]5,3,1[==

2

1

6

3

]6,5,4,3,2,1[

]6,4,2[==

3

1

6

2

]6,5,4,3,2,1[

]6,5[==

?

1 Woher nehmen

wir den Nenner?

Page 270: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 270

Fachbereich Wirtschaftswissenschaften

Einige Ereignisse und Gegenereignisse

– Wahrscheinlichkeit für eine 3 beim Würfelwurf:

– Gegenereignis zu einer 3 beim Würfelwurf:

– Wahrscheinlichkeit für mindestens eine 3 beim Würfelwurf:

– Gegenereignis zu mindestens einer 3 beim Würfelwurf:

Sommersemester 2020

Christian Reinboth, M.Sc.

Warum ist das Gegenereignis zu „mindestens 3“

nicht „höchstens 3“, sondern „höchstens 2“?

6

1

]6,5,4,3,2,1[

]3[=

6

5

]6,5,4,3,2,1[

]6,5,4,2,1[=

3

2

6

4

]6,5,4,3,2,1[

]6,5,4,3[==

3

1

6

2

]6,5,4,3,2,1[

]2,1[==

Page 271: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 271

Fachbereich Wirtschaftswissenschaften

Weitere Wahrscheinlichkeitsbegriffe

– Frequentistischer Wahrscheinlichkeitsbegriff: Ableitung von a priori

nicht bekannten Wahrscheinlichkeiten aus vergangenen Erfahrungen

– Beispiel: Wenn 8 der letzten 10 neu auf den Markt gebrachten Digitalkameras einen

Produktlebenszyklus von unter 6 Monaten hatten, kann mit 80% Wahrscheinlichkeit

davon ausgegangen werden, dass sich dies bei einem neuen Modell ebenso verhält

(nur möglich, wenn sich die Vorgänge nicht gegenseitig beeinflussen)

– Subjektiver Wahrscheinlichkeitsbegriff: Subjektiv durch Personen (auf Basis von

(Teil-) Daten oder „Bauchgefühl“) vorgenommene Wahrscheinlichkeitsschätzungen

– Im Rahmen dieser Vorlesung wird nachfolgend nur noch der klassische

Wahrscheinlichkeitsbegriff nach Pierre de Laplace von Bedeutung sein

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 272: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 272

Fachbereich Wirtschaftswissenschaften

Die drei Axiome von Kolmogorov

– Axiom 1: Die Wahrscheinlichkeit eines Ereignisses A

eines Zufallsvorgangs ist eine nichtnegative reelle Zahl

(Die Wahrscheinlichkeit eines Ereignisses darf nicht < 0 sein)

– Axiom 2: Die Wahrscheinlichkeiten aller möglichen

Elementarereignisse eines Zufallsvorgangs ergeben

zusammen den Wert 1

(Die Wahrscheinlichkeit aller Ereignisse darf nicht > 1 sein)

– Axiom 3: Die Wahrscheinlichkeit der Vereinigungsmenge

zweier oder mehrerer Ereignisse eines Zufallsvorgangs

berechnet sich aus der Summe der Einzelwahrscheinlich-

keiten der Ereignisse, wenn diese paarweise disjunkt sind

Sommersemester 2020

Christian Reinboth, M.Sc.

falls

0)( AP

1)( =P

)()(

)(

BPAP

BAP

+=

= )( BAP

Page 273: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 273

Fachbereich Wirtschaftswissenschaften

Was verraten uns die drei Axiome?

– Axiom 1: Die Wahrscheinlichkeit eines Ereignisses A

eines Zufallsvorgangs ist eine nichtnegative reelle Zahl

„Die Wahrscheinlichkeit, eine 6 zu würfeln, liegt bei -16,7 %“

„Die Wahrscheinlichkeit, eine 6 zu würfeln, liegt bei 16,7%“

– Axiom 2: Die Wahrscheinlichkeiten aller möglichen

Elementarereignisse eines Zufallsvorgangs ergeben

zusammen den Wert 1

„Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, liegt bei 120%“

„Die Wahrscheinlichkeit, eine gerade Zahl zu würfeln, liegt bei 50%“

„Die Wahrscheinlichkeit, eine Zahl zwischen 1 und 6 zu würfeln, liegt bei 100%“

Sommersemester 2020

Christian Reinboth, M.Sc.

0)( AP

1)( =P

Page 274: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 274

Fachbereich Wirtschaftswissenschaften

Was verraten uns die drei Axiome?

– Axiom 3: Die Wahrscheinlichkeit der Vereinigungsmenge

zweier oder mehrerer Ereignisse eines Zufallsvorgangs

berechnet sich aus der Summe der Einzelwahrscheinlich-

keiten der Ereignisse, wenn diese paarweise disjunkt sind

(auch bekannt als: Additivität bei disjunkten Ereignissen)

„Die Wahrscheinlichkeit, eine Zahl kleiner 3 oder eine Zahl

kleiner 2 zu würfeln, liegt bei [P(2) + P(1)] + [P(1)] = [1/6

+ 1/6] + [1/6] = 3/6 = 1/2 = 50%“

„Die Wahrscheinlichkeit, eine gerade Zahl zu Würfeln, liegt

bei P(2) + P(4) + P(6) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2 = 50%“

Sommersemester 2020

Christian Reinboth, M.Sc.

falls

)()(

)(

BPAP

BAP

+=

= )( BAP

Page 275: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 275

Fachbereich Wirtschaftswissenschaften

Pfaddiagramme von Zufallsexperimenten

Sommersemester 2020

Christian Reinboth, M.Sc.

Münzwurf

Kopf

Kopf Kopf Zahl

Zahl

Zahl

0,50,5

0,5 0,5 0,5 0,5

Multiplikation

Addition

0,25 0,25 0,25 0,25

Genau 1 x Zahl?

Höchstens 1 x Zahl?

Mindestens 1 x Kopf?

Mindestens 2 x Kopf?

[Additionssatz]

[Multiplika-

tionssatz]

Page 276: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 276

Fachbereich Wirtschaftswissenschaften

Auch im Pfaddiagramm findet sich Laplace

− Klassische Wahrscheinlichkeitsdefinition nach Laplace:

− Wahrscheinlichkeit für mindestens 1 x Zahl beim zweifachen Münzwurf:

Sommersemester 2020

Christian Reinboth, M.Sc.

=reignisseElementaremöglicher

reignisseElementaregünstigerAfürAP

)(

%7575,04

3

);();;();;();;(

);();;();;()( ====

KKZZZKKZ

ZZZKKZAP

Page 277: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 277

Fachbereich Wirtschaftswissenschaften

„Die Chance auf ein Versagen liegt bei nur 1%“

Sommersemester 2020

Christian Reinboth, M.Sc.

1. Shuttle-Start

Kein Problem: 0,99Problem: 0,01

2. Shuttle-Start

Kein Problem: 0,99Problem: 0,01

100. Shuttle-Start

Wie sicher

sind „sichere“

Systeme auf

lange Zeit?

Wahrscheinlichkeit völliger Unfallfreiheit

bei 100 Starts: 0,99100 = 0,3660 = 36,6%

Page 278: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 278

Fachbereich Wirtschaftswissenschaften

Sommersemester 2020

Christian Reinboth, M.Sc.

"The probability of a train derailment

was infinitesimal. That meant it was

only a matter of time."

N. K. Jemisin

Page 279: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 279

Fachbereich Wirtschaftswissenschaften

Additions- und Multiplikationssätze

Sommersemester 2020

Christian Reinboth, M.Sc.

− Sind zwei Ereignisse A und B miteinander unvereinbar (disjunkt, d.h. ohne eine

Schnittmenge), so gilt für sie der Additionssatz für unvereinbare Ereignisse:

− Können zwei Ereignisse A und B auch über eine Schnittmenge verfügen

(nicht disjunkt), so gilt für sie der Additionssatz für beliebige Ereignisse:

− Sind zwei Ereignisse stochastisch unabhängig, d.h. beeinflusst das Eintreten eines

Ereignisses nicht die Wahrscheinlichkeit des Eintretens des anderen Ereignisses,

so gilt für sie der Multiplikationssatz bei stochastischer Unabhängigkeit:

− Liegt keine stochastische Unabhängigkeit vor, spricht man von einer bedingten

Wahrscheinlichkeit (z.B. der Wahrscheinlichkeit von B unter der Bedingung,

dass zuvor A eintritt) – den Umgang damit lernen wir im Kurs noch kennen

)()()( BPAPBAP +=

)()()()( BAPBPAPBAP −+= Warum der Abzug?

)(*)()( BPAPBAP =

Page 280: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 280

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit den A- und M-Sätzen

Sommersemester 2020

Christian Reinboth, M.Sc.

− Zwei Sachbearbeiter suchen unabhängig voneinander nach Belegen für eine

(unstrittige) Steuerhinterziehung in den gleichen Unterlagen, wobei jeder von

ihnen mit einer Trefferquote von 0,4 arbeitet. Wie groß ist die Chance dafür,

dass mindestens einer der beiden den erforderlichen Beweis findet?

− Zur Lösung dieser Aufgabe werden der Additionssatz für beliebige Ereignisse

(es kann ja der Fall eintreten, dass beide Sachbearbeiter fündig werden) und der

Multiplikationssatz bei stochastischer Unabhängigkeit (die Sachbearbeiter

beeinflussen sich bei ihrer Suche nicht gegenseitig) benötigt

(alternativ ist die Lösung natürlich auch über ein Pfaddiagramm möglich)

)()()()( BAPBPAPBAP −+=

)(*)()( BPAPBAP =

Additionssatz

Multiplikationssatz

Page 281: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 281

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit den A- und M-Sätzen

Sommersemester 2020

Christian Reinboth, M.Sc.

− Zwei Sachbearbeiter suchen unabhängig voneinander nach Belegen für eine

(unstrittige) Steuerhinterziehung in den gleichen Unterlagen, wobei jeder von

ihnen mit einer Trefferquote von 0,4 arbeitet. Wie groß ist die Chance dafür,

dass mindestens einer der beiden den erforderlichen Beweis findet?

64,016,04,04,0)(

16,04,0*4,0)(

)(*)()(

)(4,04,0)(

)()()()(

=−+=

==

=

−+=

−+=

BAP

BAP

BPAPBAP

BAPBAP

BAPBPAPBAP

Page 282: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 282

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit den A- und M-Sätzen

Sommersemester 2020

Christian Reinboth, M.Sc.

Steuerprüfung

Treffer

Treffer Treffer Kein Treffer

Kein Treffer

Kein Treffer

0,60,4

0,4 0,6 0,4 0,6

Multiplikation

Addition

0,16 0,24 0,24 0,36

[Additionssatz]

[Multiplika-

tionssatz]

Bestätigt das

Pfaddiagramm

das Ergebnis?

0,16+0,24+0,24=0,64 -> passt!

Page 283: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 283

Fachbereich Wirtschaftswissenschaften

Kombinatorik: Wie viele Möglichkeiten gibt es?

Sommersemester 2020

Christian Reinboth, M.Sc.

Kernproblem: Um mit der Laplace-Wahrscheinlichkeit rechnen zu können, muss

die Anzahl der günstigen sowie die Anzahl der möglichen Ereignisse bekannt

sein – wie berechnen sich diese unter verschiedenen Rahmenbedingungen?

(Beispiel: Wie viele Möglichkeiten gibt es, um einen Lotto-Schein auszufüllen?)

Spielt die Reihenfolge der Ereignisse eine Rolle?

JA: Variation NEIN: Kombination

Modell ohne

Zurücklegen

Modell mit

Zurücklegen

Modell ohne

Zurücklegen

Modell mit

Zurücklegen

kn)!(

!

kn

n

− )!!*(

!

knk

n

− !)!*1(

)!1(

kn

kn

−+

Page 284: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 284

Fachbereich Wirtschaftswissenschaften

Variation – Modell ohne Zurücklegen

– Wann spricht man von einer Variation – Modell ohne Zurücklegen?

– Auswahl von Objekten (Ereignissen) in einer bestimmten Reihenfolge

– Jedes Objekt (Ereignis) kann dabei nur ein Mal auftreten (eintreten)

– Beispiel: Berechnung der Anzahl möglicher 4-stelliger PIN-Kombinationen (k)

aus 10 Ziffern (n), wenn jede Ziffer pro PIN maximal ein Mal auftreten kann

Sommersemester 2020

Christian Reinboth, M.Sc.

Kurze Wiederholung: 6!

(gesprochen „6 Fakultät“)

= 6 * 5 * 4 * 3 * 2 * 1 = 720

Wie viele Reihenfolgen gibt es,

in denen k aus n Elementen

angeordnet werden können,

wenn jedes Element nur ein

Mal gezogen werden kann?

5040720

3628800

)!410(

!10

)!(

!==

−=

− kn

n

10*9*8*7

= 5040

Warum?

Page 285: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 285

Fachbereich Wirtschaftswissenschaften

Variation – Modell ohne Zurücklegen

– Einen Sonderfall stellt die Permutation bei Auswahl aller Objekte (n = k) dar:

– Rechenlogik im Sonderfall (PIN mit 10 aus 10 Ziffern ohne Zurücklegen)

– Für die erste Stelle der PIN kommen insgesamt 10 Ziffern in Frage

– Für die zweite Stelle der PIN kommen nun noch 9 Ziffern in Frage

– Für die dritte Stelle der PIN kommen nun noch 8 Ziffern in Frage

– Für die vierte Stelle der PIN kommen nun noch 7 Ziffern in Frage

– Für die fünfte Stelle der PIN kommen nun noch 6 Ziffern in Frage…

– 10 * 9 * 8 * 7 * 6 * 5 * 4 * 3 * 2 * 1 = 10! = 3.628.800

Sommersemester 2020

Christian Reinboth, M.Sc.

Wie viele Reihenfolgen gibt es, in denen

n Elemente angeordnet werden können?!1

!

!0

!

)!(

!

)!(

!n

nn

nn

n

kn

n===

−=

Page 286: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 286

Fachbereich Wirtschaftswissenschaften

– Aus einer Urne mit 3 Kugeln (A, B, C) werden 2 Kugeln gezogen

Sommersemester 2020

Christian Reinboth, M.Sc.

Nummer Anordnung Wird die Anordnung gezählt?

1 A, B JA

2 A, C JA

3 B, A JA

4 B, C JA

5 C, A JA

6 C, B JA

Variation – Modell ohne Zurücklegen

61

6

)!23(

!3

)!(

!==

−=

− kn

n

Page 287: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 287

Fachbereich Wirtschaftswissenschaften

Variation – Modell mit Zurücklegen

– Wann spricht man von einer Variation – Modell mit Zurücklegen?

– Auswahl von Objekten (Ereignissen) in einer bestimmten Reihenfolge

– Jedes Objekt (Ereignis) kann dabei mehrere Male auftreten (eintreten)

– Beispiel: Berechnung der Anzahl möglicher 4-stelliger PIN-Kombinationen (k)

aus 10 Ziffern (n), wenn jede Ziffer pro PIN beliebig häufig auftreten kann

– Für die erste Stelle der PIN kommen insgesamt 10 Ziffern in Frage

– Für alle weiteren Stellen kommen ebenfalls noch 10 Ziffern in Frage

– 10 * 10 * 10 * 10 = 104

Sommersemester 2020

Christian Reinboth, M.Sc.

Wie viele Reihenfolgen gibt es, in denen k aus

n Elementen angeordnet werden können, wenn

jedes Element beliebig oft (bzw. maximal k-mal)

gezogen werden kann?

10000104 ==kn

Page 288: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 288

Fachbereich Wirtschaftswissenschaften

– Aus einer Urne mit 3 Kugeln (A, B, C) werden 2 Kugeln gezogen

Sommersemester 2020

Christian Reinboth, M.Sc.

Nummer Anordnung Wird die Anordnung gezählt?

1 A, B JA

2 A, C JA

3 B, A JA

4 B, C JA

5 C, A JA

6 C, B JA

7 A, A JA

8 B, B JA

9 C, C JA

Variation – Modell mit Zurücklegen

932 ==kn

Page 289: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 289

Fachbereich Wirtschaftswissenschaften

Kombination – Modell ohne Zurücklegen

– Wann spricht man von einer Kombination – Modell ohne Zurücklegen?

– Auswahl von Objekten (Ereignissen) ohne Beachtung der Reihenfolge

– Jedes Objekt (Ereignis) kann dabei nur ein Mal auftreten (eintreten)

– Beispiel: Berechnung der möglichen Kombinationen beim Lotto (6 aus 49,

Ziehen ohne Zurücklegen, die Reihenfolge spielt beim Gewinn keine Rolle)

– Die Wahrscheinlichkeit auf einen Hauptgewinn in der Lotterie liegt nach der

klassischen Definition von Laplace also bei 1 / 13.983.816 = 0,000000715%

Sommersemester 2020

Christian Reinboth, M.Sc.

Dieser Term wird auch

als Bionomialkoeffizient

bezeichnet (nCr-Taste auf

vielen Taschenrechnern)

13983816)!649!*(6

!49

)!!*(

!=

−=

− knk

n

Page 290: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 290

Fachbereich Wirtschaftswissenschaften

– Aus einer Urne mit 3 Kugeln (A, B, C) werden 2 Kugeln gezogen

Sommersemester 2020

Christian Reinboth, M.Sc.

Nummer Anordnung Wird die Anordnung gezählt?

1 A, B JA

2 A, C JA

3 B, A NEIN (bereits in 1 gezählt)

4 B, C JA

5 C, A NEIN (bereits in 2 gezählt)

6 C, B NEIN (bereits in 4 gezählt)

Kombination – Modell ohne Zurücklegen

32

6

)!23!*(2

!3

)!!*(

!==

−=

− knk

n

Page 291: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 291

Fachbereich Wirtschaftswissenschaften

Kombination – Modell mit Zurücklegen

– Wann spricht man von einer Kombination – Modell mit Zurücklegen?

– Auswahl von Objekten (Ereignissen) ohne Beachtung der Reihenfolge

– Jedes Objekt (Ereignis) kann dabei mehrere Male auftreten (eintreten)

– Beispiel: Aus einer Urne mit 10 nummerierten Kugeln wird 3 Mal eine Kugel

gezogen, wobei die gezogene Kugel jedes Mal wieder zurückgelegt wird.

Wie viele Kombinationsmöglichkeiten für Kugeln ergeben sich?

Sommersemester 2020

Christian Reinboth, M.Sc.

Wie viele Möglichkeiten gibt es, k aus n Elementen zu kombinieren,

wenn die Elemente immer wieder neu gezogen werden können?

2202177280

479001600

6*362880

479001600

!3)!*110(

)!1310(

!)!*1(

)!1(===

−+=

−+

kn

kn

Page 292: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 292

Fachbereich Wirtschaftswissenschaften

– Aus einer Urne mit 3 Kugeln (A, B, C) werden 2 Kugeln gezogen

Sommersemester 2020

Christian Reinboth, M.Sc.

Nummer Anordnung Wird die Anordnung gezählt?

1 A, B JA

2 A, C JA

3 B, A NEIN (bereits in 1 gezählt)

4 B, C JA

5 C, A NEIN (bereits in 2 gezählt)

6 C, B NEIN (bereits in 4 gezählt)

7 A, A JA

8 B, B JA

9 C, C JA

Kombination – Modell mit Zurücklegen

64

24

2*2

24

!2)!*13(

)!123(

!)!*1(

)!1(===

−+=

−+

kn

kn

Page 293: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 293

Fachbereich Wirtschaftswissenschaften

Kombinatorik: Wie viele Möglichkeiten gibt es?

Sommersemester 2020

Christian Reinboth, M.Sc.

Kernproblem: Um mit der Laplace-Wahrscheinlichkeit rechnen zu können, muss

die Anzahl der günstigen sowie die Anzahl der möglichen Ereignisse bekannt

sein – wie berechnen sich diese unter verschiedenen Rahmenbedingungen?

(Beispiel: Wie viele Möglichkeiten gibt es, um einen Lotto-Schein auszufüllen?)

Spielt die Reihenfolge der Ereignisse eine Rolle?

JA: Variation NEIN: Kombination

Modell ohne

Zurücklegen

Modell mit

Zurücklegen

Modell ohne

Zurücklegen

Modell mit

Zurücklegen

kn)!(

!

kn

n

− )!!*(

!

knk

n

− !)!*1(

)!1(

kn

kn

−+

Page 294: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 294

Fachbereich Wirtschaftswissenschaften

Übung: Wie viele Möglichkeiten gibt es?

– Wie viele Möglichkeiten für eine vierstellige PIN existieren, wenn...

– ...keine der vier Ziffern bekannt ist?

– ...bekannt ist, dass eine der vier Ziffern eine 6 ist?

– ...bekannt ist, dass die Ziffer 6 an erster Stelle steht?

Christian Reinboth, M.Sc.

Sommersemester 2020

Spielt die Reihenfolge der Ereignisse eine Rolle?

JA: Variation NEIN: Kombination

Modell ohne

Zurücklegen

Modell mit

Zurücklegen

Modell ohne

Zurücklegen

Modell mit

Zurücklegen

kn)!(

!

kn

n

− )!!*(

!

knk

n

− !)!*1(

)!1(

kn

kn

−+

Page 295: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 295

Fachbereich Wirtschaftswissenschaften

Übung: Wie viele Möglichkeiten gibt es?

– Wie viele Möglichkeiten für eine vierstellige PIN existieren, wenn...

– ...keine der vier Ziffern bekannt ist?

– ...bekannt ist, dass eine der vier Ziffern eine 6 ist?

– ...bekannt ist, dass die Ziffer 6 an erster Stelle steht?

– In diesem Fall liegt eine Variation (die Reihenfolge der Ziffern spielt bei Eingabe

der PIN eine Rolle) mit Zurücklegen (alle Ziffern können mehrfach auftreten) vor

– Wenn keine Ziffer bekannt ist:

– Wenn bekannt ist, dass die PIN eine 6 enthält:

– Wenn bekannt ist, dass die 6 an erster Stelle steht:

Sommersemester 2020

Christian Reinboth, M.Sc.

10000104 ==kn

400010*4*4 3 ==kn

1000103 ==kn

Erste Annahme: Es

müssten immer weniger

Möglichkeiten werden...

Page 296: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 296

Fachbereich Wirtschaftswissenschaften

Rechnen mit bedingten Wahrscheinlichkeiten

– Bisherige Grundannahme: Ereignisse treten unabhängig voneinander ein – d.h.

welche Zahl gewürfelt wurde, wirkt sich nicht auf den nächsten Würfelwurf aus

– Neue Grundannahme: Die Wahrscheinlichkeit des Eintretens eines Ereignisses A

hängt von der Wahrscheinlichkeit des Eintretens eines vorherigen Ereignisses B ab

– Die bedingte Wahrscheinlichkeit von A unter der Bedingung B ist definiert als

Sind A und B stochastisch unabhängig voneinander, so wird vereinfacht zu

Sommersemester 2020

Christian Reinboth, M.Sc.

Was wiederum umgeformt werden kann zu

und

für

)(

)()|(

BP

BAPBAP

=

)(*)|()( BPBAPBAP = 0)( BP

)()|( APBAP = )(*)()( BPAPBAP =

Page 297: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 297

Fachbereich Wirtschaftswissenschaften

Übung: Würfeln mit zwei Würfeln

– Wie groß ist (nach Laplace) die Wahrscheinlichkeit, beim gleichzeitigen

Würfeln mit zwei Würfeln eine Gesamtzahl größer als 8 zu erzielen?

– Von 36 Kombinationen (6 * 6) erfüllen nur 10 diese Bedingung

– Die Wahrscheinlichkeit liegt also bei 10 / 36 = 0,278 = 27,8%

– Würfelt man nacheinander, kennt man das Ergebnis des ersten Wurfs

bereits. Handelt es sich um eine 4, stellt sich die Frage, wie groß die

Chance auf eine Augenzahl größer 8 nun unter dieser Bedingung ist

– Dies wäre der Fall, wenn der zweite Würfel mindestens eine 5 zeigt

Sommersemester 2020

Christian Reinboth, M.Sc.

Woher

kommen

die 2/6?

%3,333

1

6

16

1*

6

2

)4(

)48()4|8(

1

11 ===

=

==

WP

WSPWSP

Page 298: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 298

Fachbereich Wirtschaftswissenschaften

Satz der totalen Wahrscheinlichkeit

– Bilden die Ereignisse A1, A2, … Ak überschneidungsfrei (disjunkt) einen vollständigen

Ereignisraum Ω, so gilt für ein Ereignis B ᴝ Ω der Satz der totalen Wahrscheinlichkeit

– Anwendungsbeispiel: Drei Maschinen (A1, A2, A3) stellen Bauteile mit einer

Fehlerrate von A1 = 0,02, A2 = 0,04 und A3 = 0,03 her. Aus Kapazitätsgründen

werden mit A1 50%, mit A2 30% und mit A3 20% der Bauteile produziert. Wie

groß ist die Wahrscheinlichkeit, ein fehlerhaftes Bauteil zu erhalten?

Sommersemester 2020

Christian Reinboth, M.Sc.

=

=k

i

ii APABPBP1

)(*)|()(

=

=3

1

)(*)|()(i

MaschinePMaschineFehlerPFehlerP

%8,2028,0)2,0*03,0()3,0*04,0()5,0*02,0()( ==++=FehlerP

Page 299: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 299

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

– Das berühmte „Taxi-Problem“ wurde erstmalig von Arthur Engel formuliert

– In einer Stadt existieren zwei Taxi-Firmen: Green Cab und Blue Cab

– Der Marktanteil von Green Cab (mit grünen Fahrzeugen) liegt bei 85%

– Der Marktanteil von Blue Cab (mit blauen Fahrzeugen) liegt bei 15%

– Es kommt zu einem Unfall mit Fahrerflucht und einem einzigen Zeugen

– Der Zeuge hat (unstrittig) ein Taxi gesehen und glaubt (strittig), dass es ein

blaues Taxi war – aber wie hoch ist die Zuverlässigkeit dieser Aussage?

– Das Gericht ordnet einen Sehtest an, bei dem sich herausstellt, dass der

Zeuge die Farbe von Fahrzeugen bei Nacht mit 80%iger Wahrscheinlichkeit

korrekt erkennt – war der Unfallwagen also mit 80%iger Sicherheit blau?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 300: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 300

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

– Viele Probanden antworten so – aber warum ist diese Annahme falsch?

– Es bleibt unberücksichtigt, dass die meisten Taxen grün und nicht blau sind

– Die Wahrscheinlichkeit, dass der Zeuge ein blaues Taxi gesehen hat, ist also

nicht besonders groß – die Farbwahrnehmung ist dann erst der zweite Schritt

– In diesem Fall muss mit dem Satz von Bayes gerechnet werden

(Die Formel sehen wir uns nach einigen Vorüberlegungen gleich noch genauer an)

Sommersemester 2020

Christian Reinboth, M.Sc.

=

==

=k

j

ji

jiiiii

APABP

APABP

BP

APABP

BP

ABPBAP

1

)(*)|(

)(*)|(

)(

)(*)|(

)(

)()|(

Page 301: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 301

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

– Bevor wir uns der Formel zuwenden also noch ein paar Vorüberlegungen...

– Wären insgesamt nur 100 Taxen in der Stadt unterwegs…

– …wären von diesen 85 grün (85% Marktanteil)

– ...wären von diesen 15 blau (15% Marktanteil)

– Da der Zeuge Farben mit 80%iger Sicherheit korrekt erkennt…

– …würde er 68 grüne Taxen als grün erkennen – und 17 als blau

– …würde er 12 blaue Taxen als blau erkennen – und 3 als grün

– Diese Rahmenbedingungen müssen beachtet werden, will man wissen,

wie groß die Chance für eine korrekte Aussage des Zeugen wirklich ist

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 302: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 302

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

Sommersemester 2020

Christian Reinboth, M.Sc.

Welche Möglichkeiten

gibt es insgesamt?

Bedauerlicher Taxi-Unfall

Mit grünem Taxi Mit blauem Taxi

Als grün erkannt Als blau erkannt Als grün erkannt Als blau erkannt

Page 303: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 303

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

Sommersemester 2020

Christian Reinboth, M.Sc.

Welche Möglichkeiten

sind von Bedeutung?

Bedauerlicher Taxi-Unfall

Mit grünem Taxi Mit blauem Taxi

Als grün erkannt Als blau erkannt Als grün erkannt Als blau erkannt

Page 304: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 304

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

Sommersemester 2020

Christian Reinboth, M.Sc.

Welche Möglichkeiten

sind von Bedeutung?

Bedauerlicher Taxi-Unfall

Mit grünem Taxi Mit blauem Taxi

Als grün erkannt Als blau erkannt Als grün erkannt Als blau erkannt

0,85 0,15

0,20 0,80

= 0,17 = 0,12

Page 305: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 305

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

– Da der Zeuge das Taxi als blau identifiziert, sind zwei Pfade von Bedeutung

– Das Unfalltaxi war grün (85%) und wird als blau erkannt (20%) -> 0,17

– Das Unfalltaxi war blau (15%) und wird als blau erkannt (80%) -> 0,12

– Unter Berücksichtigung des klassischen Wahrscheinlichkeitsbegriffs nach

Laplace würde man an der Stelle intuitiv – hoffentlich – wie folgt vorgehen:

– P (A) = Σ günstiger Elementarereignisse / Σ möglicher Elementarereignisse

– P (das Unfalltaxi war blau) = 0,12 / (0,17 + 0,12) = 0,12 / 0,29 = 0,41 = 41%

– Auch wenn diese Vorgehensweise eher intuitiv als formelgeleitet ist, führt sie

letztlich zum korrekten Ergebnis – die Vorgehensweise unter Berücksichtigung

des Satz von Bayes bzw. des Bayes-Theorem findet sich auf der nächsten Folie

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 306: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 306

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

Sommersemester 2020

Christian Reinboth, M.Sc.

)(

)(*)|()|(

BP

APABPBAP ii

i =

Wahrscheinlichkeit für

Ai unter der Bedingung,

dass B eingetreten ist

(Taxi war wirklich blau

(Ai) wenn der Zeuge

es für blau hält (B))

Wahrscheinlichkeit dafür, dass B eintritt

(die Summe aller Pfade, bei denen der

Zeuge das Taxi am Ende für blau hält)

Wahrscheinlichkeit für den Eintritt

des Ereignisses Ai (Taxi war blau)

Wahrscheinlichkeit für B unter der

Bedingung, dass Ai eingetreten ist

(Zeuge hält ein blaues Taxi für blau)

Page 307: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 307

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

– Welche Größen sind für die formelgestützte Berechnung erforderlich?

TG = Taxi ist grün TB = Taxi ist blau

ZG = Zeuge hält das Taxi für grün ZB = Zeuge hält das Taxi für blau

Die Basisrate für TG liegt bei 0,85, die Basisrate für TB liegt bei 0,15

Als bedingte Wahrscheinlichkeiten für die Zeugenaussagen ergeben sich

P(ZG|TG) = 0,8 P(ZG|TB) = 0,2 P(ZB|TG) = 0,2 P(ZB|TB) = 0,8

Sommersemester 2020

Christian Reinboth, M.Sc.

Deutlich geringer als 0,8…

)(*)|()(*)|(

)(*)|(

)(

)(*)|()|(

TGPTGZBPTBPTBZBP

TBPTBZBP

BP

APABPBAP ii

i+

==

41,0)85,0*20,0()15,0*80,0(

15,0*80,0=

+=

Page 308: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 308

Fachbereich Wirtschaftswissenschaften

Rechnen mit dem Satz von Bayes

– Für welche „Alltagsphänomene“ ist der Satz von Bayes von Bedeutung?

– Warum werde keine flächendeckenden HIV-Tests durchgeführt?

– Warum gibt es in der Terrorbekämpfung so viele Fehlalarme?

– und, und, und…

Sommersemester 2020

Christian Reinboth, M.Sc.

Untersuchte

Personen:

100.000

Erkrankte: 20

Gesunde: 99.980

Test mit

95%iger

Sicherheit

19 positive Tests

1 negativer Test

94.981 negative Tests

4.999 positive Tests

„false

positives“

„false

negatives“

Page 309: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 309

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit dem Satz von Bayes

– Ein Unternehmen stellt Spritzgussteile auf zwei verschiedenen Maschinen her,

wobei 70% der Teile auf Maschine X und 30% der Teile auf Maschine Y produziert

werden. Die Wahrscheinlichkeit für einen Fertigungsfehler liegt bei Maschine X bei

10%, bei Maschine Y dagegen bei 20%

– Wie groß ist die Wahrscheinlichkeit für einen Produktionsfehler?

– Wie groß ist die Wahrscheinlichkeit, dass sich ein entdeckter

Produktionsfehler auf Maschine Y zurückführen lässt?

Sommersemester 2020

Christian Reinboth, M.Sc.

)(

)(*)|()|(

BP

APABPBAP ii

i =

)()()( BPAPBAP += Additionssatz

Satz von Bayes

Page 310: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 310

Fachbereich Wirtschaftswissenschaften

Übung: Rechnen mit dem Satz von Bayes

– Ein Unternehmen stellt Spritzgussteile auf zwei verschiedenen Maschinen her,

wobei 70% der Teile auf Maschine X und 30% der Teile auf Maschine Y produziert

werden. Die Wahrscheinlichkeit für einen Fertigungsfehler liegt bei Maschine X bei

10%, bei Maschine Y dagegen bei 20%

– Wie groß ist die Wahrscheinlichkeit für einen Produktionsfehler?

– Wie groß ist die Wahrscheinlichkeit, dass sich ein entdeckter

Produktionsfehler auf Maschine Y zurückführen lässt?

Sommersemester 2020

Christian Reinboth, M.Sc.

13,0)2,0*3,0()1,0*7,0()()()( =+=+= BPAPBAP

4615,0)2,0*3,0()1,0*7,0(

)2,0*3,0(

)(

)(*)|()|( =

+==

BP

APABPBAP ii

i

Page 311: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 311

Fachbereich Wirtschaftswissenschaften

Denksport: Anlasslose Massenüberwachung

Eine Behörde überwacht mit Hilfe einer Software die unverschlüsselte E-Mail-Kommunikation

deutscher Internetnutzer*innen. Die Software, die E-Mails auf eine Reihe von Schlüsselbegriffen

und Phrasen filtert, die auf illegale und / oder terroristische Aktivitäten hinweisen könnten, stuft

eine tatsächlich sicherheitsrelevante Kommunikation mit einer sehr hohen Wahrscheinlichkeit

von 99,5% als potentielle Bedrohung ein. Die Wahrscheinlichkeit dafür, dass eine harmlose

E-Mail fälschlicherweise als potentielle Bedrohung klassifiziert wird, liegt dagegen nur bei 0,5%.

In Deutschland gibt es 71.000.000 Internetnutzer*innen. Nachfolgend gehen wir davon aus,

– dass jeder Nutzer täglich 10 unverschlüsselte Mails verschickt, die von der Software gesichtet werden,

– dass 10.000 Nutzer das Internet für die Vorbereitung illegaler oder terroristischer Aktivitäten nutzen

– und dass jede vierte Mail, die von einem dieser 10.000 Nutzer verschickt wird, einen auffindbaren

Hinweis auf eine solche Aktivität enthält.

Wie groß ist die Wahrscheinlichkeit dafür, dass eine an einem beliebigen Tag durch die Bedrohungen zu

99,5% korrekt klassifizierende Software als potentielle Bedrohung eingestufte E-Mail auch tatsächlich auf

eine reale Bedrohungslage hinweist?

Sommersemester 2020

Christian Reinboth, M.Sc.

Auflösung unter: http://scienceblogs.de/frischer-wind/2017/05/30/anlasslose-massenueberwachung-und-der-satz-von-bayes/

Page 312: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 312

Fachbereich Wirtschaftswissenschaften

Konfidenzintervalle

Teil IX

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 313: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 313

Fachbereich Wirtschaftswissenschaften

Was sind Konfidenzintervalle?

– Da Vollerhebungen selten sind, steht man häufig vor der Aufgabe, Parameter aus der

Grundgesamtheit (etwa die Lage des arithmetischen Mittels) aus Stichprobendaten

heraus schätzen zu müssen. Hierfür bieten sich zwei Vorgehensweise an:

– Punktschätzung: Der Parameter wird als einzelner Wert geschätzt – z.B. das arithmetische

Mittel der Grundgesamtheit aus dem arithmetischen Mittel der Stichprobe. Das Problem: Die

Wahrscheinlichkeit, genau den richtigen Wert zu treffen, ist äußerst gering. Gleichzeitig kann

man aber auch nicht wissen, wie weit man vom realen Wert entfernt liegt.

„Der geschätzte arithmetische Mittelwert liegt bei 5 g. Wir wissen aber

nicht, wie weit das vom realen arithmetischen Mittelwert entfernt ist.“

– Intervallschätzung: Mehr Aussagekraft hat eine Intervallschätzung, d.h. die Abgrenzung

eines Intervalls, in dem sich der wahre Parameter der mit einer gewissen Sicherheit befindet.

„Mit 95%iger Sicherheit liegt der reale arithmetische Mittelwert zwischen 4,8 g und 5,6 g.“

Sommersemester 2020

Christian Reinboth, M.Sc.

Aussagekraft?

Page 314: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 314

Fachbereich Wirtschaftswissenschaften

Was sind Konfidenzintervalle?

– Wie kommt nun aber ein solches Konfidenzintervall zustande?

(vom lateinischen confidere = vertrauen, d.h. Vertrauensintervall)

– Folgende Ausgangssituation ist gegeben:

– Es ist bekannt, dass eine zu untersuchende Variable normalverteilt ist

– Erwartungswert und/oder Standardabweichung sind aber unbekannt

– Daten einer (repräsentativen) Stichprobe liegen für Schätzungen vor

– Auf Basis der Daten aus der Stichprobe soll nun versucht werden, den Bereich zu

bestimmen, in dem sich der Wert (z.B. Erwartungswert) der Grundgesamtheit befindet

– Je breiter dieses Intervall ist, umso größer ist die Sicherheit, dass der gesuchte Wert

auch tatsächlich in dem Intervall liegt – umso geringer ist aber auch der Aussagewert

des Intervalls -> dies wird über das Vertrauensniveau / Konfidenzniveau γ reguliert

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 315: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 315

Fachbereich Wirtschaftswissenschaften

Was sagt das Konfidenzniveau aus?

Sommersemester 2020

Christian Reinboth, M.Sc.

realer Wert in der GG Bei einem Konfidenzniveau

von 95% schließen 95% der

Konfidenzintervalle dieser

Breite bei unendlicher

Wiederholung der

Stichprobenziehung

den realen Wert in der

Grundgesamtheit ein.

>>> Ein beliebiges

Konfidenzintervall auf diesem

Konfidenzniveau gehört also mit

95%iger Wahrscheinlichkeit

zu der Gruppe von Konfidenz-

intervallen, welche den realen

Wert einschließen.

Alternativ: Die Wahrscheinlichkeit,

dass der reale Wert in keinem der

95%-Intervalle liegt, beträgt 5%.

Page 316: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 316

Fachbereich Wirtschaftswissenschaften

Konfidenzniveau und Konfidenzbreite

– Wie man sich leicht vorstellen kann, hängt die Breite eines Konfidenzintervalls

wesentlich vom jeweils gewählten Konfidenzniveau bzw. Vertrauensniveau ab

– Dies lässt sich logisch wie folgt herleiten:

– Je breiter ein Konfidenzintervall ausfällt, desto wahrscheinlicher

ist, dass es den realen Wert in der Grundgesamtheit einschließt

– Je größer das Konfidenzniveau eines Konfidenzintervalls ist, umso

wahrscheinlicher ist, dass es den realen Wert in der Grundgesamtheit einschließt

– Daraus folgt: Je größer das Vertrauensniveau, desto breiter das Konfidenzintervall

– Wichtig: Das Konfidenzniveau muss immer vor der Aufstellung eines Intervalls

festgelegt und darf keinesfalls im Nachhinein so „angepasst“ werden, dass ein

gewünschtes Ergebnis erreicht wird

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 317: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 317

Fachbereich Wirtschaftswissenschaften

Einige bedeutende Konfidenzintervalle

– Konfidenzintervall um den Erwartungswert

– ...bei normalverteilter Grundgesamtheit und bekannter

Standardabweichung der Merkmalsverteilung

– ...bei normalverteilter Grundgesamtheit und unbekannter

Standardabweichung der Merkmalsverteilung

– ...bei unbekannter Merkmalsverteilung in der Grundgesamtheit

– Konfidenzintervall um die Varianz

– Konfidenzintervall um die Standardabweichung

– Konfidenzintervall um den Stichprobenanteilswert

Sommersemester 2020

Christian Reinboth, M.Sc.

Wichtiger Hinweis: Um die uns zur Verfügung stehende Zeit optimal

auszunutzen, werden wir nachfolgend nur das Konfidenzintervall um

den Erwartungswert μ bei bekannter Standardabweichung σ betrachten

Page 318: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 318

Fachbereich Wirtschaftswissenschaften

Konfidenzintervall um μ bei bekanntem σ

– Beispiel: Das Gewicht von Spritzgussbauteilen sei normalverteilt bei einer

Standardabweichung σ von 10 g und unbekanntem Erwartungswert μ.

Eine Stichprobe vom Umfang 100 erbringt einen Mittelwert von 20 g.

– Bestimmt werden soll das Konfidenzintervall um den

Erwartungswert μ mit einem Konfidenzniveau von 95%

Sommersemester 2020

Christian Reinboth, M.Sc.

−=+−−−

1)**()

21()

21( n

zxn

zxP

)2

1(

−z Entsprechendes Quantil aus

der Standardnormalverteilung

(in diesem Fall: z(0,975) = 1,96)

x = arithmetisches Mittel (Stichprobe)

σ = Standardabweichung (Grundges.)n = Stichprobenumfang

Page 319: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 319

Fachbereich Wirtschaftswissenschaften

Konfidenzintervall um μ bei bekanntem σ

Sommersemester 2020

Christian Reinboth, M.Sc.

95,0)96,2104,18(

95,0)1*96,1201*96,120(

05,01)100

10*96,120

100

10*96,120(

96,1

1)**(

)975,0()

2

05,01(

)2

1()2

1(

=

=+−

−=+−

==

−=+−

−−

xP

xP

xP

zz

nzx

nzxP

(Wert aus der Tabelle der Z-Verteilung)

Page 320: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 320

Fachbereich Wirtschaftswissenschaften

Übung: Konfidenzintervall um μ (bei σ bek.)

– Das Gewicht von Studierenden ist – aller Wahrscheinlichkeit nach – normalverteilt

bei einer Standardabweichung σ von 520 g und unbekanntem Erwartungswert μ.

Eine Untersuchung von 20 Studierenden erbringt einen Mittelwert von 67,3 kg.

– Bestimmt werden soll das Konfidenzintervall um den

Erwartungswert μ mit einem Konfidenzniveau von 99%

Sommersemester 2020

Christian Reinboth, M.Sc.

−=+−−−

1)**()

21()

21( n

zxn

zxP

)2

1(

−z Entsprechendes Quantil aus

der Standardnormalverteilung

(in diesem Fall: z(0,995) = 2,58)

x = arithmetisches Mittel (Stichprobe)

σ = Standardabweichung (Grundges.)n = Stichprobenumfang

Page 321: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 321

Fachbereich Wirtschaftswissenschaften

Übung: Konfidenzintervall um μ (bei σ bek.)

Sommersemester 2020

Christian Reinboth, M.Sc.

99,0)61,6799,66(

99,0)12,0*58,23,6712,0*58,23,67(

01,01)20

52,0*58,23,67

20

52,0*58,23,67(

58,2

1)**(

)995,0()

2

01,01(

)2

1()2

1(

=

=+−

−=+−

==

−=+−

−−

xP

xP

xP

zz

nzx

nzxP

(Wert aus der Tabelle der Z-Verteilung)

Page 322: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 322

Fachbereich Wirtschaftswissenschaften

Beispiele für weitere Konfidenzintervalle

Sommersemester 2020

Christian Reinboth, M.Sc.

−=−

+−

−−−−−

1)1

*1

*()1;

21()1;

21( n

stx

n

stxP

nn

(Konfidenzintervall um den Erwartungswert bei unbekannter Standardabweichung)

−=−

+−

−−−

1))ˆ1(*ˆ

*ˆ)ˆ1(*ˆ

*ˆ()

21()

21( n

ppzpp

n

ppzpP

(Konfidenzintervall um den Stichprobenanteilswert)

Für den rechnerischen Part der Klausur wird aus Zeitgründen nur

das Konfidenzintervall um den Erwartungswert μ bei bekannter

Standardabweichung σ von Relevanz sein.

Page 323: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 323

Fachbereich Wirtschaftswissenschaften

Statistische Software

Teil X

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 324: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 324

Fachbereich Wirtschaftswissenschaften

Kostenlose Statistik-Software

Statistische Software

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 325: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 325

Fachbereich Wirtschaftswissenschaften

Warum eine gesonderte Software-Einführung?(Nur weil wir nicht per Hand rechnen wollen?)

Sommersemester 2020

Christian Reinboth, M.Sc.

– Praxisnah: In keinem Betrieb würde

eine lineare Regressionsanalyse

noch „per Hand“ durchgeführt

– Vorbereitung: Wer im Rahmen der

BA empirisch arbeiten möchte, wird

hierfür Software einsetzen wollen

Und warum freie Software?

– Eine einfache SPSS-Lizenz kostet

1.168,00 EUR pro User und Jahr

– Freie Software ist ohne Kosten

in Studium und Beruf einsetzbar

Page 326: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 326

Fachbereich Wirtschaftswissenschaften

Unser zentraler Beispieldatensatz(bereits aus der Hauptvorlesung bekannt)

Ausprägung abs. Häufigkeit rel. Häufigkeit in %

20 Jahre 3 0,12 12,00%

21 Jahre 2 0,08 8,00%

22 Jahre 1 0,04 4,00%

23 Jahre 3 0,12 12,00%

24 Jahre 13 0,52 52,00%

25 Jahre 2 0,08 8,00%

26 Jahre 0 0,00 0,00%

27 Jahre 1 0,04 4,00%

Σ 25 1,00 100,00%

Sommersemester 2020

Christian Reinboth, M.Sc.

Wie bekommen wir diese

Daten nun in PAST?

Page 327: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 327

Fachbereich Wirtschaftswissenschaften

Eingabe von Daten in PAST

Sommersemester 2020

Christian Reinboth, M.Sc.

Relevante Funktionen:

> File > New (Anlegen einer neuen Datei)

> File > Save as… (Speichern einer Datei)

> Show > Column attributes (Namen, Skalen)

Page 328: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 328

Fachbereich Wirtschaftswissenschaften

Wo befinden wir uns?

Sommersemester 2020

Christian Reinboth, M.Sc.

deskriptiv explorativ

induktiv

Statistik

Lagemaße

Streuungsmaße

Korrelationskoeffizienten

Chi²-Test

Grafiken

Lineare Regression

Ausreißeranalyse

Fehlende Werte

Verteilungsmaße

Page 329: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 329

Fachbereich Wirtschaftswissenschaften

Lagemaße und Streuungsmaße

Was ist hier was?

N = Anzahl der Werte

Min = kleinster Wert

Max = größter Wert

Mean = arithmetisches Mittel

Geom. mean = Geometrisches Mittel

25 prcentil = Unteres Perzentil

Median = Mittleres Perzentil

75 prcentil = Oberes Perzentil

Variance = Varianz

Stand dev. = Standardabweichung

Sommersemester 2020

Christian Reinboth, M.Sc.

> Univariate > Summary statistics

Page 330: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 330

Fachbereich Wirtschaftswissenschaften

Das „SPSS-Analyseproblem“

– Software führt JEDE Analyse unabhängig von den Voraussetzungen durch!

– ...also auch die Berechnung des arithmetischen Mittels

– ... aus Schulnoten

– ... aus Geschlechtern

– ... aus Kontonummern

– ... aus Telefonnummern

– ... aus Präferenzrängen

– Bei komplexen Verfahren sind noch weit schlimmere „Vergehen“ denkbar

– Die fachlichen Kenntnisse der Anwender/innen sind daher entscheidend

– Darum: KEINE Analyse ohne vorherige Prüfung der Voraussetzungen!

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 331: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 331

Fachbereich Wirtschaftswissenschaften

Warum ergeben sich andere Streuungsmaße?

– In der Vorlesung haben wir die

Standardvarianz als Durchschnitt der

quadrierten Abweichungen berechnet:

– s² = 2,8416 | s = 1,6875

– Mit Hilfe von PAST berechnen wir

die sog. Stichprobenvarianz mit den

Freiheitsgraden (n-1) im Vorfaktor:

– s² = 2,96 | s = 1,72

Sommersemester 2020

Christian Reinboth, M.Sc.

=

−=n

i

i xxn

s1

22 )(1

=

−−

=n

i

i xxn

s1

22 )(1

1

Ist die Wahl der Formel eher für

große oder eher für kleine

Datensätze relevant?

Page 332: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 332

Fachbereich Wirtschaftswissenschaften

Gibt es einen Modus?

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > Histogram

Page 333: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 333

Fachbereich Wirtschaftswissenschaften

Folgt die Verteilung einer Normalverteilung?

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > Histogram

Page 334: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 334

Fachbereich Wirtschaftswissenschaften

Lässt sich die Grafik noch individualisieren?

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > Histogram > Graph settings

Page 335: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 335

Fachbereich Wirtschaftswissenschaften

Bivariater Datensatz für Korrelationsanalysen(ebenfalls aus der Hauptvorlesung bekannt)

Sommersemester 2020

Christian Reinboth, M.Sc.

Befragte/r Größe (m) Gewicht (kg)

1 1,55 64

2 1,68 72

3 1,72 71

4 1,73 75

5 1,82 102

6 1,81 98

7 1,66 71

8 1,78 78

9 1,73 77

10 1,59 69

Page 336: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 336

Fachbereich Wirtschaftswissenschaften

Ist ein Zusammenhang grafisch plausibel?

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > XY graph

Page 337: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 337

Fachbereich Wirtschaftswissenschaften

Berechnung von Korrelationskoeffizienten

Sommersemester 2020

Christian Reinboth, M.Sc.

> Univariate > Correlation

Was ist hier was?

Kendall‘s tau =

Konkordanzkoeffizient nach Kendall

Linear r (Pearson) =

Bravais-Pearson-Korrelationskoeffizient

Spearman‘s rs =

Rangkorrelationskoeffizient nach Spearman

Interpretation des Betrags von x

x = 0 = keine Korrelation

0 < x < 0,5 = schwache Korrelation

0,5 <= x < 0,8 = mittlere Korrelation

0,8 <= x < 1 = starke Korrelation

x = 1 = perfekte Korrelation

Page 338: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 338

Fachbereich Wirtschaftswissenschaften

Korrelation ist nicht gleich Kausalität

– Eine über einen Korrelationskoeffizienten identifizierte Korrelation sollte

näher untersucht, dabei jedoch niemals inhaltlich interpretiert werden

– Grund dafür ist, dass eine Korrelation nicht notwendigerweise auf einem

Ursache-Wirkungs-Zusammenhang beruht – auch wenn es in vielen

Fällen leider äußerst verführerisch ist, diese Annahme zu treffen

– Tatsächlich kann es verschiedene Erklärungen für Korrelationen geben

– Einseitiger Zusammenhang: X beeinflusst Y bzw. Y beeinflusst X

– Beidseitiger Zusammenhang: X und Y beeinflussen sich gegenseitig

– Es handelt sich um einen reinen Zufallseffekt in den Daten (Scheinkorrelation)

– Eine dritte Variable (Z) beeinflusst X und Y gleichermaßen (Scheinkorrelation)

– Ein klassisches Beispiel für eine Scheinkorrelation ist die Korrelation zwischen

Storchenzahl und Geburtenquote (verbunden über die Variable „Urbanisierung“)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 339: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 339

Fachbereich Wirtschaftswissenschaften

Wo befinden wir uns?

Sommersemester 2020

Christian Reinboth, M.Sc.

deskriptiv explorativ

induktiv

Statistik

Lagemaße

Streuungsmaße

Korrelationskoeffizienten

Chi²-Test

Grafiken

Lineare Regression

Ausreißeranalyse

Fehlende Werte

Verteilungsmaße

Page 340: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 340

Fachbereich Wirtschaftswissenschaften

Erstellung eines Box-Plots

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > Barchart/Boxplot

Damit der Box-Plot so formatiert ist, wie wir es

aus der Vorlesung kennen, sind noch mehrere

Anpassungen nötig, u.a.:

> Plot type > Box plot

> Quartile method > interpolation

> Graph settings (u.a. Colors, Axes…)

Page 341: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 341

Fachbereich Wirtschaftswissenschaften

Erstellung vergleichender Box-Plots(nach Erweiterung des Datensatzes)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 342: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 342

Fachbereich Wirtschaftswissenschaften

Erstellung vergleichender Box-Plots

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > Barchart/Boxplot

Page 343: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 343

Fachbereich Wirtschaftswissenschaften

Wo befinden wir uns?

Sommersemester 2020

Christian Reinboth, M.Sc.

deskriptiv explorativ

induktiv

Statistik

Lagemaße

Streuungsmaße

Korrelationskoeffizienten

Chi²-Test

Grafiken

Lineare Regression

Ausreißeranalyse

Fehlende Werte

Verteilungsmaße

Page 344: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 344

Fachbereich Wirtschaftswissenschaften

Beispieldatensatz zur linearen Regression

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y

1 12 10000

2 15 15000

3 8 6000

4 11 11000

5 3 5000

6 17 23000

7 24 37000

Beispielfall mit bewusst gering gehaltener

(Foliendarstellung…) Anzahl von Werten:

− x = Prozentualer Anteil des Werbebudgets

eines Produkts am Gesamtbudget der Firma

− y = Verkaufte Einheiten des betrachteten

Produkts in einem Untersuchungszeitraum

− Annahme: Das betrachtete Produkt,

der Untersuchungszeitraum sowie

das Gesamtbudget bleiben gleich

(ceteris paribus)

Wie lautet die Regressionsgleichung?

Page 345: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 345

Fachbereich Wirtschaftswissenschaften

Ist ein Zusammenhang grafisch plausibel?

Sommersemester 2020

Christian Reinboth, M.Sc.

> Plot > XY graph

Page 346: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 346

Fachbereich Wirtschaftswissenschaften

Erstellung und Bewertung des LR-Modells

Sommersemester 2020

Christian Reinboth, M.Sc.

> Model > Linear > Bivariate

y = -5.234,2 + 1.596 * x

Was ist hier was? Slope = Konstantes Glied

Intercept = Regressionskoeffizient

r² = Bestimmtheitsmaß / Gütekriterium

Page 347: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 347

Fachbereich Wirtschaftswissenschaften

Sichtbarmachung des Leverage-Effekts(Was eine kleine Änderung bewirken kann…)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 348: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 348

Fachbereich Wirtschaftswissenschaften

Sichtbarmachung des Leverage-Effekts

Sommersemester 2020

Christian Reinboth, M.Sc.

> Model > Linear > BivariateWie deutlich verschlechtert sich hier r²?

Page 349: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 349

Fachbereich Wirtschaftswissenschaften

Was kann andere (freie) Software (besser)?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 350: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 350

Fachbereich Wirtschaftswissenschaften

Erstellung von Box-Plots mit SSP

Sommersemester 2020

Christian Reinboth, M.Sc.

> Describing Data > Median, Quartiles > Box-Plot

Schöne Übersicht der Konstruktionsgrößen – weniger ansehnlicher Box-Plot

Page 351: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 351

Fachbereich Wirtschaftswissenschaften

Erstellung „schöner“ Grafiken mit SOFA

Sommersemester 2020

Christian Reinboth, M.Sc.

> Diagramme > Balkendiagramm erstellen

Page 352: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 352

Fachbereich Wirtschaftswissenschaften

Erstellung „schöner“ Grafiken mit SOFA

Sommersemester 2020

Christian Reinboth, M.Sc.

> Diagramme > Scatterplot erstellen

Page 353: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 353

Fachbereich Wirtschaftswissenschaften

Detailergebnisse der Regression in PSPP

Sommersemester 2020

Christian Reinboth, M.Sc.

> Analysieren > Regression > Linear

Tipp: PSPP eignet sich

für die Vorbereitung der

Statistik II-Klausur in

besonderer Weise

Page 354: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 354

Fachbereich Wirtschaftswissenschaften

Simulation von Münzwürfen in SSP

Sommersemester 2020

Christian Reinboth, M.Sc.

> Uncertainty > Coin Flip Simulation

Gesetz der Großen Zahlen: Die relative Häufigkeit eines Zufallsergebnisses stabilisiert sich um

die theoretische Wahrscheinlichkeit eines Zufallsergebnisses, wenn das zu Grunde liegende

Zufallsexperiment immer wieder unter denselben Voraussetzungen durchgeführt wird.

Page 355: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 355

Fachbereich Wirtschaftswissenschaften

Simulation von Würfelwürfen in SSP

Sommersemester 2020

Christian Reinboth, M.Sc.

> Uncertainty > Dice Roll Simulation

Gesetz der Großen Zahlen: Die relative Häufigkeit eines Zufallsergebnisses stabilisiert sich um

die theoretische Wahrscheinlichkeit eines Zufallsergebnisses, wenn das zu Grunde liegende

Zufallsexperiment immer wieder unter denselben Voraussetzungen durchgeführt wird.

Page 356: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 356

Fachbereich Wirtschaftswissenschaften

Simulation eines Galtonbretts in SSP

Sommersemester 2020

Christian Reinboth, M.Sc.

Foto: Klaus-Dieter Keller; Lizenz: gemeinfrei; Quelle: Wikimedia

> Uncertainty > Galton‘s Apparatus

Mit Hilfe eines Galtonbretts lässt sich visuell

demonstrieren, warum viele Zufallsvariablen

der Bionomialverteilung folgen.

Page 357: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 357

Fachbereich Wirtschaftswissenschaften

Bestimmung der optimalen Stichprobengröße

Sommersemester 2020

Christian Reinboth, M.Sc.

− Was passiert bei....

− größerer Grundgesamtheit?

− kleinerer Grundgesamtheit?

− bekannten Anteilswerten?

− weniger Sicherheit?

− mehr Sicherheit?

Kostenloser Download unter:

http://www.statistikberatung.eu/

SampleSizer.zip

Ne

qpZ

e

qpZ

n

1**

1

**

2

2

2

2

−+

=

Page 358: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 358

Fachbereich Wirtschaftswissenschaften

…und das Beste kommt zum Schluss: R

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 359: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 359

Fachbereich Wirtschaftswissenschaften

Einführung in die Nutzung von R

Statistische Software

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 360: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 360

Fachbereich Wirtschaftswissenschaften

Was ist R?

Sommersemester 2020

Christian Reinboth, M.Sc.

– R ist eine Programmiersprache,

entwickelt 1992 von Ross Ihaka

und Robert Gentleman (Auckland)

– R ist Open Source-Software und

somit nicht nur frei verfügbar

sondern auch frei erweiterbar

– Mittlerweile stehen schon mehr

als 12.000 dieser Erweiterungen

(sog. Packages) zur Verfügung,

viele davon aus der Statistik

– R wird immer populärer und lässt

SPSS & Co. allmählich hinter sich

Page 361: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 361

Fachbereich Wirtschaftswissenschaften

Download von R

Sommersemester 2020

Christian Reinboth, M.Sc.

http://r-project.org

Page 362: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 362

Fachbereich Wirtschaftswissenschaften

Download von RStudio

Sommersemester 2020

Christian Reinboth, M.Sc.

https://rstudio.com

Page 363: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 363

Fachbereich Wirtschaftswissenschaften

Einrichtung des Arbeitsverzeichnisses

Sommersemester 2020

Christian Reinboth, M.Sc.

Tools > Global Options

Page 364: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 364

Fachbereich Wirtschaftswissenschaften

Nutzung von R als „Taschenrechner“

Testen wir einmal folgende Eingaben…

1+5

5-1

2*3

3/2

sqrt(4) -> Square Root = Quadratwurzel

Warum diese Form?

– Bei sqrt() handelt es sich um eine Funktion, die als Ergebnis die Quadratwurzel

einer Zahl liefert, die der Funktion beim Aufruf als Argument übergeben wird.

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 365: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 365

Fachbereich Wirtschaftswissenschaften

Unser Übungsdatensatz (aus der Vorlesung)

Sommersemester 2020

Christian Reinboth, M.Sc.

Befragte/r Größe (m) Gewicht (kg)

1 1,55 64

2 1,68 72

3 1,72 71

4 1,73 75

5 1,82 102

6 1,81 98

7 1,66 71

8 1,78 78

9 1,73 77

10 1,59 69

Page 366: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 366

Fachbereich Wirtschaftswissenschaften

Anlegen eines Datensatzes in R

Eingabe von zwei Datenreihen in Form von Vektoren

gewicht<-c(64,72,71,75,102,98,71,78,77,69) (c = combine)

groesse<-c(1.55,1.68,1.72,1.73,1.82,1.81,1.66,1.78,1.73,1.59)

Zusammenführen der Datenreihen zu einem Datensatz

probanden<-data.frame(groesse,gewicht)

Ausgabe der eingegebenen Daten

gewicht

probanden

Sommersemester 2020

Christian Reinboth, M.Sc.

Was passiert

im Fenster

„Global

Environment“?

Page 367: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 367

Fachbereich Wirtschaftswissenschaften

Anlegen eines Datensatzes in R

Ausgabe der eingegebenen Daten

probanden$gewicht

length(probanden$gewicht)

ls() -> Anzeigen aller Objekte

Abspeichern und Laden dieses Datensatzes

write.table(probanden,"probanden.txt")

rm(probanden,gewicht,groesse) (rm = remove)

read.table(„probanden.txt“) -> generiert nur eine Ausgabe

probanden<-read.table("probanden.txt") -> Zuweisung zu einem Frame

Sommersemester 2020

Christian Reinboth, M.Sc.

Was

passiert im

Fenster

„Files“?

Page 368: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 368

Fachbereich Wirtschaftswissenschaften

Geht das nicht auch viel einfacher…?

Sommersemester 2020

Christian Reinboth, M.Sc.

Import Dataset > From Text

Page 369: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 369

Fachbereich Wirtschaftswissenschaften

Einige einfache statistische Auswertungen

Grundlegende Angaben

sum(probanden$gewicht) Summe aller Werte

min(probanden$gewicht) Kleinster Wert im Datensatz

max(probanden$gewicht) Größter Wert im Datensatz

Statistische Lagemaße

mean(probanden$gewicht) Arithmetisches Mittel

median(probanden$gewicht) Median / 50%-Perzentil

quantile(probanden$gewicht,0.25) 25%-Perzentil (frei änderbar)

summary(probanden$gewicht) Sechs-Werte-Zusammenfassung

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 370: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 370

Fachbereich Wirtschaftswissenschaften

Einige einfache statistische Auswertungen

Statistische Streuungsmaße

IQR(probanden$gewicht) Interquartilsabstand

var(probanden$gewicht) Varianz

sd(probanden$gewicht) Standardabweichung

Spannweite und Variationskoeffizient sind nicht drin – und nun?

max(probanden$gewicht) - min(probanden$gewicht) -> Spannweite

sd(probanden$gewicht)/mean(probanden$gewicht) -> Variationskoeffizient

Learning: Was es in R (noch) nicht gibt, kann man sich selbst zusammenstellen…

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 371: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 371

Fachbereich Wirtschaftswissenschaften

Erstellung einfacher Grafiken in R

boxplot(probanden$gewicht)

Wie lässt sich dieser Plot noch modifizieren?

boxplot(probanden$gewicht, col="lightblue")

Lassen sich auch mehr als zwei Argumente ergänzen?

boxplot(probanden$gewicht, col="lightblue", horizontal=TRUE)

Spielt die Reihenfolge der Argumente eine Rolle?

boxplot(probanden$gewicht, horizontal=TRUE, col="lightblue")

Sommersemester 2020

Christian Reinboth, M.Sc.

Was

ändert sich

an den

Grafiken?

Page 372: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 372

Fachbereich Wirtschaftswissenschaften

Erstellung einfacher Grafiken in R

Wie lässt sich der Boxplot noch modifizieren?

boxplot(probanden$gewicht)

boxplot(probanden$gewicht, range=0)

boxplot(probanden$gewicht, plot=FALSE)

boxplot(probanden$gewicht, border="green")

boxplot(probanden$gewicht, sub="Box-Whisker-Plot")

boxplot(probanden$gewicht, main="Gewichtsverteilung")

boxplot(probanden$gewicht, ylab="kg", xlab="Stichprobe")

Welche Farben kennt R denn?

colors()

Sommersemester 2020

Christian Reinboth, M.Sc.

Was

ändert sich

an den

Grafiken?

Page 373: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 373

Fachbereich Wirtschaftswissenschaften

Erstellung einfacher Grafiken in R

Was für Grafiktypen existieren noch?

hist() Histogramm

pie() Kreisdiagramm

barplot() Balkendiagramm

plot() Streudiagramm

Wie lässt sich diese Grafik nun abspeichern?

png("boxplot.png")

boxplot(probanden$gewicht)

dev.off()

Sommersemester 2020

Christian Reinboth, M.Sc.

Wo ist die

Grafik nun

gelandet?

Page 374: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 374

Fachbereich Wirtschaftswissenschaften

Geht das nicht auch viel einfacher…?

Sommersemester 2020

Christian Reinboth, M.Sc.

Export > Save as Image

Page 375: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 375

Fachbereich Wirtschaftswissenschaften

Wie lässt sich dieses Diagramm erstellen?

Sommersemester 2020

Christian Reinboth, M.Sc.

?

Page 376: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 376

Fachbereich Wirtschaftswissenschaften

Wie lässt sich dieses Diagramm erstellen?

Sommersemester 2020

Christian Reinboth, M.Sc.

boxplot(probanden$gewicht, horizontal = TRUE, border="darkblue",

col="steelblue",main="Gewichtsverteilung der Untersuchungsgruppe",

xlab="Gewicht in kg")

Page 377: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 377

Fachbereich Wirtschaftswissenschaften

Eine kleine Datensatz-Erweiterung…

Sommersemester 2020

Christian Reinboth, M.Sc.

Befragte/r Größe (m) Gewicht (kg) Geschlecht

1 1,55 64 M

2 1,68 72 M

3 1,72 71 M

4 1,73 75 W

5 1,82 102 W

6 1,81 98 M

7 1,66 71 W

8 1,78 78 W

9 1,73 77 M

10 1,59 69 W

Page 378: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 378

Fachbereich Wirtschaftswissenschaften

Erstellung eines gruppierten Box-Plots

Was fällt bei der Ausgabe der Daten in „probanden$geschlecht“ auf?

Vergleichen wir also mal die beiden Teilstichproben in einem Box-Plot

boxplot(probanden$gewicht ~ probanden$geschlecht, horizontal = TRUE)

Funktioniert! An den Beschriftungen müssen wir aber noch arbeiten…

boxplot(probanden$gewicht ~ probanden$geschlecht, horizontal = TRUE,

main="Gewichtsverteilung nach Geschlechtern", xlab="Gewicht in kg",

ylab="Geschlecht")

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 379: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 379

Fachbereich Wirtschaftswissenschaften

Was ist mit anderen Grafiken?

Erstellen wir mal ein einfaches Balken- oder Kreisdiagramm:

alter<-c(21,21,21,23,23,26,27,27,27,29)

barplot(alter)

pie(alter)

So soll das aber nicht aussehen!

Lösung: Statt der Datenreihe ist die Tabelle als Argument zu übergeben

table(alter)

barplot(table(alter))

pie(table(alter))

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 380: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 380

Fachbereich Wirtschaftswissenschaften

Suche nach Zusammenhängen mit R

Rangkorrelationskoeffizienten (Spearman, Kendall)

cor.test(probanden$gewicht,probanden$groesse,method="spearman")

cor.test(probanden$gewicht,probanden$groesse,method="kendall")

Bravais-Pearson-Korrelationskoeffizient

cor.test(probanden$gewicht,probanden$groesse,method="pearson")

Chi-Quadrat-Test auf Unabhängigkeit

chisq.test(probanden$gewicht,probanden$groesse)

Sommersemester 2020

Christian Reinboth, M.Sc.

Was

verraten

die Warn-

meldungen?

Page 381: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 381

Fachbereich Wirtschaftswissenschaften

Sehen wir uns noch das Streudiagramm an

Erstellung und Konfiguration eines Streudiagramms

plot(probanden$groesse, probanden$gewicht)

plot(probanden$groesse, probanden$gewicht, pch=2)

plot(probanden$groesse, probanden$gewicht, pch=16)

plot(probanden$groesse, probanden$gewicht, col="red")

plot(probanden$groesse, probanden$gewicht, col.lab="blue")

Bekommen wir die Regressionsgrade in das Diagramm?

abline(lm(probanden$gewicht ~ probanden$groesse), col="red")

summary(lm(probanden$gewicht ~ probanden$groesse)) -> lm = Linear Model

Sommersemester 2020

Christian Reinboth, M.Sc.

Was

ändert sich

an den

Grafiken?

Page 382: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 382

Fachbereich Wirtschaftswissenschaften

Beispieldatensatz zur linearen Regression

Sommersemester 2020

Christian Reinboth, M.Sc.

Nr. x y

1 12 10000

2 15 15000

3 8 6000

4 11 11000

5 3 5000

6 17 23000

7 24 37000

Beispielfall mit bewusst gering gehaltener

(Foliendarstellung…) Anzahl von Werten:

− x = Prozentualer Anteil des Werbebudgets

eines Produkts am Gesamtbudget der Firma

− y = Verkaufte Einheiten des betrachteten

Produkts in einem Untersuchungszeitraum

− Annahme: Das betrachtete Produkt,

der Untersuchungszeitraum sowie

das Gesamtbudget bleiben gleich

(ceteris paribus)

Wie lautet die Regressionsgleichung?

Page 383: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 383

Fachbereich Wirtschaftswissenschaften

Lineare Regressionsanalyse mit R

Anlage des Datensatzes und Generierung des Streudiagramms

x<-c(12,15,8,11,3,17,24)

y<-c(10000,15000,6000,11000,5000,23000,37000)

plot(x,y)

plot(x,y,xlab="Anteil am Werbebudget",ylab="Umsatz")

Durchführung einer einfachen linearen Regressionsanalyse

summary(lm(y~x)) -> Ausgabe der Werte

abline(lm(y ~ x), col="red") -> Einfügen der Regressionsgeraden

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 384: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 384

Fachbereich Wirtschaftswissenschaften

Wie interpretiert man das Ergebnis?

Sommersemester 2020

Christian Reinboth, M.Sc.

y = Regressionskoeffizient

Intercept = Konstantes Glied

R-squared = Bestimmtheitsmaß /

Gütekriterium

Also:

y (Umsatz) = - 5.234,2 + 1.596 x (Werbekostenanteil)

bei einer Streuungsaufklärung von 89,67% (sehr gut)

Page 385: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 385

Fachbereich Wirtschaftswissenschaften

Demonstration des Leverage-Effekts

y<-c(10000,15000,6000,11000,5000,23000,370)

plot(x,y,xlab="Werbebudget",ylab="Umsatz")

abline(lm(y ~ x), col="red")

summary(lm(y~x))

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 386: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 386

Fachbereich Wirtschaftswissenschaften

Nützliche Hinweise für die Arbeit mit R

ls() Welche Objekte existieren?

rm(list=ls()) Alle Objekte im Speicher löschen

# Kommentar Kommentare in Skripten hinterlegen

mean(probanden$groesse) Mittelwertsberechnung

mean(probanden$groesse) # Mittelwertsberechnung

?mean() Aufruf der Hilfefunktion (in diesem Fall zu mean())

z<-c(1:40) Generierung einer Zahlenreihe von 1 bis 40

z <- rnorm(100,0,1) Generierung von 100 normalverteilten Zufallszahlen

useNA = "ifany" Erstellung einer Kategorie für fehlende Werte

fix() Öffnen des Editors zur Veränderung von Daten

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 387: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 387

Fachbereich Wirtschaftswissenschaften

Ein eigenständiger R-Kursist derzeit in Vorbereitung…

…wer hätte denn grundsätzlich Interesse an einem solchen Kurs?

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 388: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 388

Fachbereich Wirtschaftswissenschaften

Was sollte man für die Klausur können?(alle Angaben natürlich ohne Gewähr)

– Grundbegriffe (Skalenniveaus,

Variablentypen etc.) werden über

ein Multiple Choice-Quiz abgefragt

– Aufstellung von Häufigkeitstabellen

und kumulierten Häufigkeitstabellen

– Berechnung von arithmetischem Mittel,

getrimmtem arithmetischem Mittel,

Median, Quartilen und Modus

– Berechnung von Varianz, Standard-

abweichung, IQR und Spannweite

Sommersemester 2020

Christian Reinboth, M.Sc.

– Berechnung von Momentenkoeffizient,

Quartilskoeffizient, Kurtosis und Exzeß

– Bei den Grafiken sind nur Box-Plots

und Stem-and-Leaf-Plots zu zeichnen

– Von den drei Zusammenhangsmaßen

(B-P-K, Spearman, Kendall) kommen

mindestens zwei in der Klausur vor

Page 389: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 389

Fachbereich Wirtschaftswissenschaften

Was sollte man für die Klausur können?(alle Angaben natürlich ohne Gewähr)

– Berechnung und Interpretation einer

einfachen linearen Regressionsfunktion

(einschließlich des Bestimmtheitsmaßes)

– Interpretation von Venn-Diagrammen

– Mehrstufige Zufallsexperimente

– Additionssätze

– Multiplikationssätze

– Baum-/Pfaddiagramme

Sommersemester 2020

Christian Reinboth, M.Sc.

– Variationen und Kombinationen

– Variation mit Zurücklegen

– Variation ohne Zurücklegen

– Kombination mit Zurücklegen

– Kombination ohne Zurücklegen

– Bedingte Wahrscheinlichkeiten

– Insbesondere Satz von Bayes

– Konfidenzintervall um μ

– Chi2-Unabhängigkeitstest

Page 390: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 390

Fachbereich Wirtschaftswissenschaften

Ressourcen für die Klausurvorbereitung

– Statistik-Wiki im Stud.IP

– Probeklausuren im Stud.IP

– Diskussionsforen im Stud.IP

– Multiple Choice-Quiz im Stud.IP

http://studip.hs-harz.de

– Übungsblätter zu Statistik I

– Aufgabenheft zu Statistik II

– Foliensätze zu Statistik I und II

– Links zu Open Source-Software

http://www.hs-harz.de/creinboth/

Sommersemester 2020

Christian Reinboth, M.Sc.

Zusätzliches

Tutorium

gewünscht?

Page 391: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 391

Fachbereich Wirtschaftswissenschaften

Bitte die Stud.IP-Evaluation nicht vergessen(eine Rücklaufquote von > 70% wäre gut…)

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 392: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 392

Fachbereich Wirtschaftswissenschaften

Vielen Dank für die Aufmerksamkeit...

...und maximalen Erfolgbei der Abschlussklausur!

Statistik

Sommersemester 2020

Christian Reinboth, M.Sc.

Page 393: Einführung in die Statistik · Einführung mit Aufgaben und Lösungen, Gabler-Verlag, 9. Auflage, Wiesbaden, 2011, ISBN: 978-3-8349-2763-7 C. Reinboth: Induktive Statistik –Übungsaufgaben

Seite 393

Fachbereich Wirtschaftswissenschaften

Christian Reinboth

Telefon +49 3943 –  896

Telefax +49 3943 –  5896

E-Mail [email protected]

Friedrichstraße 57 –  59

38855 Wernigerode

Sommersemester 2020

Christian Reinboth, M.Sc.