Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009...

Preview:

Citation preview

Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung

19.11.2009

christina.dorn0@googlemail.com

Wiederholung grafische Darstellungen

Welche grafische Darstellung ist hier gewählt?

Welche grafische Darstellung ist hier gewählt?

Welche grafische Darstellung ist hier gewählt?

Was unterscheidet ein Histogramm von Balkendiagrammen oder Polygonen?

Welche grafische Darstellung ist hier gewählt?

Was stellt ein Scatterplot dar?

Was fehlt…

Welche Möglichkeiten der grafischen Darstellung außer Balkendiagrammen, Histogrammen und Scatterplots kennt ihr und was wird jeweils dargestellt?

Vorbereitung von Daten zur statistischen Analyse-

Datenkontrolle

Notwendigkeit der Datenkontrolle

• Primäre Aufgabe der Statistik: Datenanalyse• Normalerweise liegt ein Datensatz in

elektronischer Form als Datei vor• Man sollte sich aber als gewissenhafter

Wissenschaftler fragen: Wie ist diese Datei entstanden???

Was sind die häufigsten Erhebungsmethoden von Daten in psychologischen Untersuchungen?

Erhebungsmethoden1) Befragungsmethoden („Standardmethode“)

a) schriftlich: Fragebogen– sehr ökonomisch– das am häufigsten verwendete Instrumentb) Im direkten Gespräch: Interview– Offene, standardisierte und teilstandardisierte Form

2) Beobachtung (mit oder ohne Videoaufzeichnungen)

– Audio- oder Videoaufzeichungen können später ausgewertet und kodiert werden

Erhebungsmethoden

3) Neue Datenquellen (Kernspintomografie, Lig-Daten aus dem Internet,…)

Look at your Data!

• Datenkontrolle vor Datenanalyse in Bezug auf:– Korrektheit/Verständnis der Probanden– Fehleingaben– Plausibilität

Play with your Data!Datenkontrolle

• Sind die Werte realistisch?Ist die Größe der Veränderungen nach der

Postmessung realistisch?Bsp.: Kann man innerhalb von einer Woche 20kg

abnehmen???

• Sind die Daten überhaupt möglich?• Zum Messzeitpunkt T2 jünger als zu T1?

Grafische Analysen, Ausreißer, Extremwerte

• Neben deskriptiven Werten, welche im Rahmen der explorativen Datenanalyse herangezogen werden, sollen auch grafische Analysen (ideal: Box-Plot) zur Suche von auffälligen Werten herangezogen werden

• Unterscheidung: fehlerhafte Eingabe vs. Außreißer (eine 7 auf einer 5-stufigen Skala ist sicher kein Ausreißer!)

Ermittlung von Ausreißern und Extremwerten- zwei Definitionen

1. Turkey- Kriterium (via Box-Plot)Ein Subjekt Y ist ein Ausreißer wenn gilt:

Ein Subjekt Y ist ein Extremwert, wenn gilt

IQAQIQAQY

oder

IQAQIQAQY

3,5,1

5,1,3

11

11

IQAQY

oder

IQAQY

3

3

1

1

2. Definition (nach Hair, Black, Babin, Anderson and Tatham, 2006)

• Außreißer werden über das Konfidenzintervall um den Mittelwert definiert

• Bei kleinen Stichproben (N<80) gilt: ± 2,5 SD vom Mittelwert• Bei größeren Stichproben: ± 4 SD=> Alle Werte außerhalb des Intervalls werden

als Außreißer betrachtet

• Ausschluss von Probanden muss immer begründet sein• Wenn möglich: Statistik mit und ohne Ausreißern

berechnen => je nach Anteil der Ausreißer sollten sich hier keine bedeutsamen Unterschiede ergeben

• Wenn signifikante Ergebnisse nur mit Ausreißern erreicht werden, muss das kritisch diskutiert werden

• Empfehlung: Ausreißer durch den nächsten, plausibelsten Wert ersetzen– Windsorisieren

Wichtig:

Windsorisieren• Um den Mittelwert einer Stichprobe wird ein

Konfidenzintervall ermittelt, welches 90% aller Werte enthält

• Alle Werte außerhalb dieses Intervalls = Ausreißer

• Ausreißer werden folgendermaßen ersetzt:– Aller Werte unterhalb der 5%-Grenze (unterhalb des

Konfidenzintervalls) werden durch den Wert der unteren Grenze ersetzt

– Alle Werte oberhalb der 95%-Grenze (oberhalb des KI) werden durch den Wert der oberen Grenze des Intervalls ersetzt

Vorteil des Windsorisierens:☺

Nachteil:-

Fehlende Werte

Gruppenarbeit:Gruppe 1: Was sind fehlende Werte und welche

Probleme ergeben sich aus ihnen?Gruppe 2: Missing Data DiagnoseGruppe 3: MCARGruppe 4: MARGruppe 5: NMAR

Wahrscheinlichkeitsrechnung

Wozu, weshalb, warum?

WahrscheinlichkeitsrechnungWahrscheinlichkeitsrechnung

Statistik

deskriptiv inferentiell

Statistik

deskriptiv inferentiell

StochastikStochastik

Wir erinnern uns:Der große Rahmen…

Aufgabe: Wie groß ist die p, bei einem Kartenspiel mit 32 Karten einen König zu ziehen?

)(Ap

WahrscheinlichkeitstheorieWie kann man Wahrscheinlichkeit bestimmen?

1.Relativer Anteil der „günstigen Fälle“ an allen möglichen Ereignissen („a priori“ Wahrscheinlichkeit, Laplace):

2. Grenzwert der relativen Häufigkeit des Eintretens der „günstigen Fälle“ bei sehr häufigem Durchführen eines Zufallsexperimentes („a posteriori“ Wahrscheinlichkeit, Bernoulli):

eignisseöglichenErAnzahlderm

eiginisseünstigenErAnzahlderg

N

nAp

gesamt

a )(

N

nA A

N lim)(

Bernoulli-Wahrscheinlichkeit

Gesetz der großen Zahl: Schätzung ist umsogenauer je mehr N gegen unendlich gehen

Fiktives Bsp.: Es soll untersucht werden, wie viele Depressive eine bipolare Störung haben. Es werden auf einer Depressionsstation zunächst 10 Patienten untersucht:

%5,4110

5)( bipolar

%11000

10)( bipolar

%3010

3)( bipolar

Vielen Dank für eure Mitarbeit und Aufmerksamkeit!

Recommended