104

Eine Einführung in R: Deskriptive Statistiken und Graphiken · Eine Einführung in R: Deskriptive Statistiken und Graphiken Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten

  • Upload
    others

  • View
    10

  • Download
    0

Embed Size (px)

Citation preview

Eine Einführung in R:

Deskriptive Statistiken und Graphiken

Katja Nowick, Markus Kreuz(basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus)

Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE),Universität Leipzig

http://www.nowick-lab.info/?page_id=365

06. Januar 2015

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 1 / 104

I. Ergänzungen zu Übung 1

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 2 / 104

Scope [Gültigkeitsbereich]von Variablen bei Funktionen

Es können drei Arten von Variablen in einer Funktion auftauchen:

Formale Parameter:Werden beim Aufruf der Funktion angegeben

Lokale Variablen:Werden beim Abarbeiten einer Funktion erzeugt

Freie Variablen:Alle anderen

Frage: Wo sucht R nach freien Variablen?Antwort: In der Umgebung der Variable

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 3 / 104

z <- 3f <- function(x) {y <- 2*xprint(z)}

Ausgabe bei Aufruf der Funktion:

f(1) f(60)

3 3

x: Formaler Parameter

y: Lokale Variable

z: Freie Variable, die in diesem Bsp. von R auÿerhalb der Funktiongesucht wird

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 4 / 104

z <- 3f <- function(x) {y <- 2*xz <- 5print(z)}

Ausgabe bei Aufruf der Funktion:

f(1) f(60)

5 5

z ist keine freie Variable mehr, da sie nun innerhalb der Funktionde�niert ist (lokale Variable) und die freie Variable z auÿerhalb derFunktion verdeckt

Zugri� auf verdeckte Variablen per <<- Befehl

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 5 / 104

Ermittlung der Rechenzeit

system.time(expr)

expr: R-Befehl, dessen Rechenzeit ausgewertet werden soll

Beispiel: colMeans gegen apply

try<-matrix(1:4000000, nrow=4)

system.time(colMeans(try))

user system elapsed

0.02 0.00 0.01

system.time(apply(try, MARGIN=2, FUN=mean, na.rm=TRUE))

user system elapsed

32.16 0.00 32.20

Alternativ:

ptm <- proc.time()

exrps

proc.time()-ptmKatja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 6 / 104

Pakete und Hilfe

Download unter http://cran.r-project.org

R besteht aus einem Grundprogramm mit vielen Zusätzen densogenannten packages oder Pakete

Hilfe per ?<Name> oder help.search(suchbegriff)

Übersicht über die Hilfe help.start( )

Pakete speziell für Bioinformatik / Biostatistik:http://bioconductor.org/

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 7 / 104

Was sind Pakete?

R bietet eine Vielzahl frei verfügbarer Pakete

Ein Paket enthält unterschiedlichste, spezielle Funktionen

Beim Start von R ist nur eine Grundausstattung geladen,alle anderen Pakete müssen zusätzlich geladen werden

Jeder kann sein eigenes Paket schreiben

Derzeit gibt es 6158 Pakete (Stand Oktober 2009: 2112 Pakete)

Es besteht aber KEINE GARANTIE für richtige Funktionsweise!

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 8 / 104

Was sind Pakete?

Überblick über die geladenen Pakete sessionInfo( )

package laden require(packagename) oder library(packagename)

package installieren install.packages(packagename)

Repositories auswählen setRepositories()

Wichtige Pakete:survival: Überlebenszeitanalysen (Kaplan-Meier, Log-Rank-TestsCox-Modelle)mvtnorm: Multivariate NormalverteilungR2HTML: R Ausgabe in HTML

Mögliche Pakete:sendmailR: send email from inside RtwitteR: R based Twitter clientsudoku: Sudoku Puzzle Generator and Solver

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 9 / 104

II. Diskrete Daten: Deskriptive Statistiken und Graphiken

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 10 / 104

Was sind diskrete Variablen?

Diskrete Variablen nehmen nur eine endliche Anzahl an Werten an:

Kategorial: Es besteht keine Rangordnung der Kategorien

Ordinal: Kategorien können geordnet werden

Kategoriale oder ordinale Variablen sollten in R als Faktoren de�niertsein.

Mit einer Häu�gkeitstabelle kann man ein kategoriales Objektzusammenfassen:

table(object): Absolute Häu�gkeiten

prop.table(table(object)): Relative Häu�gkeiten

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 11 / 104

Betrachten wir einen Faktor mit 4 Ausprägungen:DNA <- rep(c(�A�, �C�, �G�, �T�), 10)

1 �A�2 �C�3 �G�3 �T�...

...

table(DNA) ergibt:

A C G T

10 10 10 10

prop.table(table(DNA)) ergibt:

A C G T

0.25 0.25 0.25 0.25

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 12 / 104

Kuchendiagramm und Balkendiagramm

AC

G T

Kuchendiagramm

A C G T

Balkendiagramm

02

46

81

0

Zu erzeugen mit:pie(table(DNA)) barplot(table(DNA))

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 13 / 104

III. Stetige Daten: Deskriptive Statistiken und Graphiken

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 14 / 104

Was sind stetige Variablen?

Stetige Variablen können (in der Theorie) eine unendliche Anzahl anWerten annehmen. Beispiele:

Gewicht

Gröÿe

Gehalt

R speichert stetige Variablen alsmetrische Objekte (numeric) ab.

Häu�gkeitstabelle sind für stetige Variablen meist nicht geeignet. Wichtigersind:

Maÿe für die Lage

Maÿe für die Streuung

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 15 / 104

Maÿe für die Lage

Die Lage (location) gibt an, in welcher Gröÿenordnung sich Datenbewegen.

(Empirische) Mittelwert

x =1n

n∑i=1

xi =1n(x1 + . . .+ xn) .

In R: mean()

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 16 / 104

Maÿe für die Lage II

x%-Quantile, trennen die Daten in zwei Teile.So liegen x% der Daten unter dem x%-Quantileund 100− x% darüber.

Median x0.5 entspricht dem 50%-QuantilIn R: median()

25%-Quantil x0.25 (das erste Quartil)In R: quantile(x,0.25)

75%-Quantil x0.75 (das dritte Quartil)In R: quantile(x,0.75)

Der Median ist robuster gegen Ausreiÿer als der Erwartungswert

Oder gleich in R: summary()

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 17 / 104

Maÿe für die Streuung

Die Streuung (scale) gibt an, wie stark die verschiedenen Wertevoneinander abweichen.

Die (empirische) Varianz

s2 =1

n − 1

n∑i=1

(xi − x)2 =1

n − 1

((x1 − x)2 + . . .+ (xn − x)2

).

Spannbreite:Di�erenz vom gröÿten zum kleinsten Wert

Interquartilsabstand:

IQR = x0.75 − x0.25

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 18 / 104

Beispiel: oecd -Daten

Betrachten wir das durchnittliche, frei verfügbare Einkommen einer Familie[ pro Kind, in tausend US-Dollar ].

Einen Überblick erhält man durch:

summary(Einkommen)

Min. 1st Qu. Median Mean 3rd Qu. Max.

5.10 16.60 21.10 19.18 22.65 34.20

Die Varianz bzw. Standardabweichung

var(Einkommen)

[1] 50.75937

sd(Einkommen) (alternativ sqrt(var(Einkommen)) )[1] 7.124561

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 19 / 104

Beispiel: oecd -Daten II

Den Interquartilsabstand erhält man durch:

IQR(Einkommen)

[1] 6.05

Die Spannweite mit

max(Einkommen)-min(Einkommen)

[1] 29.1

Bei der Variable Alkohol (Prozentsatz der 13-15 jährigen Kinder, diemindestens zweimal betrunken waren) bestehen fehlende Werte.

Mittelwertsberechnung über

mean(Alkohol,na.rm=TRUE)

[1] 15.225

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 20 / 104

Was ist ein Boxplot?

Der Boxplot ist eine Graphik zur Darstellung stetiger Variablen.Er enthält:

Minimum und Maximum

25%-Quantil und 75%-Quantil

Median

In R: boxplot(variable)

Um Variablen getrennt nach Faktorstufen zu untersuchen, bietet sichan: boxplot(variable ∼ factor)

Einschub: Ein Label für den Faktor Geofactor(Geo,levels=c(�R�,�E�),

labels=c(�Nicht-Europa�,�Europa�))

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 21 / 104

Boxplot: Alkohol

10

15

20

25

Boxplot

Nicht−Europa Europa1

01

52

02

5

Boxplot für Europa und Nicht−Europa

Zu erzeugen mit:boxplot(Alkohol) boxplot(Alkohol∼ Geo)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 22 / 104

Stripchart: Alkohol

Eine Alternative zum Boxplot bei wenigen Beobachtungen ist derStripchart:

10 15 20 25Nic

ht−E

urop

aE

urop

a

Alkohol

Zu erzeugen mit:stripchart(Alkohol∼Geo)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 23 / 104

Was ist ein Histogramm?

Zur Erstellung eines Histogramms teilt man die Daten in homogeneTeilintervalle ein und plottet dann die absolute Häu�gkeit proTeilintervall

Dieses Verfahren gibt einen ersten Überblick über die Verteilung derDaten( => Ermitteln der �empirischen Dichte� möglich )

hist(x, breaks = �AnzahlBins�, freq = NULL )

x: Daten

breaks = �AnzahlBins�: Steuerung der Teilintervalle

freq=TRUE: absolute Häu�gkeiten

freq=FALSE: relative Häu�gkeiten (�empirische Dichte�)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 24 / 104

Histogramm: Einkommen

Histogramme des Einkommens mit verschiedenen Binstärken

Histogram of Einkommen

Einkommen

Fre

qu

en

cy

5 10 15 20 25 30 35

02

46

81

01

2

Histogram of Einkommen

Einkommen

Fre

qu

en

cy

5 10 15 20 25 30 35

01

23

45

6

Zu erzeugen mit:hist(Einkommen) hist(Einkommen, breaks=15)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 25 / 104

Aufgabenkomplex 1

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 26 / 104

IV. Graphiken in R: Grundaufbau und Parameter

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 27 / 104

Graphiken in R

R kennt einen Standardbefehl für einfache Graphiken (plot()), aber auchviele spezielle Befehle, wie hist() oder pie().

plot(x, y, type, main, par (...) )

x: Daten der x-Achse

y: Daten der y -Achse

type=�l�: Darstellung durch eine Linie

type=�p�: Darstellung durch Punkte

main: Überschrift der Graphik

par (...): Zusätzlich können sehr viele Parametereinstellungengeändert werden

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 28 / 104

Parameter für Graphiken in R

par(cex, col, lty, mfrow, pch, x/yaxs)

cex: Skalierung von Graphikelementen

col: Farbe (colors() zeigt die vorde�nierten Farben an)

lty: Linienart

mfrow: Anordnen von mehreren Graphiken nebeneinander

pch: Andere Punkte oder Symbole

x/yaxs: Stil der x- bzw. y -Achse

Einen Überblick über die Parameter erhält man mit ?par.par() kann entweder im plot() -Befehl gesetzt werden oder als eigeneFunktion vor einem oder mehreren plot()-Befehlen.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 29 / 104

Aufbau von Graphiken in R

1 plot(): Bildet den Grundstein einer Graphik2 Zusätzlich können weitere Elemente eingefügt werden wie:

lines(): Linienpoints(): Punktelegend(): Legendetext(): Text

3 dev.off(): schlieÿt die Graphik

Einen Überblick erhält man mit der betre�enden Hilfefunktion,z.B. ?legend.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 30 / 104

Abspeichern von Graphiken

Folgende Graphikformate können in R erzeugt werden:

pdf()

ps()

jpg()

Beispiel:pdf(file=�boxplot.pdf�, width=13, height=6)

par(mfrow=c(1,2))

boxplot(Alkohol, main=�Boxplot�)

boxplot(Alkohol∼Geo, main=�Boxplot für ...�)

par(mfrow=c(1,1))

dev.off()

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 31 / 104

−3 −2 −1 0 1 2 3

−1.

0−

0.5

0.0

0.5

1.0

Cos und Sin

x

y

cosinussinus

pdf(file=�RGraphiken/beispiel.pdf�, width=12, height=6)

plot(x,y, type=�l�, col=�darkviolet�, main=�Cos und Sin�)

lines(x,z, col=�magenta�)

points(x,null, pch=3)

legend(�topleft�, c(�cosinus�,�sinus�), col=c(�darkviolet�,

�magenta�), lty=1)

dev.off()

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 32 / 104

V. Dichten und Verteilungsfunktionen in R

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 33 / 104

Einschub: Zufallsvariablen

Eine Variable oder Merkmal X , dessen Werte die Ergebnisseeines Zufallsvorganges sind, heiÿt Zufallsvariable.

Notation:

X : Die Zufallsvariable

x : Eine Realisierung oder Beobachtung der Zufallsvariable

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 34 / 104

Induktive (Schlieÿende) Statistik:

Mittels einer Stichprobe wird versucht Aussagen bezüglich einerGrundgesamtheit zu tre�en.

Grundgesamtheit: Menge aller für die Fragestellung relevanten Objekte

Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit

Die Aussagen beziehen sich auf Merkmale der Grundgesamtheit.

Merkmal: Die interessierende Gröÿe oder Variable

Merkmalsausprägung: Der konkret gemessene Wert an einem Objektder Stichprobe

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 35 / 104

Das Model: Theoretische Ebene

Statistische Analysen beruhen auf Modellannahmen.Ziel: Formalisierung eines reellen Sachverhaltes

Stetige Variablen mit Erwartungswert und VarianzDiskrete Variablen mit Gruppenzugehörigkeiten

Parametrischer Ansatz: Verteilungsannahmen,wie eine Zufallsvariable X ist normalverteilt mit Erwartungswert µ undVarianz σ2

Non-Parametrischer Ansatz: Ohne Verteilungsannahmen

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 36 / 104

Die beobachteten Daten: Die empirische Ebene

Erwartungswert und Varianz einer Grundgesamtheit können nicht inder Realität beobachtet werden, sondern müssen aus der Stichprobegeschätzt werden.

Beobachtet werden n Realisierungen x1, ..., xn einer ZufallsstichprobeX .Notation:

Erwartungswert µSchätzer für den Erwartungswert µ̂ = 1

n

∑ni=1

xi

Gesetz der groÿen Zahlen: �Je mehr Realisierungen einer Zufallszahlbeobachtet werden, desto besser approximiert der Mittelwert denErwartungswert�

Realisierungen einer Zufallsvariable folgen nicht exakt einerbestimmten Verteilung. Nur bei groÿer Stichprobenzahl nährt sich dieempirische Dichte der theoretischen an.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 37 / 104

Normalverteilung N(µ, σ)

Die Normal- oder Gauÿ-Verteilung ist formalisiert durch Erwartungswert µund Varianz σ2:

f (x |µ, σ) = 1

σ ·√2π

exp

(−12

(x − µσ

)2)

Diese Funktion ist in R implementiert:dnorm(x, mean=0, sd=1)

(Vorsicht: mean steht hier für den Erwartungswert)

Erzeugen von n Realisierungen x1, ..., xn:rnorm(n, mean=0, sd=1)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 38 / 104

Beispiel: Normalverteilung

Darstellung: Gesetz der groÿen Zahlenx10<-matrix(rnorm(100),nrow=10,ncol=10)

x1000<-matrix(rnorm(10000),nrow=10,ncol=1000)

apply(x10,MARGIN=1, mean)

-0.392 -0.309 0.195 -0.727 -0.150 0.327 0.142 0.020 0.069 0.594apply(x1000,MARGIN=1, mean)

-0.018 -0.011 0.007 -0.011 -0.021 -0.013 0.036 0.026 0.074 0.010

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 39 / 104

Beispiel: Normalverteilung

Anpassung der empirischen an die theoretische Verteilung:

Histogram of data10

data10

De

nsi

ty

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Histogram of data1000

data1000

De

nsi

ty−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 40 / 104

V.I Diskrete Daten

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 41 / 104

Eine Zufallsvariable heiÿt diskret, wenn sie endlich vieleWerte x1, ..., xk annehmen kann.

Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X istfür x ∈ R de�niert durch die Wahrscheinlichkeiten pi :

f (x) =

{P(X = xi ) = pi falls x = xi ∈ {x1, ..., xk}0 sonst

Die Verteilungsfunktion F (x) einer diskreten Zufallsvariable ist gegebendurch die Summe:

F (y) = P(X ≤ y) =∑i :xi≤y

f (xi )

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 42 / 104

Eigenschaften

Für die Wahrscheinlichkeitsfunktion f (x) gilt:

0 ≤ f (x) ≤ 1∑i≥1

pi = 1

Für die Verteilungsfunktion F (x) gilt:

F (x) =

{1 x ≥ max(x)0 x ≤ min(x)

F(x) ist monoton steigend mit Wertebereich 0 bis 1.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 43 / 104

Bernoulli-Experiment

Binäre Zufallsvariable X : Tritt ein Ereignis A ein?

X =

{1 falls A eintritt0 falls A nicht eintritt

Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0 < π < 1 ein

P(X = 1) = πP(X = 0) = 1− π

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 44 / 104

Binomialverteilung

Die Binomialverteilung entspricht dem n-maligen Durchführen einesBernoulli-Experimentes mit Wahrscheinlichkeit π

f (x) =

(n

x

)πx(1− π)n−x falls x = 0, 1, ..., n

0 sonst

Beispiel

Ein Schütze schieÿt n = 10 mal auf eine Torwand.Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal tri�t,

wenn er eine Tre�erwahrscheinlichkeit π von 25 % hat?

P(X = 5) =

(105

)0.255(1− 0.25)10−5 = 0.058

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 45 / 104

Diskrete Gleichverteilung

Die diskrete Gleichverteilung charakterisiert die Situation, dassx1, . . . , xk -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommenwerden.

f (x) =

{1k falls xi mit i = 1, ..., k0 sonst

Beispiel

Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit 16

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 46 / 104

V.II Stetige Daten

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 47 / 104

Eine Zufallsvariable heiÿt stetig, wenn sie unendlich vieleWerte x1, ..., xk , ... annehmen kann, wie beispielsweise

metrische Variablen.

Die Dichte f (x) einer stetigen Zufallsvariable X ist für ein Intervall [a, b]de�niert als:

P(a ≤ X ≤ b) =

∫ b

af (x)∂x

Die Verteilungsfunktion F (y) einer stetigen Zufallsvariable ist gegebendurch das Integral:

F (y) = P(X ≤ y) =

∫ y

−∞f (x)∂x

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 48 / 104

Eigenschaften

Für die Dichte f (x) gilt: ∫ +∞

−∞f (x)∂x = 1

P(X = a) =

∫ a

af (x)∂x = 0

Für die Verteilungsfunktion F (x) gilt:

F (x) =

{1 für x ≥ max(x)0 für x ≤ min(x)

F ′(x) =∂F (X )

∂x= f (x)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 49 / 104

Normalverteilung N(µ, σ)

Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ-Verteilung mitErwartungswert µ und Varianz σ2:

f (x |µ, σ) = 1

σ ·√2π

exp

(−12

(x − µσ

)2)

Symmetrisch um µ

Nur abhängig von µ und σ

Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler,Gröÿe und Gewicht

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 50 / 104

Stetige Gleichverteilung U(a, b)

Gegeben: ein Intervall, de�niert durch reelle Zahlen a und b mit a < b:

f (x) =

{ 1b−a für x ∈ [a, b]

0 sonst

Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests.

Hat man x1, . . . , xn Realisierungen einer Variablen X mitVerteilungsfunktion F , so gilt:

F (x1), . . . ,F (xn) ∼ U(0, 1)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 51 / 104

Aufgabenkomplex 2

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 52 / 104

V.III Umgang mit Zufallszahlen

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 53 / 104

R ermöglicht den Umgang mit Zufallszahlen.Beispiel: (Standard)Normalverteilung

1 Ziehen von n Zufallszahlen: rnorm(n, mean=0, sd=1)

2 Dichte im Wert x : dnorm(x, mean=0, sd=1)

Beispiel: dnorm(c(-1,0,1))0.24197 0.39894 0.24197

3 Verteilungsfunktion im Wert x :pnorm(x, mean=0, sd=1)

Beispiel: pnorm(c(-1,0,1))0.15866 0.50000 0.84134

4 Quantil für Wahrscheinlichkeit p:qnorm(p, mean=0, sd=1)

Beispiel: qnorm(c(0.25,0.5,0.75))-0.67449 0.00000 0.67449

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 54 / 104

Beispiel: (Standard)Normalverteilung1 Dichte im Wert x :

dnorm(c(-1,0,1))

0.24197 0.39894 0.24197

2 Verteilungsfunktion im Wert x :pnorm(c(-1,0,1))

0.15866 0.50000 0.84134

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Dichte

x

fx

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Verteilungsfunktion

x

Fx

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 55 / 104

R-Befehle für weitere Verteilungen

rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean undStandardabweichung sd

rexp(n, rate=1) Exponentialverteilung mit Rate rate

rpois(n, lambda) Poissonverteilung mit Rate lambda

rcauchy(n, location=0, scale=1) Cauchyverteilung mitLokations- und Skalenparameter

rt(n, df)(Studen)t-verteilung mit Freiheitsgraden df

rbinom(n, size, prob) Binomialverteilung vom Umfang size undWahrscheinlichkeit prob

rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeitprob

rhyper(nn, m, n, k) Hypergeometrische Verteilung

runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min,max]

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 56 / 104

Darstellung: Histogrammeund Kerndichteschätzer

1 Histogramme: Darstellung von stetigen und diskreten Verteilungen

hist(x, breaks = �AnzahlBins�, freq = NULL )

x: Datenbreaks = �AnzahlBins�: Steuerung der Teilintervallefreq=TRUE: absolute Häu�gkeitenfreq=FALSE: relative Häu�gkeiten (�empirische Dichte�)

2 Kerndichteschätzer: Darstellung von stetigen Verteilungen

plot(density(x, kernel=�gaussian�, bw))

density(x): Kerndichteschätzung der Datenkernel: Option für spezielle Kerntypenbw: Bandbreite

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 57 / 104

Darstellung: Kerndichteschätzer

Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zurSchätzung von stetigen Dichten

Hat man gegebene Daten x1, . . . , xn und eine konstante Bandbreiteh ∈ R so ist der Kerndichteschätzer gegeben durch:

f̂ (x) =1n

n∑i=1

1hK

(x − xi

h

)Typische Kerne sind:

Bisquare Kern: K (u) = 1516(1− u2)2 für u ∈ [−1, 1] und 0 sonst

Gauÿ Kern: K (u) = 1√2π

exp

(−1

2u2

)für u ∈ R

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 58 / 104

Beispiel: Simulation aus der Normalverteilung

data10<-rnorm(10) data1000<-rnorm(1000)

hist(data10, freq=FALSE) hist(data1000, freq=FALSE)

lines(density(data10), col=2) lines(density(data1000), col=2)

Histogram of data10

data10

De

nsi

ty

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Histogram of data1000

data1000

De

nsi

ty

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 59 / 104

Beispiel: Wie plottet man die Normalverteilung?

x<-seq(from=-4, to=4, by=0.1)

] Dichte ] Verteilungsfunktionfx<-dnorm(x) Fx<-pnorm(x)plot(x,fx, type=�l�) plot(x,Fx, type=�l�)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Dichte

x

fx

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Verteilungsfunktion

x

Fx

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 60 / 104

Darstellung: Q-Q-Plot

Quantil-Quantil-Plots tragen die Quantile (empirisch oder theoretisch)zweier Verteilungen gegeneinander ab. Somit können Verteilungenmiteinander verglichen werden.

qqplot(x,y): Plottet die emp. Quantile von x gegen die emp.Quantile von y

qqnorm(y): Plottet die emp. Quantile von y gegen die theoretischenQuantile einer Standard-Normalverteilung

qqline(y): Fügt dem Quantilplot eine Gerade hinzu die durch daserste und dritte Quartil geht

Bsp: Vergleich von Normal- und t-Verteilung

data <- rt(400, df = 2)

qqnorm(data, main = �QQ-Plot�, xlab= �Normalverteilung�, ylab =

�t-Verteilung�)

qqline(data, col = �green�)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 61 / 104

Darstellung: Q-Q-Plot

●●

●●

●●

●●

●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●

●●

●●●

●●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●

●●● ●

●●

●●

●●

● ●

●●

●●

● ●

●●

●●

●●

●●●

●●●

●●●

●●

● ●●●

●●

●●

●●

●● ●●

●●

●●

●●

●●

●●

●●

●●●

●●

●●

●●

●●

●●

●●

●●●●

●●

●● ●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

●● ●

●●

●●

●●

●●

● ●

●●

● ●●

●●

●●

●●

●●

●●

●●

−3 −2 −1 0 1 2 3

−15

−10

−5

05

10

QQ−Plot

Normalverteilung

t−V

erte

ilung

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 62 / 104

VI. Statistische Tests

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 63 / 104

VI.I Einführungsbeispiel

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 64 / 104

VI.I Einführungsbeispiel

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 65 / 104

Fragestellung

Einführungsbeispiel: Trinkt die Jugend in Europa mehr Alkohol alsim Rest der Welt?

Untersucht wird die Variable Alkohol im oecd-Datensatz: Der Anteil an13-15 jährigen Jugendlichen, die mindestens zweimal betrunken waren.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 66 / 104

Erster Schritt: Deskriptive Analyse

1 Graphisch mit Boxplot: boxplot(Alkohol Geo)

Nicht−Europa Europa

10

15

20

25

Boxplot für Europa und Nicht−Europa

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 67 / 104

Zweiter Schritt: Kennzahlen

2 Kennzahlen:

Mittelwert:mu<-tapply(Alkohol, Geo, FUN=mean, na.rm=TRUE)

Nicht-Europa Europa

13.700 15.443Standardabweichung:sigma<-tapply(Alkohol, Geo, FUN=sd, na.rm=TRUE)

Nicht-Europa Europa

4.518 4.341

Es ist zu erkennen, dass in Europa im Mittel ein höherer Anteil anJugendlichen schon mindestens zweimal betrunken war als innicht-europäischen Staaten.

Doch dies könnte auch ein Zufall sein! Denn dieBeobachtungen beruhen auf Stichproben, sie sind

Realisierungen einer Zufallsvariable.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 68 / 104

Eigentliches Ziel:Überprüfung von Annahmen über das Verhalten des interessierendenMerkmales in der Grundgesamtheit mittels Stichproben.

Annahme: Jugendliche in Europa trinken mehr Alkohol als im Restder Welt

Merkmal: Alkoholkonsum der Jugend

Grundgesamtheit: Jugendliche in Europa und im Rest der Welt

Stichprobe: Die oecd-Daten

Für solche Fragestellungen mit gleichzeitiger Kontrolle derFehlerwahrscheinlichkeit sind statistische Tests geeignet!

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 69 / 104

Statistisches Testen I

1 Aufstellen von zwei komplementären Hypothesen:

Testhypothese (H0): Der Anteil in Europa ist kleiner dem im Rest derWelt µE ≤ µNE

Alternativhypothese (H1): Der Anteil in Europa gröÿer als der imRest der Welt µE > µNE

2 Fehlerwahrscheinlichkeit festlegen:H0 soll mit einer W'keit von weniger als 5% abgelehnt werden, wennH0 wahr ist.

Also: Wenn der Anteil in Wahrheit kleiner oder gleich ist,soll der Test nur mit einer Wahrscheilichkeit von weniger als5% zu dem (falschen) Ergebnis kommen, dass der Anteil

gröÿer ist.

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 70 / 104

Statistisches Testen II

3 Beobachtete Daten: 2 Gruppenµ̂ σ̂ n

Nicht-Europa 13.700 4.518 3Europa 15.443 4.341 21

4 (Weitere Annahmen, hier: Normalverteilung, Varianzgleichheit)5 Berechnen der Prüfgröÿe T , einer Kennzahl, die zeigt, wie starkdie Gruppenmittel voneinander abweichen:

Mittelwertsdi�erenz der beiden GruppenStandardisieren mit der entsprechenden Standardabweichung

T = (µ̂E − ˆµNE )/

√(1nE

+1

nNE)(nE − 1)σ̂2E + (nNE − 1)σ̂2NE

nE + nNE − 2

(Hypothetische Verteilung der Prüfgröÿe festlegen, hier t-Verteilungmit 3 + 21 - 2 = 22 Freiheitsgraden)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 71 / 104

Statistisches Testen III

6 Berechnung der Prüfgröÿe T in R:

Mittelwertsdi�erenz der beiden Gruppenm.diff<-mu[2]-mu[1]

Standardisieren mit der entsprechenden Standardabweichungdiff.std2 <- sqrt((1/21+1/3)*

(20*sigma[2]̂2+2*sigma[1]̂2)/(21+3-2))

Prüfgröÿe:1-pt(pg.T, df=22)

0.648

7 Wie wahrscheinlich ist es (unter der Nullhypothese), einePrüfgröÿe T zu beobachten, die gröÿer oder gleich 0.648 ist?1-pt(pg.T, df=22)

0.262

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 72 / 104

Statistisches Testen IV

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

y

pg.T0.2620.738

Mit hoher Wahrscheinlichkeit (26.2%) kann eine solche Prüfgröÿe pg .Tbeobachtet werden, wenn der Mittelwert in Europa und kleiner als der inNicht-Europa ist.Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 73 / 104

Statistisches Testen V

8 Entscheidung: Aus diesen Daten kann nicht geschlossen werden, dassin Europa Jugendliche mehr Alkohol trinken als im Rest der Welt.

9 Grund: Zu geringe Fallzahl!Mit nE = nNE = 101 ergibt sich

Standardisieren mit der entsprechenden Standardabweichungdiff.std <- sqrt((1/101+1/101)*

(100*sigma[2]�2+100*sigma[1]�2)/(101+101-2))

Prüfgröÿe:pg.T2 <-m.di�/di�.std22.796Vergleich mit der t-Verteilung:1-pt(pg.T2, df=200)0.003

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 74 / 104

Statistisches Testen VI

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

y

pg.T20.0030.997

Mit nur sehr geringer Wahrscheinlichkeit (0.003%) kann eine solchePrüfgröÿe pg .T2 beobachtet werden, wenn wenn der Mittelwert in Europaund kleiner als der in Nicht-Europa ist.Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 75 / 104

Fünf Schritte zum Testergebnis

I. Hypothesen aufstellenII. Betrachtung der DatenIII. Aufstellen der PrüfgröÿeIV. Durchführen des TestsV. Testentscheidung

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 76 / 104

I. Hypothesen aufstellen

Was soll verglichen werden?

Mittelwerte von unabhängigen GruppenMittelwert gegen einen festen WertGepaarte Messungen

Einseitige oder zweiseitige Fragestellung?

Einseitige Fragestellung:H0 : µ1 ≤ µ2gegen H1 : µ1 > µ2Zweiseitige Fragestellung:H0 : µ1 = µ2gegen H1 : µ1 6= µ2

Aufstellen der eigentlich interessierenden AlternativhypotheseH1 und der Nullhypothese H0

Signi�kanzniveau α festlegen

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 77 / 104

Fehler bei statistischen Tests

Entscheidung H0 Entscheidung H1

H0 wahr richtig Fehler erster Art αH1 wahr Fehler zweiter Art (β) richtig

Fehler erster Art (α-Fehler):Obwohl H0 wahr ist, entscheidet man sich für H1

(Falsch positives Testergebnis)

Fehler zweiter Art (β-Fehler):Obwohl H1 wahr ist, entscheidet man sich für H0

(Falsch negatives Testergebnis)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 78 / 104

II. Betrachtung der Daten

Können Verteilungsannahmen getro�en werden?Ja: Parametrische TestsNein: Nicht-Parametrische Tests

Weitere Annahmen wie z.B. Varianzgleichheit in den Gruppen

Aus Schritt I. und II. folgt die Auswahl eines geeigneten Tests und alleweiteren Schritte!

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 79 / 104

III. Aufstellen der Prüfgröÿe

Aus den Hypothesen ergibt sich die Form der Prüfgröÿe, z.B. dieMittelwertsdi�erenzStandardisieren der Prüfgröÿe mit:

unter H0 gültigen Erwartungswertunter H0 gültigen Standardabweichung

Festlegen der Verteilung, die unter H0 gültig ist

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 80 / 104

IV./V. Durchführen des Tests und Testentscheidung

Hier sind zwei Werte entscheidend:

Kritischer Wert κ: Welchen Wert darf die Prüfgröÿe bei gegebenemSigni�kanzniveau α maximal/minimal annehmen, wenn H0 tatsächlichgültig ist

p-Wert: Wahrscheinlichkeit, die vorliegenden Daten zu beobachten,wenn H0 gültig ist

Entscheidung H0 ablehnen, falls:

die Prüfgröÿe gröÿer als der kritische Wert ist (bzw. kleiner als derkritische Wert bei einigen nonparametrischen Tests)

falls der p-Wert kleiner dem vorher festgelegten Signi�kanzniveau α ist

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 81 / 104

t-Test - gegen festen Wert (Einstichproben-t-Test)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 82 / 104

1. Ziel, Hypothesen und Voraussetzungen

Vergleich das emp. Populationsmittel x einer Population mit einemhypothetischen Mittelwert µ0Voraussetzung: Normalverteilung der Stichprobe

Varianz wird als unbekannt angenommen und aus den Daten geschätzt

Varianten für die Hypothesen:

1 Einseitige Fragestellung 1:H0 : x ≤ µ0 gegen H1 : x > µ0

2 Einseitige Fragestellung 2:H0 : x ≥ µ0 gegen H1 : x < µ0

3 Zweiseitige Fragestellung:H0 : x = µ0 gegen H1 : x 6= µ0

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 83 / 104

2. Teststatistik

Teststatistik

T =x − µ0

s·√n

Schätzung der Standardabweichung σ durch:

s =

[∑ni=1(x − xi )

2

n − 1

]0.5

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 84 / 104

3. Kritische Bereiche

1 Einseitige Fragestellung 1:T > t1−α(df = n − 1)

2 Einseitige Fragestellung 2:T < tα(df = n − 1)

3 Zweiseitige Fragestellung:|T | > t1−α/2(df = n − 1)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 85 / 104

t-Test für unabhängige Stichproben (Zweistichproben-t-Test)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 86 / 104

1. Ziel, Hypothesen und Voraussetzungen

Vergleich das emp. Populationsmittel x1 und x2 miteinander

Voraussetzung: Normalverteilung der Stichproben

Varianz der Populationen unbekannt

2 Varianten: Varianzen der Populationen gleich oder ungleich

Varianten für die Hypothesen:

1 Einseitige Fragestellung 1:H0 : x1 ≤ x2 gegen H1 : x1 > x2

2 Einseitige Fragestellung 2:H0 : x1 ≥ x2 gegen H1 : x1 < x2

3 Zweiseitige Fragestellung:H0 : x1 = x2 gegen H1 : x1 6= x2

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 87 / 104

2. Teststatistik

Teststatistik

T =x1 − x2

s·√n

Schätzung der Standardabweichung σ durch:

s =

[(1n1

+1n2

)· (n1 − 1)s1 + (n2 − 1)s2

n1 + n2 − 1

]0.5wobei s1 und s2 die Standardvarianzschätzer für die Populationen sind

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 88 / 104

3. Kritische Bereiche

1 Einseitige Fragestellung 1:T > t1−α(n1 + n2 − 2)

2 Einseitige Fragestellung 2:T < tα(n1 + n2 − 2)

3 Zweiseitige Fragestellung:|T | > t1−α/2(n1 + n2 − 2)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 89 / 104

t-Test für Paardi�erenzen

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 90 / 104

1. Ziel, Hypothesen und Voraussetzungen

Teste die Di�erenz d =∑n

i=1 di =∑n

i=1 x1i − x2i miteinandergepaarter Stichproben (x1i , x2i )

Typisches Bsp.: Messen eines Blutwertes vor und nach einer med.Behandlung

Voraussetzung: Normalverteilung der Stichproben

Varianten für die Hypothesen:

1 Einseitige Fragestellung 1:H0 : d ≤ 0 gegen H1 : d > 0

2 Einseitige Fragestellung 2:H0 : d ≥ 0 gegen H1 : d < 0

3 Zweiseitige Fragestellung:H0 : d = 0 gegen H1 : d 6= 0

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 91 / 104

2. Teststatistik

Teststatistik

T =d

s·√n

Schätzung der Standardabweichung σ durch:

s =

[∑ni=1(d − di )

2

n − 1

]0.5

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 92 / 104

3. Kritische Bereiche

1 Einseitige Fragestellung 1:T > t1−α(df = n − 1)

2 Einseitige Fragestellung 2:T < tα(df = n − 1)

3 Zweiseitige Fragestellung:|T | > t1−α/2(df = n − 1)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 93 / 104

Der Wilcoxon-Rangsummen-Test

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 94 / 104

1. Ziel, Hypothesen und Voraussetzungen

Teste nicht-parametrisch, ob zwei Population den gleichen Medianbesitzen

Zu verwenden, wenn Vor. für den t-Test nicht erfüllt sind

Voraussetzung: Normalverteilung der Stichproben

Benötigt KEINE konkrete Verteilungsannahme

Alternative für den t-Test

Varianten für die Hypothesen:

1 Einseitige Fragestellung 1:H0 : x1,med ≤ x2,med gegen H1 : x1,med > x2,med

2 Einseitige Fragestellung 2:H0 : x1,med ≥ x2,med gegen H1 : x1,med < x2,med

3 Zweiseitige Fragestellung:H0 : x1,med = x2,med gegen H1 : x1,med 6= x2,med

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 95 / 104

2. Teststatistik

Bilde für sämtlichen Beobachtungen x11, . . . x1n1 , x21, . . . x2n2 Rängerg(x11), . . . rg(x1n1), rg(x21), . . . rg(x2n2)

Teststatistik:

R =

n1∑i=1

rg(x1i )

Wertebereich: n1(n1+1)2 < R < (n1+n2)(n1+n2+1)

2 − n1(n1+)2

Nullverteilung von R liegt tabelliert vor

Approximation durch die Normalverteilung ab einer Stichprobengröÿevon ca. 20 möglich

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 96 / 104

3. Kritische Bereiche

1 Einseitige Fragestellung 1:R > w1−α(n1, n2)

2 Einseitige Fragestellung 2:R < wα(n1, n2)

3 Zweiseitige Fragestellung:R > w1−α/2(n1, n2) oder R < wα/2(n1, n2)

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 97 / 104

t-Test und Wilcoxon-Rangsummen - Test in R - PraktischeDurchführung

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 98 / 104

t-Test in R

t.test(x, y, alternative, paired, var.equal)

Erklärung der Parameter:

x,y = NULL: Die Daten, beim t-Test für eine Population genügt es, xanzugeben

alternative = c(�two.sided�, �less�, �greater�):

Varianten für die Alternativhypothese

var.equal = TRUE: Gibt an, ob Varianzgleichheit bei denPopulationen vorliegt

paired: Gibt an, ob x und y als gepaarte Stichprobe anzusehen sind

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 99 / 104

Wilcoxon-Rangsummen - Test in R

wilcox.test(x, y, alternative, paired, exact)

Erklärung der Parameter:

Im wesentlichen analog zum t-Test

exact: Soll die Teststatistik exakt bestimmt werden, oder perApproximation an die Normalverteilung?

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 100 / 104

Beispiel:

Nettokaltmieten pro m2 für 1- (X) und 2-Raum (Y) Wohnungen

Gibt es einen Unterschied zwischen beiden Gruppen?

Wir untersuchen diese Frage per Wilcoxon- und t-Test

1 2 3 4 5X 8.70 11.28 13.24 8.37 12.16Y 3.36 18.35 5.19 8.35 13.10

6 7 8 9 10X 11.04 10.47 11.16 4.28 19.54Y 15.65 4.29 11.36 9.09

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 101 / 104

t-Test

miete <- read.csv(�Miete.csv�)attach(miete)t.test(X,Y, var.equal = FALSE, paired = FALSE)

R-Ausgabe:Welch Two Sample t-testdata: X and Y

t = 0.5471, df = 14.788, p-value = 0.5925

alternative hypothesis: true difference in means is not

equal to 0

p > 0.05, kein signi�kanter Unterschied

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 102 / 104

Wilcoxon-Rangsummen-Test

wilcox.test(X,Y, exact = TRUE)

R-Ausgabe:Wilcoxon rank sum test

data: X and Y

W = 51, p-value = 0.6607

alternative hypothesis: true location shift is not

equal to 0

p > 0.05, kein signi�kanter Unterschied

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 103 / 104

Aufgabenkomplex 3

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 104 / 104