Eine Einführung in R: Deskriptive Statistiken und Graphiken · Eine Einführung in R: Deskriptive Statistiken und Graphiken Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten

Eine Einführung in R:

Deskriptive Statistiken und Graphiken

Katja Nowick, Markus Kreuz(basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus)

Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE),Universität Leipzig

http://www.nowick-lab.info/?page_id=365

06. Januar 2015

Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 1 / 104

I. Ergänzungen zu Übung 1


Scope [Gültigkeitsbereich]von Variablen bei Funktionen

Es können drei Arten von Variablen in einer Funktion auftauchen:

Formale Parameter:Werden beim Aufruf der Funktion angegeben

Lokale Variablen:Werden beim Abarbeiten einer Funktion erzeugt

Freie Variablen:Alle anderen

Frage: Wo sucht R nach freien Variablen?Antwort: In der Umgebung der Variable


z <- 3f <- function(x) {y <- 2*xprint(z)}

Ausgabe bei Aufruf der Funktion:

f(1) f(60)

3 3

x: Formaler Parameter

y: Lokale Variable

z: Freie Variable, die in diesem Bsp. von R auÿerhalb der Funktiongesucht wird


z <- 3f <- function(x) {y <- 2*xz <- 5print(z)}

Ausgabe bei Aufruf der Funktion:

f(1) f(60)

5 5

z ist keine freie Variable mehr, da sie nun innerhalb der Funktionde�niert ist (lokale Variable) und die freie Variable z auÿerhalb derFunktion verdeckt

Zugri� auf verdeckte Variablen per <<- Befehl


Ermittlung der Rechenzeit

system.time(expr)

expr: R-Befehl, dessen Rechenzeit ausgewertet werden soll

Beispiel: colMeans gegen apply

try<-matrix(1:4000000, nrow=4)

system.time(colMeans(try))

user system elapsed

0.02 0.00 0.01

system.time(apply(try, MARGIN=2, FUN=mean, na.rm=TRUE))

user system elapsed

32.16 0.00 32.20

Alternativ:

ptm <- proc.time()

exrps

proc.time()-ptmKatja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 6 / 104

Pakete und Hilfe

Download unter http://cran.r-project.org

R besteht aus einem Grundprogramm mit vielen Zusätzen densogenannten packages oder Pakete

Hilfe per ?<Name> oder help.search(suchbegriff)

Übersicht über die Hilfe help.start( )

Pakete speziell für Bioinformatik / Biostatistik:http://bioconductor.org/


Was sind Pakete?

R bietet eine Vielzahl frei verfügbarer Pakete

Ein Paket enthält unterschiedlichste, spezielle Funktionen

Beim Start von R ist nur eine Grundausstattung geladen,alle anderen Pakete müssen zusätzlich geladen werden

Jeder kann sein eigenes Paket schreiben

Derzeit gibt es 6158 Pakete (Stand Oktober 2009: 2112 Pakete)

Es besteht aber KEINE GARANTIE für richtige Funktionsweise!


Was sind Pakete?

Überblick über die geladenen Pakete sessionInfo( )

package laden require(packagename) oder library(packagename)

package installieren install.packages(packagename)

Repositories auswählen setRepositories()

Wichtige Pakete:survival: Überlebenszeitanalysen (Kaplan-Meier, Log-Rank-TestsCox-Modelle)mvtnorm: Multivariate NormalverteilungR2HTML: R Ausgabe in HTML

Mögliche Pakete:sendmailR: send email from inside RtwitteR: R based Twitter clientsudoku: Sudoku Puzzle Generator and Solver


II. Diskrete Daten: Deskriptive Statistiken und Graphiken


Was sind diskrete Variablen?

Diskrete Variablen nehmen nur eine endliche Anzahl an Werten an:

Kategorial: Es besteht keine Rangordnung der Kategorien

Ordinal: Kategorien können geordnet werden

Kategoriale oder ordinale Variablen sollten in R als Faktoren de�niertsein.

Mit einer Häu�gkeitstabelle kann man ein kategoriales Objektzusammenfassen:

table(object): Absolute Häu�gkeiten

prop.table(table(object)): Relative Häu�gkeiten


Betrachten wir einen Faktor mit 4 Ausprägungen:DNA <- rep(c(�A�, �C�, �G�, �T�), 10)

1 �A�2 �C�3 �G�3 �T�...

...

table(DNA) ergibt:

A C G T

10 10 10 10

prop.table(table(DNA)) ergibt:

A C G T

0.25 0.25 0.25 0.25


Kuchendiagramm und Balkendiagramm

AC

G T

Kuchendiagramm

A C G T

Balkendiagramm

02

46

81

0

Zu erzeugen mit:pie(table(DNA)) barplot(table(DNA))


III. Stetige Daten: Deskriptive Statistiken und Graphiken


Was sind stetige Variablen?

Stetige Variablen können (in der Theorie) eine unendliche Anzahl anWerten annehmen. Beispiele:

Gewicht

Gröÿe

Gehalt

R speichert stetige Variablen alsmetrische Objekte (numeric) ab.

Häu�gkeitstabelle sind für stetige Variablen meist nicht geeignet. Wichtigersind:

Maÿe für die Lage

Maÿe für die Streuung


Maÿe für die Lage

Die Lage (location) gibt an, in welcher Gröÿenordnung sich Datenbewegen.

(Empirische) Mittelwert

x =1n

n∑i=1

xi =1n(x1 + . . .+ xn) .

In R: mean()


Maÿe für die Lage II

x%-Quantile, trennen die Daten in zwei Teile.So liegen x% der Daten unter dem x%-Quantileund 100− x% darüber.

Median x0.5 entspricht dem 50%-QuantilIn R: median()

25%-Quantil x0.25 (das erste Quartil)In R: quantile(x,0.25)

75%-Quantil x0.75 (das dritte Quartil)In R: quantile(x,0.75)

Der Median ist robuster gegen Ausreiÿer als der Erwartungswert

Oder gleich in R: summary()


Maÿe für die Streuung

Die Streuung (scale) gibt an, wie stark die verschiedenen Wertevoneinander abweichen.

Die (empirische) Varianz

s2 =1

n − 1

n∑i=1

(xi − x)2 =1

n − 1

((x1 − x)2 + . . .+ (xn − x)2

).

Spannbreite:Di�erenz vom gröÿten zum kleinsten Wert

Interquartilsabstand:

IQR = x0.75 − x0.25


Beispiel: oecd -Daten

Betrachten wir das durchnittliche, frei verfügbare Einkommen einer Familie[ pro Kind, in tausend US-Dollar ].

Einen Überblick erhält man durch:

summary(Einkommen)

Min. 1st Qu. Median Mean 3rd Qu. Max.

5.10 16.60 21.10 19.18 22.65 34.20

Die Varianz bzw. Standardabweichung

var(Einkommen)

[1] 50.75937

sd(Einkommen) (alternativ sqrt(var(Einkommen)) )[1] 7.124561


Beispiel: oecd -Daten II

Den Interquartilsabstand erhält man durch:

IQR(Einkommen)

[1] 6.05

Die Spannweite mit

max(Einkommen)-min(Einkommen)

[1] 29.1

Bei der Variable Alkohol (Prozentsatz der 13-15 jährigen Kinder, diemindestens zweimal betrunken waren) bestehen fehlende Werte.

Mittelwertsberechnung über

mean(Alkohol,na.rm=TRUE)

[1] 15.225


Was ist ein Boxplot?

Der Boxplot ist eine Graphik zur Darstellung stetiger Variablen.Er enthält:

Minimum und Maximum

25%-Quantil und 75%-Quantil

Median

In R: boxplot(variable)

Um Variablen getrennt nach Faktorstufen zu untersuchen, bietet sichan: boxplot(variable ∼ factor)

Einschub: Ein Label für den Faktor Geofactor(Geo,levels=c(�R�,�E�),

labels=c(�Nicht-Europa�,�Europa�))


Boxplot: Alkohol

10

15

20

25

Boxplot

Nicht−Europa Europa1

01

52

02

5

Boxplot für Europa und Nicht−Europa

Zu erzeugen mit:boxplot(Alkohol) boxplot(Alkohol∼ Geo)


Stripchart: Alkohol

Eine Alternative zum Boxplot bei wenigen Beobachtungen ist derStripchart:

10 15 20 25Nic

ht−E

urop

aE

urop

a

Alkohol

Zu erzeugen mit:stripchart(Alkohol∼Geo)


Was ist ein Histogramm?

Zur Erstellung eines Histogramms teilt man die Daten in homogeneTeilintervalle ein und plottet dann die absolute Häu�gkeit proTeilintervall

Dieses Verfahren gibt einen ersten Überblick über die Verteilung derDaten( => Ermitteln der �empirischen Dichte� möglich )

hist(x, breaks = �AnzahlBins�, freq = NULL )

x: Daten

breaks = �AnzahlBins�: Steuerung der Teilintervalle

freq=TRUE: absolute Häu�gkeiten

freq=FALSE: relative Häu�gkeiten (�empirische Dichte�)


Histogramm: Einkommen

Histogramme des Einkommens mit verschiedenen Binstärken

Histogram of Einkommen

Einkommen

Fre

qu

en

cy

5 10 15 20 25 30 35

02

46

81

01

2

Histogram of Einkommen

Einkommen

Fre

qu

en

cy

5 10 15 20 25 30 35

01

23

45

6

Zu erzeugen mit:hist(Einkommen) hist(Einkommen, breaks=15)


Aufgabenkomplex 1


IV. Graphiken in R: Grundaufbau und Parameter


Graphiken in R

R kennt einen Standardbefehl für einfache Graphiken (plot()), aber auchviele spezielle Befehle, wie hist() oder pie().

plot(x, y, type, main, par (...) )

x: Daten der x-Achse

y: Daten der y -Achse

type=�l�: Darstellung durch eine Linie

type=�p�: Darstellung durch Punkte

main: Überschrift der Graphik

par (...): Zusätzlich können sehr viele Parametereinstellungengeändert werden


Parameter für Graphiken in R

par(cex, col, lty, mfrow, pch, x/yaxs)

cex: Skalierung von Graphikelementen

col: Farbe (colors() zeigt die vorde�nierten Farben an)

lty: Linienart

mfrow: Anordnen von mehreren Graphiken nebeneinander

pch: Andere Punkte oder Symbole

x/yaxs: Stil der x- bzw. y -Achse

Einen Überblick über die Parameter erhält man mit ?par.par() kann entweder im plot() -Befehl gesetzt werden oder als eigeneFunktion vor einem oder mehreren plot()-Befehlen.


Aufbau von Graphiken in R

1 plot(): Bildet den Grundstein einer Graphik2 Zusätzlich können weitere Elemente eingefügt werden wie:

lines(): Linienpoints(): Punktelegend(): Legendetext(): Text

3 dev.off(): schlieÿt die Graphik

Einen Überblick erhält man mit der betre�enden Hilfefunktion,z.B. ?legend.


Abspeichern von Graphiken

Folgende Graphikformate können in R erzeugt werden:

pdf()

ps()

jpg()

Beispiel:pdf(file=�boxplot.pdf�, width=13, height=6)

par(mfrow=c(1,2))

boxplot(Alkohol, main=�Boxplot�)

boxplot(Alkohol∼Geo, main=�Boxplot für ...�)

par(mfrow=c(1,1))

dev.off()


−3 −2 −1 0 1 2 3

−1.

0−

0.5

0.0

0.5

1.0

Cos und Sin

x

y

cosinussinus

pdf(file=�RGraphiken/beispiel.pdf�, width=12, height=6)

plot(x,y, type=�l�, col=�darkviolet�, main=�Cos und Sin�)

lines(x,z, col=�magenta�)

points(x,null, pch=3)

legend(�topleft�, c(�cosinus�,�sinus�), col=c(�darkviolet�,

�magenta�), lty=1)

dev.off()


V. Dichten und Verteilungsfunktionen in R


Einschub: Zufallsvariablen

Eine Variable oder Merkmal X , dessen Werte die Ergebnisseeines Zufallsvorganges sind, heiÿt Zufallsvariable.

Notation:

X : Die Zufallsvariable

x : Eine Realisierung oder Beobachtung der Zufallsvariable


Induktive (Schlieÿende) Statistik:

Mittels einer Stichprobe wird versucht Aussagen bezüglich einerGrundgesamtheit zu tre�en.

Grundgesamtheit: Menge aller für die Fragestellung relevanten Objekte

Stichprobe: Tatsächlich untersuchte Teilmenge der Grundgesamtheit

Die Aussagen beziehen sich auf Merkmale der Grundgesamtheit.

Merkmal: Die interessierende Gröÿe oder Variable

Merkmalsausprägung: Der konkret gemessene Wert an einem Objektder Stichprobe


Das Model: Theoretische Ebene

Statistische Analysen beruhen auf Modellannahmen.Ziel: Formalisierung eines reellen Sachverhaltes

Stetige Variablen mit Erwartungswert und VarianzDiskrete Variablen mit Gruppenzugehörigkeiten

Parametrischer Ansatz: Verteilungsannahmen,wie eine Zufallsvariable X ist normalverteilt mit Erwartungswert µ undVarianz σ2

Non-Parametrischer Ansatz: Ohne Verteilungsannahmen


Die beobachteten Daten: Die empirische Ebene

Erwartungswert und Varianz einer Grundgesamtheit können nicht inder Realität beobachtet werden, sondern müssen aus der Stichprobegeschätzt werden.

Beobachtet werden n Realisierungen x1, ..., xn einer ZufallsstichprobeX .Notation:

Erwartungswert µSchätzer für den Erwartungswert µ̂ = 1

n

∑ni=1

xi

Gesetz der groÿen Zahlen: �Je mehr Realisierungen einer Zufallszahlbeobachtet werden, desto besser approximiert der Mittelwert denErwartungswert�

Realisierungen einer Zufallsvariable folgen nicht exakt einerbestimmten Verteilung. Nur bei groÿer Stichprobenzahl nährt sich dieempirische Dichte der theoretischen an.


Normalverteilung N(µ, σ)

Die Normal- oder Gauÿ-Verteilung ist formalisiert durch Erwartungswert µund Varianz σ2:

f (x |µ, σ) = 1

σ ·√2π

exp

(−12

(x − µσ

)2)

Diese Funktion ist in R implementiert:dnorm(x, mean=0, sd=1)

(Vorsicht: mean steht hier für den Erwartungswert)

Erzeugen von n Realisierungen x1, ..., xn:rnorm(n, mean=0, sd=1)


Beispiel: Normalverteilung

Darstellung: Gesetz der groÿen Zahlenx10<-matrix(rnorm(100),nrow=10,ncol=10)

x1000<-matrix(rnorm(10000),nrow=10,ncol=1000)

apply(x10,MARGIN=1, mean)

-0.392 -0.309 0.195 -0.727 -0.150 0.327 0.142 0.020 0.069 0.594apply(x1000,MARGIN=1, mean)

-0.018 -0.011 0.007 -0.011 -0.021 -0.013 0.036 0.026 0.074 0.010


Beispiel: Normalverteilung

Anpassung der empirischen an die theoretische Verteilung:

Histogram of data10

data10

De

nsi

ty

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Histogram of data1000

data1000

De

nsi

ty−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4


V.I Diskrete Daten


Eine Zufallsvariable heiÿt diskret, wenn sie endlich vieleWerte x1, ..., xk annehmen kann.

Die Wahrscheinlichkeitsfunktion f (x) einer diskreten Zufallsvariable X istfür x ∈ R de�niert durch die Wahrscheinlichkeiten pi :

f (x) =

{P(X = xi ) = pi falls x = xi ∈ {x1, ..., xk}0 sonst

Die Verteilungsfunktion F (x) einer diskreten Zufallsvariable ist gegebendurch die Summe:

F (y) = P(X ≤ y) =∑i :xi≤y

f (xi )


Eigenschaften

Für die Wahrscheinlichkeitsfunktion f (x) gilt:

0 ≤ f (x) ≤ 1∑i≥1

pi = 1

Für die Verteilungsfunktion F (x) gilt:

F (x) =

{1 x ≥ max(x)0 x ≤ min(x)

F(x) ist monoton steigend mit Wertebereich 0 bis 1.


Bernoulli-Experiment

Binäre Zufallsvariable X : Tritt ein Ereignis A ein?

X =

{1 falls A eintritt0 falls A nicht eintritt

Das Ereignis A tritt mit einer bestimmten Wahrscheinlichkeit 0 < π < 1 ein

P(X = 1) = πP(X = 0) = 1− π


Binomialverteilung

Die Binomialverteilung entspricht dem n-maligen Durchführen einesBernoulli-Experimentes mit Wahrscheinlichkeit π

f (x) =

(n

x

)πx(1− π)n−x falls x = 0, 1, ..., n

0 sonst

Beispiel

Ein Schütze schieÿt n = 10 mal auf eine Torwand.Wie groÿ ist die Wahrscheinlichkeit, dass er genau fünfmal tri�t,

wenn er eine Tre�erwahrscheinlichkeit π von 25 % hat?

P(X = 5) =

(105

)0.255(1− 0.25)10−5 = 0.058


Diskrete Gleichverteilung

Die diskrete Gleichverteilung charakterisiert die Situation, dassx1, . . . , xk -verschiedene Werte mit gleicher Wahrscheinlichkeit angenommenwerden.

f (x) =

{1k falls xi mit i = 1, ..., k0 sonst

Beispiel

Würfeln, jede Zahl hat die gleiche Wahrscheinlichkeit 16


V.II Stetige Daten


Eine Zufallsvariable heiÿt stetig, wenn sie unendlich vieleWerte x1, ..., xk , ... annehmen kann, wie beispielsweise

metrische Variablen.

Die Dichte f (x) einer stetigen Zufallsvariable X ist für ein Intervall [a, b]de�niert als:

P(a ≤ X ≤ b) =

∫ b

af (x)∂x

Die Verteilungsfunktion F (y) einer stetigen Zufallsvariable ist gegebendurch das Integral:

F (y) = P(X ≤ y) =

∫ y

−∞f (x)∂x


Eigenschaften

Für die Dichte f (x) gilt: ∫ +∞

−∞f (x)∂x = 1

P(X = a) =

∫ a

af (x)∂x = 0

Für die Verteilungsfunktion F (x) gilt:

F (x) =

{1 für x ≥ max(x)0 für x ≤ min(x)

F ′(x) =∂F (X )

∂x= f (x)


Normalverteilung N(µ, σ)

Eine der wichtigsten Verteilungen ist die Normal- oder Gauÿ-Verteilung mitErwartungswert µ und Varianz σ2:

f (x |µ, σ) = 1

σ ·√2π

exp

(−12

(x − µσ

)2)

Symmetrisch um µ

Nur abhängig von µ und σ

Beispiele: Klausurnoten, das (logarithmierte) Einkommen, Messfehler,Gröÿe und Gewicht


Stetige Gleichverteilung U(a, b)

Gegeben: ein Intervall, de�niert durch reelle Zahlen a und b mit a < b:

f (x) =

{ 1b−a für x ∈ [a, b]

0 sonst

Die stetige Gleichverteilung spielt eine wichtige Rolle bei statistischen Tests.

Hat man x1, . . . , xn Realisierungen einer Variablen X mitVerteilungsfunktion F , so gilt:

F (x1), . . . ,F (xn) ∼ U(0, 1)


Aufgabenkomplex 2


V.III Umgang mit Zufallszahlen


R ermöglicht den Umgang mit Zufallszahlen.Beispiel: (Standard)Normalverteilung

1 Ziehen von n Zufallszahlen: rnorm(n, mean=0, sd=1)

2 Dichte im Wert x : dnorm(x, mean=0, sd=1)

Beispiel: dnorm(c(-1,0,1))0.24197 0.39894 0.24197

3 Verteilungsfunktion im Wert x :pnorm(x, mean=0, sd=1)

Beispiel: pnorm(c(-1,0,1))0.15866 0.50000 0.84134

4 Quantil für Wahrscheinlichkeit p:qnorm(p, mean=0, sd=1)

Beispiel: qnorm(c(0.25,0.5,0.75))-0.67449 0.00000 0.67449


Beispiel: (Standard)Normalverteilung1 Dichte im Wert x :

dnorm(c(-1,0,1))

0.24197 0.39894 0.24197

2 Verteilungsfunktion im Wert x :pnorm(c(-1,0,1))

0.15866 0.50000 0.84134

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Dichte

x

fx

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Verteilungsfunktion

x

Fx

●

●

●


R-Befehle für weitere Verteilungen

rnorm(n, mean=0, sd=1) Normalverteilung mit Mittelwert mean undStandardabweichung sd

rexp(n, rate=1) Exponentialverteilung mit Rate rate

rpois(n, lambda) Poissonverteilung mit Rate lambda

rcauchy(n, location=0, scale=1) Cauchyverteilung mitLokations- und Skalenparameter

rt(n, df)(Studen)t-verteilung mit Freiheitsgraden df

rbinom(n, size, prob) Binomialverteilung vom Umfang size undWahrscheinlichkeit prob

rgeom(n, prob) Geometrische Verteilung mit Wahrscheinlichkeitprob

rhyper(nn, m, n, k) Hypergeometrische Verteilung

runif(n, min=0, max=1) Stetige Gleichverteilung im Intervall [min,max]


Darstellung: Histogrammeund Kerndichteschätzer

1 Histogramme: Darstellung von stetigen und diskreten Verteilungen

hist(x, breaks = �AnzahlBins�, freq = NULL )

x: Datenbreaks = �AnzahlBins�: Steuerung der Teilintervallefreq=TRUE: absolute Häu�gkeitenfreq=FALSE: relative Häu�gkeiten (�empirische Dichte�)

2 Kerndichteschätzer: Darstellung von stetigen Verteilungen

plot(density(x, kernel=�gaussian�, bw))

density(x): Kerndichteschätzung der Datenkernel: Option für spezielle Kerntypenbw: Bandbreite


Darstellung: Kerndichteschätzer

Kerndichteschätzer sind aus dem Histogramm abgeleitete Verfahren zurSchätzung von stetigen Dichten

Hat man gegebene Daten x1, . . . , xn und eine konstante Bandbreiteh ∈ R so ist der Kerndichteschätzer gegeben durch:

f̂ (x) =1n

n∑i=1

1hK

(x − xi

h

)Typische Kerne sind:

Bisquare Kern: K (u) = 1516(1− u2)2 für u ∈ [−1, 1] und 0 sonst

Gauÿ Kern: K (u) = 1√2π

exp

(−1

2u2

)für u ∈ R


Beispiel: Simulation aus der Normalverteilung

data10<-rnorm(10) data1000<-rnorm(1000)

hist(data10, freq=FALSE) hist(data1000, freq=FALSE)

lines(density(data10), col=2) lines(density(data1000), col=2)

Histogram of data10

data10

De

nsi

ty

−2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Histogram of data1000

data1000

De

nsi

ty

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4


Beispiel: Wie plottet man die Normalverteilung?

x<-seq(from=-4, to=4, by=0.1)

] Dichte ] Verteilungsfunktionfx<-dnorm(x) Fx<-pnorm(x)plot(x,fx, type=�l�) plot(x,Fx, type=�l�)

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Dichte

x

fx

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

1.0

Verteilungsfunktion

x

Fx


Darstellung: Q-Q-Plot

Quantil-Quantil-Plots tragen die Quantile (empirisch oder theoretisch)zweier Verteilungen gegeneinander ab. Somit können Verteilungenmiteinander verglichen werden.

qqplot(x,y): Plottet die emp. Quantile von x gegen die emp.Quantile von y

qqnorm(y): Plottet die emp. Quantile von y gegen die theoretischenQuantile einer Standard-Normalverteilung

qqline(y): Fügt dem Quantilplot eine Gerade hinzu die durch daserste und dritte Quartil geht

Bsp: Vergleich von Normal- und t-Verteilung

data <- rt(400, df = 2)

qqnorm(data, main = �QQ-Plot�, xlab= �Normalverteilung�, ylab =

�t-Verteilung�)

qqline(data, col = �green�)


Darstellung: Q-Q-Plot

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

●●

●●

●

●●●

●●

●● ●

●

●

●

●●

●

●

●

●

●

●●

●

●

●●

●●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

●

●

●●

●●

●

●

●

●

●●●

●●

●

●

●

●

●

●

●

●●

●

●

●●

●

●

●

●

●●

●●

●

●

●

●

●

●●

●●

●●

●

●

●

●●●

●

●

●

●●●

●●

●

●

●●

●

●●●

●

●●

●

●

●●

●●

●

●●

●

●

●●

●

●●

●

●●●

●●● ●

●●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●●

●

● ●

●

●●

●

●

●

●●

●

●

●

●

● ●

●

●●

●

●

●

●●

●●

●

●

●

●

●

●●●

●●●

●

●●●

●●

● ●●●

●

●

●●

●

●

●

●●

●

●

●●

●● ●●

●●

●●

●

●

●●

●●

●

●●

●

●●

●●●

●

●

●

●

●

●

●●

●●

●●

●

●●

●

●●

●

●

●●

●

●●●●

●●

●

●

●

●

●

●● ●

●

●●

●

●●

●●

●●

●●

●●

●●

●

●

●

●●

●

●●

●

●●

●●

●

●

●● ●

●●

●

●

●

●

●

●●

●

●

●

●●

●●

●

● ●

●●

● ●●

●

●

●

●●

●●

●

●

●

●●

●

●

●●

●

●

●

●

●

●●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●

●●

●

●

●

−3 −2 −1 0 1 2 3

−15

−10

−5

05

10

QQ−Plot

Normalverteilung

t−V

erte

ilung


VI. Statistische Tests


VI.I Einführungsbeispiel


VI.I Einführungsbeispiel


Fragestellung

Einführungsbeispiel: Trinkt die Jugend in Europa mehr Alkohol alsim Rest der Welt?

Untersucht wird die Variable Alkohol im oecd-Datensatz: Der Anteil an13-15 jährigen Jugendlichen, die mindestens zweimal betrunken waren.


Erster Schritt: Deskriptive Analyse

1 Graphisch mit Boxplot: boxplot(Alkohol Geo)

Nicht−Europa Europa

10

15

20

25

Boxplot für Europa und Nicht−Europa


Zweiter Schritt: Kennzahlen

2 Kennzahlen:

Mittelwert:mu<-tapply(Alkohol, Geo, FUN=mean, na.rm=TRUE)

Nicht-Europa Europa

13.700 15.443Standardabweichung:sigma<-tapply(Alkohol, Geo, FUN=sd, na.rm=TRUE)

Nicht-Europa Europa

4.518 4.341

Es ist zu erkennen, dass in Europa im Mittel ein höherer Anteil anJugendlichen schon mindestens zweimal betrunken war als innicht-europäischen Staaten.

Doch dies könnte auch ein Zufall sein! Denn dieBeobachtungen beruhen auf Stichproben, sie sind

Realisierungen einer Zufallsvariable.


Eigentliches Ziel:Überprüfung von Annahmen über das Verhalten des interessierendenMerkmales in der Grundgesamtheit mittels Stichproben.

Annahme: Jugendliche in Europa trinken mehr Alkohol als im Restder Welt

Merkmal: Alkoholkonsum der Jugend

Grundgesamtheit: Jugendliche in Europa und im Rest der Welt

Stichprobe: Die oecd-Daten

Für solche Fragestellungen mit gleichzeitiger Kontrolle derFehlerwahrscheinlichkeit sind statistische Tests geeignet!


Statistisches Testen I

1 Aufstellen von zwei komplementären Hypothesen:

Testhypothese (H0): Der Anteil in Europa ist kleiner dem im Rest derWelt µE ≤ µNE

Alternativhypothese (H1): Der Anteil in Europa gröÿer als der imRest der Welt µE > µNE

2 Fehlerwahrscheinlichkeit festlegen:H0 soll mit einer W'keit von weniger als 5% abgelehnt werden, wennH0 wahr ist.

Also: Wenn der Anteil in Wahrheit kleiner oder gleich ist,soll der Test nur mit einer Wahrscheilichkeit von weniger als5% zu dem (falschen) Ergebnis kommen, dass der Anteil

gröÿer ist.


Statistisches Testen II

3 Beobachtete Daten: 2 Gruppenµ̂ σ̂ n

Nicht-Europa 13.700 4.518 3Europa 15.443 4.341 21

4 (Weitere Annahmen, hier: Normalverteilung, Varianzgleichheit)5 Berechnen der Prüfgröÿe T , einer Kennzahl, die zeigt, wie starkdie Gruppenmittel voneinander abweichen:

Mittelwertsdi�erenz der beiden GruppenStandardisieren mit der entsprechenden Standardabweichung

T = (µ̂E − ˆµNE )/

√(1nE

+1

nNE)(nE − 1)σ̂2E + (nNE − 1)σ̂2NE

nE + nNE − 2

(Hypothetische Verteilung der Prüfgröÿe festlegen, hier t-Verteilungmit 3 + 21 - 2 = 22 Freiheitsgraden)


Statistisches Testen III

6 Berechnung der Prüfgröÿe T in R:

Mittelwertsdi�erenz der beiden Gruppenm.diff<-mu[2]-mu[1]

Standardisieren mit der entsprechenden Standardabweichungdiff.std2 <- sqrt((1/21+1/3)*

(20*sigma[2]̂2+2*sigma[1]̂2)/(21+3-2))

Prüfgröÿe:1-pt(pg.T, df=22)

0.648

7 Wie wahrscheinlich ist es (unter der Nullhypothese), einePrüfgröÿe T zu beobachten, die gröÿer oder gleich 0.648 ist?1-pt(pg.T, df=22)

0.262


Statistisches Testen IV

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

y

pg.T0.2620.738

Mit hoher Wahrscheinlichkeit (26.2%) kann eine solche Prüfgröÿe pg .Tbeobachtet werden, wenn der Mittelwert in Europa und kleiner als der inNicht-Europa ist.Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 73 / 104

Statistisches Testen V

8 Entscheidung: Aus diesen Daten kann nicht geschlossen werden, dassin Europa Jugendliche mehr Alkohol trinken als im Rest der Welt.

9 Grund: Zu geringe Fallzahl!Mit nE = nNE = 101 ergibt sich

Standardisieren mit der entsprechenden Standardabweichungdiff.std <- sqrt((1/101+1/101)*

(100*sigma[2]�2+100*sigma[1]�2)/(101+101-2))

Prüfgröÿe:pg.T2 <-m.di�/di�.std22.796Vergleich mit der t-Verteilung:1-pt(pg.T2, df=200)0.003


Statistisches Testen VI

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

y

pg.T20.0030.997

Mit nur sehr geringer Wahrscheinlichkeit (0.003%) kann eine solchePrüfgröÿe pg .T2 beobachtet werden, wenn wenn der Mittelwert in Europaund kleiner als der in Nicht-Europa ist.Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten von Verena Zuber und Bernd Klaus) ( Institut für Medizinische Informatik, Statistik und Epidemiologie (IMISE), Universität Leipzig http://www.nowick-lab.info/?page_id=365)Grundlagen II 06. Januar 2015 75 / 104

Fünf Schritte zum Testergebnis

I. Hypothesen aufstellenII. Betrachtung der DatenIII. Aufstellen der PrüfgröÿeIV. Durchführen des TestsV. Testentscheidung


I. Hypothesen aufstellen

Was soll verglichen werden?

Mittelwerte von unabhängigen GruppenMittelwert gegen einen festen WertGepaarte Messungen

Einseitige oder zweiseitige Fragestellung?

Einseitige Fragestellung:H0 : µ1 ≤ µ2gegen H1 : µ1 > µ2Zweiseitige Fragestellung:H0 : µ1 = µ2gegen H1 : µ1 6= µ2

Aufstellen der eigentlich interessierenden AlternativhypotheseH1 und der Nullhypothese H0

Signi�kanzniveau α festlegen


Fehler bei statistischen Tests

Entscheidung H0 Entscheidung H1

H0 wahr richtig Fehler erster Art αH1 wahr Fehler zweiter Art (β) richtig

Fehler erster Art (α-Fehler):Obwohl H0 wahr ist, entscheidet man sich für H1

(Falsch positives Testergebnis)

Fehler zweiter Art (β-Fehler):Obwohl H1 wahr ist, entscheidet man sich für H0

(Falsch negatives Testergebnis)


II. Betrachtung der Daten

Können Verteilungsannahmen getro�en werden?Ja: Parametrische TestsNein: Nicht-Parametrische Tests

Weitere Annahmen wie z.B. Varianzgleichheit in den Gruppen

Aus Schritt I. und II. folgt die Auswahl eines geeigneten Tests und alleweiteren Schritte!


III. Aufstellen der Prüfgröÿe

Aus den Hypothesen ergibt sich die Form der Prüfgröÿe, z.B. dieMittelwertsdi�erenzStandardisieren der Prüfgröÿe mit:

unter H0 gültigen Erwartungswertunter H0 gültigen Standardabweichung

Festlegen der Verteilung, die unter H0 gültig ist


IV./V. Durchführen des Tests und Testentscheidung

Hier sind zwei Werte entscheidend:

Kritischer Wert κ: Welchen Wert darf die Prüfgröÿe bei gegebenemSigni�kanzniveau α maximal/minimal annehmen, wenn H0 tatsächlichgültig ist

p-Wert: Wahrscheinlichkeit, die vorliegenden Daten zu beobachten,wenn H0 gültig ist

Entscheidung H0 ablehnen, falls:

die Prüfgröÿe gröÿer als der kritische Wert ist (bzw. kleiner als derkritische Wert bei einigen nonparametrischen Tests)

falls der p-Wert kleiner dem vorher festgelegten Signi�kanzniveau α ist


t-Test - gegen festen Wert (Einstichproben-t-Test)


1. Ziel, Hypothesen und Voraussetzungen

Vergleich das emp. Populationsmittel x einer Population mit einemhypothetischen Mittelwert µ0Voraussetzung: Normalverteilung der Stichprobe

Varianz wird als unbekannt angenommen und aus den Daten geschätzt

Varianten für die Hypothesen:

1 Einseitige Fragestellung 1:H0 : x ≤ µ0 gegen H1 : x > µ0

2 Einseitige Fragestellung 2:H0 : x ≥ µ0 gegen H1 : x < µ0

3 Zweiseitige Fragestellung:H0 : x = µ0 gegen H1 : x 6= µ0


2. Teststatistik

Teststatistik

T =x − µ0

s·√n

Schätzung der Standardabweichung σ durch:

s =

[∑ni=1(x − xi )

2

n − 1

]0.5


3. Kritische Bereiche

1 Einseitige Fragestellung 1:T > t1−α(df = n − 1)

2 Einseitige Fragestellung 2:T < tα(df = n − 1)

3 Zweiseitige Fragestellung:|T | > t1−α/2(df = n − 1)


t-Test für unabhängige Stichproben (Zweistichproben-t-Test)



Vergleich das emp. Populationsmittel x1 und x2 miteinander

Voraussetzung: Normalverteilung der Stichproben

Varianz der Populationen unbekannt

2 Varianten: Varianzen der Populationen gleich oder ungleich


1 Einseitige Fragestellung 1:H0 : x1 ≤ x2 gegen H1 : x1 > x2

2 Einseitige Fragestellung 2:H0 : x1 ≥ x2 gegen H1 : x1 < x2

3 Zweiseitige Fragestellung:H0 : x1 = x2 gegen H1 : x1 6= x2


2. Teststatistik

Teststatistik

T =x1 − x2

s·√n


s =

[(1n1

+1n2

)· (n1 − 1)s1 + (n2 − 1)s2

n1 + n2 − 1

]0.5wobei s1 und s2 die Standardvarianzschätzer für die Populationen sind



1 Einseitige Fragestellung 1:T > t1−α(n1 + n2 − 2)

2 Einseitige Fragestellung 2:T < tα(n1 + n2 − 2)

3 Zweiseitige Fragestellung:|T | > t1−α/2(n1 + n2 − 2)


t-Test für Paardi�erenzen



Teste die Di�erenz d =∑n

i=1 di =∑n

i=1 x1i − x2i miteinandergepaarter Stichproben (x1i , x2i )

Typisches Bsp.: Messen eines Blutwertes vor und nach einer med.Behandlung



1 Einseitige Fragestellung 1:H0 : d ≤ 0 gegen H1 : d > 0

2 Einseitige Fragestellung 2:H0 : d ≥ 0 gegen H1 : d < 0

3 Zweiseitige Fragestellung:H0 : d = 0 gegen H1 : d 6= 0


2. Teststatistik

Teststatistik

T =d

s·√n


s =

[∑ni=1(d − di )

2

n − 1

]0.5



1 Einseitige Fragestellung 1:T > t1−α(df = n − 1)

2 Einseitige Fragestellung 2:T < tα(df = n − 1)

3 Zweiseitige Fragestellung:|T | > t1−α/2(df = n − 1)


Der Wilcoxon-Rangsummen-Test



Teste nicht-parametrisch, ob zwei Population den gleichen Medianbesitzen

Zu verwenden, wenn Vor. für den t-Test nicht erfüllt sind


Benötigt KEINE konkrete Verteilungsannahme

Alternative für den t-Test


1 Einseitige Fragestellung 1:H0 : x1,med ≤ x2,med gegen H1 : x1,med > x2,med

2 Einseitige Fragestellung 2:H0 : x1,med ≥ x2,med gegen H1 : x1,med < x2,med

3 Zweiseitige Fragestellung:H0 : x1,med = x2,med gegen H1 : x1,med 6= x2,med


2. Teststatistik

Bilde für sämtlichen Beobachtungen x11, . . . x1n1 , x21, . . . x2n2 Rängerg(x11), . . . rg(x1n1), rg(x21), . . . rg(x2n2)

Teststatistik:

R =

n1∑i=1

rg(x1i )

Wertebereich: n1(n1+1)2 < R < (n1+n2)(n1+n2+1)

2 − n1(n1+)2

Nullverteilung von R liegt tabelliert vor

Approximation durch die Normalverteilung ab einer Stichprobengröÿevon ca. 20 möglich



1 Einseitige Fragestellung 1:R > w1−α(n1, n2)

2 Einseitige Fragestellung 2:R < wα(n1, n2)

3 Zweiseitige Fragestellung:R > w1−α/2(n1, n2) oder R < wα/2(n1, n2)


t-Test und Wilcoxon-Rangsummen - Test in R - PraktischeDurchführung


t-Test in R

t.test(x, y, alternative, paired, var.equal)

Erklärung der Parameter:

x,y = NULL: Die Daten, beim t-Test für eine Population genügt es, xanzugeben

alternative = c(�two.sided�, �less�, �greater�):

Varianten für die Alternativhypothese

var.equal = TRUE: Gibt an, ob Varianzgleichheit bei denPopulationen vorliegt

paired: Gibt an, ob x und y als gepaarte Stichprobe anzusehen sind


Wilcoxon-Rangsummen - Test in R

wilcox.test(x, y, alternative, paired, exact)

Erklärung der Parameter:

Im wesentlichen analog zum t-Test

exact: Soll die Teststatistik exakt bestimmt werden, oder perApproximation an die Normalverteilung?


Beispiel:

Nettokaltmieten pro m2 für 1- (X) und 2-Raum (Y) Wohnungen

Gibt es einen Unterschied zwischen beiden Gruppen?

Wir untersuchen diese Frage per Wilcoxon- und t-Test

1 2 3 4 5X 8.70 11.28 13.24 8.37 12.16Y 3.36 18.35 5.19 8.35 13.10

6 7 8 9 10X 11.04 10.47 11.16 4.28 19.54Y 15.65 4.29 11.36 9.09


t-Test

miete <- read.csv(�Miete.csv�)attach(miete)t.test(X,Y, var.equal = FALSE, paired = FALSE)

R-Ausgabe:Welch Two Sample t-testdata: X and Y

t = 0.5471, df = 14.788, p-value = 0.5925

alternative hypothesis: true difference in means is not

equal to 0

p > 0.05, kein signi�kanter Unterschied


Wilcoxon-Rangsummen-Test

wilcox.test(X,Y, exact = TRUE)

R-Ausgabe:Wilcoxon rank sum test

data: X and Y

W = 51, p-value = 0.6607

alternative hypothesis: true location shift is not

equal to 0

p > 0.05, kein signi�kanter Unterschied


Aufgabenkomplex 3


Documents

Eine Einführung in R: Deskriptive Statistiken und Graphiken · Eine Einführung in R: Deskriptive Statistiken und Graphiken Katja Nowick, Markus Kreuz (basierend auf Vorarbeiten