23
Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014 Inhaltsverzeichnis 2 Univariate Deskription und Exploration von Daten 2 3 Bivariate Deskription und Exploration von Daten 9 4 Zeitreihenanalyse 16 5 Indexzahlen 17 6 Wahrscheinlichkeitsrechnung 20

Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlungfür die Vorlesung

Statistik A

Univ.-Prof. Dr. Kneip

Universität BonnStatistische Abteilung

Wintersemester 2013/2014

Inhaltsverzeichnis2 Univariate Deskription und Exploration von Daten 2

3 Bivariate Deskription und Exploration von Daten 9

4 Zeitreihenanalyse 16

5 Indexzahlen 17

6 Wahrscheinlichkeitsrechnung 20

Page 2: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 2

2 Univariate Deskription und Exploration vonDaten

Gegeben seien Daten x1, . . . , xn eines MerkmalsX mit Ausprägungen a1, . . . , ak.

Häufigkeiten und ihre graphischen DarstellungenFormel/Notation Erläuterung

Absolute Häufigkeit h(aj) = hj Anzahl der Werte mit xi = ajRelative Häufigkeit f(aj) = fj =

hjn

Anteil der Werte mit xi = ajAbs. Häufigkeitsverteilung h1, . . . , hk Menge der abs. HäufigkeitenRel. Häufigkeitsverteilung f1, . . . , fk Menge der rel. Häufigkeiten

Diagramm BeschreibungStrichliste Für jedes ak jeweils hk Striche

Stabdiagramm Über a1, . . . , ak jeweils zur x-Achse senkrechter Strichmit Höhe h1, . . . , hk (oder f1, . . . , fk)

Säulendiagramm wie Stabdiagramm, jedoch mit Rechtecken anstattStrichen

Balkendiagramm wie Säulendiagramm, jedoch mit a1, . . . , ak auf der y-Achse

Kreisdiagramm Kreissektoren mit Winkeln αj = fj · 360, so daß Flä-che proportional zu den Häufigkeiten

Histogramm

Über den Klassen [c0, c1], . . . , (ck−1, ck] Rechtecke mitBreite δj = cj − cj−1 und Höhe gleich (oder propor-tional zu) hj/δj bzw. fj/δj. Damit ist die Fläche derRechtecke gleich (oder proportinal zu) hj bzw. fj.

Kumulierte HäufigkeitsverteilungenFormel/Notation Erläuterung

Absolute kumulierteHäufigkeitsverteilung

H(x) =∑

i:ai≤xh(ai) Anzahl der Werte xi

mit xi ≤ xEmpirische Verteilungs-funktion(relative kumulierteHäufigkeitsverteilung)

F (x) = H(x)n

=∑

i:ai≤xf(ai) Anteil der Werte xi mit

xi ≤ x

[email protected]

Page 3: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 3

LagemaßeLagemaß Formel ErläuterungArithmetischesMittel

x = 1n

n∑i=1

xiEmpirischer Mittelwert der Be-obachtungen

x =k∑j=1

fjaj = 1n

k∑j=1

hjajhj = h(aj) abs. Häufigkeitenfj = f(aj) rel. Häufigkeiten

Median

Für ungerades n:xmed = x(n+1

2 )Für gerades n:xmed = 1

2

(x(n/2) + x(n/2+1)

)x(1) ≤ . . . ≤ x(n) bezeichnetdie aufsteigend sortierte Urlistex1, . . . , xn.

Modus xmod = ai,mit fi = maxj=1,···k fj

Ausprägung mit größter Häufig-keit.

GeometrischesMittel

xgeo = n√x1 · x2 · · ·xn

bzw. ln(xgeo) = 1n

n∑i=1

ln(xi)Nur für positive x1, . . . , xn.

bzw. ln(xgeo) =k∑j=1

fj ln(aj) Häufigkeitsdaten mit aj > 0

HarmonischesMittel

xhar = 1

1n

n∑i=1

1xi

bzw. 1xhar

= 1n

n∑i=1

1xi

Entweder alle xi > 0oder alle xi < 0

bzw. 1xhar

=k∑j=1

fj1aj

Häufigkeitsdaten und entwederalle aj > 0 oder alle aj < 0

LageregelnVerteilung Lagemaßesymmetrisch x ≈ xmed ≈ xmod

linkssteil (rechtsschief) x > xmed > xmod

rechtssteil (linksschief) x < xmed < xmod

[email protected]

Page 4: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 4

StreuungsmaßeStreuungsmaß Formel Erläuterung

Empirische Varianz s2 = 1n

n∑i=1

(xi − x)2 = 1n

n∑i=1

x2i − x2 x emp. Mittelwert

s2 =k∑j=1

fj(aj − x)2 =k∑j=1

fja2j − x2 Für Häufigkeitsdaten

Empirische Standard-abweichung s =

√s2

Quadratwurzel aus emp.Varianz

Stichprobenvarianz s2 = 1n−1

n∑i=1

(xi − x)2 Division durch n− 1

Variationskoeffizient v = s/xSinnvoll fürBeobachtungen xi > 0

Spannweite R = maxi xi−mini xi = x(n)−x(1)x(1) ≤ . . . ≤ x(n), geordneteUrliste

Interquartilsabstand QA = x0.75 − x0.25x0.25, x0.75 unteres bzw. obe-res Quartil

Bemerkung: Die Formel für die empirische Varianz wird oft auch in der

Form s2 = x2− x2, wobei x2 = 1n

n∑i=1

x2i der Mittelwert der quadrierten Daten

ist, geschrieben.

Schichtung und Streuungszerlegung

Eine Erhebungseinheit E vom Umfang n sei zerlegt in r Schichten (oder Teil-gesamtheiten) E1, . . . , Er, jeweils vom Umfang nj,

∑rj=1 nj = n, mit Mittel

xj und Varianz s2j . Dann gilt

• Gesamtmittel in E:

x =1

n

r∑j=1

njxj

• Varianz in E:

s2 =1

n

r∑j=1

nj s2j︸ ︷︷ ︸

Streuung innerhalbder Schichten

+1

n

r∑j=1

nj(xj − x)2

︸ ︷︷ ︸Streuung zwischen

den Schichten

[email protected]

Page 5: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 5

Quantile und Boxplot

Quantile

Für 0 < p < 1 heißt jeder Wert xp, für den

Anzahl(xi : xi ≤ xp)

n≥ p und

Anzahl(xi : xi ≥ xp)

n≥ 1− p

gilt, p-Quantil. Damit gilt für das p-Quantil:

xp = x(bnpc+1),wenn np nicht ganzzahligxp ∈

[x(np), x(np+1)

],wenn np ganzzahlig

Bemerkungen:

• Spezielle Bezeichnungen:x0.5 Medianx0.25, x0.75 Unteres bzw. Oberes Quartilx0.1, . . . , x0.9 Dezile

• Analog zum Median kann man für ganzzahliges np ein p-Quantil aucheindeutig als den Mittelwert xp = 1

2

(x(np) + x(np+1)

)definieren.

• In Statistikprogrammen werden empirische p-Quantile gewöhnlich durchlineare Näherung aus der empirischen Verteilungsfunktion gewonnen.

Graphische Darstellung

• 5-Punkte Zusammenfassung einer Verteilung:Angabe von xmin, x0.25, xmed, x0.75, xmax.

• Boxplot:

1. x0.25 = Anfang der Box2. x0.75 = Ende der Box3. xmed durch senkr. Strich in der Box markieren4. Berechnung der „Zäune“ zu = x0.25 − 1.5 QA und zo = x0.75 +

1.5 QA

5. Zwei Linien („whiskers“) gehen von der Box aus zum kleinsten undgrößten Beobachtungswert innerhalb des Bereichs [zu, zo] der Zäu-ne. (Üblicherweise werden die Endpunkte durch senkrechte Strichemarkiert.)

6. Beobachtungen außerhalb der Zäune zu, zo werden einzeln mar-kiert.

[email protected]

Page 6: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 6

Gruppierte Daten

Lagemaße

Formel Erläuterung

Arithm. Mittel x =k∑j=1

fj cjcj Mitte der Klasse (cj−1, cj]fj rel. Häufigkeit

Median xmed = ci−1 + δi0.5−Fi−1

fi

Fi−1 =∑i−1

j=1 fj (emp. Vert.),(ci−1, ci] Einfallsklasse des Medians,d.h. Fi−1 ≤ 0.5 < Fiδi = ci − ci−1 Breite der i-ten Klasse

Modus xmod = ci ci Mitte der Modalklasse

Geom. Mittel ln(xgeo) = 1n

k∑j=1

fj ln(cj) Alle cj > 0

Harm. Mittel 1xhar

= 1n

k∑j=1

fjcj

Entweder alle cj > 0 oder alle cj < 0

Streuungsmaße

Formel Erläuterung

Empirische Varianz s2 =k∑j=1

fj(cj − x)2 =k∑j=1

fj c2j − x2

x emp. Mittelwert,fj rel. Häufigkeit,cj Klassenmitte

Empirische Varianzmit Sheppard-Korrektur

s2 =k∑j=1

fj(cj − x)2 − δ2

12

Nur für konstante Klas-senbreiten δ = cj − cj−1

Spannweite R = ck − c0

c0 Untergrenze der un-tersten Klasseck Obergrenze der ober-sten Klasse

Interquartilsabstand QA = x0.75 − x0.25

x0.25, x0.75 unteres bzw.oberes Quartil (für grup-pierte Daten)

p-Quantil für gruppierte Daten

Analog zum Median für gruppierte Daten wird ein p-Quantil (0 < p < 1)definiert durch

xp = ci−1 + δip− Fi−1

fi,

wobei der Index i so bestimmt wird, daß∑i−1

j=1 fj ≤ p <∑i

j=1 fj.

[email protected]

Page 7: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 7

Maßzahlen für Schiefe

Empirische Momente

Formel Erläuterung

Empirische Momente Mr = 1n

n∑i=1

xri r = 1, 2, . . . M1 = Arithmetisches Mittel

Empirische zentraleMomente

mr = 1n

n∑i=1

(xi − x)r r = 2, 3, . . . m2 = Empirische Varianz

Maßzahlen für Schiefe („Skewness“)

Schiefemaß Formel Erläuterung

Momentenkoeffizientder Schiefe

gm = m3

s3mit m3 = 1

n

n∑i=1

(xi − x)3m3 emp. 3tes zentrales Mo-ment,s emp. Standardabw.

Quantilskoeffizientder Schiefe gp = (x1−p−xmed)−(xmed−xp)

x1−p−xpFür p = 0.25 ergibt sichder Quartilskoeffizient

Konzentrationsmaße

Lorenzkurve und Gini-Koeffizient

Die Lorenzkurve ist der Streckenzug durch die Punkte (0, 0), (u1, v1), . . . , (uκ, vκ) =(1, 1), wobei für die Punkte (uj, vj) gilt:

• Bei geordneter Urliste x1 ≤ . . . ≤ xn:

uj =j

nvj =

∑ji=1 xi∑ni=1 xi

für j = 1, . . . , n

• Bei Häufigkeitsdaten (ai, fi)1≤i≤k (aufsteigend geordnet):

uj =

j∑i=1

fi vj =

∑ji=1 fiai∑ki=1 fiai

für j = 1, . . . , k

• Bei gruppierten Daten mit Klassen [c0, c1], . . . , (ck−1, ck] und Klassen-mittelpunkten ci:

uj =

j∑i=1

fi vj =

∑ji=1 fici∑ki=1 fici

für j = 1, . . . , k

[email protected]

Page 8: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 8

Gini-Koeffizient

G =Fläche zw. Diagonale u. LorenzkurveFläche zw. Diagonale und u-Achse

= 2·Fläche zw. Diagonale u. Lorenzkurve

Damit ergibt sich für den Gini-Koeffizienten

• Bei geordneter Urliste x1 ≤ . . . ≤ xn:

G =

2n∑i=1

ixi

nn∑i=1

xi

− n+ 1

n=n+ 1

n− 2 · 1

n

n∑j=1

vj

• Bei Häufigkeitsdaten (ai, fi)1≤i≤k (aufsteigend geordnet):

G =

∑ki=1(ui−1 + ui)fiai∑k

i=1 fiai− 1 = 1− 2 ·

k∑j=1

fj vj, mit vj =vj−1 + vj

2

• Bei gruppierten Daten mit Klassen [c0, c1], . . . , (ck−1, ck] und Klassen-mittelpunkten ci:

G =

∑ki=1(ui−1 + ui)fici∑k

i=1 fici− 1 = 1− 2 ·

k∑j=1

fj vj, mit vj =vj−1 + vj

2

Normierter Gini-Koeffizient (Lorenz-Münzner-Koeffizient)

G? =G

Gmax

=n

n− 1G mit dem Wertebereich: G? ∈ [0, 1]

Absolute Konzentrationsmaße

Ausgangspunkt ist eine geordnete Urliste x1 ≤ . . . ≤ xn.

• Merkmalsanteil der i-ten Einheit: pi = xin∑

j=1xj

• Konzentrationsrate der g größten Merkmalsträger: CRg =n∑

i=n−g+1

pi

• Herfindahl-Index: H =n∑i=1

p2i ; Wertebereich: H ∈ [ 1

n, 1]

[email protected]

Page 9: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 9

3 Bivariate Deskription und Exploration vonDaten

Gegeben seien zwei Merkmale X und Y mit den möglichen Ausprägungena1, . . . , ak für X und b1, . . . , bm für Y .Die Urliste enthält für jedes Objekt die gemeinsamen Messwerte (x1, y1), . . . , (xn, yn).

Kontingenztabelle der absoluten Häufigkeiten

Eine (k×m)–Kontingenztabelle der absoluten Häufigkeiten besitzt die Form

XY b1 b2 · · · bma1 h11 h12 . . . h1m h1•a2 h21 h22 . . . h2m h2•...

......

......

ak hk1 hk2 . . . hkm hk•h•1 h•2 · · · h•m n

und gibt die gemeinsame Verteilung der Merkmale X und Y in absolutenHäufigkeiten wieder.

Bezeichnungen

Absolute Häufigkeit der Kom-bination (ai, bj)

hij = h(ai, bj)

Zeilensummen hi• = hi1 + · · ·+ him, 1 ≤ i ≤ k

Spaltensummen h•j = h1j + · · ·+ hkj, 1 ≤ j ≤ m

Gesamtsumme h• • =k∑i=1

m∑j=1

hij =k∑i=1

hi• =m∑j=1

h•j = n

Randhäufigkeitendes Merkmals X h1•, . . . , hk•

Randhäufigkeitendes Merkmals Y h•1, . . . , h•m

[email protected]

Page 10: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 10

Kontingenztabelle der relativen Häufigkeiten

Eine (k ×m)-Kontingenztabelle der relativen Häufigkeiten besitzt die Form

XY b1 b2 · · · bma1 f11 f12 . . . f1m f1•a2 f21 f22 . . . f2m f2•...

......

......

ak fk1 fk2 . . . fkm fk•f•1 f•2 · · · f•m 1

und gibt die gemeinsame Verteilung der Merkmale X und Y wieder.

Bezeichnungen

Relative Häufigkeit der Kombina-tion (ai, bj)

fij =hijn

Zeilensummen fi• = fi1 + · · ·+ fim = hi•n, 1 ≤ i ≤ k

Spaltensummen f•j = f1j + · · ·+ fkj =h•jn, 1 ≤ j ≤ m

Gesamtsummek∑i=1

m∑j=1

fij =k∑i=1

fi• =m∑j=1

f•j = 1

Randverteilung des Merkmals X f1•, . . . , fk•Randverteilung des Merkmals Y f•1, . . . , f•mBedingte Häufigkeitsverteilungvon X unter der BedingungY = bj, kurz X|Y = bj

fX(a1|Y = bj) =f1jf•j

, . . . , fX(ak|Y = bj) =fkjf•j

Bedingte Häufigkeitsverteilungvon Y unter der BedingungX = ai, kurz Y |X = ai

fY (b1|X = ai) =fi1fi•

, . . . , fY (bm|X = ai) =fimfi•

[email protected]

Page 11: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 11

Graphische Darstellung quantitativer Merkmale

Streudiagramm („Scatter plot“)

• Darstellung der Meßwerte (x1, y1), . . . , (xn, yn) im xy-Koordinatensystem.

Zweidimensionales Histogramm

• Intervalle [c0, c1], . . . , (ck−1, ck] für Merkmal X.

• Intervalle [d0, d1], . . . , (dm−1, dm] für Merkmal Y .

• Quader mit den Rechtecken (ci−1, ci] × (dj−1, dj] als Grundfläche undHöhe

hij(ci − ci−1) · (dj − dj−1)

bzw.fij

(ci − ci−1) · (dj − dj−1)

„Odds“ und Kreuzproduktverhältnis

Ausgangspunkt ist eine (k×m)-Kontingenztabelle der relativen Häufigkeiten.

• (Empirische) bedingte Chance („Odds“) zwischen Y = br und Y = bsfür gegebenes X = ai ist:

γ(br, bs|X = ai) =hirhis

• Das Kreuzproduktverhältnis („Odds ratio“) zwischen X = ai und X =aj in bezug auf die Chancen von Y = br zu Y = bs ist:

γ(br, bs|X = ai, X = aj) =hir/hishjr/hjs

=hirhjshjrhis

[email protected]

Page 12: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 12

Kontingenz und χ2–KoeffizientFormel Wertebereich/Erläuterung

χ2-Koeffizient χ2 =k∑i=1

m∑j=1

(hij − hi•h•j

n

)2

hi•h•jn

Es gilt: 0 ≤ χ2 ≤ n · (min(k,m)− 1)

hij =hi•h•jn

= erwartete Häufigkeiten,wenn kein Zusammenhang vorliegt.

Kontingenz-koeffizient K =

√χ2

n+ χ2

K ∈ [0, Kmax], wobei Kmax =√

M−1M

,M = min(k,m).

KorrigierterKontingenz-koeffizient

K? =K

KmaxK? ∈ [0, 1]

Assoziationsmaßvon Cramér V =

√χ2

n(min(k,m)− 1)

V ∈ [0, 1]V = |φ-Koeffizient| für 2× 2-Tafeln

Spezialfall: Vierfeldertafel

Für eine (2× 2)–Kontingenztafel der Form

h11 h12 h11 + h12

h21 h22 h21 + h22

h11 + h21 h12 + h22 n

gilt

χ2 =n(h11h22 − h12h21)2

(h11 + h12)(h11 + h21)(h12 + h22)(h21 + h22)

und der φ-Koeffizient ist definiert als

φ =h11h22 − h12h21√

(h11 + h12)(h11 + h21)(h12 + h22)(h21 + h22)

und hat den Wertebereich φ ∈ [−1, 1].

[email protected]

Page 13: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 13

Zusammenhangsmaße bei metrischen Merkmalen

Empirischer Korrelationskoeffizient nach Bravais-Pearson

• Empirische Standardabweichungen (für X bzw. Y ): sX , sY

s2X =

1

n

n∑i=1

x2i − x2 und s2

Y =1

n

n∑i=1

y2i − y2

• Empirische Kovarianz (zwischen X und Y ):

sXY =1

n

n∑i=1

(xi − x)(yi − y) =1

n

n∑i=1

xiyi − x · y

• Empirischer Korrelationskoeffizient :

r = rXY =sXYsX sY

• Wertebereich: r ∈ [−1, 1].

[email protected]

Page 14: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 14

Spearmans Korrelationskoeffizient

• Rang von xi: rang(xi) = Position des i-ten Messwertes in der aufstei-gend sortierten Urliste x(1) ≤ x(2) ≤ . . . ≤ x(n) mit der Zusatzregel,dass gleichen Messwerten (sog. Bindungen, „ties“) jeweils das Mittelihrer Ränge zugewiesen wird.

• Mittel aller Ränge: rangX = 1n

n∑i=1

rang(xi) = 1n

n∑i=1

i = n+12

• Spearmans Korrelationskoeffizient :

rSP =

n∑i=1

(rang(xi)− rangX)(rang(yi)− rangY )√n∑i=1

(rang(xi)− rangX)2n∑i=1

(rang(yi)− rangY )2

• Wertebereich: rSP ∈ [−1, 1]

• Rechentechnisch günstige Version:Unter der Voraussetzung, dass keine Bindungen („ties“) auftreten(d.h., xi 6= xj, yi 6= yj für alle i, j), gilt:

rSP = 1−6

n∑i=1

D2i

n(n2 − 1)

mit den Rangdifferenzen Di = rang(xi)− rang(yi), 1 ≤ i ≤ n.

Lineare Einfachregression

Gegeben seien n Beobachtungen der Merkmale Y undX: (y1, x1), . . . , (yn, xn).

• Lineare Einfachregression:

yi = α + βxi + εi, i = 1, . . . , n

• Parameter α, β: α bezeichnet den Achsenabschnitt, β die Steigung.

• Fehlerterme εi. (Annahme: Unsystematische Schwankung um 0.)

[email protected]

Page 15: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 15

• Bestimmung der Paramter der Ausgleichsgeraden durch die Kleinste-Quadrate-Methode:

α = y − βx, β =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2

=sXYs2X

• als Lösung der Normalgleichungen:

α n+ βn∑i=1

xi =n∑i=1

yi

αn∑i=1

xi + βn∑i=1

x2i =

n∑i=1

xiyi

• Angepaßte Werte: yi = α + βxi, i = 1, . . . , n.

• Residuen: εi = yi − yi, i = 1, . . . , n.

• Streuungszerlegung :n∑i=1

(yi − y)2 =n∑i=1

(yi − y)2 +n∑i=1

(yi − yi)2

n∑i=1

(yi − y)2 Gesamtstreuungn∑i=1

(yi − y)2 = β2n∑i=1

(xi − x)2 Durch Regression erklärte Streuungn∑i=1

(yi − yi)2 Residualstreuung

• Bestimmtheitsmaß (Determinationskoeffizient):

R2 =

n∑i=1

(yi − y)2

n∑i=1

(yi − y)2

= 1−

n∑i=1

(yi − yi)2

n∑i=1

(yi − y)2

=

(sXYsX sY

)2

= r2XY

• Prognose an einer Stelle x0: y0 = α + βx0

[email protected]

Page 16: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 16

4 ZeitreihenanalyseGegeben sei eine zeitlich geordnete Folge von n Beobachtungen eines Merk-mals X: x1, x2, . . . , xn

Graphische Darstellung

• Zeitreihenpolygon: Darstellung der Werte xt1≤t≤n in Abhängigkeitvon t mit anschließender linearer Interpolation.

• Alternativ: Darstellung von xt in Abhängigkeit vom Datum der t-tenMessung mit anschließender linearer Interpolation.

Komponentenmodelle

• Additives Komponentenmodell:Modellierung der Zeitreihe als: xt = gt︸︷︷︸

Trend

+ st︸︷︷︸Saison

+ zt︸︷︷︸Rest

• Multiplikatives Komponentenmodell:Modellierung der Zeitreihe als: xt = gt · st · zt.Durch Logarithmieren kann ein multiplikatives Modell auf ein additivesKomponentenmodell zurückgeführt werden: lnxt︸︷︷︸

x?t

= ln gt︸︷︷︸g?t

+ ln st︸︷︷︸s?t

+ ln zt︸︷︷︸z?t

Schätzung eines linearen Trends

• Modell: gt = β0 + β1 · t

• Schätzung der Parameter durch die KQ-Methode:

β0 und β1 minimierenn∑t=1

(xt − β0 − β1 · t)2

• Lösungen: (für t = 1, 2, . . . , n)

β1 =

12n∑t=1

xt · t

n(n2 − 1)− 6x

n− 1und β0 = x− β1

n+ 1

2

• Geschätzte Trendfunktion: gt = β0 + β1 · t

• Trendbereinigte Zeitreihe: xt − gt

[email protected]

Page 17: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 17

• Bestimmtheitsmaß:

R2 =

∑nt=1(gt − x)2∑nt=1(xt − x)2

=β2

1n(n2 − 1)

12∑n

t=1(xt − x)2

• Exponentieller Trend:Durch Logarithmieren kann ein exponentielles Trendmodell der Form:gt = β0 · βt1 in ein lineares Trendmodell überführt werden.

Schätzung einer konstanten Saisonfigur

• Gegebene Periodizität: lFür j = 1, . . . , l sind xj, xl+j, x2l+j, x3l+j, . . . jeweils die Beobachtungenzur j-ten Periode (Quartal, Monat, o.ä.)

• Annahme: (Konstante Saisonfigur)Für jedes j = 1, . . . , l gilt: sj = sl+j = s2l+j = s3l+j = · · ·

• Schätzung der sj: Arithmetische Mittel sj = 1mj

mj−1∑k=0

(xkl+j − gkl+j)

(Bemerkung: Falls n = m · l, dann mj = m für alle j)

• Geschätzte Saisonkomponente: st = sj falls t = j, l+ j, 2l+ j, 3l+ j, . . .

• Prognose (von xn+h, h ≥ 1):xn+h = gn+h + sn+h (additiv) bzw. xn+h = gn+h · sn+h (multiplikativ)

5 Indexzahlen

Klassifikation der Verhältniszahlen

• Gliederungszahl

• Beziehungszahl

• Meßzahl (einfache/zusammengesetzte Indexzahl)

Preis-, Mengen und Wertindizes

Bezeichnungen

• Bezeichnungen (Warenkorb mit m Gütern.)q0i, p0i: Menge und Preis des i-ten Gutes in der „Basisperiode 0“qti, pti: Menge und Preis des i-ten Gutes in der „Berichtsperiode t“

[email protected]

Page 18: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 18

• Preisindex nach Laspeyres: PL0t =

m∑i=1ptiq0i

m∑i=1p0iq0i

• Preisindex nach Paasche: P P0t =

m∑i=1ptiqti

m∑i=1p0iqti

• Mengenindex nach Laspeyres: QL0t =

m∑i=1p0iqti

m∑i=1p0iq0i

• Mengenindex nach Paasche: QP0t =

m∑i=1ptiqti

m∑i=1ptiq0i

• Wertindex: (auch: Umsatz- oder Ausgabenindex) W0t =

m∑i=1qtipti

m∑i=1q0ip0i

• Preisindex nach Fisher: P F0t =

√P P

0tPL0t

Indexumrechnungen

• Umbasierung:Gegeben sei eine Zeitreihe von Indexzahlen (zu einer festgelegten Ba-sisperiode 0): I00 = 1, I01, I02, . . . , I0k, . . . , I0n

I?kt = I0t/I0k ergibt die auf die neue Basisperiode k umbasierte Zeitrei-he.

• Verknüpfung:Gegeben seien zwei Zeitreihen von Indexzahlen, die sich in einer Periode(hier in t) überlappen: I01, I02, . . . , I0t und Ikt, Ik,t+1, . . .

Fortführung der alten Zeitreihe:

I?0,t+h = Ik,t+h ·I0t

Ikt, h = 1, 2, . . .

Rückrechnung der neuen Zeitreihe:

I?k,t−h = I0,t−h ·IktI0t

, h = 1, 2, . . .

[email protected]

Page 19: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 19

• Verkettung:Gegeben sei eine Zeitreihe von Indexzahlen mit der jeweiligen Vorperi-ode als Basis: I01, I12, I23, I34, . . .

I?0t = I01 · I12 · · · It−1,t bezeichnet die verkettete Zeitreihe mit gemeinsa-mer Basis 0.

• Deflationierung oder Preisbereinigung: Division einer nominalenGröße Vt durch einen sachlich zugehörigen Preisindex P0t ergibt diereale (preisbereinigte) Größe Rt = Vt/P0t.

[email protected]

Page 20: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 20

6 Wahrscheinlichkeitsrechnung

KombinatorikAnzahl der möglichen Ziehungen von n Kugeln aus einer Urne mit N Kugeln:

Reihenfolge wichtig Reihenfolge nicht wichtig

„Sortieren nicht erlaubt“ „Sortieren erlaubt“

ohne Zurücklegen N · (N − 1) · · · (N − (n− 1))

(N

n

)

mit Zurücklegen Nn

(n+N − 1

n

)=

(n+N − 1

N − 1

)

Binomialkoeffizienten• Definition: (

n

k

)=n · (n− 1) · · · (n− (k − 1))

k · (k − 1) · · · 1=

n!

k!(n− k)!

• Rechenregeln:(n

0

)=

(n

n

)= 1

(n

1

)=

(n

n− 1

)= n

(n

k

)=

(n

n− k

) (n

k

)=

(n− 1

k

)+

(n− 1

k − 1

)

Rechenregeln für Mengen• Kommutativgesetz:A ∩B = B ∩AA ∪B = B ∪A

• Distributivgesetz:(A∪B)∩C = (A∩C)∪ (B ∩C)(A∩B)∪C = (A∪C)∩ (B ∪C)

• Aus A ⊂ B folgt B ⊂ A

• Assoziativgesetz:(A ∩B) ∩ C = A ∩ (B ∩ C)(A ∪B) ∪ C = A ∪ (B ∪ C)

• De Morgansche Regeln:(A ∪B) = A ∩ B(A ∩B) = A ∪ B

• Für die Differenzmenge A\Bgilt: A\B = A ∩ B

[email protected]

Page 21: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 21

Wahrscheinlichkeiten und Axiome von Kolmogoroff

• Endlicher Wahrscheinlichkeitsraum (Ω,P(Ω), P )

- Grundraum Ω = ω1, ω2, . . . ωN- Ereignisse P(Ω) = Menge aller Teilmengen A ⊂ Ω- Wahrscheinlichkeit P P (A) = Wahrscheinlichkeit für das Eintreten

von ADie Wahrscheinlichkeitsverteilung P erfüllt dieAxiome von Kolmogoroff :

(A1) (Nichtnegativität) P (A) ≥ 0

(A2) (Normiertheit) P (Ω) = 1

(A3) (Additivität) P (A ∪B) = P (A) + P (B) für A ∩B = ∅

• Für nicht endliche Wahrscheinlichkeitsräume wird das Axiom (A3) er-setzt durch das Axiom

(A3’) (σ−Additivität) P (∞⋃k=1

Ak) =∞∑k=1

P (Ak) für Ai∩Aj = ∅, i 6= j

Rechenregeln für Wahrscheinlichkeiten1. P (∅) = 0, P (Ω) = 1, 0 ≤ P (A) ≤ 1

2. A ⊆ B ⇒ P (A) ≤ P (B)

3. P (A) = 1− P (A) mit A = Ω\A

4. Additionssatz: P (A ∪B) = P (A) + P (B)− P (A ∩B)

5. P (A1 ∪A2 ∪ · · · ∪An) = P (A1) + P (A2) + · · ·+ P (An),falls A1, A2, . . . , An paarweise disjunkt, d.h. Ai ∩Aj = ∅

6. P (A1 ∪A2 ∪ · · ·An) ≤ P (A1) + P (A2) + · · ·+ P (An)

7. Wenn die Elementarwahrscheinlichkeiten pi = P (ωi), i = 1, 2, . . . bekanntsind,dann gilt für die Wahrscheinlichkeit eines Ereignisses A:

P (A) =∑i:ωi∈A

P (ωi) =∑i:ωi∈A

pi

[email protected]

Page 22: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 22

Laplace-Modell

1. Annahme: Endlicher Grundraum Ω = ω1, . . . , ωN

2. Annahme: P (ω1) = P (ω2) = · · · = P (ωN)

Wahrscheinlichkeiten: P (A) =Anzahl ωi in AAnzahl ωi in Ω

=#A

#Ω=

#A

N

Bedingte WahrscheinlichkeitBedingte Wahrscheinlichkeit von A gegeben B

P (A|B) =P (A ∩B)

P (B)für A,B ⊂ Ω mit P (B) > 0

Unabhängigkeit von Ereignissen• Zwei Ereignisse A und B heißen stochastisch unabhängig, wennP (A ∩B) = P (A) · P (B)

• Ereignisse A1, . . . , An heißen stochastisch unabhängig, wenn für jede Aus-wahl Ai1 , . . . , Aik mit k ≤ n gilt:P (Ai1 ∩ . . . ∩Aik) = P (Ai1) · P (Ai2) · · ·P (Aik)

Multiplikationssatz• Für Ereignisse A1, . . . , An gilt:

P (A1∩. . .∩An) = P (A1)·P (A2|A1)·P (A3|A1∩A2) · · ·P (An|A1∩. . .∩An−1)

• Falls die Ereignisse A1, . . . , An unabhängig sind, gilt:P (A1 ∩A2 ∩ . . . ∩An) = P (A1) · P (A2) · · ·P (An)

Totale Wahrscheinlichkeit und Satz von BayesSeien A1, . . . , An Ereignisse, die eine Zerlegung von Ω bilden (d.h. Ω ist disjunkteVereinigung der Ai; es gilt: Ai 6= ∅, Ai∩Aj = ∅, i 6= j, und A1∪A2∪ . . .∪An = Ω).

[email protected]

Page 23: Formelsammlung für die Vorlesung Statistik A · Formelsammlung für die Vorlesung Statistik A Univ.-Prof. Dr. Kneip Universität Bonn Statistische Abteilung Wintersemester 2013/2014

Formelsammlung Statistik A Seite 23

B sei ein Ereignis mit P (B) > 0.

P (B|Ak) · P (Ak) = P (B ∩Ak) = P (Ak|B) · P (B)

P (B) =n∑i=1

P (B|Ai) · P (Ai) =n∑i=1

P (B ∩Ai) (totale Wahrscheinlichkeit)

P (Ak|B) =P (B|Ak) · P (Ak)

P (B)=

P (B|Ak) · P (Ak)n∑i=1

P (B|Ai) · P (Ai)

(Satz von Bayes)

[email protected]