28
WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre Vorlesungsprogramm 11.06.2013 Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013 Zweidimensionale Datensätze (Fortsetzung) 3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate Grundlagen der Zeitreihenanalyse 1. Komponentenzerlegung von Zeitreihen 2. Trendbestimmung von Zeitreihen 3. Glätten von Zeitreihen Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 6286, 8798. Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 153201, 203221. von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 259 301, S. 393 420. Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München 2011, S. 97 123. Übungsaufgaben: SS 08 A4. WS 08/09 A4. SS 10 A5. WS 10/11 A4. WS 11/12 A2. SS 12 A5.

Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

WISTAWIRTSCHAFTSSTATISTIK

PROF. DR. ROLF HÜPEN

FAKULTÄT FÜR

WIRTSCHAFTSWISSENSCHAFT

Seminar für Theoretische Wirtschaftslehre

Vorlesungsprogramm 11.06.2013

Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze (Fortsetzung)

3. Regressionsanalyse: lineare Regression, Methode der kleinsten Quadrate

Grundlagen der Zeitreihenanalyse

1. Komponentenzerlegung von Zeitreihen

2. Trendbestimmung von Zeitreihen

3. Glätten von Zeitreihen

Literatur: Degen, Horst / Lorscheid, Peter: Statistik-Lehrbuch, 2. Aufl., München-Wien 2002, S. 62–86,

87–98.

Mosler, Karl und Schmid, Friedrich: Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl.,

Berlin-Heidelberg-New York 2009, S. 153–201, 203–221.

von der Lippe, Peter: Deskriptive Statistik, Stuttgart 1993, Online-Ausgabe, S. 259 – 301, S.

393 – 420.

Wewel, Max C.: Statistik im Bachelor-Studium der BWL und VWL, 2. erw. Aufl., München

2011, S. 97 – 123.

Übungsaufgaben: SS 08 A4. WS 08/09 A4. SS 10 A5. WS 10/11 A4. WS 11/12 A2. SS 12 A5.

Page 2: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

2Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Regressionsanalyse

Regressionsanalyse

Die Regressionsanalyse beschäftigt sich mit der Schätzung funktionaler Beziehungen zwischen zwei oder mehr

metrisch skalierten Merkmalen.

Hier: Zweidimensionale Datensätze „Einfache Regression“

Es wird unterstellt, das eine metrische Merkmal (die unabhängige Variable, im Folgenden immer mit 𝑥bezeichnet) beeinflusse das andere metrische Merkmal (die abhängige Variable, im Folgenden immer mit 𝑦bezeichnet). Gesucht ist also die Funktion

𝑦 = 𝑓 𝑥 ,

durch welche die gegebenen 𝑛 Wertepaare 𝑥𝑖 , 𝑦𝑖 generiert werden.

Bei der linearen Regression wird angenommen, die gesuchte Funktion sei linear von der Form

𝑦 = 𝑎 + 𝑏 ⋅ 𝑥

Die vorliegenden Wertepaare erfüllen diese Beziehung in der Regel nicht exakt, d. h. es gibt Abweichungen

𝑢𝑖 = 𝑦𝑖 − 𝑎 + 𝑏 ⋅ 𝑥𝑖 , 𝑖 = 1, … , 𝑛

Die lineare Einfachregression läuft also darauf hinaus, die durch den Datensatz gegebene Punktwolke im

Streudiagramm durch eine Gerade so anzunähern, dass die Abweichungen 𝑢𝑖 möglichst gering sind.

Page 3: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

3Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression

Zahlenbeispiel

𝑖 𝑥𝑖 𝑦𝑖

1 0 3

2 2 1

3 4 4

4 6 8

5 8 9

In der Abbildung wurde in die

Punktwolke mit der „Freihandmethode“

eine Regressionsgerade eingezeichnet.

Die Abweichungen sind jeweils die

senkrechten Abstände zwischen den

Punkten und der Geraden.

-1

0

1

2

3

4

5

6

7

8

9

10

-1 0 1 2 3 4 5 6 7 8 9 10

y

x

u2

u1

u3

u4

u5

Page 4: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

4Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression

Methode der kleinsten Quadrate nach Gauß:

Die Koeffizienten 𝑎 und 𝑏 der Regressionsgeraden 𝑦 = 𝑎 + 𝑏 ⋅ 𝑥 sind so zu wählen, dass die Summe der

quadratischen Abweichungen

𝑄 𝑎, 𝑏 =

𝑖=1

𝑛

𝑢𝑖2 =

𝑖=1

𝑛

𝑦𝑖 − (𝑎 + 𝑏 ⋅ 𝑥𝑖)2

minimiert wird.

Unter der Voraussetzung

𝑖=1

𝑛

𝑥𝑖 − 𝑥 2 ≠ 0

ist die Lösung dieser Minimierungsaufgabe eindeutig und lautet:

𝑏 =

𝑖=1

𝑛

𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦

𝑖=1

𝑛

𝑥𝑖 − 𝑥 2 =𝑠𝑥𝑦

𝑠𝑥2

𝑎 = 𝑦 − 𝑏 ⋅ 𝑥

oder alternativ:

𝑏 = 𝑛 ⋅

𝑖=1

𝑛

𝑥𝑖 ⋅ 𝑦𝑖 −

𝑖=1

𝑛

𝑥𝑖 ⋅

𝑖=1

𝑛

𝑦𝑖 𝑛 ⋅

𝑖=1

𝑛

𝑥𝑖2 −

𝑖=1

𝑛

𝑥𝑖

2

𝑎 = 𝑦 − 𝑏 ⋅ 𝑥

… Beweis

Page 5: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

5Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

-1

0

1

2

3

4

5

6

7

8

9

10

-1 0 1 2 3 4 5 6 7 8 9 10

y

x

Zweidimensionale Datensätze Lineare Einfachregression

Zahlenbeispiel:

𝑏 = 𝑖=1𝑛 𝑥𝑖 − 𝑥 ⋅ 𝑦𝑖 − 𝑦

𝑖=1𝑛 𝑥𝑖 − 𝑥 2

=38

40= 0,95

𝑎 = 𝑦 − 𝑏 ∙ 𝑥 = 5 − 0,95 ∙ 4 = 1,2

⇒ Regressionsgerade 𝑦 = 1,2 + 0,95 ⋅ 𝑥

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2

1 0 3 -4 -2 8 16

2 2 1 -2 -4 8 4

3 4 4 0 -1 0 0

4 6 8 2 3 6 4

5 8 9 4 4 16 16

S 20 25 38 40

AM 4 5 7,6 8

Page 6: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

6Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression

Zwischen dem Korrelationskoeffizienten 𝑟 von Bravais-Pearson und dem

Regressionskoeffizienten 𝑏 gibt es folgende Beziehung:

𝑏 = 𝑟 ⋅𝑠𝑦

𝑠𝑥

mit 𝑠𝑥 =1

𝑛⋅

𝑖=1

𝑛

𝑥𝑖 − 𝑥 2 und 𝑠𝑦 =1

𝑛⋅

𝑖=1

𝑛

𝑦𝑖 − 𝑦 2

Die sich durch Anwendung der Regressionsgleichung aus den Beobachtungswerten ergebenden

Werte

𝑦𝑖 = 𝑎 + 𝑏 ⋅ 𝑥𝑖

heißen theoretische 𝒚-Werte oder durch die Regression erklärten Werte.

Die Abweichungen

𝑢𝑖 = 𝑦𝑖 − 𝑦𝑖

zwischen den beobachteten 𝑦-Werten und den theoretischen 𝑦-Werten heißen KQ-Residuen.

Page 7: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

7Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression

Zur Einschätzung der Güte der

Regression wird der

Determinationskoeffizient 𝑑berechnet. Diesen bezeichnet man

auch als Bestimmtheitsmaß. Er ist

wie folgt definiert:

𝑑 =

𝑖=1

𝑛

𝑦𝑖 − 𝑦 2

𝑖=1

𝑛

𝑦𝑖 − 𝑦 2

mit

𝑖=1

𝑛

𝑦𝑖 − 𝑦 2 ≠ 0

Der Determinationskoeffizient misst,

welcher Anteil der Varianz

(quadratische Abweichung der

Beobachtungswerte vom arithmetischen Mittel 𝑦𝑖 − 𝑦 2) durch

die Regression erklärt wird.

-1

0

1

2

3

4

5

6

7

8

9

10

-1 0 1 2 3 4 5 6 7 8 9 10

y

x

Page 8: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

8Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Für den Determinationskoeffizienten gelten folgende Aussagen:

● Der Determinationskoeffizient gibt an, wie groß der Anteil der durch die Regressionsgeraden

erklärten quadratischen Abweichungen des abhängigen Merkmals 𝑦 vom seinem Mittelwert 𝑦an der Gesamtsumme der quadratischen Abweichungen ist.

● 𝑑 = 1 − 𝑢𝑖

𝑦𝑖−𝑦2

● 0 ≤ 𝑑 ≤ 1

● 𝑑 = 𝑟2

● 𝑑 = 1 genau dann, wenn alle Punkte 𝑥𝑖 , 𝑦𝑖 auf der Regressionsgeraden liegen.

● 𝑑 = 0 genau dann, wenn beide Merkmale unkorreliert sind. Dies ist unter den Annahmen 𝑠𝑥 ≠0 und 𝑠𝑦 ≠ 0 genau dann der Fall, wenn 𝑏 = 0 und 𝑎 = 𝑦.

● Die Anpassung durch die Regressionsgerade ist umso besser, je größer 𝑑 ist.

Zweidimensionale Datensätze Lineare Einfachregression

Page 9: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

9Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression Zahlenbeispiel

Zahlenbeispiel „Obsthändler“:1

Ein Obsthändler notiert an zehn aufeinander folgenden Tagen den Preis (in Euro pro kg) einer

bestimmten Erdbeersorte und die verkaufte Tagesmenge (in kg):

Preis in Eurokg Menge in kg

4,70 70

4,30 75

3,80 80

4,50 75

5,40 50

5,00 60

4,10 70

4,30 65

3,90 75

4,00 8540

45

50

55

60

65

70

75

80

85

90

3,00 3,50 4,00 4,50 5,00 5,50 6,00

Me

ng

e

Preis

1 Quelle für das Zahlenbeispiel: Mosler / Schmid, Beschreibende Statistik und Wirtschaftsstatistik, 4. Aufl., Berlin-Heidelberg-New York 2009, S. 154.

Page 10: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

10Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression Zahlenbeispiel

Preis Menge

𝑖 𝑥𝑖 𝑦𝑖 𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦 𝑥𝑖 − 𝑥 2 𝑦𝑖 − 𝑦 2

1 4,70 70 0,30 -0,50 -0,15 0,09 0,25

2 4,30 75 -0,10 4,50 -0,45 0,01 20,25

3 3,80 80 -0,60 9,50 -5,7 0,36 90,25

4 4,50 75 0,10 4,50 0,45 0,01 20,25

5 5,40 50 1,00 -20,50 -20,5 1 420,25

6 5,00 60 0,60 -10,50 -6,3 0,36 110,25

7 4,10 70 -0,30 -0,50 0,15 0,09 0,25

8 4,30 65 -0,10 -5,50 0,55 0,01 30,25

9 3,90 75 -0,50 4,50 -2,25 0,25 20,25

10 4,00 85 -0,40 14,50 -5,8 0,16 210,25

S 44 705 -40 2,34 922,5

AM 4,40 70,5 -4 0,234 92,25

Arbeitstabelle: Korrelationskoeffizient:

𝑟 = 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦

𝑥𝑖 − 𝑥 2 ∙ 𝑦𝑖 − 𝑦 2

=−40

2,34 ∙ 922,5= −0,8609

Also starke negative Korrelation.

𝑏 = 𝑥𝑖 − 𝑥 ∙ 𝑦𝑖 − 𝑦

𝑥𝑖 − 𝑥 2

=−40

2,34= −17,0940

𝑎 = 𝑦 − 𝑏 ∙ 𝑥= 70,5 + 17,0940 ∙ 4,4

= 145,7137

Regressionsgerade:

𝑦 = 145,7137 − 17,0940 ∙ 𝑥

Determinationskoeffizient:

𝑑 = 𝑟2 = −0,8609 2 = 0,7412Ca. 74% der Abweichungen werden durch die Regression erklärt.

Page 11: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

11Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zweidimensionale Datensätze Lineare Einfachregression Zahlenbeispiel

Die Regressionsgleichung kann zu

Prognosezwecken benutzt werden, wenn

man abschätzen will, mit welchem y-Wert

bei einem bestimmten x-Wert zu rechnen

ist. Im Beispiel „Obsthändler“ ist etwa

𝑦 3,50 = 145,7137 − 17,0940 ⋅ 3,50= 85,8847

sodass der Obsthändler damit rechnen

kann, ca. 86 kg Erdbeeren absetzen zu

können, wenn er den Preis auf 3,50 €/kg

senkt.

Je kleiner 𝑑 und je weiter der eingesetzte

x-Wert von den bisher beobachteten

Werten entfernt ist, umso unsicherer ist

jedoch die Prognose.

40

45

50

55

60

65

70

75

80

85

90

3,00 3,50 4,00 4,50 5,00 5,50 6,00

Me

ng

e

Preis

Beispiel Konsumfunktion …

Page 12: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

12Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Begriff der Zeitreihe

Zeitreihen entstehen bei statistischen Längsschnittanalysen. Ein Merkmal X wird zu

verschiedenen, aufeinander folgenden Zeitpunkten oder Zeitintervallen erhoben.

Dadurch erhält man eine zeitlich geordnete Abfolge von Beobachtungswerten.

Der Gegenbegriff ist die statistische Querschnittanalyse, bei der sich die

Beobachtungswerte verschiedener statistischer Einheiten alle auf ein- und denselben

Zeitpunkt oder Zeitraum beziehen.

Definition: Eine Folge von Beobachtungswerten

Zeitreihenanalyse

welche in der Reihenfolge 𝑥1, 𝑥2, … , 𝑥𝑛 zeitlich nacheinander beobachtet wurden, heißt

Zeitreihe. 𝑡 = 1,2, … , 𝑛 heißt Zeitindex.

𝑥𝑡 mit 𝑡 = 1,2, … , 𝑛

Page 13: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

13Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Begriff der Zeitreihe

Bei Zeitreihen ist Folgendes zu beachten:

● Handelt es sich bei den Beobachtungswerten um Bestandsgrößen, so ist der

Zeitindex 𝑡 als aufeinander folgende Reihe äquidistanter Zeitpunkte zu

interpretieren. 𝑥𝑡 ist dann der Wert der Bestandsgröße zum Zeitpunkt 𝑡, also z. B.

die Einwohnerzahl Deutschlands am 9.5.2011.

● Handelt es sich bei den Beobachtungswerten um Stromgrößen, so ist der

Zeitindex 𝑡 als aufeinander folgende Reihe von Zeitperioden einheitlicher Dauer

zu interpretieren.1 In diesem Fall bezeichnet 𝑥𝑡 den während der Dauer der Periode

𝑡 kumulierten Wert der betrachteten Stromgröße, z. B. das Bruttoinlandsprodukt im

zweiten Quartal 2010.

● Empirisch gehaltvolle Aussagen erfordern, dass der im Zeitindex ausgedrückten

Modellzeit eindeutig Kalenderzeiteinheiten zugeordnet werden können.

● Der Graph einer Zeitreihe mit 𝑡 an der Abszisse und 𝑥𝑡 an der Ordinate heißt

Zeitreihendiagramm (Plot).

1) Liegen 𝑛 aufeinander folgende Zeitperioden 𝑇1, … , 𝑇𝑛 vor, so gibt es 𝑛 Stromgrößen 𝑥1, … 𝑥𝑛. Betrachtet man die damit korrespondierenden Anfangs- und

Endzeitpunkte der Perioden, so gibt es 𝑛 + 1 solcher Zeitpunkte, nämlich 𝑡0, 𝑡1, … , 𝑡𝑛 mit 𝑇𝑖 = 𝑡𝑖 − 𝑡𝑖−1. Der Zeitindex für die Bestandsgrößen ist dann 𝑡 =0,1,… , 𝑛. So gehören z. B. zu 𝑛 + 1 aufeinander folgende äquidistante Bestandsgrößen genau 𝑛 aufeinander folgende Wachstumsraten.

Page 14: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

14Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Zeitreihendiagramm

Registrierte Arbeitslose im alten Bundesgebiet, Monatswerte

0

500 000

1 000 000

1 500 000

2 000 000

2 500 000

3 000 000

3 500 000

4 000 000

19

50

19

51

19

52

19

53

19

54

19

55

19

56

19

57

19

58

19

59

19

60

19

61

19

62

19

63

19

64

19

65

19

66

19

67

19

68

19

69

19

70

19

71

19

72

19

73

19

74

19

75

19

76

19

77

19

78

19

79

19

80

19

81

19

82

19

83

19

84

19

85

19

86

19

87

19

88

19

89

19

90

19

91

19

92

19

93

19

94

19

95

19

96

19

97

19

98

19

99

20

00

20

01

20

02

20

03

20

04

20

05

20

06

20

07

Page 15: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

15Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Zeitreihendiagramm

Registrierte Arbeitslose in Deutschland, Monatswerte

0

1 000 000

2 000 000

3 000 000

4 000 000

5 000 000

6 000 000

19

91

19

92

19

93

19

94

19

95

19

96

19

97

19

98

19

99

20

00

20

01

20

02

20

03

20

04

20

05

20

06

20

07

Page 16: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

16Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Komponentenzerlegung von Zeitreihen

Komponentenzerlegung von Zeitreihen

Bewegungskomponenten beschreiben charakteristische Veränderungen der Beobachtungswerte im Zeitablauf:

Additives Komponentenmodell: 𝑥𝑡 = 𝑇𝑡 + 𝑍𝑡 + 𝑆𝑡 + 𝑅𝑡

𝑇𝑡 Trendkomponente:

Beschreibt die monotone langfristige Entwicklung.

𝑍𝑡 Zyklische Komponente:

Beschreibt den Konjunkturverlauf.

𝐺𝑡 = 𝑇𝑡 + 𝑍𝑡 Glatte Komponente:

Zusammenfassung von Trend und zyklischer Komponente.

𝑆𝑡 Saisonkomponente:

Beschreibt die saisonale Abweichung von der glatten Komponente.

𝑅𝑡 Irreguläre Komponente:

Restkomponente, beschreibt den Teil der Beobachtungen, den die vorgenannten

Komponenten nicht erfassen.

𝐺𝑡

Page 17: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

17Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der Reihenhälften

Trendbestimmung mit der Methode der Reihenhälften

Fall 1: Die Anzahl der vorhandenen Zeitreihenwerte ist gerade 𝑛 = 2 ⋅ 𝑛′

● Zeitreihen in die beiden Hälften 𝑥1, … , 𝑥𝑛′ und 𝑥𝑛′+1, … , 𝑥𝑛 aufteilen.

● Die arithmetischen Mittel 𝑥 1 =1

𝑛′⋅

𝑡=1

𝑛′

𝑥𝑡 und 𝑥 2 =1

𝑛′⋅

𝑡=𝑛′+1

𝑛

𝑥𝑡 der beiden Reihenhälften berechnen.

● Eine Gerade durch die beiden Punkte 𝑛′+1

2, 𝑥 1 und

3⋅𝑛′+1

2, 𝑥 2 legen.

Diese Gerade ist die Trendgerade.

● Trendgerade: 𝑇𝑡 = 𝑎 + 𝑏 ⋅ 𝑡

● Parameter der Trendgeraden: 𝑏 =𝑥 2 − 𝑥 1

𝑛′und 𝑎 = 𝑥 1 − 𝑏 ⋅

𝑛′ + 1

2

Fall 2: Die Anzahl der vorhandenen Zeitreihenwerte ist ungerade 𝑛 = 2 ⋅ 𝑛′ + 1

● Mittleren Wert 𝑥𝑛′+1 weglassen.

● Weiteres Vorgehen analog zu Fall 1.

Page 18: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

18Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der Reihenhälften

Bruttoinlandsprodukt, preisbereinigt

(verkettet, 1991 = 100)

40,00

50,00

60,00

70,00

80,00

90,00

100,00

110,00

120,00

130,00

1965 1970 1975 1980 1985 1990 1995 2000 2005 2010

Ke

tte

nin

de

x,

19

91

= 1

00

Page 19: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

19Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der Reihenhälften

𝑛 = 36 ⟹ 𝑛′ = 18

𝑛′ + 1

2, 𝑥 1 = 9,5; 72,9483

3 ⋅ 𝑛′ + 1

2, 𝑥 2 = (27,5; 109,8596)

𝑏 = 𝑥 2 − 𝑥 1

𝑛′=109,8596 − 72,9483

18= 2,0506

𝑎 = 𝑥 1 − 𝑏 ⋅𝑛′ + 1

2=

= 72,9483 − 2,0506 ⋅ 9,5 = 53,4674

Trendgerade:

𝑇𝑡 = 𝑎 + 𝑏 ⋅ 𝑡 = 53,4674 + 2,0506 ⋅ 𝑡

Jahr BIP Jahr BIP

1971 58,57 1989 90,37

1972 61,07 1990 95,32

1973 64,11 1991 100,27

1974 64,75 1992 102,13

1975 64,17 1993 101,32

1976 67,03 1994 104,08

1977 69,37 1995 106,14

1978 71,53 1996 107,20

1979 74,59 1997 109,18

1980 75,57 1998 111,18

1981 76,05 1999 113,27

1982 75,67 2000 117,20

1983 76,78 2001 118,81

1984 79,01 2002 118,81

1985 81,07 2003 118,54

1986 82,91 2004 119,22

1987 83,97 2005 120,37

1988 86,85 2006 124,08

Summe 1 313,07 Summe 1 977,47

𝑥 1 72,9483 𝑥 2 109,8596

Page 20: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

20Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der Reihenhälften

Bruttoinlandsprodukt, preisbereinigt

(verkettet, 1991 = 100)

40,00

50,00

60,00

70,00

80,00

90,00

100,00

110,00

120,00

130,00

140,00

1965 1970 1975 1980 1985 1990 1995 2000 2005 2010

Ke

tte

nin

de

x,

19

91

= 1

00

Page 21: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

21Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate

Trendbestimmung mit der Methode der kleinsten Quadrate

Die Trendgerade wird wie bei der linearen Regression mit der Methode der kleinsten Quadrate angepasst,

indem die Zeitreihenwerte als abhängige Variable und die Zeit 𝑡 als unabhängige Variable interpretiert

werden.

Die Parameter der Trendgeraden 𝑻𝒕 = 𝒂 + 𝒃 ⋅ 𝒕 resultieren dann als

𝑏 = 𝑛 ⋅

𝑡=1

𝑛

𝑡 ⋅ 𝑥𝑡 −

𝑡=1

𝑛

𝑡 ∙

𝑡=1

𝑛

𝑥𝑡 𝑛 ⋅

𝑡=1

𝑛

𝑡2 −

𝑡=1

𝑛

𝑡

2

𝑎 =1

𝑛⋅

𝑡=1

𝑛

𝑥𝑡 − 𝑏 ⋅1

𝑛⋅

𝑡=1

𝑛

𝑡

Dabei gilt:

𝑡=1

𝑛

𝑡 =𝑛 ⋅ (𝑛 + 1)

2

𝑡=1

𝑛

𝑡2 =1

6⋅ 𝑛 ⋅ 𝑛 + 1 ⋅ (2 ⋅ 𝑛 + 1)

Page 22: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

22Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate

Bruttoinlandsprodukt (𝑥𝑡), preisbereinigt(Kettenindex, 1991 = 100)

… Fortsetzung

Jahr 𝑡 𝑥𝑡 𝑡 ∙ 𝑥𝑡 Jahr 𝑡 𝑥𝑡 𝑡 ∙ 𝑥𝑡

1971 1 58,57 58,57 1989 19 90,37 1 717,03

1972 2 61,07 122,14 1990 20 95,32 1 906,40

1973 3 64,11 192,33 1991 21 100,27 2 105,67

1974 4 64,75 259,00 1992 22 102,13 2 246,86

1975 5 64,17 320,85 1993 23 101,32 2 330,36

1976 6 67,03 402,18 1994 24 104,08 2 497,92

1977 7 69,37 485,59 1995 25 106,14 2 653,50

1978 8 71,53 572,24 1996 26 107,20 2 787,20

1979 9 74,59 671,31 1997 27 109,18 2 947,86

1980 10 75,57 755,70 1998 28 111,18 3 113,04

1981 11 76,05 836,55 1999 29 113,27 3 284,83

1982 12 75,67 908,04 2000 30 117,20 3 516,00

1983 13 76,78 998,14 2001 31 118,81 3 683,11

1984 14 79,01 1 106,14 2002 32 118,81 3 801,92

1985 15 81,07 1 216,05 2003 33 118,54 3 911,82

1986 16 82,91 1 326,56 2004 34 119,22 4 053,48

1987 17 83,97 1 427,49 2005 35 120,37 4 212,95

1988 18 86,85 1 563,30 2006 36 124,08 4 466,88

Summen 1971 – 2006: 666 3 290,56 68 459,01

𝑡=1

𝑛

𝑡 =𝑛(𝑛 + 1)

2=36 ⋅ 37

2= 666

𝑡=1

𝑛

𝑡2 =𝑛 𝑛 + 1 2𝑛 + 1

6=36 ⋅ 37 ⋅ 73

6= 16206

𝑡=1

𝑛

𝑥𝑡 = 3290,56

𝑡=1

𝑛

𝑡𝑥𝑡 = 68459,01

Parameter der Trendgeraden:

𝑏 =𝑛 𝑡𝑥𝑡 − 𝑡 𝑥𝑡𝑛 𝑡2 − 𝑡 2

=36 ∙ 68459,01 − 666 ∙ 3290,56

36 ∙ 16206 − 6662

= 1,9520

𝑎 = 𝑥𝑡 − 𝑏 𝑡

𝑛

=3290,56 − 1,952033 ∙ 666

36

= 55,2918

Trendgerade:

𝑇𝑡 = 55,2918 + 1,9520 ∙ 𝑡

Page 23: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

23Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Trendkomponente Methode der kleinsten Quadrate

Bruttoinlandsprodukt, preisbereinigt

(verkettet, 1991 = 100)

40,00

50,00

60,00

70,00

80,00

90,00

100,00

110,00

120,00

130,00

140,00

1970 1975 1980 1985 1990 1995 2000 2005 2010

Kett

en

ind

ex,

1991 =

100

Ursprungswerte

Trend, RH

Trend, KQ

Page 24: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

24Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte

Reihenglättung mit der Methode der gleitenden Durchschnitte

Version 1:

● Zum Beobachtungswert 𝑥𝑡 zu einem Zeitpunkt (oder einer Zeitperiode) 𝑡 werden 𝑚 Vorgänger- und 𝑚Nachfolgewerte hinzugezogen. 𝑥𝑡 und die hinzugezogenen Werte bilden zusammen den „Stützbereich“.

Dieser umfasst also immer eine ungerade Anzahl von Werten, nämlich 2𝑚 + 1 Werte.

● Dem Zeitpunkt (oder –intervall) 𝑡 wird sodann der Durchschnitt 𝑥𝑡 dieser 2𝑚 + 1 Werte zugeordnet.

𝑥𝑡 = 𝑡−𝑚𝑡+𝑚 𝑥𝑡

2𝑚 + 1=𝑥𝑡−𝑚 + 𝑥𝑡−𝑚+1 +⋯+ 𝑥𝑡 +⋯+ 𝑥𝑡+𝑚−1 + 𝑥𝑡+𝑚

2𝑚 + 1

Version 2:

● Der erste und der letzte Wert des Stützbereichs gehen nur mit halbem Gewicht in die Berechnung ein.

● Diese Version ist relevant, wenn eine gerade Anzahl (2𝑚) unterjähriger, saisonbehafteter Daten geglättet

werden soll, z. B. Monatsdaten (2𝑚 = 12 Monate) oder Quartalsdaten (2𝑚 = 4 Quartale). Die Saisonfigur

wird dadurch eliminiert.

𝑥𝑡 =12∙ 𝑥𝑡−𝑚 + 𝑥𝑡−𝑚+1 +⋯+ 𝑥𝑡 +⋯+ 𝑥𝑡+𝑚−1 +

12∙𝑥𝑡+𝑚

2𝑚

Für beide Versionen gilt:

● Für die ersten 𝑚 Werte und die letzten 𝑚 Werte der Zeitreihe kann der gleitende Durchschnitt 𝑥𝑡 nicht

berechnet werden, weil der Stützbereich zu klein ist.

Page 25: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

25Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte

Registrierte Arbeitslose in Deutschland 1991 - 2010

Jahr Monat ArbeitsloseGleitender

Durchschnitt m = 6Jahr Monat Arbeitslose

Gleitender Durchschnitt m = 6

⁞ ⁞ ⁞ ⁞

1991 Januar 2 631 151 2009 Januar 3 488 801 3 314 963

Februar 2 655 847 Februar 3 551 911 3 336 975

Maerz 2 539 308 März 3 585 784 3 359 535

April 2 488 886 April 3 584 798 3 380 258

Mai 2 445 961 Mai 3 458 104 3 399 371

Juni 2 435 115 Juni 3 410 036 3 416 056

Juli 2 762 324 2 640 951 Juli 3 462 446 3 428 645

August 2 735 455 2 686 174 August 3 471 513 3 437 818

September 2 638 271 2 725 618 September 3 346 459 3 440 886

Oktober 2 647 486 2 763 237 Oktober 3 228 625 3 432 707

November 2 648 999 2 799 146 November 3 215 393 3 416 247

Dezember 2 768 927 2 832 946 Dezember 3 275 526 3 396 526

1992 Januar 3 218 526 2 860 329 2010 Januar 3 617 485 3 374 552

Februar 3 153 811 2 881 518 Februar 3 643 381 3 351 467

Maerz 2 987 994 2 902 810 März 3 567 944 3 326 530

April 2 943 067 2 925 162 April 3 406 344 3 301 603

Mai 2 853 582 2 950 263 Mai 3 241 529 3 277 963

Juni 2 838 697 2 978 570 Juni 3 153 300

Juli 3 015 946 3 003 160 Juli 3 191 800

August 2 990 366 3 025 980 August 3 188 122

September 2 894 374 3 054 762 September 3 031 354

Oktober 2 927 816 3 085 908 Oktober 2 945 491

November 2 971 093 3 117 679 November 2 931 170

Dezember 3 126 217 3 151 768 Dezember

⁞ ⁞ ⁞ ⁞

Page 26: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

26Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte

2000 000

2500 000

3000 000

3500 000

4000 000

4500 000

5000 000

5500 000

199

1

199

2

199

3

199

4

199

5

199

6

199

7

199

8

199

9

200

0

200

1

200

2

200

3

200

4

200

5

200

6

200

7

200

8

200

9

201

0

Registrierte Arbeitslose in Deutschland, Monatswerte

Originalwerte Glatte Komponente (Version 2)

Page 27: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

27Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte

BIP in Mrd €

Kalenderzeit tUrsprungs-

werte

Gleitender Durchschnitt

m = 2

2003 1.Vj 1 523,00

2.Vj 2 531,80

3.Vj 3 552,00 542,73

4.Vj 4 557,00 546,39

2004 1.Vj 5 537,20 549,34

2.Vj 6 546,90 551,60

3.Vj 7 560,50 552,88

4.Vj 8 566,60 554,40

2005 1.Vj 9 537,80 557,20

2.Vj 10 558,50 559,85

3.Vj 11 571,30 563,79

4.Vj 12 577,00 568,01

2006 1.Vj 13 558,90 572,00

2.Vj 14 571,20 577,48

3.Vj 15 590,50 584,04

4.Vj 16 601,60 590,83

2007 1.Vj 17 586,80 597,56

2.Vj 18 597,60

3.Vj 19 618,00

Bruttoinlandsprodukt (BIP)Quartalswerte (Mrd. Euro)

Deutschland

Berechnung des gleitenden Durchschnitts, beispielhaft für das dritte

Quartal 2004:

𝑥7 =12 ∙ 537,20 + 546,90 + 560,50 + 566,60 + 1

2 ∙ 537,80

4= 552,88

Page 28: Statistik I -8. Vorlesung · WISTA WIRTSCHAFTSSTATISTIK PROF. DR. ROLF HÜPEN FAKULTÄT FÜR WIRTSCHAFTSWISSENSCHAFT Seminar für Theoretische Wirtschaftslehre …

28Prof. Dr. Rolf Hüpen | Modul „Statistik I“ | Sommersemester 2013

Zeitreihenanalyse Glatte Komponente Methode der gleitenden Durchschnitte

460

480

500

520

540

560

580

600

620

640

1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj 1.Vj 2.Vj 3.Vj 4.Vj

2003 2004 2005 2006 2007

BIP

in

Mrd

. E

uro

Bruttoinlandsprodukt in Deutschland, Quartalswerte

Ursprungswerte Gleitender Durchschnitt (m = 2)

Beispiel Erwerbslose …