99

Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

  • Upload
    others

  • View
    88

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Die Parameterschätzung in

den GARCH-Modellen der

Finanzmathematik

Master-Arbeit

Philip Herriger

Mathematisches Institut

der

Heinrich-Heine-Universität Düsseldorf

Sommersemester 2008

Betreuung: Prof. Dr. A. Janssen

Page 2: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev
Page 3: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Einleitung

In den Anfängen der Finanzmathematik war es durchaus üblich anzunehmen, dass Preiszu-

wächse (Asset Returns) unabhängig, identisch verteilt und die Preisprozesse selbst dement-

sprechend Random-Walks seien. Darüberhinaus wurde vielfach auch eine Normalverteilung

unterstellt. Dies ging vor allem auf die Pionierarbeiten Louis Bacheliers zu Beginn des

20. Jahrhunderts zurück. So wird in den berühmten Arbeiten aus dem Jahr 1973 von

Black/Scholes und Merton zur Optionspreistheorie z.B. der Preisprozess durch eine geo-

metrische Brownsche Bewegung beschrieben, welche zu Logarithmischen-Zuwächsen mit

unabhängigen und identischen Normalverteilungen führt.

Kritik an diesen Annahmen setzte in den 60er Jahren des letzten Jahrhunderts ein, als

durch den Einsatz von Computern die Analyse und graphische Darstellung groÿer Daten-

mengen immer einfacher wurde. Inzwischen gelten sie als überkommen und man ist sich

einig, dass mit unabhängigen Preiszuwächsen und konstanten Volatilitäten eine angemes-

sene Modellierung der meisten Finanzdaten nicht möglich ist.

Einen groÿen Fortschritt auf dem Gebiet der Modellierung von Finanzzeitreihen erzielte

im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev zu GARCH

weiterentwickelt wurde. GARCH war in der Lage die meisten empirischen Erkenntnisse

über Preiszuwächse überzeugend umzusetzen und lieferte ein Modell zur Vorhersage der

uktuierenden Volatilitäten, wofür nach wie vor ein groÿes nanzwirtschaftliches Interesse

besteht. Engle's Leistung wurde 2003 mit dem Nobelpreis für Wirtschaftswissenschaften

gewürdigt.

Paragraph 1 dieser Arbeit ist recht technisch und führt die wichtigsten mathematischen

Begrie ein. Für den späteren Gebrauch beweisen wir die Ergodensätze von Birkho und

Kingman, sowie das Lemma von Guivarc'h & Raugi. In Paragraph 2 stellen wir dann

das GARCH-Modell und seine Entstehung vor. Wir geben dort einen Überblick über die

Phänomene, die man mit GARCH abzubilden versucht, und diskutieren anschlieÿend die

wichtigsten Eigenschaften von GARCH hinsichtlich dieser Vorgaben. Insbesondere gehen

wir hier beim Thema Heavy Tails kurz auf die Arbeit von Basrak, Davis & Mikosch [2]

Regular variation of GARCH processes ein. Sofern man mit den Begrien aus Paragraph

1 vertraut ist, bietet Paragraph 2 einen guten Einstieg für diese Arbeit. In Paragraph 3

beschäftigen wir uns mit Zufallsmatrizen und stochastischen Rekurrenz-Gleichungen, wel-

che das entscheidende Hilfsmittel zur mathematischen Analyse von GARCH darstellen.

Mit Hilfe des Ergodensatzes von Kingman beweisen wir ein starkes Gesetz der groÿen

i

Page 4: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

ii Einleitung

Zahlen für Zufallsmatrizen, das uns zu dem Begri des Top-Lyapunov-Exponenten einer

stochastischen Rekurrenz-Gleichung führt. In dem Beweis eines Satzes von Brandt zeigen

wir dann, dass die strikte Negativität des Top-Lyapunov-Exponenten die Lösbarkeit der

zugehörigen stochastischen Rekurrenz-Gleichung impliziert, was im Wesentlichen die erste

Hälfte des Existenzsatzes von Bougerol & Picard für GARCH-Zeitreihen darstellt. Für die

zweite Hälfte des Existenzsatzes benötigt man ein hinreichendes Kriterium für die strik-

te Negativität des Top-Lyapunov-Exponenten, worin der mathematisch aufwändigste Teil

dieser Arbeit besteht. Um dies herzuleiten, benutzen wir das Lemma Guivarc'h & Rau-

gi und müssen auf Beweis-Techniken der Arbeit Products of random matrices [18] von

Furstenberg & Kesten zurückgreifen. In Paragraph 4 erarbeiten wir dann die grundlegende

Mathematik des GARCH-Modells. Dadurch, dass man eine GARCH-Zeitreihe als Lösung

einer stochastischen Rekurrenz-Gleichung auasst, besteht der Beweis des Existenzsatzes

hier nur noch aus einer einfachen Anwendung der Resultate aus Paragraph 3. Eindeutig-

keit für GARCH-Zeitreihen beweisen wir dann allgemeiner als Bougerol & Picard in [7].

Neben den Ergebnissen von Bougerol & Picard aus [7] stellen wir auÿerdem in Paragraph 4

noch die Resultate von Berkes, Horváth & Kokoszka aus [4] GARCH processes: structureand estimation zur Struktur (vor allem Invertierbarkeit) von GARCH-Zeitreihen vor. In

Paragraph 5 diskutieren wir schlieÿlich die Parameterschätzung im GARCH-Modell. Wir

stellen das Quasi-Maximum-Likelihood Schätzverfahren für GARCH vor, für das sich un-

ter relativ schwachen Voraussetzungen starke Konsistenz und asymptotische Normalität

nachweisen lassen. Der Beweis dieser Eigenschaften wurde 2003 erstmals in der bereits

erwähnten Arbeit [4] von Berkes, Horváth & Kokoszka geführt.

Danksagung

An erster Stelle möchte ich Herrn Prof. Janssen danken, der mich den gröÿten Teil meines

Studiums begleitet und ausgebildet hat. Er war stets hilfsbereit und hat mich sehr unter-

stützt und gefördert. Das Arbeitsklima an seinem Lehrstuhl ist äuÿerst konstruktiv und

kollegial, und der Kontakt zwischen Studenten und seinem Team ist sehr persönlich und

intensiv, was sich unter anderem in den vielen mathematischen Diskussionen auÿerhalb des

Unterrichtes und den regelmäÿigen Semestertreen wiedergespiegelt hat.

Dann möchte ich mich natürlich bei meinen Eltern bedanken, die mich während meines

Studiums in jeder Hinsicht unterstützt haben.

Ganz besonderer Dank gilt schlieÿlich meiner Frau Barbara. Ihre Liebe gibt mir viel Kraft

und ihr möchte ich meine Arbeit widmen.

Page 5: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Inhaltsverzeichnis

1 Ergodentheoretische Grundlagen 1

1.1 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Stationarität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Birkho's Ergodensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.4 Kingman's Subadditiver Ergodensatz . . . . . . . . . . . . . . . . . . . . . . 6

1.4.1 Subadditive Ergodentheorie . . . . . . . . . . . . . . . . . . . . . . . 8

1.4.2 Die Beweise der Ergodensätze . . . . . . . . . . . . . . . . . . . . . . 13

1.5 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

1.6 Die ergodische Zerlegung eines invarianten W-Maÿes . . . . . . . . . . . . . 19

1.7 Rekurrenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.7.1 Der Rekurrenzsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.7.2 Das Lemma von Guivarc'h & Raugi . . . . . . . . . . . . . . . . . . 22

2 Das GARCH-Modell 25

2.1 Stilisierte Fakten über Finanz-Zeitreihen . . . . . . . . . . . . . . . . . . . . 25

2.1.1 Nicht-lineare Abhängigkeitsstrukturen . . . . . . . . . . . . . . . . . 27

2.1.2 Volatility Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.3 Der Leverage-Eekt . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

2.1.4 Schwere Flanken, Spitzigkeit und Asymmetrie . . . . . . . . . . . . . 29

2.2 GARCH und seine Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.3 Die Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

2.4 Kovarianzen im GARCH-Modell . . . . . . . . . . . . . . . . . . . . . . . . 35

2.4.1 Varianz und Kovarianz von GARCH . . . . . . . . . . . . . . . . . . 35

2.4.2 ARMA(max(p,q),q)-Form des quadrierten GARCH-Prozesses . . . . 36

2.5 Heavy Tails . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.6 Der Leverage-Eekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Zufallsmatrizen und Stochastische Rekurrenz-Gleichungen 43

3.1 Mathematische Vorbereitungen . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.1.1 Endlich-dimensionale normierte Räume . . . . . . . . . . . . . . . . 43

3.1.2 Unendliche Produkte metrischer Räume . . . . . . . . . . . . . . . . 44

3.1.3 Der Satz von Prochorov . . . . . . . . . . . . . . . . . . . . . . . . . 46

iii

Page 6: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

iv Inhaltsverzeichnis

3.2 Zufallsmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2.1 Matrix-Normen und Folgen von Zufallsmatrizen . . . . . . . . . . . . 47

3.2.2 Das starke Gesetz der groÿen Zahlen für Zufallsmatrizen . . . . . . . 49

3.2.3 Der Top-Lyapunov-Exponent . . . . . . . . . . . . . . . . . . . . . . 50

3.2.4 Eine Konstruktion von Furstenberg & Kesten . . . . . . . . . . . . . 51

3.3 Stochastische Rekurrenz-Gleichungen . . . . . . . . . . . . . . . . . . . . . . 55

4 Lösungen der GARCH-Gleichungen 61

4.1 Quadratisch-integrierbare Lösungen . . . . . . . . . . . . . . . . . . . . . . . 61

4.2 Stationäre und allgemeine Lösungen . . . . . . . . . . . . . . . . . . . . . . 63

4.2.1 GARCH als Lösung einer stochastischen Rekurrenz-Gleichung . . . . 63

4.2.2 Der Existenzsatz von Bougerol & Picard . . . . . . . . . . . . . . . . 65

4.2.3 Folgerungen aus dem Existenzsatz . . . . . . . . . . . . . . . . . . . 66

4.3 Eindeutigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.4 Die Struktur der stationären Lösungen . . . . . . . . . . . . . . . . . . . . . 73

4.4.1 Invertierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.4.2 Identizierbarkeit der Parameter . . . . . . . . . . . . . . . . . . . . 82

5 QML-Schätzer im GARCH-Modell 85

5.1 Die Quasi-Maximum-Likelihood Methode . . . . . . . . . . . . . . . . . . . 85

5.1.1 Die bedingte Dichte im GARCH-Modell . . . . . . . . . . . . . . . . 85

5.1.2 Quasi-Likelihoodfunktion und Parameterbereich . . . . . . . . . . . . 87

5.2 Starke Konsistenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.3 Asymptotische Normalität . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

Literaturverzeichnis 91

Erklärung 93

Page 7: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Paragraph 1

Ergodentheoretische Grundlagen

1.1 Stochastische Prozesse

Wesentlicher Gegenstand dieser Arbeit sind stochastische Prozesse mit diskretem Zeitho-

rizont J = Z (oder auch J = N0). Es sei (Ω,A, P ) ein Wahrscheinlichkeitsraum und (E, E)ein Messraum. Für eine beliebige Indexmenge J 6= ∅ verstehen wir unter einem E-wertigemstochastischen Prozess mit Zeithorizont J eine Zufallsvariable

X : (Ω,A) −→ (EJ , EJ).

Der Produktraum EJ ist formal gesehen die Menge aller Abbildungen f : J −→ E. Wir

fassen die Elemente von EJ jedoch als Familien (ej)j∈J auf, wobei ej das Bild von j ∈ Junter der betreenden Abbildung sei. Eine solche Familie (ej)j∈J interpretiert man als

einen möglichen Verlauf von Beobachtungen aus E zu den Zeitpunkten j ∈ J . Anstatt

(ej)j∈J schreiben wir auch einfach (ej) oder (et).Die Produkt-σ-Algebra EJ ist die kleinste σ-Algebra, so dass für alle j0 ∈ J die Projektion

πj0 : EJ −→ E, (ej) 7−→ ej0 messbar ist bezüglich E . Die Beobachtung zum Zeitpunkt

j ∈ J lässt sich daher mit der Zufallsvariable Xj = πj X beschreiben. Falls |J | = n und

eine Umbenennung der Zeitpunkte keine Rolle spielt, schreiben wir einfach En und En für

Produktraum bzw. Produkt-σ-Algebra.

Hat man umgekehrt eine Familie von Zufallsvariablen Xj : (Ω,A) −→ (E, E) für j ∈ J

gegeben, so führt dies auf natürliche Weise zu einem stochatischen Prozess im obigen Sinn,

indem man X : Ω −→ EJ , ω 7−→ (Xj(ω))j∈J betrachtet. Hiermit erklärt sich ebenfalls die

Wahl von EJ als σ-Algebra. Die Messbarkeit von X ist nämlich nur auf einem Erzeuger

von EJ , also für Ereignisse der Gestalt π−1j (A) mit A ∈ E und j ∈ J , zu überprüfen. Wegen

X−1(π−1j (A)

)= X−1

j (A) ist X dann somit A− EJ messbar.

Die Mengen der Form (πj1 , . . . , πjn)−1 (A1 × . . .×An) für alle n ∈ N, j1, . . . , jn ∈ J und

Ai ∈ E bilden einen ∩-stabilen Erzeuger von EJ , den wir mit EJfin bezeichnen. Somit

ist jedes Maÿ µ auf (EJ , EJ), das σ-endlich ist auf EJfin, eindeutig durch seine endlich di-

mensionalen Projektionen L ((πj1 , . . . , πjn)|µ) auf (En, En) bestimmt. Insbesondere ist also

auch die Verteilung eines Prozesses X durch die endlich dimensionalen Randverteilungen

1

Page 8: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2 Paragraph 1 - Grundlagen

L ((Xj1 , . . . , Xjn)|P ) eindeutig bestimmt.

Ist J = Z (oder J = N0), so sagen wir statt Prozess auch E-wertige Zeitreihe zu X. Im

Gegensatz zu überabzählbaren J gilt für Prozesse X und Y mit abzählbarem Zeitbereich

stets X = Y P -f.s. ⇐⇒ Xj = Yj P -f.s. für alle j ∈ J . Man muss an dieser Stelle also

nicht weiter unterscheiden.

1.2 Stationarität

Eine wichtige Eigenschaft von Prozessen ist die Invarianz der Verteilung gegenüber Ver-

schiebungen auf der Zeitskala. Sogenannte stationäre Zeitreihen besitzen den Vorteil, dass

sie mathematisch sehr viel handsamer sind. Andererseits stellt sich dafür die Frage, ob die

erhobenen Daten eine solche Modellannahme rechtfertigen. Von jetzt an sei stets J = Zoder J = N0. Mit

θ : EJ −→ EJ , (ej) 7−→ (ej+1)

bezeichnen wir den (Rückwärts-) Shift auf EJ . Die Shift Transformation lässt sich auch

durch die Eigenschaft πj (θ(x)) = πj+1(x) für alle x ∈ EJ und j ∈ J beschreiben. Wegen

θ−1(π−1j (A)

)= π−1

j+1(A) für alle j ∈ J und A ∈ E ist der Shift EJ − EJ messbar.

Sei nun (Ω,A, µ) ein beliebiger Maÿraum und T : (Ω,A) −→ (Ω,A) eine messbare Abbil-

dung. µ heiÿt T -invariant, falls µ = µT gilt. T nennt man in diesem Fall dann maÿerhaltendfür µ.

Denition 1.2.1 Ein Zeitreihe X heiÿt stationär, falls ihre Verteilung θ-invariant ist.

X ist genau dann stationär, wenn alle endlich dimensionalen Randverteilungen von X

(1.1) L ((Xj1 , . . . , Xjn)|P ) = L ((Xj1+1, . . . , Xjn+1)|P )

erfüllen. Man sieht dies, indem man Gleichung (1.1) umformt zu

(1.2) L((πj1 , . . . , πjn)|PX

)= L

((πj1 , . . . , πjn)|P θX

).

Die Stationarität von X ist per Denition gleichbedeutend mit PX = P θX . Da, wie

im vorherigen Abschnitt bereits erwähnt, ein W-Maÿ auf (EJ , EJ) eindeutig durch seine

endlich dimensionalen Projektionen bestimmt wird, ist PX = P θX äquivalent zu der

Gleichheit (1.2) für alle möglichen Wahlen von n ∈ N und j1, . . . , jn ∈ J .Folgert man induktiv mit Hilfe von Gleichung (1.1) weiter, so erhält man schlieÿlich, dass

X genau dann stationär ist, wenn für alle n ∈ N, j1, . . . , jn ∈ J und alle h ∈ N gilt

L ((Xj1 , . . . , Xjn)|P ) = L ((Xj1+h, . . . , Xjn+h)|P ) .

Das einfachste Beispiel einer stationären Zeitreihe ist eine Folge unabhängiger und identisch

verteilter Zufallsvariablen (Xj)j∈J . In diesem Fall sind die n-dimensionalen Randverteilun-

gen stets das n-fache Produktmaÿ der identischen Verteilung der Xj . Obige Überlegungen

zeigen dann, dass die Folge stationär ist.

Page 9: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.2 Stationarität 3

Im Mittelpunkt dieser Arbeit stehen vor allem nicht-unabhängige, stationäre Zeitreihenmo-

delle. Wir werden im Folgenden sehen, dass sich aus einer gegebenen stationären Zeitreihe

relativ einfach neue ebenfalls stationäre Zeitreihen ableiten lassen und hierdurch Abhängig-

keitsstrukturen geschaen werden können. I.i.d. Folgen von Zufallsvariablen dienen somit

gewissermaÿen als elementare Bausteine.

Der Shift ist eine surjektive Transformation (Abbildung). Im Fall J = Z ist θ sogar bijektiv

und wir können die Umkehrabbildung θ−1 als Vorwärts-Shift betrachten. Analog zu oben

überlegt man sich, dass θ−1 messbar ist bezüglich EJ und genau dann für PX maÿerhaltend

ist, wenn Gleichung 1.1 für alle Randverteilungen gilt. Für J = Z ist die θ-Invarianz von

PX also wie zu erwarten äquivalent zu der θ−1-Invarianz.

Proposition 1.2.2 Es sei X eine E-wertige, stationäre Zeitreihe mit Zeithorizont J undf : (EJ , EJ) −→ (F,F) eine messbare Abbildung. Der Prozess Y sei deniert durch Yt :=f θt X mit t ∈ N0. Dann gilt, dass Y eine stationäre Zeitreihe ist.Im Fall J = Z bleibt die Aussage auch richtig, wenn man Yt := f θt X mit Zeitbereicht ∈ Z deniert oder auch für Yt := f θ−t X mit t ∈ Z oder t ∈ N0.

Beweis. Es gilt Y = h X mit h : (EJ , EJ) −→ (FN0 ,FN0) und h(x) =(f θt(x)

)t∈N0

.

Es seien θ der Shift und πt die Projektionen für (FN0 ,FN0). Per Denition vom Shift und

h gilt für alle t ∈ N0

πt

(θ h(x)

)= πt+1(h(x)) = f θt+1(x) = πt (h θ(x)) .

Hieraus folgt für alle x ∈ EJ

(1.3) θ h(x) = h θ(x)

und man erhält L(θ Y |P ) = L(h|P θX) = L(h|PX) = L(Y |P ). Für J = Z ist θ in-

vertierbar und h lässt sich auch für t ∈ Z denieren. Der Beweis geht dann analog

man beachte lediglich, dass für den Fall h(x) =(f θ−t(x)

)tanstatt (1.3) die Gleichung

θ h(x) = h θ−1(x) gilt und man die θ−1-Invarianz von L(X|P ) ausnutzen muss.

In der Zeitreihenanalyse werden klassischerweise die linearen Abhängigkeitsstrukturen ei-

ner reellen (oder auch komplexen) Zeitreihe untersucht. Hierfür spielt die Kovarianz bzw.

der Korrelationskoezient als Maÿ für die lineare Abhängigkeit einzelner Beobachtungen

eine wichtige Rolle und es wird darauf aufbauend ein weiterer Begri der Stationarität

gebildet.

Denition 1.2.3 Eine reelle Zeitreihe X heiÿt schwach stationär, falls Xt ∈ L2(P ), sowieE(Xt) = E(Xs) und Cov(Xt, Xs) = Cov(Xt+1, Xs+1) für alle t, s ∈ J gilt.

Man überlegt sich leicht, dass für reelle L2-Zeitreihen aus der Stationarität die schwache

Stationarität folgt. Wir werden später sehen, dass für das GARCH-Modell der Begri der

schwachen Stationarität eher unwichtig ist.

Page 10: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4 Paragraph 1 - Grundlagen

1.3 Birkho's Ergodensatz

Der Ergodensatz ist eine nützliche Verallgemeinerung des starken Gesetzes der groÿen

Zahlen, womit sich auch für nicht-unabhängige Zufallsvariablen eine entsprechende Aussage

herleiten lässt. Es sei (Ω,A, µ) ein Maÿraum und T : (Ω,A) −→ (Ω,A) eine meÿbare

Abbildung. Eine Menge A ⊆ Ω heiÿt T -invariant, falls T−1(A) = A gilt. Da die Bildung

der Urbildmenge mit den Mengenoperationen Vereinigung und Komplement verträglich

ist, sieht man leicht, dass die T -invarianten Mengen eine σ-Algebra bilden. Schneiden wir

diese mit A, so erhalten wir die σ-Algebra der meÿbaren, T -invarianten Mengen, die wir

mit A inv(T ) bezeichnen.

Denition 1.3.1 Eine für µ maÿerhaltende Transformation T heiÿt ergodisch genau dann,wenn µ(A) = 0 oder µ(Ac) = 0 für alle A ∈ A inv(T ) gilt.

Wir wollen später den Ergodensatz vor allem auf Prozesse anwenden und werden uns in

der Situation (Ω,A, µ) = (EJ , EJ , PX) mit einer stationären Zeitreihe X benden. Als

maÿerhaltende Transformation T werden wir dann den Shift θ nehmen. Anstelle von θ

werden wir in diesem Zusammenhang auch einfach X als ergodisch bezeichnen.

Lemma 1.3.2 Ist T ergodisch und ϕ : (Ω,A) −→ (R,B(R)) eine A inv(T )-messbare Funk-tion, so ist ϕ µ-f.ü. konstant.

Beweis. Sei D die Menge aller y ∈ R mit µ(ϕ > y) > 0 und c := supD. Ist c = −∞, so

folgt sofort ϕ = c µ-f.ü.. Für c > −∞ gilt ϕ ≤ c µ-f.ü., denn für c ∈ R und n ∈ N haben

wir µ(ϕ > c + 1n) = 0 und somit µ(ϕ > c) = µ

(⋃∞n=1ϕ > c+ 1

n)

= 0. Der Fall c = ∞ist hier trivial. Insbesondere gilt also auch c /∈ D und wir können yn ∈ D mit yn < c und

yn −→ c für n→∞ auswählen. Da T ergodisch ist, folgt µ(ϕ ≤ yn) = 0 für alle n und wir

erhalten µ(ϕ < c) = µ (⋃∞n=1ϕ ≤ yn) = 0, also ϕ ≥ c µ-f.ü. und somit ϕ = c µ-f.ü..

Theorem 1.3.3 (Birkho's Ergodensatz) Es sei T eine maÿerhaltende Transformati-on des Maÿraumes (Ω,A, µ) und f ∈ L1(Ω,A, µ). Dann gilt

(1.4) limn→∞

1n

n−1∑k=0

f T k = ϕ µ-f.ü.,

wobei ϕ eine A inv(T )-messbare Funktion mit ‖ϕ‖1 ≤ ‖f‖1 ist. Für µ(Ω) <∞ und f ∈ Lp

mit 1 ≤ p <∞ gilt die Konvergenz in (1.4) auch bezüglich der Lp-Norm.

Der Beweis wird später zusammen mit dem Beweis von Kingman's Subadditiven Ergoden-

satz geführt. Haben wir einen Maÿraum (Ω,A, µ) und eine Teil-σ-Algebra F ⊆ A gegeben,

so dass µ|F σ-endlich ist, können wir für nicht-negative f : (Ω,A) −→ (R,B(R)) den be-dingten E-Wert Eµ(f |F) µ|F -f.ü. eindeutig als Radon-Nikodym-Ableitung d (fµ)|F/d µ|Fdenieren. Ist f nicht-negativ und integrierbar, so ist Eµ(f |F) integrierbar und somit

µ|F -f.ü. reell. Somit lässt sich durch Eµ(f |F) := Eµ(f+|F) − Eµ(f−|F) die Denition

des bedingten Erwartungswertes auf integrierbare f erweitern. Aus dieser Deniton folgt

Page 11: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.3 Birkhoff's Ergodensatz 5

leicht, dass∫1AEµ(f |F) dµ =

∫1Af dµ für alle A ∈ F gilt. Eµ(f |F) wird durch diese Ei-

genschaft und die F-Messbarkeit µ|F -f.ü. eindeutig bestimmt. Ist µ endlich, so ist Eµ(f |F)also stets wohldeniert und wir erhalten folgendes Korollar zu Theorem 1.3.3.

Korollar 1.3.4 Es sei T eine maÿerhaltende Transformation von (Ω,A, µ), µ(Ω) < ∞und f ∈ L1(Ω,A, µ). Dann gilt

limn→∞

1n

n−1∑k=0

f T k = Eµ(f |A inv(T )).

Beweis. Es sei A ∈ A inv(T ). Dann gilt 1A = 1A(T k) für alle k ∈ N0. Wir erhalten somit

(1.5)∫1A

(1n

n−1∑k=0

f(T k)

)dµ =

1n

n−1∑k=0

∫1A(T k)f(T k) dµ =

∫1Af dµ,

wobei die letzte Gleichung mit Hilfe des Transformationssatzes und der T -Invarianz von µ

folgt. Setzen wir An(f) := 1n

∑n−1k=0 f(T k), so ist also Eµ(1AAn(f)) = Eµ(1Af) für alle n.

Nach Theorem 1.3.3 gilt ‖An(f) − ϕ‖1 −→ 0. Es folgt Eµ(1AAn(f)) −→ Eµ(1Aϕ), wasmit (1.5) schlieÿlich zu Eµ(1Af) = Eµ(1Aϕ) führt. Aus der A inv(T )-Messbarkeit von ϕ

folgt dann ϕ = Eµ(f |A inv(T )).

Das einfachste Beispiel einer ergodischen Zeitreihe ist wie bei der Stationarität eine Folge

von i.i.d. Zufallsvariablen (Xj)j∈J . Wir wissen hier bereits, dass θ maÿerhaltend ist für

PX . Für J = N0 lässt sich die Ergodizität von θ relativ einfach aus dem 0 − 1 Gesetz

von Kolmogorov folgern. Die Projektionen (πj)j≥0 sind unabhängig und für A ∈ EN0 gilt

A ∈ σ(π0, π1, . . . ), θ−1(A) ∈ σ(π1, π2, . . . ), θ−1(θ−1(A)) ∈ σ(π2, π3, . . . ) und so fort. Liegt

A in EJinv(θ), so folgt A ∈⋂n∈N0

σ(πn, πn+1, . . . ) und A ist terminal. Nach dem 0 − 1Gesetz gilt dann PX(A) = 1 oder PX(A) = 0 und θ ist ergodisch. Der Fall J = Z ist

etwas komplizierter. Die θ-invarianten, meÿbaren Mengen sind hier zumindestens nicht in

naheliegenderweise terminal, aber ähnlich wie beim 0 − 1 Gesetz von Kolmogorov lässt

sich zeigen, dass sie von sich selbst unabhängig sind. Für alle A,B ∈ EJfin folgt aus der

Unabhänigkeit der Projektionen und der θ-Invarianz von PX

(1.6) limn→∞

PX(A ∩ θ−n(B)

)= PX(A)PX(B).

Hält man nun ein A ∈ EJfin fest, so bildet die Menge DA aller B ∈ EJ , die (1.6) zusammen

mit A erfüllen, ein Dynkin-System, das EJfin enthält. Warum DA genau ein Dynkin-System

bildet, werden wir später in einer ähnlichen Situation noch etwas genauer erläutern (siehe

Lemma 1.6.1). Wegen D(EJfin) = σ(EJfin) (vgl. Elstrodt [14] I. Satz 6.7) gilt dann (1.6)

für alle A ∈ EJfin und B ∈ EJ . Wiederholt man dieses Argument bei festem B ∈ EJ , sogilt (1.6) schlieÿlich für alle A,B ∈ EJ . Es folgt also EJ⊥⊥ EJinv(θ) und E

Jinv(θ) ist P

X -f.s.

trivial. Erfüllt eine maÿerhaltende Transformation T von (Ω,A, µ) Eigenschaft (1.6) für

alle A,B ∈ A mit T anstelle von θ und µ anstelle von PX , so nennt man T auch mixing.Ebenfalls in Analogie zur Stationarität betrachten wir i.i.d. Folgen von Zufallsvariablen als

elementare Bausteine, um aus ihnen weitere ergodische Zeitreihen abzuleiten.

Page 12: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

6 Paragraph 1 - Grundlagen

Proposition 1.3.5 Es sei X eine E-wertige, stationäre und ergodische Zeitreihe mit Zeit-horizont J und f : (EJ , EJ) −→ (F,F) eine messbare Abbildung. Der Prozess Y sei de-niert durch Yt := f θt X für t ∈ N0. Dann gilt, dass Y stationär und ergodisch ist.Im Fall J = Z bleibt die Aussage auch richtig, wenn man Yt := f θt X mit Zeitbereicht ∈ Z deniert oder auch für Yt := f θ−t X mit t ∈ N0 oder t ∈ Z.

Beweis. Wir wählen die gleichen Bezeichnungen wie im Beweis zu Proposition 1.2.2. Die

Stationarität von Y haben wir dort bereits gezeigt. Ebenso wissen wir, dass in dieser

Situation Gleichung (1.3) gültig ist. Ist A ∈ FN0

inv(θ), so folgt h−1(A) ∈ EJinv(θ), denn es gilt

θ−1(h−1(A)

)= (h θ)−1 (A)

(1.3)=(θ h

)−1(A) = h−1

(θ−1(A)

)= h−1(A).

Aus P Y (A) = PX(h−1(A)) und der Ergodizität vonX folgt so P Y (A) = 0 oder P Y (A) = 1.Den Zusatz für J = Z beweist man wieder analog (vgl. Proposition 1.2.2) für h(x) =(f θ−t(x)

)tbeachte man neben der anderen Form von (1.3), dass θ- und θ−1-Invarianz

von Mengen äquivalent ist.

1.4 Kingman's Subadditiver Ergodensatz

Der Subadditive Ergodensatz ist eine Verallgemeinerung des Ergodensatzes aus dem vor-

herigen Abschnitt. Wir werden den Subadditiven Ergodensatz verwenden, um ein starkes

Gesetz der groÿen Zahlen für Zufallsmatrizen in Paragraph 3 zu beweisen. Das dortige Re-

sultat lässt sich allerdings auch anderweitig herleiten, worauf wir in einem anderen Zusam-

menhang noch eingehen werden müssen. In gewisser Weise bedeutet dies für uns doppelte

Arbeit und ist inezient. Andererseits benötigen wir Birkho's Ergodensatz ohnehin und

die Beweise beider Ergodensätze greifen auf ähnliche Resultate zurück. Auÿerdem ist King-

man's Theorem auch für sich gesehen interessant und der Beweis in Paragraph 3 wird damit

besonders einfach und elegant. Die wesentlichen Ideen dieses Abschnittes sind den Büchern

von Krengel [25] (Seite 7-10 und 35-38) und Dudley [13] (Seite 267-272 und 374-381) ent-

nommen. Im Folgenden sei stets (Ω,A, µ) ein Maÿraum und T : (Ω,A) −→ (Ω,A) eine

maÿerhaltende Transformation. Sofern nichts anderes gesagt wird, sollen alle Gleichungen

und Ungleichungen, die A-messbare Abbildungen betreen, µ-f.ü. verstanden werden.

Denition 1.4.1 Sei F = (fn)n∈N eine Folge von Funktionen fn : (Ω,A) −→ (R,B(R)).Dann heiÿt F superadditiv, falls für alle n ∈ N die Negativteile f−n integrierbar sind und

(1.7) fn+m ≥ fn + fm Tn µ-f.ü.

für alle n,m ∈ N gilt. F heiÿt subadditiv, falls −F superadditiv ist. F heiÿt additiv, fallsF sowohl super- als auch subadditiv ist.

Weiter denieren wir γ(F ) := supn−1∫fn dµ | n ∈ N für superadditive F und γ(F ) :=

infn−1∫fn dµ | n ∈ N für subadditive F .

Page 13: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.4 Kingman's Subadditiver Ergodensatz 7

Sind F = (fn)n∈N und G = (gn)n∈N Funktionen-Folgen, so verwenden wir (auch in obiger

Denition) folgende Bezeichnungen: F +G := (fn+gn)n∈N, aF := (afn)n∈N für a ∈ R und

F T := (fnT )n∈N. Gibt es eine Eigenschaft, die wir allen fn zuschreiben wollen, so sagen

wir auch, dass F diese Eigenschaft besitzt (z.B. F integrierbar anstatt fn integrierbar

für alle n). Ist f−n integrierbar, so folgt fn > −∞. Eine superadditive Folge F nimmt

also µ-f.ü. nur Werte in (−∞,∞] an, wo die Addition zweier Zahlen wohldeniert ist und

sich assoziativ verhält. Insbesondere ist Ungleichung (1.7) somit sinnvoll und man kann

bedenkenlos Summen bilden. Hinsichtlich der Subtraktion muss man allerdings aufpassen.

Ist F eine Folge mit Bildbereichen (−∞,∞], die (1.7) erfüllt, so schliessen wir induktiv

auf fn ≥∑n−1

j=0 f1 T j . Für beliebige Funktionen g, h : Ω −→ R gilt (g + h)− ≤ g− + h−,

sowie g ≤ h =⇒ h− ≤ g− und es folgt

(1.8) f−n ≤n−1∑j=0

f−1 Tj .

Somit impliziert∫f−1 dµ <∞mit Hilfe des Transformationssatzes und der T -Invarianz von

µ, dass die ganze Folge F integrierbare Negativteile besitzt. Entsprechendes gilt auch für

subadditive Folgen. Insbesondere reicht es hier, die Integrierbarkeit von f+1 zu fordern. Für

additive Folgen F gilt in (1.7) Gleichheit und man sieht ebenso induktiv, dass jedes additive

F die Gestalt fn =∑n−1

j=0 f1 T j besitzt. Umgekehrt erfüllt auch jede Folge F von dieser

Gestalt die Gleichheit in (1.7). Per Denition ist eine additive Folge F integrierbar und

somit µ-f.ü. reellwertig. Es folgt erneut mit Hilfe der T -Invarianz von µ, dass∫n−1fn dµ =∫

f1 dµ für alle n ∈ N gilt und wir erhalten γ(F ) =∫f1 dµ. Die Denition von γ(F )

ist somit konsistent. Additive Funktionen-Folgen lassen sich mit Birkho's Ergodensatz

behandeln. Wir wollen diese Theorie nun auf subadditive und superadditive F ausdehnen.

Theorem 1.4.2 (Kingman) a) Es sei F subadditiv mit γ(F ) > −∞. Dann konvergiertn−1fn µ-f.ü. gegen eine integrierbare Funktion ϕ : (Ω,A inv(T )) −→ (R,B(R)).b) Ist µ(Ω) < ∞, so ist die Voraussetzung γ(F ) > −∞ in (a) verzichtbar. Es ist dannlediglich ϕ+ integrierbar und es gilt

∫ϕdµ = γ(F ).

c) Gilt sowohl µ(Ω) < ∞ als auch γ(F ) > −∞, so sind F und ϕ integrierbar und manerhält zusätzlich ‖n−1fn − ϕ‖1 −→ 0, sowie

∫ϕdµ = γ(F ).

Klassischerweise werden mit Kingman's Theorem subadditive Dreicks-Schemata von Zu-

fallsvariablen wie z.B. in [23] oder [25] behandelt. Den Begri einer subadditiven Funktionen-

Folge haben wir dem Buch von Dudley [13] entnommen - wir nden den Begri übersichtli-

cher und er ist in seinen wesentlichen Eigenschaften zu dem klassischen Ansatz äquivalent

(vgl. Dudley [13] 10.7 Problem 5 und 6). Eine Übersicht möglicher Anwendungen von

Theorem 1.4.2, sowie verschiedene Kommentare zu dem Thema ndet man in [23].

Bemerkung 1.4.3 Ist F subadditiv mit γ(F ) > −∞ bzw. superadditiv mit γ(F ) <∞, sofolgt unmittelbar, dass F integrierbar ist. Insbesondere ist F somit µ-f.ü. reellwertig undwir wollen für den Rest dieses Abschnittes festhalten, dass in dieser Situatiuon keine der

Page 14: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

8 Paragraph 1 - Grundlagen

oben erwähnten Schwierigkeiten mit dem Rechnen in R auftreten können.

Für eine beliebige Folge (an)n∈N in R gilt stets supn∈N an = − infn∈N−an. Eine Folge F ist

daher genau dann subadditiv mit γ(F ) > −∞, wenn −F superadditiv mit γ(−F ) <∞ ist.

Der Subadditive Ergodensatz lässt sich somit auch äquivalent für superadditive Folgen F

mit γ(F ) <∞ formulieren, wobei in Teil (b) dann ϕ− integrierbar ist. Es scheint üblich zu

sein, die Aussagen von Theorem 1.4.2 für superadditive Folgen F zu beweisen. Wir werden

auch so vorgehen. Zunächst müssen wir jedoch noch einige Vorbereitungen treen.

1.4.1 Subadditive Ergodentheorie

Lemma 1.4.4 Es sei F superadditiv. Dann gelten folgende Aussagen:a) Es sei H die additive Folge hn := −

∑n−1j=0 f

−1 T j. Dann ist G := F −H eine nicht-

negative, superadditive Folge mit hn ≤ fn ≤ gn und es gilt γ(G) = γ(F ) +∫f−1 dµ.

b) Ist f1 integrierbar und H die additive Folge hn :=∑n−1

j=0 f1 T j, so ist G := F − Hebenfalls nicht-negativ und superadditiv mit γ(G) = γ(F )−

∫f1 dµ.

Beweis. (a) SindK und J beliebige superadditive Folgen, so besitzt, wegen der oben schon

erwähnten Ungleichung (kn+jn)− ≤ k−n +j−n , die FolgeK+J integrierbare Negativteile und

man überlegt sich leicht, dass K+J superadditiv ist. Setzen wir gn := fn +∑n−1

j=0 f−1 T j ,

so ist G also als Summe einer superadditiven und einer additiven Folge selbst superadditiv

und es gilt trivialerweise gn ≥ fn. Die Aussage gn ≥ 0 ist äquivalent zu hn ≤ fn, was

äquivalent zu∑n−1

j=0 f−1 T j ≥ −fn ist. Diese letzte Ungleichung ist aber äquivalent zu

(1.8), was wir schon gezeigt haben.

Da −n−1∑n−1

j=0 f−1 T j und n−1gn jeweils integrierbare Negativteile besitzen, verhält

sich für diese beiden Abbildungen die Integration additiv und wir erhalten∫n−1fn dµ =∫

n−1gn dµ−∫f−1 dµ, woraus γ(G) = γ(F ) +

∫f−1 dµ folgt.

(b) Der Beweis geht analog. gn ≥ 0 ist hier äquivalent zu fn ≥∑n−1

j=0 f1 T j , was induktivaus (1.7) und der Denition von Superadditivität folgt.

Eine Funktion f : (Ω,A) −→ (R,B(R)) nennen wir T -invariant, falls f(ω) = f T (ω) füralle ω ∈ Ω gilt. Für A ∈ B(R) gilt dann f−1(A) = T−1(f−1(A)) und es folgt unmittelbar,

dass f messbar ist bezüglich A inv(T ). Es gilt auch die Umkehrung. Man sieht dies mit

folgendem Umkehrschluss. Angenommen f sei nicht T -invariant und es gilt f(ω) 6= f(T (ω))für ein ω ∈ Ω. Ohne Einschränkung sei f(ω) > f(T (ω)). Dann existiert ein a ∈ R mit

f(ω) > a ≥ f(T (ω)) und es folgt ω ∈ f > a und ω /∈ T−1(f > a) - also f > a 6=T−1(f > a). f ist somit dann nicht A inv(T )-messbar.

Wir wollen im Folgenden zeigen, dass von µ-f.ü. T -invarianten Funktionen stets eine T -

invariante - und damit A inv(T )-messbare - Version existiert.

Proposition 1.4.5 Ist f : (Ω,A) −→ (R,B(R)) eine Funktion mit f = f T µ-f.ü., soexistiert eine T -invariante Funktion f mit µ(f 6= f) = 0.

Beweis. Es sei A := f = f T und A0 :=⋂∞m=0 T

−m(A). Weiter denieren wir für n ∈ N

Page 15: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.4 Kingman's Subadditiver Ergodensatz 9

induktiv An := T−1(An−1) \ (A0 ∪ . . . ∪An−1) und A∗ :=∑∞

n=0An. Für alle n ∈ N0 folgt

dann T−1(An) ⊆ A0∪. . .∪An+1 und wir erhalten T−1(A∗) ⊆ A∗. Weiter giltA0 ⊆ T−1(A0),sowie An ⊆ T−1(An−1) für alle n ∈ N, woraus A∗ ⊆ T−1(A∗) folgt. A∗ ist also eine T -

invariante Menge. Wir setzen nun f :=∑∞

n=0 1Anf Tn. Dann gilt f = f µ-f.ü., denn auf

der Menge A0 gilt f = f und es ist µ(Ac0) ≤∑∞

n=0 µ [(T−n(A))c] =∑∞

n=0 µ [T−n(Ac)] = 0,wegen µ(Ac) = 0 und der T -Invarianz von µ. Es bleibt die T -Invarianz von f zu zeigen.

Auf Grund der T -Invarianz von A∗ gilt f = 0 = f T auf der Menge (A∗)c und wegen

A0 ⊆ A, sowie A0 ⊆ T−1(A0) erhalten wir f = f T auf A0. Ist ω ∈ An für n ∈ N, so gilt

f(ω) = f Tn(ω) und wegen T (ω) ∈ An−1 folgt f(T (ω)) = f Tn−1(T (ω)) = f(ω).

Theorem 1.4.6 (maximal ergodic theorem) Es sei F eine subadditive Folge undEn :=

(max1≤k≤n

1kfk)≥ 0, sowie E∞ :=

⋃∞n=1En. Dann gilt∫

En

f1 dµ ≥ 0 und∫E∞

f1 dµ ≥ 0.

Beweis. Zunächst stellen wir fest, dass En = (max1≤k≤n fk) ≥ 0 gilt. Für beliebige

Funktionen gk : Ω −→ R gilt (max1≤k≤n gk)+ =

(max1≤k≤n g

+k

). Da F nach Voraus-

setzung integrierbare Positivteile hat, folgt, dass die Funktionen 1En (max1≤k≤n fk) =(max1≤k≤n fk)

+ und (max1≤k≤n fk T )+ integrierbar sind. Insbesondere ist also auch

(max1≤k≤n fk T )+ µ-f.ü. reellwertig. Es gilt (max1≤k≤n fk)+ ≥ fj für j = 1, . . . , n, wor-

aus f1 + (max1≤k≤n fk T )+ ≥ f1 + fj T folgt. Auf Grund der Subadditivität von F

haben wir f1 + fj T ≥ fj+1, was insgesammt zu f1 ≥ fj+1 − (max1≤k≤n fk T )+ für

j = 1, . . . , n führt. Da trivialerweise auch f1 ≥ f1 − (max1≤k≤n fk T )+ gilt, erhalten wir

schlieÿlich

(1.9) f1 ≥(

max1≤k≤n

fk

)−(

max1≤k≤n

fk T)+

.

Es folgt nun∫En

f1 dµ(1.9)

≥∫En

(max

1≤k≤nfk

)−(

max1≤k≤n

fk T)+

=∫

Ω

(max

1≤k≤nfk

)+

dµ−∫En

(max

1≤k≤nfk T

)+

≥∫

Ω

(max

1≤k≤nfk

)+

dµ−∫

Ω

(max

1≤k≤nfk T

)+

dµ = 0,

wobei die letzte Gleichheit gilt, da T maÿerhaltend für µ ist. Um die zweite im Theorem

behauptete Ungleichung zu beweisen, beachte man, dass En ⊆ En+1 für alle n ∈ N und

somit 1En ↑ 1E∞ gilt. Aus∫1Enf1 dµ ≥ 0 folgt

∫1Enf

+1 dµ ≥

∫1Enf

−1 dµ für alle n.

Der Satz von der monotonen Konvergenz führt nun zu∫1E∞f

+1 dµ ≥

∫1E∞f

−1 dµ. Da

f+1 nach Voraussetzung integrierbar ist, ist somit auch 1E∞f1 integrierbar und es folgt∫1E∞f1 dµ ≥ 0.

Page 16: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

10 Paragraph 1 - Grundlagen

Theorem 1.4.7 (Akcoglu-Krengel) Es sei F eine additive Folge oder eine nicht-negative,superadditive Folge mit γ(F ) <∞. Auÿerdem setzen wir E :=

(supn∈N

1nfn

)> a

für ein

a > 0. Dann gilt µ(E) ≤ a−1‖f1‖1 für additives F und µ(E) ≤ a−1γ(F ) im Fall von einemnicht-negativen, superadditiven F .

Beweis. Für ein festes N ∈ N sei EN :=(

max1≤k≤N1kfk)> a

. Weiter sei K > N eine

ebenfalls zunächst fest gewählte ganze Zahl und wir denieren für jedes ω ∈ ΩA(ω) := k ∈ N0 | 0 ≤ k < K −N, T k(ω) ∈ EN. Auÿerdem sei D =

⋃K−N−1k=0 T k ∈ EN

die Menge der ω ∈ Ω, für die A(ω) 6= ∅ gilt.Es sei v0 := 0. Wir denieren nun induktiv für i = 1, . . . ,K −N

ki := vi−1 +K−N−1−vi−1∑

j=1

j · 1T vi−1 /∈ EN , . . . , T vi−1+j−1 /∈ EN , T vi−1+j ∈ EN

ni :=N∑j=1

j · 1f1 T ki ≤ a, f2 T ki ≤ 2a, . . . , fj−1 T ki ≤ (j − 1)a, fj T ki > ja

und vi := ki + ni. Alle Abbildungen sind dann messbar. Auf der Menge D ist k1(ω) das

kleinste Element von A(ω). Auf Grund der Denition von EN und wegen T k1(ω)(ω) ∈ ENexistiert ein j ∈ 1, . . . , N mit fj T k1(ω)(ω) > ja. Als das kleinste solche j ist n1(ω)deniert. Weiter ist nun k2(ω) das kleinste Element von A(ω), das k2(ω) ≥ k1(ω) + n1(ω)erfüllt, und n2(ω) wird entsprechend wieder derart gewählt, dass fn2(ω) T k2(ω)(ω) >

jn2(ω) gilt und so fort. Nach endlich vielen Schritten r ∈ 1, . . . ,K −N wird die Menge

A(ω) ∩ [vr(ω),∞[ erstmals leer sein. Wir denieren dieses r nun ebenfalls als messbare

Abbildung in Abhängigkeit von ω ∈ Ω durch r :=∑K−N

j=1 j · 1Bj mit

Bj :=

(T vj /∈ EN , . . . , TK−N−1 /∈ EN ) ∨ (vj ≥ K −N)∩vj−1 < K −N,T kj ∈ EN

.

Man beachte, dass T ki(ω)(ω) ∈ EN und somit ni(ω) ≥ 1 für alle i = 1, . . . , r(ω) und ω ∈ Dgilt. Wir erhalten somit für alle ω ∈ D:

(1) 0 ≤ k1 < k1 + n1 ≤ k2 < k2 + n2 ≤ . . . ≤ kr < kr + nr < K

(2) fni T ki > ani für i = 1, . . . , r

(3) A ⊆r⋃i=1

[ki, ki + ni[

Ist F nun superadditiv und nicht-negativ, so folgt wegen fn+1 ≥ fn + f1 Tn für alle n,

dass F monoton wachsend ist. Für jede Sequenz von natürlichen Zahlen ki und ni wie in

(1) gilt auÿerdem auf Grund der Superadditivität∑r

i=1(fki+ni − fki) ≥∑r

i=1 fni T ki .Mit Hilfe der Monotonie von F und den Ungleichungen in (1) schliessen wir hieraus auf

fkr+nr − fkr +∑r−1

i=1 (fki+1− fki) ≥

∑ri=1 fni T ki und erhalten letztlich durch Auösung

der Teleskopsumme fK ≥ fkr+nr − fk1 ≥∑r

i=1 fni T ki .Da es bei festem K höchstens endlich viele Sequenzen der Gestalt (1) geben kann, gilt die

Page 17: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.4 Kingman's Subadditiver Ergodensatz 11

gerade abgeleitete Ungleichung µ-f.ü. für alle Sequenzen der Gestalt (1) gleichzeitig und

wir erhalten fK(ω) ≥∑r(ω)

i=1 fni(ω) T ki(ω)(ω) für µ-f.a. ω ∈ D. Auÿerdem gilt

r(ω)∑i=1

fni(ω) T ki(ω)(ω)(2)> a ·

r(ω)∑i=1

ni(ω)(3)

≥ a · |A(ω)|

für alle ω ∈ D und wir erhalten schluÿendlich fK(ω) ≥ a · |A(ω)| für µ-f.a. ω ∈ Ω (man

beachte: A(ω) = ∅ für ω ∈ Dc). Integrieren wir nun, so führt dies zu∫fKK

dµ ≥∫

a

K· |A(ω)| dµ =

a

K·∫ K−N−1∑

k=0

1EN (T k) dµ = a · (K −N)K

· µ(EN ),

wobei die letzte Gleichung auf Grund des Transformationssatzes und der T -Invarianz von

µ gilt. Betrachten wir K → ∞, so erhalten wir γ(F ) ≥ a · µ(EN ). Wegen EN ↑ E folgt

µ(EN )→ µ(E) für N →∞ und es gilt γ(F ) ≥ a · µ(E).Der Beweis für ein additives F geht vollkommen analog. Wir haben lediglich zu beachten,

dass hier auf Grund der Additivität fni T ki =∑ki+ni−1

j=kif1 T j gilt und Sequenzen der

Gestalt (1) somit zu einer Abschätzung∑K−1

j=0 |f1 T j | ≥∑r

i=1 fni T ki führen (anstatt

fK ≥∑r

i=1 fni T ki). Teilt man die linke Seite dieser Ungleichung durch K und integriert,

so führt diese gerade zu ‖f1‖1.

Theorem 1.4.7 wird für additive F auch maximal ergodic inequality genannt.

Denition 1.4.8 Es sei F eine Funktionen-Folge. Dann denieren wir

f∗ := lim supn→∞

fnn

und f∗ := lim infn→∞

fnn.

Wir wollen an dieser Stelle an ein paar Rechenregeln im Umgang mit Limes superior und

Limes inferior erinnern, die wir im Folgenden nutzen werden.

Lemma 1.4.9 Sind (an)n∈N und (bn)n∈N Folgen in R, so gilt:a) lim infn→∞ an ≤ lim supn→∞ an.b) lim supn→∞ an = − lim infn→∞−an.c) Ist an ≤ bn für alle bis auf endlich viele n, so gilt lim supn→∞ an ≤ lim supn→∞ bn.d) Konvergiert (bn)n∈N gegen b ∈ R, so gilt lim supn→∞(an + bn) = (lim supn→∞ an) + b.e) Konvergiert (bn)n∈N gegen b ∈ (0,∞), so gilt lim supn→∞(anbn) = (lim supn→∞ an) · b.Die Regeln (c)-(e) gelten genauso auch für den Limes inferior.

Wir führen hierzu keinen Beweis.

Lemma 1.4.10 Es sei F superadditiv mit γ(F ) <∞. Dann gilt:a) Für alle a > 0 gilt µ(a < f∗) <∞ und µ(f∗ < −a) <∞.b) f∗ und f∗ sind µ-f.ü. T -invariant.

Beweis. (a) Wir wählen zu F die Folgen G und H aus Lemma 1.4.4 (a). Wegen F ≤ G

erhalten wir dann mit Lemma 1.4.9 a < f∗ ⊆ a < g∗ ⊆ a < (supn∈N n−1gn). Da

Page 18: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

12 Paragraph 1 - Grundlagen

G nicht-negativ und superadditiv ist, folgt aus Theorem 1.4.7 µ(a < f∗) ≤ a−1γ(G) =a−1(γ(F ) +

∫f−1 dµ) <∞. Wegen H ≤ F erhalten wir analog f∗ < −a ⊆ h∗ < −a ⊆

a < (lim supn∈N−n−1hn) ⊆ a < (supn∈N−n−1hn) und, da −H additiv ist, liefert

Theorem 1.4.7 ebenfalls µ(f∗ < −a) ≤ a−1‖h1‖1 <∞.

(b) Um die behauptete T -Invarianz nachzuweisen, zeigen wir zunächst f∗ ≥ f∗ T . AufGrund der Superadditivität von F gilt fn+1 ≥ f1 + fn T und somit fn+1

n+1 ≥f1+fnTn+1 für

alle n. Es folgt

f∗ = lim supn→∞

fn+1

n+ 1≥ lim sup

n→∞

f1

n+ 1+(

n

n+ 1

)fn Tn

= f∗ T,

wobei das letzte Gleichheitszeichen wegen f1n+1 −→ 0 und n

n+1 −→ 1 für n → ∞ und

Lemma 1.4.9 gilt. Vollkommen analog erhalten wir f∗ ≥ f∗ T .Wir fahren mit einem Widerspruchsbeweis fort und nehmen an, es sei µ(f∗ > f∗ T ) > 0.Wegen f∗ > f∗ T =

⋃q∈Q\0f∗ ≥ q > f∗ T existiert dann ein rationales q0 6= 0 mit

µ(f∗ ≥ q0 > f∗ T ) > 0. Wir setzen A := f∗ ≥ q0 > f∗ T und betrachten nun zunächst

den Fall q0 > 0. Wegen f∗ ≥ f∗ T erhalten wir µ(f∗ ≥ q0) = µ(A) + µ(f∗ T ≥ q0)und mit Hilfe von Teil (a) gilt µ(A) ≤ µ(f∗ ≥ q0) < ∞, woraus zusammen µ(f∗ ≥ q0) 6=µ(f∗ T ≥ q0) folgt - ein Widerspruch zu der T -Invarianz von µ.

Der Fall q0 < 0 geht genauso. Da T maÿerhaltend für µ ist, sieht man leicht, dass F Tebenfalls eine superadditive Folge mit γ(F T ) = γ(F ) darstellt. Aus Teil (a) folgt µ(A) ≤µ(f∗ T < q0) ≤ µ(f∗ T < q0) < ∞ und es ist µ(f∗ < q0) + µ(A) = µ(f∗ T < q0),woraus dergleiche Widerspruch entsteht. Die T -Invarianz von f∗ zeigt man analog.

Wegen lim supn∈N an = − lim infn∈N−an für beliebige Folgen (an)n∈N in R gilt Lemma

1.4.10 auch entsprechend für subadditive Folgen F mit γ(F ) > −∞.

Lemma 1.4.11 a) Ist (xn)n∈N eine superadditive Folge in R∪∞ (d.h. xn+m ≥ xn+xm

für alle n,m ∈ N), so konvergiert n−1xn gegen γ := supn−1xn |n ∈ N.b) Ist (xn)n∈N eine monoton wachsende Folge reeller Zahlen, so gilt für alle m ∈ N

lim supn→∞

xnn

= lim supk→∞

xkmkm

,

lim infn→∞

xnn

= lim infk→∞

xkmkm

.

Beweis. (a) Zunächst sei γ <∞. Zu ε > 0 wählen wir ein N ∈ N mit γ− xNN < ε

2 . Für alle

n ∈ N sei n = kn ·N + rn mit kn, rn ∈ N0 und 0 ≤ rn ≤ N − 1. Aus der Superadditivitätfolgt dann xn ≥ kn ·xN +xrn für alle n ∈ N und wir erhalten somit γ ≥ xn

n ≥knn ·xN + xrn

n .

Wegen knn −→

1N und xrn

n −→ 0 gilt dann γ ≥ xnn ≥

xNN −

ε2 für alle bis auf endlich viele

n. Zusammen mit γ − xNN < ε

2 folgt hieraus die Behauptung. Der Beweis für γ = ∞ geht

analog. Man beachte dabei, dass xN =∞ =⇒ xn =∞ für alle n ≥ N gilt.

(b) Da trivialerweise der gröÿte Häufungspunkt einer Folge gröÿer als jeder Häufungspunkt

einer ihrer Teilfolgen ist, gilt schon mal lim supk∈Nxkmkm ≤ lim supn∈N

xnn =: x. Sei nun

xnjnj−→ x für j → ∞ und analog zu oben nj = kj · m − rj mit 0 ≤ rj ≤ m − 1 für

Page 19: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.4 Kingman's Subadditiver Ergodensatz 13

alle j ∈ N. Aus der Monotonie der Folge schliessen wir xnj ≤ xkjm für alle j ∈ N und

erhalten lim supn∈Nxnn = lim supj∈N

xnjnj≤ lim supj∈N

xkjm

nj= lim supj∈N

kjmnj·xkjm

kjm. Wegen

kjmnj−→ 1 für j →∞ folgt hieraus lim supn∈N

xnn ≤ lim supj∈N

xkjm

kjm≤ lim supk∈N

xkmkm . Der

Beweis für den Limes inferior geht analog.

1.4.2 Die Beweise der Ergodensätze

Beweis Theorem 1.3.3 (Birkhoff's Ergodensatz). Sei F additiv. Wir wollen zeigen,

dass n−1fn µ-f.ü. konvergiert. Da eine beliebige Folge (an) in R genau dann konvergiert,

wenn lim supn∈N an = lim infn∈N an gilt, müssen wir also µ(f∗ > f∗) = 0 nachweisen.

Lemma 1.4.10 und Proposition 1.4.5 stellen sicher, dass T -invariante Versionen von f∗

und f∗ existieren, die wir von jetzt an betrachten. Angenommen es sei µ(f∗ > f∗) > 0.Analog wie im Beweis von Lemma 1.4.10 existieren dann rationale Zahlen a < b mit

µ(f∗ > b > a > f∗) > 0. Es sei A := f∗ > b > a > f∗ - A ist dann eine T -invariante

Menge. Wegen a < 0 oder b > 0 folgt aus Lemma 1.4.10 (a), dass µ(A) < ∞ gilt. Die

Funktion f1 := 1A(f1 − b) ist also integrierbar und durch fn :=∑n−1

j=0 f1 T j denierenwir eine additive Folge F . Wir wollen nun Theorem 1.4.6 auf F anwenden, zeigen aber

zunächst, dass 1A = 1E∞∩A µ-f.ü. gilt. Es ist E∞ = (n−1fn) ≥ 0 für ein n und auf

Grund der T -Invarianz von A, erhalten wir f1 T j = 1A(f1 T j − b) für alle j und somit

n−1fn = 1A(n−1fn − b) für alle n ∈ N. Ist ω ∈ A, so gilt n−1fn(ω) > b für unendlich

viele n und es folgt n−1fn(ω) > 0 für unendlich viele n - insbesondere also ω ∈ E∞ und

somit 1A = 1E∞∩A µ-f.ü.. Aus Theorem 1.4.6 folgt nun 0 ≤∫1E∞ f1 dµ =

∫f1 dµ und

somit b · µ(A) ≤∫1Af1 dµ. Wiederholen wir dieses Argument mit f1 := 1A(a − f1) und

einer entsprechenden additiven Folge F , so erhalten wir a · µ(A) ≥∫1Af1 dµ, was wegen

0 < µ(A) <∞ im Widerspruch zu a < b steht.

Wir haben jetzt gezeigt, dass n−1fn µ-f.ü. gegen eine T -invariante Funktion ϕ konvergiert.

Setzen wir f1n :=

∑n−1j=0 f

+1 T j und f2

n :=∑n−1

j=0 f−1 T j , so erhalten wir nicht-negative,

additive Folgen F 1 und F 2, auf die wir dieses Resultat ebenfalls anwenden können. Für

i = 1, 2 sei n−1f in µ-f.ü. konvergent gegen ϕi ≥ 0. Wegen |f1| = f+1 + f−1 folgt mit Hilfe

der Dreiecksungleichung |fn| = |∑n−1

j=0 f1 T j | ≤ f1n + f2

n und somit |ϕ| ≤ ϕ1 + ϕ2. Das

Lemma von Fatou führt nun zu∫ϕ1 dµ ≤ lim infn∈N

∫n−1f1

n dµ =∫f+

1 dµ und ebenso zu∫ϕ2 dµ ≤

∫f−1 dµ. Zusammen erhalten wir also ‖ϕ‖1 ≤

∫(f+

1 + f−1 ) dµ = ‖f1‖1.Es bleibt noch die Lp-Konvergenz unter den Voraussetzungen µ(Ω) < ∞ und f1 ∈ Lp zuzeigen. Zu K > 0 denieren wir fK1 := −K1(−∞,−K](f1) + f11(−K,K)(f1) +K1[K,∞)(f1).Es gilt dann |f1−fK1 |p −→ 0 und wegen |f1−fK1 |p ≤ 1(−∞,−K]∪[K,∞)(f1)|f1|p und f1 ∈ Lp

folgt aus dem Satz von der dominierten Konvergenz ‖f1 − fK1 ‖p −→ 0 für K → ∞. Zu

ε > 0 wählen wir ein K > 0 mit ‖f1 − fK1 ‖p ≤ ε3 . Ferner sei F die additive Folge gegeben

durch fn :=∑n−1

j=0 fK1 T j . Wie wir oben bereits gezeigt haben, konvergiert n−1fn dann

µ-f.ü. gegen eine Funktion ϕ und wir erhalten |n−1(fn− fn)|p −→ |ϕ− ϕ|p. Auÿerdem folgt

aus der Dreiecksungleichung in Lp und der T -Invarianz von µ, dass ‖n−1(fn − fn)‖p ≤n−1

∑n−1j=0 ‖f1 T j − fK1 T j‖p = ‖f1 − fK1 ‖p ≤ ε

3 für alle n gilt, und das Lemma von

Page 20: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

14 Paragraph 1 - Grundlagen

Fatou ergibt somit ‖ϕ− ϕ‖p ≤ lim infn∈N ‖n−1(fn− fn)‖p ≤ ε3 . Schlieÿlich gilt noch wegen

|n−1fn| ≤ K und µ(Ω) <∞mit Hilfe des Satzes von der dominierten Konvergenz ‖n−1fn−ϕ‖p −→ 0. Insgesammt erhalten wir somit nocheinmal mittels Dreiecksungleichung in Lp,

dass ‖ϕ − n−1fn‖p ≤ ‖ϕ − ϕ‖p + ‖ϕ − n−1fn‖p + ‖n−1(fn − fn)‖p ≤ ε für alle bis auf

endlich viele n gilt.

Beweis Theorem 1.4.2 (Subadditiver Ergodensatz). (a) Es sei F superadditiv mit

γ(F ) <∞. Wir führen das Problem zunächst auf den Fall nicht-negativer F zurück, indem

wir zu F die Folgen G und H aus Lemma 1.4.4 (a) betrachten. G ist dann nicht-negativ

und superadditiv mit γ(G) <∞. Gilt die Aussage für G, so erhalten wir eine integrierbare,

T -invariante Funktion ϕG mit n−1gn −→ ϕG. H ist additiv und n−1hn konvergiert somit

nach Birkho's Theorem gegen ein integrierbares, T -invariantes ϕH . Wegen F = G + H

folgt n−1fn −→ ϕ = ϕG + ϕH .

Es sei jetzt also zusätzlich F ≥ 0. Die Folge xn :=∫fn dµ bildet eine superadditive Folge

reeller Zahlen, so dass nach Lemma 1.4.11 (a) n−1xn gegen γ(F ) konvergiert. Aus dem

Lemma von Fatou folgt dann∫f∗ dµ ≤ lim infn→∞ n−1xn = γ(F ) < ∞ und f∗ ist somit

integrierbar und µ-f.ü. reell. Wir wählen wieder T -invariante Versionen f∗ und f∗ und

wollen also µ(f∗ − f∗ > 0) = 0 zeigen. Es sei ε > 0. Dann existiert ein m ∈ N mit

γ(F )−m−1xm ≤ ε. Wir denieren Folgen F (m) und H(m) durch

f (m)n := fnm und h(m)

n :=n−1∑j=0

fm T jm.

F (m) ist nun eine superadditive und H(m) eine additive Funktionen-Folge bezüglich der

maÿerhaltenden Transformation Tm. Es ist γ(F (m)) = supn−1xnm | n ∈ N = m ·sup (nm)−1xnm | n ∈ N = m · γ(F ), wobei die letzte Gleichung mit Hilfe von Lem-

ma 1.4.11 (a) folgt. Setzen wir nun G := F (m) − H(m), so ist G nach Lemma 1.4.4 (b)

nicht-negativ und superadditiv mit γ(G) = m · γ(F )− xm ≤ εm.

Wegen F ≥ 0, wie wir aus dem Beweis von Theorem 1.4.7 wissen, ist die Folge F monoton

wachsend und es folgt aus Lemma 1.4.11 (b), dass

f∗ = lim supk→∞

((km)−1fkm

)= m−1

(lim supk→∞

k−1f(m)k

)= m−1(f (m))∗,

f∗ = lim infk→∞

((km)−1fkm

)= m−1

(lim infk→∞

k−1f(m)k

)= m−1(f (m))∗

gilt. Desweiteren konvergiert n−1h(m)n nach Birkho's Ergodensatz gegen eine reelle Funk-

tion ϕm und es folgt mit Hilfe von Lemma 1.4.9 (d)

m (f∗ − f∗) = (f (m))∗ − (f (m))∗ =(

(f (m))∗ − ϕm)−(

(f (m))∗ − ϕm)

= g∗ − g∗.

Wir erhalten somit f∗−f∗ ≤ m−1g∗. Für ein beliebiges a > 0 folgt dann µ(f∗−f∗ > a) ≤µ(g∗ > ma) ≤ µ(supn−1gn | n ∈ N > ma) und Theorem 1.4.7 ergibt µ(f∗ − f∗ > a) ≤

Page 21: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.4 Kingman's Subadditiver Ergodensatz 15

(ma)−1γ(G) ≤ a−1ε. Da wir zuerst a und unabhängig davon dann ε wählen können, folgt

µ(f∗ − f∗ > a) = 0 für alle a > 0 und somit µ(f∗ − f∗ > 0) = 0.(c) Es sei F superadditiv mit γ(F ) < ∞ und µ(Ω) < ∞. Analog zu Teil (a) lässt sich

auch hier die Aussage mit Hilfe von Lemma 1.4.4 und Birkho's Ergodensatz auf den Fall

F ≥ 0 zurückführen. Man ersetze die µ-fast sichere Konvergenz in der Argumentation

in (a) lediglich durch L1-Konvergenz. Es sei also zusätzlich F ≥ 0. Wir übernehmen die

Bezeichnungen aus dem Beweis von Teil (a) und zeigen, dass (2m)−1ϕ2m ≥ m−1ϕm ≥0 für alle m ∈ N gilt. Wegen F ≥ 0 ist m−1ϕm trivialerweise nicht-negativ. Aus der

Superadditivität von F folgt f2m ≥ fm + fm Tm und somit

h(2m)n =

n−1∑j=0

f2m T 2jm ≥n−1∑j=0

fm T 2jm +n−1∑j=0

fm T (2j+1)m

=2n−1∑j=0

fm T jm = h(m)2n .

Dies ergibt (2m)−1ϕ2m = limn→∞(2nm)−1h(2m)n ≥ limn→∞(2nm)−1h

(m)2n = m−1ϕm. Die

Funktionen-Folge (ϕ2k

2k)k∈N ist somit µ-f.ü. monoton wachsend und konvergiert somit punkt-

weise gegen eine nicht-negative Funktion ϕ : (Ω,A inv(T )) −→ (R,B(R)).

Wegen µ(Ω) < ∞ konvergiert n−1h(m)n auch in L1 gegen ϕm und wir erhalten

∫ϕm dµ =

xm. Nach dem Satz von der monotonen Konvergenz ist∫ϕ dµ = lim

k→∞

∫ϕ2k

2kdµ = lim

k→∞

x2k

2k= γ(F ) <∞,

wobei das letzte Gleichheitszeichen auf Grund von Lemma 1.4.11 (a) gilt. Somit folgt

‖ϕ− ϕ2k

2k‖1 −→ 0 für k →∞. Wir wollen nun zeigen, dass n−1fn in L1 gegen ϕ konvergiert.

Es sei ε > 0. Zu ε existiert dann ein m = 2k ∈ N mit ‖ϕ − ϕmm ‖1 ≤

ε3 und |γ(F ) − xm

m | ≤ε′ < ε

3 . Zu n ≥ m wählen wir erneut kn, rn ∈ N0 mit n = knm + rn und 0 ≤ rn < m.

Setzen wir f0 := 0, so erhalten wir fn ≥∑kn−1

j=0 fm T jm + frn T knm auf Grund der

Superadditivität von F . Wegen F ≥ 0 und der daraus folgenden Monotonie von F ergibt

sich somit f(kn+1)m ≥ fn ≥ h(m)kn

. Dies führt zu∫|fn − h(m)

kn| dµ ≤

∫f(kn+1)m − h

(m)kn

dµ = x(kn+1)m − knxm

≤ (kn + 1)mγ(F )− knxm = mγ(F ) + kn(mγ(F )− xm)

≤ mγ(F ) + knmε′,

wobei die zweite Ungleichung per Denition von γ(F ) und die letzte Ungleichung auf

Grund der speziellen Wahl von m gilt. Wegen knmn −→ 1 und mγ(F )

n −→ 0 für n→∞ folgt

nun n−1‖fn − h(m)kn‖1 ≤ ε

3 für alle bis auf endlich viele n. Desweiteren sieht man mittels

Dreiecksungleichung in L1∥∥∥∥∥(knm

n

)·h

(m)kn

knm− ϕm

m

∥∥∥∥∥1

≤∣∣∣∣knmn − 1

∣∣∣∣ ·∥∥∥∥∥h

(m)kn

knm

∥∥∥∥∥1

+

∥∥∥∥∥h(m)kn

knm− ϕm

m

∥∥∥∥∥1

≤ ε

3

Page 22: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

16 Paragraph 1 - Grundlagen

für schlieÿlich alle n, da kn −→ ∞ für n → ∞ und (nm)−1h(m)n −→ m−1ϕm in L1 gilt.

Wir erhalten somit schluÿendlich erneut mittels Dreiecksungleichung in L1∥∥∥∥fnn − ϕ∥∥∥∥

1

≤ 1n

∥∥∥fn − h(m)kn

∥∥∥1

+

∥∥∥∥∥(knm

n

)·h

(m)kn

knm− ϕm

m

∥∥∥∥∥1

+∥∥∥ϕmm− ϕ

∥∥∥1≤ ε

für alle bis auf endlich viele n. Wir haben also n−1fn −→ ϕ in L1 gezeigt. Aus L1-

Konvergenz folgt Konvergenz nach Maÿ (stochastische Konvergenz) und wegen µ(Ω) <∞folgt ebenso aus der Konvergenz µ-f.ü. die Konvergenz nach Maÿ (vgl. Elstrodt [14] VI.

4). Da Limiten nach Maÿ µ-f.ü. eindeutig sind und n−1fn −→ ϕ µ-f.ü. nach Teil (a)

gilt, folgt ϕ = ϕ µ-f.ü.. Es konvergiert n−1fn also auch in L1 gegen ϕ und wir erhalten∫ϕdµ = limn→∞ n

−1xn = γ(F ).(b) Es sei µ(Ω) < ∞ und γ(F ) = ∞. Zu N ∈ N denieren wir die Folge FN durch

fNn := min(nN, fn). Man überlegt sich leicht, dass FN eine superadditive Folge ist. Es gilt∫n−1fNn dµ ≤

∫N dµ = Nµ(Ω) für alle n und somit γ(FN ) ≤ Nµ(Ω) < ∞. Nach Teil

(a) und (c) existiert somit eine T -invariante Funktion ϕN , gegen die n−1fNn µ-f.ü. und

in L1 konvergiert. Wegen fNn ≤ fN+1n für alle n folgt ϕN ≤ ϕN+1 für alle N . Die Folge

(ϕN )N∈N ist also µ-f.ü. monoton und konvergiert µ-f.ü. gegen eine T -invariante Funktion

ϕ : (Ω,A inv(T )) −→ (R,B(R)). Wir zeigen nun f∗ = ϕ = f∗ µ-f.ü.. Dazu stellen wir

zunächst fest, dass für alle ε > 0, N ∈ N und für alle ω ∈ Ω mit ϕN (ω) = limn→∞ n−1fNn (ω)

(1.10) f∗(ω) ≥ ϕN (ω) + ε =⇒ ϕN (ω) = N

gilt, denn f∗(ω) ≥ ϕN (ω)+ε impliziert, dass es unendlich viele Indizes nk mit n−1k fNnk(ω) <

n−1k fnk(ω) gibt. Für diese folgt fNnk(ω) = min(nkN, fnk(ω)) = nkN und es gilt somit

ϕN (ω) = limk→∞ n−1k fNnk(ω) = N . Es sei A := ω ∈ Ω |ϕN (ω) = n−1 limn→∞ f

Nn (ω) ∀N .

Es gilt µ(Ac) = 0 und wir schliessen auf f∗ ≤ ϕ für alle ω ∈ A. 1. Fall: Für alle ε > 0existiert ein N mit f∗(ω) ≤ ϕN (ω) + ε. Wegen ϕN (ω) ≤ ϕ(ω) folgt f∗(ω) ≤ ϕ(ω) + ε

für alle ε > 0 und somit f∗(ω) ≤ ϕ(ω). 2. Fall: Es existiert ein ε > 0, so dass für alle

N gilt f∗(ω) > ϕN (ω) + ε. Mit Hilfe von (1.10) folgt dann ϕN (ω) = N für alle N und

somit ϕ(ω) = ∞ - insbesondere also auch f∗(ω) ≤ ϕ(ω). Auÿerdem gilt für alle ω ∈ A

f∗ ≥ lim infn→∞ n−1fNn = ϕN für alle N und somit f∗ ≥ ϕ.Desweiteren ist ϕ− integrierbar, da ϕN integrierbar ist und ϕN ≤ ϕ gilt. Wir erhalten∫ϕdµ ≥

∫ϕN dµ = γ(FN ) für alle N und somit

∫ϕdµ ≥

∫n−1fNn dµ für alle n,N ∈ N.

Wegen n−1fNn ↑ n−1fn für N → ∞ und∫n−1f1

n dµ > −∞, folgt aus dem Satz von der

monotonen Konvergenz (vgl. Dudley [13] Theorem 4.3.2)∫n−1fNn dµ ↑

∫n−1fn dµ für

N →∞. Dies führt zu∫ϕdµ =∞ = γ(F ).

Korollar 1.4.12 Es sei µ(Ω) < ∞ und F eine subadditive Folge mit γ(F ) > −∞. Danngilt µ-f.ü.

limn→∞

fnn

= infn∈N

(1nEµ(fn|A inv(T ))

).

Page 23: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.5 Bedingte Verteilungen 17

Beweis. Wir führen den Beweis ebenfalls in der superadditiven Version. Nach Theo-

rem 1.4.2 (c) gilt n−1fn −→ ϕ in L1. Wegen µ(Ω) < ∞ folgt somit aus der Jensen-

schen Ungleichung für bedingte Erwartungswerte, dass Eµ(n−1fn|A inv(T )) ebenfalls in L1

gegen Eµ(ϕ|A inv(T )) = ϕ konvergiert. Andererseits überlegt man sich leicht mit Hilfe

der denierenden Gleichungen für bedingte Erwartungswerte, dass für alle n,m ∈ N die

Gleichung E(fm Tn|A inv(T )) = E(fm|A inv(T )) gilt. Da F superadditiv ist, folgt somit

E(fn+m|A inv(T )) ≥ E(fn + fm Tn|A inv(T )) = E(fn|A inv(T )) +E(fm|A inv(T )). Für µ-f.a.ω ∈ Ω bildet E(fn|A inv(T ))(ω) somit eine superadditive Folge reeller Zahlen und nach Lem-

ma 1.4.11 (a) konvergiert E(n−1fn|A inv(T ))(ω) gegen supn−1E(fn|A inv(T ))(ω)|n ∈ N.Mit dem gleichem Argument über die Konvergenz nach Maÿ zum Ende des Beweises von

Theorem 1.4.2 (c) folgt ϕ = supn−1E(fn|A inv(T ))|n ∈ N µ-f.ü..

Korollar 1.4.12 beschreibt den Limes in Kingman's Theorem noch etwas genauer, ist aber

im Folgenden für uns nicht von Bedeutung. Analog zu Theorem 1.4.2 (b) ist die Voraus-

setzung γ(F ) > −∞ verzichtbar. Einen Beweis hierfür führen wir nicht.

1.5 Bedingte Verteilungen

Bedingte Verteilungen sind nicht direkt der Ergodentheorie zuzuordnen. Wir werden sie

aber im nächsten Abschnitt zur ergodischen Zerlegung benötigen. Davon abgesehen spielen

bedingte Verteilungen für das Verständnis von GARCH eine grundlegende Rolle, wie wir

in Paragraph 2 sehen werden. Es seien (Ω1,A1) und (Ω2,A2) Messräume. Eine Abbildung

K : Ω1 × A2 −→ [0, 1], (ω,A) 7−→ K(ω,A) heiÿt stochastischer Kern von (Ω1,A1) nach(Ω2,A2), falls die folgenden beiden Bedingungen erfüllt sind:

(1) Für alle A ∈ A2 ist ω 7−→ K(ω,A) messbar bezüglich A1 −B([0, 1]).

(2) Für alle ω ∈ Ω1 ist K(ω, · ) ein W-Maÿ auf (Ω2,A2).

Ist P ein W-Maÿ auf Ω1 und K ein stochastischer Kern von Ω1 nach Ω2, so deniert

(1.11) K×P (C) :=∫ (∫

1C(ω1, ω2) dK(ω1, · )(ω2))dP (ω1)

ein W-Maÿ auf (Ω1 × Ω2,A1 ⊗A2). Insbesondere ist für alle C ∈ A1 ⊗A2 die Abbildung

ω1 7−→∫1C(ω1, ω2) dK(ω1, · )(ω2) messbar. Wie man bezüglich dem Maÿ K×P integriert,

besagt der Satz von Fubini für Kerne.

Satz 1.5.1 (Fubini für Kerne) Es sei f : (Ω1×Ω2,A1⊗A2) −→ (R,B(R)) messbar undnicht-negativ. Dann ist I : ω1 7−→

∫f(ω1, ω2) dK(ω1, · )(ω2) bezüglich A1 −B(R) messbar

und es gilt

(1.12)∫f dK×P =

∫ (∫f(ω1, ω2) dK(ω1, · )(ω2)

)dP (ω1).

Ist f messbar und K×P -integrierbar, so ist ω2 7−→ f(ω1, ω2) für P -f.a. ω1 integrierbarbezüglich K(ω1, · ). Die Abbildung I ist dann P -f.s. deniert und es existiert eine A1−B(R)messbare und P -integrierbare Version von I, für die ebenfalls (1.12) gilt.

Page 24: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

18 Paragraph 1 - Grundlagen

Beweis. Man siehe Janssen [20] Satz 12.4.

Sind (Ω,A, P ) ein W-Raum, C ⊆ A eine Teil-σ-Algebra und und Z : (Ω,A) −→ (Ω2,A2)eine Zufallsvariable, so nennen wir einen stochastischen Kern K von (Ω, C) nach (Ω2,A2)bedingte Verteilung von Z gegeben C, falls für alle A ∈ A2 die Abbildung ω 7−→ K(ω,A)eine Version von E(1A(Z)|C) ist. Äquivalenterweise können wir auch fordern, dass für alle

A ∈ A2 und C ∈ C

(1.13)∫CK(ω,A) dP = P

(C ∩ Z−1(A)

)gelten soll. IstK eine bedingte Verteilung von Z gegeben C, so schreiben wir auch PZ| C(ω,A)für K(ω,A). Desweiteren ist Bedingung (1.13) äquivalent zu

P (id,Z)(C ×A) = K×P (C ×A)

für alle C ∈ C und A ∈ A2. Da die Rechteck-Mengen C ×A einen ∩-stabilen Erzeuger von

C ⊗ A2 bilden, folgt aus dem Eindeutigkeitssatz der Maÿtheorie, dass K genau dann eine

bedingte Verteilung von Z gegeben C ist, wenn P (id,Z) = K×P auf (Ω× Ω2, C ⊗ A2) gilt.

Lemma 1.5.2 Es seien Z : (Ω,A) −→ (Ω2,A2) und g : (Ω2,A2) −→ (R,B(R)) Zu-fallsvariablen und g sei nicht-negativ oder PZ-integrierbar. Weiter sei PZ| C eine bedingteVerteilung von Z gegeben C ⊆ A. Dann bildet

I : ω 7−→∫g(ω2) dPZ| C(ω, · )(ω2)

eine Version von E(g(Z)|C).

Beweis. Wegen PZ| C×P = P (id,Z) folgt aus der PZ-Integrierbarkeit von g, dass die

C ⊗ A2-messbare Abbildung (ω, ω2) 7−→ g(ω2) integrierbar bezüglich PZ| C×P ist. Nach

dem Satz von Fubini für Kerne folgt dann, dass I messbar ist bezüglich C. Ist g nicht-

negativ, so ist I ebenfalls C- messbar. Genauso ist für C ∈ C die C⊗A2-messbare Abbildung

(ω, ω2) 7−→ 1C(ω)g(ω2) nicht-negativ bzw. PZ| C×P integrierbar und es folgt∫CI dP =

∫ (∫1C(ω)g(ω2) dPZ| C(ω, · )(ω2)

)dP (ω)

1.5.1=∫1C(ω)g(ω2) dP (id,Z) =

∫Cg(Z) dP.

Satz 1.5.3 (Eindeutigkeitssatz) Es seien K und K ′ bedingte Verteilungen von Z gege-ben C und A2 besitze ein abzählbares Erzeugendensystem. Dann existiert eine P -NullmengeN ∈ C, so dass

K(ω, · ) = K ′(ω, · )

für alle ω ∈ N c gilt.

Page 25: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.6 Ergodische Zerlegung 19

Beweis. Siehe Bauer [3] Satz 44.2. Die P -Nullmenge N wird dort aus A angegeben. Man

kann sie aber tatsächlich aus C wählen.

Wir nennen einen Messraum (Ω2,A2) polnisch, falls eine Metrik existiert, die Ω2 zu einem

vollständigen und separablen metrischen Raum macht, und A2 gleich der Borel-σ-Algebra

bezüglich dieser Metrik ist. In polnischen Räumen besitzt die σ-Algebra stets ein abzähl-

bares Erzeugendensystem, so dass bedingte Verteilungen von beliebigen Räumen nach pol-

nischen Räumen im Sinne von Satz 1.5.3 eindeutig sind.

Im Allgemeinen müssen bedingte Verteilungen nicht existieren. Ist (Ω2,A2) jedoch pol-

nisch, so ist die Existenz gewährleistet.

Theorem 1.5.4 (Existenzsatz) Es sei (Ω,A, P ) ein W-Raum, Z : (Ω,A) −→ (Ω2,A2)eine Zufallsvariable in einen polnischen Raum (Ω2,A2) und C eine Teil-σ-Algebra von A.Dann existiert eine bedingte Verteilung von Z gegeben C.

Beweis. Siehe Bauer [3] Satz 44.3.

1.6 Die ergodische Zerlegung eines invarianten W-Maÿes

Lemma 1.6.1 Es sei (Ω,A, P ) ein W-Raum und T : (Ω,A) −→ (Ω,A) eine maÿerhalten-de Transformation, sowie E ⊆ A ein ∩-stabiler Erzeuger von A. Dann ist T genau dannergodisch, wenn

(1.14) limn→∞

1n

n−1∑k=0

P(A ∩ T−k(B)

)= P (A)P (B)

für alle A,B ∈ E gilt.

Beweis. Es sei T ergodisch und A,B ∈ A. Nach Birkho's Ergodensatz existiert eine

A inv(T )-messbare Funktion ϕ mit 1n

∑n−1k=0 1B(T k) −→ ϕ in L1. Es gilt ϕ = P (B), denn

auf Grund der L1-Konvergenz ist E(ϕ) = limn→∞E(

1n

∑n−1k=0 1B(T k)

)= P (B) und, da

T ergodisch ist, gilt ϕ = E(ϕ). Wir erhalten somit

1n

n−1∑k=0

P(A ∩ T−k(B)

)=∫1A

(1n

n−1∑k=0

1B(T k)

)dP −→

∫1AP (B) dP = P (A)P (B).

Für die umgekehrte Implikation gehen wir genauso wie in Abschnitt 1.3 vor, als wir gezeigt

haben, dass der Shift für eine i.i.d. Zeitreihe X mit Zeithorizont Z ergodisch ist. Es gelte

also (1.14) für alle A,B ∈ E . Halten wir A fest, so bildet die Menge DA aller B, die (1.14)

zusammen mit A erfüllen, ein Dynkin-System, das E enthält. Wir wollen kurz begründen,

warum (Bm ∈ DA diskunkt für m ∈ N =⇒∑

m∈NBm ∈ DA) gilt. Es sei µ das Zählmaÿ auf

(N,P(N)). Setzen wir fn(m) := 1n

∑n−1k=0 P (A ∩ T−k(Bm)) und g(m) := P (Bm), so bildet

g eine µ-integrierbare Majorante der fn und der Konvergenzsatz von Lebesgue führt zu

1n

n−1∑k=0

P

(A ∩ T−k

(∑m∈N

Bm

))=∑m∈N

1n

n−1∑k=0

P(A ∩ T−k(Bm)

)n→∞−→

∑m∈N

P (A)P (Bm).

Page 26: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

20 Paragraph 1 - Grundlagen

Die restlichen Anforderungen an DA überprüft man leicht. Wegen D(E) = σ(E) (vgl.

Elstrodt [14] I. Satz 6.7) gilt somit (1.14) für alle A ∈ E und B ∈ A. Wiederholen wir

dieses Argument bei festgehaltenem B ∈ A, so erhalten wir schlieÿlich (1.14) für alle

A,B ∈ A. Sei nun A ∈ A inv(T ). Dann gilt A ∩ T−k(A) = A für alle k und aus (1.14) folgt

P (A) = P (A)2. Also P (A) = 0 oder P (A) = 1 und T ist ergodisch.

Es sei nun T eine maÿerhaltende Transformation des W-Raumes (Ω,A, P ), die σ-AlgebraAbesitze ein abzählbares Erzeugendensystem und auÿerdem existiere die bedingte Verteilung

von id : (Ω,A) −→ (Ω,A) gegeben A inv(T ). Wir setzen Pω(· ) := P id| A inv(T )(ω, · ). Für jedenicht-negative oder P -integrierbare Abbildung g : (Ω,A) −→ (R,B(R)) gilt dann nach

Lemma 1.5.2 E(g|A inv(T ))(ω) =∫g dPω und wir erhalten somit

(1.15)∫g dP =

∫ (∫g dPω

)dP (ω).

Insbesondere ist also auch P (A) =∫Pω(A) dP für alle A ∈ A. In dieser Situation nennen

wir die Maÿe Pω die ergodische Zerlegung von P . Dies rechtfertigt der folgende Satz.

Satz 1.6.2 (Ergodische Zerlegung) Es sei T eine maÿerhaltende Transformation desW-Raumes (Ω,A, P ), A besitze ein abzählbares Erzeugendensystem und es existiere diebedingte Verteilung von id : (Ω,A) −→ (Ω,A) gegeben A inv(T ). Dann existiert eine P -Nullmenge N ∈ A inv(T ), so dass für alle ω ∈ N c die W-Maÿe Pω(· ) = P id| A inv(T )(ω, · )T -invariant und ergodisch sind.

Beweis.Wir zeigen zunächst, dass P Tω (· ) ebenfalls eine bedingte Verteilung von id gegebenA inv(T ) bildet. Auf Grund der entsprechenden Eigenschaften von Pω(· ) ist für alle A ∈ Adie Abbildung ω 7−→ P Tω (A) = Pω(T−1(A)) messbar bezüglich A inv(T ) und P

Tω (· ) bildet

für alle ω ein W-Maÿ auf (Ω,A). Auÿerdem gilt für alle A ∈ A und C ∈ A inv(T )∫CP Tω (A) dP =

∫CPω(T−1(A)

)dP

(∗)= P

(T−1(A) ∩ C

)= P (A ∩ C),

wobei man beachte, dass C = T−1(C) sowie P = P T ist und (∗) auf Grund der Eigen-

schaft (1.13) von Pω(· ) gilt. P Tω (· ) erfüllt somit (1.13) und bildet ebenfalls eine bedingte

Verteilung von id gegeben A inv(T ). Nach dem Eindeutigkeitssatz 1.5.3 existiert somit eine

P -Nullmenge N ∈ A inv(T ) mit P Tω (· ) = Pω(· ) für alle ω ∈ N c. Auf N c sind alle Maÿe

Pω(· ) also T -invariant.Besitzt A ein abzählbares Erzeugendensystem, so existiert auch ein abzählbares, ∩-stabilesErzeugendensystem. Man nehme etwa die Menge aller endlichen Schnitte von Mengen des

vorhandenen Erzeugers. Es sei also E ⊆ A abzählbar und ∩-stabil mit σ(E) = A. Dann ist

auch die Menge E2 = (A,B) |A,B ∈ E abzählbar.Sei (A,B) ∈ E2. Dann gilt nach Birkho's Ergodensatz

1n

n−1∑k=0

1(A∩T−k(B)) = 1A ·1n

n−1∑k=0

1B(T k) −→ 1A · E(1B|A inv(T )) P -f.s.

Page 27: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.7 Rekurrenz 21

für n → ∞. Mit Hilfe des Satzes von der majorisierten Konvergenz für bedingte Erwar-

tungswerte (vgl. Dudley [13] Theorem 10.1.8) folgt daraus

E

(1n

n−1∑k=0

1(A∩T−k(B))

∣∣∣A inv(T )

)−→ E

(1A · E(1B|A inv(T ))

∣∣A inv(T )

)P -f.s.,

wobei die Konstante 1 eine integrierbare Majorante bildet. Desweiteren gilt bekannterweise

E(1A · E(1B|A inv(T ))

∣∣A inv(T )

)= E(1A|A inv(T )) ·E(1B|A inv(T )). Wählen wir nun für die

bedingten Erwartungswerte Versionen gemäÿ Lemma 1.5.2, so folgt, dass eine P -Nullmenge

N(A,B) ∈ A inv(T ) existiert mit

1n

n−1∑k=0

Pω(A∩T−k(B)) =∫

1n

n−1∑k=0

1(A∩T−k(B)) dPω −→∫1A dPω·

∫1B dPω = Pω(A)Pω(B)

für alle ω ∈ N c(A,B). Setzen wir N := N ∪

⋃N(A,B) | (A,B) ∈ E2, so gilt P (N) = 0 und

für alle ω ∈ N c ist Pω(· ) T -invariant und erfüllt (1.14) für alle A,B ∈ E , so dass T nach

Lemma 1.6.1 ergodisch ist bezüglich Pω(· ).

1.7 Rekurrenz

1.7.1 Der Rekurrenzsatz

Wie zuvor sei T eine maÿerhaltende Transformation des Maÿraumes (Ω,A, µ). Zu A ∈ Adenieren wir

Aret := A ∩⋃k∈N

T−k(A) und Ainf := A ∩⋂n∈N

⋃k≥n

T−k(A).

Aret ist die Menge der Punkte ω ∈ A, für die die Folge (T k(ω))k∈N wenigstens einmal nach

A zurückkehrt. Ainf ist die Menge der Punkte aus A, die bei iterierter Transformation

unendlich oft nach A zurückkehren.

Eine Menge W ∈ A heiÿt wandernd, wenn für alle k ∈ N0 die Mengen T−k(W ) disjunkt

sind. Ist W wandernd, so folgt sofort Wret = ∅. Die Umkehrung hiervon gilt auch. Ist W

nicht wandernd, so existieren n < m in N0 und ein ω ∈ Ω mit ω ∈ T−n(W )∩T−m(W ). Esfolgt Tn(ω) ∈W ∩ T−(m−n)(W ) und somit Wret 6= ∅.T heiÿt rekurrent, wenn µ(A \ Aret) = 0 für alle A ∈ A gilt. T heiÿt unendlich-rekurrent,wenn µ(A \ Ainf ) = 0 für alle A ∈ A gilt. Schlieÿlich nennen wir T konservativ, wenn es

keine wandernden Mengen positiven Maÿes in A gibt.

Theorem 1.7.1 (Rekurrenzsatz) Es sei T eine maÿerhaltende Transformation von(Ω,A, µ). Die folgenden Aussagen sind dann äquivalent:a) T ist konservativ.b) T ist rekurrent.c) T ist unendlich-rekurrent.

Page 28: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

22 Paragraph 1 - Grundlagen

Beweis. (vgl. Krengel [25] Seite 16 ) Zunächst zeigen wir (a) =⇒ (b). Für eine beliebigeMenge A ∈ A ist W = A \ Aret eine wandernde Menge, denn es gilt W = A ∩ (Aret)c =A ∩

⋂n∈N(T−n(A))c und unter Beachtung der Operationstreue von T−k folgt T−k(W ) =

T−k(A)∩⋂n≥k+1(T−n(A))c für alle k. Man sieht nun leicht, dass die Mengen T−k(W ) für

k ∈ N0 disjunkt sind, und da T konservativ ist folgt µ(A \ Aret) = µ(W ) = 0. Für dieImplikation (b) =⇒ (a) machen wir einen Umkehrschluss. Sei T nicht konservativ. Dann

existiert eine wandernde Menge W ∈ A mit µ(W ) > 0. Da, wie wir bereits wissen, dannWret = ∅ gilt, erhalten wir µ(W \Wret) = µ(W ) > 0 und T kann nicht rekurrent sein.

Wegen Ainf ⊆ Aret für alle A ∈ A ist (c) =⇒ (b) trivial und es bleibt (b) =⇒ (c) zu zeigen.

Zu jedem ω ∈ Aret \Ainf existiert ein n ∈ N mit Tn(ω) ∈ A und T k(ω) /∈ A für alle k > n.

Also folgt

Aret \Ainf ⊆⋃n∈N

(T−n(A) ∩

⋂k>n

(T−k(A)

)c)=⋃n∈N

T−n

(A ∩

⋂k∈N

(T−k(A)

)c)=

⋃n∈N

T−n (A \Aret)

und somit A\Ainf = (A\Aret)∪ (Aret \Ainf ) ⊆⋃n∈N0

T−n(A\Aret). Da T maÿerhaltend

ist, impliziert µ(A \Aret) = 0 somit µ(A \Ainf ) = 0.

Wir wollen nun aus dem Rekurrenzsatz eine einfache Folgerung ziehen. Ist µ(Ω) < ∞,

so kann es nicht unendlich viele disjunkte Mengen gleichen, positiven Maÿes geben. Je-

de maÿerhaltende Transformation eines solchen Raumes muÿ also konservativ sein. Diese

Überlegung führt zu folgendem klassischen Satz.

Korollar 1.7.2 (Rekurrenzsatz von Poincaré) Es sei T eine maÿerhaltende Trans-formation von (Ω,A, µ) und µ(Ω) <∞. Dann ist T unendlich-rekurrent.

Korollar 1.7.2 ist für uns nicht weiter von Bedeutung. Wir haben es hier lediglich als

interessante und schöne Anwendung von Theorem 1.7.1 und als klassisches Resultat der

Ergodentheorie aufgeführt. Das eigentliche Ziel dieses Abschnitts ist das folgende Lemma.

1.7.2 Das Lemma von Guivarc'h & Raugi

Lemma 1.7.3 (Guivarc'h-Raugi) Es sei T eine maÿerhaltende Transformation des W-Raumes (Ω,A, P ) und f ∈ L1(P ).a) Ist T ergodisch und P

(∑∞k=0 f T k = −∞

)> 0, so folgt E(f) < 0.

b) Gilt∑∞

k=0 f T k = −∞ P -f.s. und ist (Ω,A) polnisch, so folgt auch E(f) < 0.

Beweis. (vgl. Guivarc'h & Raugi [19] Lemme 3.6) (a) Aus∑∞

k=0 f T k(ω) = −∞ folgt

n−1∑n−1

k=0 fT k(ω) < 0 für alle bis auf endlich viele n. Da P ein W-Maÿ und T ergodisch ist,

erhalten wir mit Birkho's Ergodensatz E(f) = limn→∞ n−1∑n−1

k=0 fT k P -f.s.. Zusammen

mit der Voraussetzung P(∑∞

k=0 f T k = −∞)> 0 ergibt dies E(f) ≤ 0. Wir wollen nun

Page 29: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

1.7 Rekurrenz 23

mit Hilfe eines Widerspruchbeweises den Fall E(f) = 0 ausschlieÿen. Dafür denieren wir

S : Ω× R −→ Ω× R, (ω, t) 7−→ (T (ω), t+ f(ω)).

Dann gilt Sn(ω, t) =(Tn(ω), t+

∑n−1k=0 f T k(ω)

)für alle n ∈ N und wir denieren weiter

sn(ω, t) := π2 Sn(ω, t) = t+∑n−1

k=0 f T k(ω). Desweiteren gilt nun, dass S eine maÿerhal-

tende Transformation des Raumes (Ω×R,A⊗B(R), µ) mit µ := P ⊗ λ ist. Man überlegt

sich leicht, dass S messbar ist, und mit dem Satz von Fubini erhalten wir

µ(S−1(A×]a, b])

)=

∫1A×]a,b](S) dP ⊗ λ =

∫Ω1A(T (ω))

(∫R1]a,b](t+ f(ω)) dt

)dP (ω)

=∫

Ω1A(T (ω))(b− a) dP (ω) = (b− a)P (A) = µ(A×]a, b])

für alle Mengen A×]a, b] mit A ∈ A und a ≤ b in R. Diese Mengen bilden einen ∩-stabilenErzeuger von A ⊗ B(R), auf dem µ σ-endlich ist, woraus wir µ = µS folgern. Unter

der Annahme E(f) = 0 folgt, dass S konservativ ist, was wir nun zeigen wollen. Es sei

E(f) = 0. Nach Birkho's Ergodensatz gilt dann

(1.16) limn→∞

n−1n−1∑k=0

f T k = 0 P -f.s..

Nach dem Satz von Jegorow (vgl. Elstrodt [14] VI. 3) gilt diese Konvergenz auch fast

gleichmäÿig, was bedeutet, dass zu jedem δ > 0 eine Menge Aδ ∈ A existiert mit P (Aδ) < δ

und die Konvergenz in (1.16) gleichmäÿig für alle ω ∈ Acδ stattndet. Wir können hieraus

schliessen, dass

(1.17) limn→∞

sn(ω, t)n

= 0

für alle δ > 0 und K > 0 auf der Menge Acδ × [−K,K] gleichmäÿig gilt. Angenommen

W ∈ A⊗B(R) sei eine wandernde Menge mit µ(W ) > 0. Wir nden dann ein K > 0 mit

0 < µ (W ∩ (Ω× [−K,K])) <∞. Wegen

µ (W ∩ (Ω× [−K,K])) = µ (W ∩ (Aδ × [−K,K])) + µ (W ∩ (Acδ × [−K,K]))

und µ (W ∩ (Aδ × [−K,K])) < 2Kδ −→ 0 für δ → 0 existiert dann zu K ein δ0 > 0 mit

µ(W ∩ (Acδ0 × [−K,K])

)> 0. Die MengeW ′ := W ∩(Acδ0× [−K,K]) ist als Teilmenge der

wandernden Menge W selbst auch wandernd und desweiteren gilt also µ(W ′) > 0 sowie

(1.17) gleichmäÿig auf W ′.

Sei nun ε > 0. Auf Grund der gleichmäÿigen Konvergenz existiert dann ein N ∈ N mit

−εn < sn(ω, t) < εn für alle (ω, t) ∈ W ′ und n ≥ N , was gleichbedeuted mit Sn(W ′) ⊆Ω × (−εn, εn) für alle n ≥ N ist. Wegen Ω × (−εn, εn) ⊆ Ω × (−ε(n+ 1), ε(n+ 1)) folgtweiter

⋃nk=N S

k(W ′) ⊆ Ω× (−εn, εn) und wir erhalten schlieÿlich

W ′ ∪ S−1(W ′) ∪ . . . ∪ S−(n−N)(W ′) ⊆ S−n (Ω× (−εn, εn))

Page 30: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

24 Paragraph 1 - Grundlagen

für alle n ≥ N . Da W ′ wandernd ist, sind die Mengen S−k(W ′) disjunkt und es ergibt sich

(1.18) (n−N + 1)µ(W ′) =n−N∑k=0

µ(S−k(W ′)

)≤ µ

(S−n (Ω× (−εn, εn))

)= 2εn.

Teilen wir in (1.18) beide Seiten durch n, so folgt wegen n−N+1n −→ 1 für n → ∞ somit

µ(W ′) ≤ 2ε. Da dies für beliebiges ε > 0 gilt, erhalten wir also einen Widerspruch zu

µ(W ′) > 0. Es kann somit keine wandernden Mengen positiven Maÿes geben.

Aus E(f) = 0 folgt also, dass S konservativ ist, und mit Hilfe des Rekurrenzsatzes 1.7.1

folgt dann ebenso, dass S unendlich-rekurrent ist. Dies kann aber nicht sein. Betrachtet

man die Menge A := ∑∞

k=0 f T k = −∞, so gilt µ(A × [−K,K]) = 2KP (A) > 0 für

beliebiges K > 0. Aber es ist (A× [−K,K])inf = ∅, denn für alle ω ∈ A und t ∈ [−K,K]gilt sn(ω, t) < −K für alle bis auf endlich viele n.

(b) Da (Ω,A) polnisch ist, existiert nach Satz 1.6.2 die ergodische Zerlegung von P . Wegen

0 = P

( ∞∑k=0

f T k 6= −∞

)=∫Pω

( ∞∑k=0

f T k 6= −∞

)dP

folgt, dass Pω(∑∞

k=0 f T k 6= −∞)

= 0 für P -f.a. ω gilt. Da auÿer auf einer P -Nullmenge

Pω(· ) auch T -invariant und ergodisch ist, sowie f integrierbar bezüglich Pω, erhalten wir∫f dPω < 0 P -.f.s. mit Hilfe von Teil (a). Schlieÿlich folgt damit∫

f dP =∫ (∫

f dPω

)dP < 0.

Page 31: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Paragraph 2

Das GARCH-Modell

Wir haben in dem folgenden Paragraphen mit den Büchern von Kreiÿ & Neuhaus [24] und

Straumann [32] gearbeitet. Zusätzlich haben wir auf die Bücher Finanzmarktstatistik von

Franke, Härdle & Hafner [17] und von Schmid & Trede [31] zurückgegrien.

2.1 Stilisierte Fakten über Finanz-Zeitreihen

Unter den stilisierten Fakten versteht man eine Reihe von Phänomenen, die bei Daten-

sätzen mit Bezug zu Finanzmärkten, wie z.B Aktien- und Wechselkursverläufen, Zins- und

Inationsraten oder Rohstopreisen, häug beobachtet werden. Es handelt sich hierbei um

eine in der Literatur geläuge Bezeichnung. Da es eine Fülle unterschiedlicher Daten von

wirtschaftlichem Interesse gibt, können diese stilisierten Fakten nicht überall in gleichem

Maÿe zutreen. Sie bilden aber die wichtigsten, von der Fachwelt diskutierten, statistischen

Beobachtungen, die es in nanzmathematischen Modellen abzubilden gilt.

Abb. 2.1 Tägliche Schlusskurse des Deutschen Aktienindex DAX für den Zeitraum Januar 1990 bis September

2005 zusammen mit dem 200 Tage Durchschnitt (links), sowie die Log-returns des DAX (in %) für denselben

Zeitraum (rechts oben) und ein simulierter GARCH(1,1)-Prozess mit aus den DAX-Daten geschätzten Parametern

und normalverteilten Fehlern (rechts unten). (aus: Kreiÿ & Neuhaus [24] Zeitreihenanalyse)

Basisnanzdaten weisen in der Regel Trends oder zumindestens lokale Trends auf man

betrachte etwa Abb. 2.1 (links). Stationäre Modelle kommen für sie somit nicht in Frage.

Um zu Daten zu gelangen, für die die Annahme einer stationären Verteilung gerechtfertigt

ist, muss man zunächst, wie in der Zeitreihenanalyse üblich, eine geeignete Transforma-

tion durchführen. Ohne Stationarität wird die mathematische Handhabung von Modellen

erheblich erschwert und ganz ohne eine irgendwie geartete Annhame über den zeitlichen

Zusammenhang der Daten sind sinnvolle Vorhersagen vollkommen unmöglich.

25

Page 32: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

26 Paragraph 2 - Das GARCH-Modell

Bei Finanzdaten ist es üblich, zu ihren Renditen überzugehen und diese zumindestens für

gewisse Zeiträume als (streng) stationär verteilt anzusehen. Wir werden im Folgenden

noch sehen, dass für Renditen die Annahme von schwacher Stationarität im Allgemeinen

nicht ausreichend bzw. ungeeignet ist. Allerdings gibt es auch statistische Untersuchungen,

die die (strenge) Stationarität der Renditen in Zweifel ziehen (man siehe Straumann [32]

und die dortigen Referenzen). Da es sich bei GARCH um ein stationäres Zeitreihenmodell

für Renditen handelt, unterstellen wir in dieser Arbeit jedoch ebenfalls stationäre Renditen.

a d(a) d(−a)

0.01 0.0000497 0.0000503

0.03 0.000441 0.000459

0.05 0.00121 0.00129

0.10 0.00469 0.00536

0.50 0.0945 0.193

Abb. 2.2 Graphischer Vergleich der Funktionen x und log(1 + x), sowie deren maximale Abweichungen auf den

Intervallen [0, a] und [−a, 0].

Es gibt in der Finanzmarktstatistik zwei Rendite-Begrie, die wir kurz vorstellen wollen.

Ist (Kt)t∈Z unser Basisdatensatz, also etwa der Kursverlauf einer Aktie, so nennen wir die

relativen Zuwächse

Rt :=Kt −Kt−1

Kt−1

diskrete Rendite. Wohingegen die logarithmischen Zuwächse

rt := logKt − logKt−1

als stetige Rendite oder auch Log-returns bezeichnet werden. Der Denition von Rt liegt

die Vorstellung einer gewöhnlichen Verzinsung zugrunde. Uns ist nicht bewusst, ob die

Log-returns eine anschauliche Interpretation besitzen oder ob sie von der Arbeit mit Zeit-

stetigen Modellen, wie z.B. der geometrischen Brownschen Bewegung, herrühren. Jedenfalls

besitzen Preisprozesse in der Finanzmathematik häug eine multiplikative Struktur, die es

nahelegt, Zuwächse auch logarithmisch zu betrachten.

Man rechnet leicht nach, dass rt = log(1+Rt) gilt. Anhand von Abb. 2.2 erkennt man somit,

dass sich beide Renditen für kleine Werte von Rt kaum unterscheiden. Wir können diese

Aussage noch mathematisch präzisieren. Betrachtet man die Abweichung beider Rendite-

Begrie d(x) := x− log(1 + x), so gilt d′(x) = x1+x für alle x ∈ (−1, 1) und wir erkennen,

dass d auf dem Intervall (−1, 0] monoton fallend und auf [0, 1) monoton wachsend ist.

Insbesondere ist d also nicht-negativ (d(0) = 0) und es gilt

maxx∈[−a,a]

d(x) = max(d(−a), d(a))

Page 33: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.1 Stilisierte Fakten 27

für alle a ∈ (−1, 1). Gehen wir von hochfrequenten Daten aus, wie etwa täglichen Kursen,

so sind die relativen Zuwächse gewöhnlich klein, und der Unterschied zwischen Log-returns

und relativen Zuwächsen ist verschwindend gering, wie man mit Hilfe der Tabelle aus

Abb. 2.2 erkennt. Betrachten wir z.B. die Log-returns der DAX-Daten in Abb. 2.1 (rechts

oben), so sind die Beträge aller Renditen kleiner 0.1 und bis auf wenige Ausnahmen sogar

kleiner 0.05. Alles, was wir in diesem Abschnitt über Renditen gesagt haben oder sagen

werden, gilt somit unter der Voraussetzung hochfrequenter Daten für beide Rendite-Formen

gleichermaÿen. In der Regel wird bei der Analyse eines einzelnen Basisdatensatzes den Log-

Returns der Vorzug gegeben. Mit diesen lassen sich mehrperiodige Renditen als Summe

der einperiodigen Renditen darstellen

logKt2 − logKt1 =t2∑

t=t1+1

rt , t1 ≤ t2,

was ihre mathematische Handhabung erleichtert. Dagegen besitzen relative Zuwächse Vor-

teile bei der Portfolio-Analyse, da sich mit ihnen die Portfolio-Rendite als gewichtete Sum-

me der Renditen der einzelnen Bestandteile berechnen lässt.

Abb. 2.3 Korrelogramm der Log-returns (links), der Beträge der Log-returns (in der Mitte) und der Quadrate der

Log-returns (rechts) für die DAX-Daten aus Abbildung 2.1. (aus: Kreiÿ & Neuhaus [24] Zeitreihenanalyse)

Wir kommen nun zu den Phänomenen, die abgesehen von der Stationarität im Allgemeinen

mit hochfrequenten Rendite-Daten assoziiert werden.

2.1.1 Nicht-lineare Abhängigkeitsstrukturen

Schätzt man die Autokorrelation von Rendite-Daten, so weisen die Renditen selbst keine

signikante Korrelation auf ihre Beträge und Quadrate aber schon (vgl. Abb. 2.3). Dies

legt nahe, Renditen als unkorreliert aber nicht unabhängig anzusehen, da die Unabhängig-

keit sich auf Beträge und Quadrate übertragen und somit zu deren Unkorreliertheit führen

würde. Die Kovarianzen eines Rendite-Prozesses können dessen Abhängigkeitsstruktur so-

mit nicht beschreiben und es wird deutlich, warum die Klasse der schwach stationären

Zeitreihen zur Modellierung von Rendite-Prozessen ungeeignet ist. Desweiteren erkennt

man, dass multivariate Normalverteilungs-Modelle für Renditen unzulänglich sind, da Un-

korreliertheit dort bereits Unabhängigkeit impliziert.

Page 34: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

28 Paragraph 2 - Das GARCH-Modell

2.1.2 Volatility Clustering

Bei hochfrequenten Rendite-Daten beobachtet man gewöhnlich eine unregelmäÿige Abfolge

von Phasen gröÿerer Abweichungen vom Mittelwert und Phasen kleinerer Abweichungen

- vgl. Abb. 2.1 (rechts oben). Mandelbrot gehörte zu den Ersten, die dies erkannten: ... large changes [of prices] tend to be followed by large changes of either sign andsmall changes tend to be followed by small changes ... (vgl. Mandelbrot (1963) [26] The

variation of certain speculative prices). Es ist also anzunehmen, dass die Varianz einer

Rendite zumindestens teilweise von dem Verlauf der vergangenen Renditen abhängt. Tat-

sächlich werden die verzögerten Renditen sogar als der weitaus wichtigste Einuss auf die

Varianz angesehen, während andere, wie z.B. makroökonomische, Erklärungsfaktoren eine

untergeordnete Rolle spielen. Vor allem in den Wirtschaftswissenschaften wird die Stan-

dardabweichung von Zuwächsen ob an sich, relativ oder logarithmisch gesehen auch als

Volatilität bezeichnet, woher die Bezeichnung volatility clustering stammt.

2.1.3 Der Leverage-Eekt

Zusätzlich zu der im vorherigen Absatz beschriebenen Cluster-Bildung wird im Allgemei-

nen noch ein weiterer Zusammenhang zwischen Volatilität und verzögerten Renditen ange-

nommen. Man geht davon aus, dass negative, vergangene Renditen die Volatilität stärker

steigern, als positive Renditen dies tun. Dieser als Leverage-Eekt in die Literatur einge-

gangene Einuss auf die Volatilität wurde zunächst auf Grund theoretischer und ökonomi-

scher Überlegungen von Black in [10] für Aktienkurse unterstellt. Unabhängig von Black's

Überlegungen lassen sich aber auch empirische Belege für die asymmetrische Reaktion der

Volatilität auf das Vorzeichen der verzögerten Renditen nden. Unter der Annahme von

(streng) stationären Renditen ist Cov(r2t , rt−1) unabhängig vom Zeitpunkt t und Schät-

zungen ergeben, dass r2t zu rt−1 häug negativ-korreliert ist. Setzen wir die Renditen als

zentriert voraus, so weist diese Beobachtung auf eine gewisse Tendenz hin, dass negative

rt−1 mit r2t > E(r2

t ) = V ar(rt) einhergehen und positive rt−1 mit r2t < E(r2

t ). Betrachtenwir Abb. 2.4 als Beispiel, so lässt sich die negative Korrelation von r2

t und rt−1 bei einigen

Aktien nicht beobachten in der überwiegenden Anzahl der Fälle tritt dieser Eekt jedoch

auf, teilweise sogar recht deutlich.

ρ(r2t , rt−1) ρ(r2t , rt−1) ρ(r2t , rt−1)

DAX-Index -0.1051 Deutsche Bank -0.0652 Metro -0.0266

Adidas -0.0452 Deutsche Börse -0.0667 Münchener Rück -0.0488

Allianz -0.0369 Deutsche Post -0.0055 RWE -0.0082

Altana -0.0285 Deutsche Telekom -0.0484 SAP -0.0605

BASF -0.1099 Eon -0.0078 Schering 0.0077

Hypo Vereinsbank -0.0346 Fresenius -0.0400 Siemens -0.0427

BMW -0.0322 Henkel 0.0298 Thyssen -0.0116

Bayer -0.0357 Innieon 0.0086 TUI 0.0200

Commerzbank -0.0386 Linde 0.0414 Volkswagen -0.0445

Continental -0.0565 Lufthansa -0.0001

DaimlerChrysler -0.0881 MAN 0.0091

Abb. 2.4 Schätzung des Korrelationskoezienten ρ(r2t , rt−1) an Hand der Tagesrenditen des DAX und seiner Bestandteile

vom 3.1.1995 bis zum 31.12.2004. (aus: Schmid & Trede [31] Finanzmarktstatistik)

Page 35: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.2 GARCH und seine Entwicklung 29

2.1.4 Schwere Flanken, Spitzigkeit und Asymmetrie

Vernachlässigen wir die Abhängigkeitsstruktur der Renditen und betrachten ausschlieÿ-

lich ihre univariate Verteilung, so weisen Daten in der Regel die folgenden Eigenschaften

auf. Zunächst treten stark negative Renditen meist häuger auf als stark positive. Diese

Asymmetrie ist aber nur schwach ausgeprägt. Desweiteren ist die Verteilung der Renditen

unimodal und im Vergleich zur Normalverteilung sind betragsmäÿig sehr groÿe und sehr

kleine Renditen häuger. Man spricht hier von schweren Flanken (heavy tails) und Spitzig-

keit (peakedness). Mandelbrot hatte sich in seiner oben erwähnten Arbeit vor allem auch

mit diesen Phänomenen beschäftigt und sie dort illustriert vgl. Abb. 2.5.

Abb. 2.5 Verteilung der Zuwächse monatlicher Wollpreise zwischen 1890 und 1937 verglichen mit der Dichte einer

Normalverteilung mit aus den Daten geschätzter Varianz. Links: Zuwächse über einen 5-monatigen Zeitraum. Rechts:

Zuwächse über einen 10-monatigen Zeitraum. (aus: Mandelbrot [26] The variation of certain speculative prices)

2.2 GARCH und seine Entwicklung

GARCH (generalized ARCH) wurde 1986 von Bollerslev in [6] als Verbesserung von Engle's

ARCH-Modell vorgeschlagen. Engle hatte zuvor 1982 in [15] mit ARCH (Autoregressive

conditional heteroscedasticity) erstmals ein Zeitreihenmodell eingeführt, das trotz relativ

einfacher Struktur und kompakter Form die wichtigsten Eigenschaften von Rendite-Daten

zufriedenstellend abbilden konnte. Insbesondere bei der Modellierung des volatility cluste-

ring hatte man sich zuvor schwer getan und keine einfache und elegante Lösung gefunden.

ARCH jedoch erfasst dieses Phänomen verhältnismäÿig gut und ist zudem noch stationär

und damit mathematisch gut handhabbar. Engle wurde für diese Leistung 2003 mit dem

Nobelpreis für Wirtschaftswissenschaften ausgezeichnet.

Man nennt eine Zeitreihe heteroskedastisch, falls sich die Varianz der einzelnen Zufallsva-

riablen mit der Zeit verändert bleiben die Varianzen stets gleich, so spricht man von

Homoskedastizität. ARCH ist als stationäres Zeitreihenmodell selbst homoskedastisch und

man könnte annehmen, dass sich daher die verschiedenen Phasen betragsmäÿig groÿer

und kleiner Renditen damit nicht darstellen lassen. Vor ARCH hatte man dementspre-

chend versucht, dieses Phänomen mit heteroskedastischen Modellen in den Gri zu be-

kommen, und damit auf die Stationarität verzichtet. Tatsächlich reicht es aber aus, dass

sich ARCH-Prozesse lediglich bedingt-heteroskedastisch verhalten. Dabei nennt man eine

Zeitreihe (Xt)t∈Z bedingt-heteroskedastisch, falls sich die Varianz der Verteilung von Xt

bedingt nach der Vergangenheit Ft−1 := σ(Xs | s ≤ t − 1) mit der Zeit verändert. Kon-

kret besitzt die Varianz von PXt|Ft−1 bei ARCH-Prozessen eine Darstellung der Form

Page 36: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

30 Paragraph 2 - Das GARCH-Modell

a0 +∑p

i=1 aiX2t−i, wodurch sich die Bezeichnung Autoregressive bedingte Heteroskedas-

tizität erklärt. Wir werden auf das Thema bedingte Varianz im nächsten Abschnitt

noch näher eingehen, wollen aber an dieser Stelle schon hervorheben, dass die praktische

Bedeutung von ARCH gerade in der Vorhersage bzw. Schätzung der bedingten Varianz

zukünftiger Renditen liegt hinsichtlich der zukünftigen Renditen selbst liefern vergange-

ne Beobachtungen in ARCH-Modellen keine Information. An einer zuverlässigen Prognose

der Volatilität besteht ein groÿes wirtschaftliches Interesse. Insbesondere im Risikomana-

gement groÿer Kreditinstitute, sowie bei der Bewertung von Derivaten spielen Schätzungen

der Volatilität eine wichtige Rolle.

Engle's Idee der bedingt-heteroskedastischen Modellierung war ein überragender Fort-

schritt auf dem Gebiet der Finanzzeitreihenanalyse und stieÿ die Entwicklung von Vo-

latilitätsmodellen nachhaltig an. Obwohl sich aus und neben GARCH zahlreiche weitere

bedingt-heteroskeadastische Modellansätze entwickelten teilweise auch mit Verbesserun-

gen, gilt GARCH heutzutage immer noch als Standard auf diesem Gebiet, an dem sich

andere Modelle messen lassen müssen.

Denition 2.2.1 (GARCH(p,q)-Zeitreihe) Es seien Zt für t ∈ Z reelle i.i.d. Zufalls-variablen mit E(Zt) = 0 und V ar(Zt) = 1. Für p ∈ N und q ∈ N0 heiÿt eine reelle ZeitreiheX mit Zeithorizont Z genau dann GARCH(p,q), wenn ein positiver, reeller Prozess (σt)t∈Z

und nicht-negative, reelle Parameter a0, . . . , ap und b1, . . . , bq mit a0, ap, bq 6= 0 existieren,so dass P -f.s. die Gleichungen

Xt = σtZt(2.1)

σ2t = a0 +

p∑i=1

aiX2t−i +

q∑i=1

biσ2t−i(2.2)

für alle t ∈ Z gelten.

Man beachte, dass die Beobachtungen im GARCH-Modell durch X repräsentiert werden.

Im nächsten Abschnitt werden wir dann sehen, dass durch σ2t die Varianz von PXt|Ft−1

gegeben ist, weshalb man σ auch als Volatilität von X bezeichnet. Der Prozess σ, wel-

cher gerade aus praktischer Sicht von Interesse ist, lässt sich also aus den Daten nicht

direkt ablesen und muss geschätzt werden. Würde man z.B. in obiger Denition den Fall

p = 0 zulassen, so wäre die Volatilität vollständig von X abgekoppelt. Dies würde aber

der im letzten Abschnitt erwähnten ökonomischen Ansicht widersprechen, dass gerade die

verzögerten Renditen den wichtigsten Einuss auf die Volatilität darstellen, und ist uner-

wünscht. Der Fall q = 0 stellt Engle's ARCH(p)-Modell dar. Der Vorteil von Bollerslev'

Erweiterung besteht in einer besseren und einfacheren Datenanpassung. Um mit ARCH

gute Ergebnisse zu erzielen, muss man p sehr groÿ wählen. Dagegen ist GARCH schon mit

p = q = 1 in der Lage Rendite-Daten sehr realistisch nachzubilden, wie man in Abb. 2.1

erkennen kann.

Aus mathematischer Sicht stellt sich zu Denition 2.2.1 sofort die Frage nach der Existenz

einer GARCH-Zeitreihe und gegebenenfalls dann nach Eindeutigkeit.

Page 37: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.2 GARCH und seine Entwicklung 31

Denition 2.2.2 Sind der Prozess Z, sowie die Parameter a0, . . . , ap und b1, . . . , bq ge-geben, so wollen wir von einer Lösung (X,σ) der GARCH-Gleichungen sprechen, falls Xund σ die Gleichungen (2.1) und (2.2) P -f.s. erfüllen und σ zudem positiv und reellwertigist. Desweiteren nennen wir eine Lösung (X,σ) stationär (bzw. schwach stationär oderquadratisch-integrierbar), falls X diese Eigenschaft besitzt.

Obwohl, wie bereits erwähnt, die Klasse der schwach stationären Zeitreihen zur Model-

lierung von Rendite-Daten aus theoretischer Sicht ungeeignet ist, wurden zunächst nur

schwach stationäre Lösungen der GARCH-Gleichungen in Betracht gezogen. Die Herlei-

tung einer notwendigen und hinreichenden Bedingung für die Existenz schwach statio-

närer Lösungen ist mathematisch relativ einfach und geschah unmittelbar durch Boller-

selv selbst in seinem Paper. Nach Straumann [32] nahm man anfänglich an, dass die

Existenz-Bedingungen für schwache und strenge Stationarität identisch seien. Tatsäch-

lich verhält es sich bei GARCH aber so, dass schwach stationäre Lösungen zwar automa-

tisch auch streng stationär sind, es umgekehrt aber streng stationäre Lösungen gibt, die

nicht quadratisch-integrierbar und damit nicht schwach stationär sind. Da einige Rendite-

Daten keine vernünftige, quadratisch-integrierbare Modellierung zulassen, sind quadra-

tisch nicht-integriebare, streng stationäre GARCH-Lösungen nicht nur von theoretisch-

mathematischem Interesse. Sobald deren mögliche Existenz bewusst wurde, begann man

mit der Suche nach einer notwendigen und hinreichenden Bedingung für die Existenz streng

stationärer Lösungen. Dieses Problem, welches sich als anspruchsvoller herausstellte, wurde

für GARCH(1,1) und normalverteilte Zt erstmals von Nelson 1990 in [28] gelöst. Nelson lie-

ferte auch einen entscheidenden Beitrag zur Behandlung des allgemeinen Fall, indem er auf

die Theorie der Zufallsmatrizen als geeignetes Hilfsmittel aufmerksam machte. Bougerol

& Picard grien Nelson's Hinweis auf und klärten die Frage der Existenz streng statio-

närer Lösungen 1992 in [7] schlieÿlich vollständig. Weitere wichtige Arbeiten zu GARCH

wurden 2002 von Basrak, Davis & Mikosch [2] zur unbedingten Verteilungen von GARCH-

Prozessen, sowie 2003 von Berkes, Horváth & Kokoszka [4] zum Schätzen in GARCH-

Modellen veröentlicht.

Abb. 2.6 Ein normalverteiltes weiÿes Rauschen mit Varianz 2 (links), sowie die Simulation jeweils einer ARCH(1)-

Zeitreihe mit Parameter a1 = 0.8 (rechts oben) und Parameter a1 = 2.0 (rechtsunten) und normalverteilten Innova-

tionen. Man beachte jeweils die unterschiedliche Skala der y-Achse. (aus: Kreiÿ & Neuhaus [24] Zeitreihenanalyse)

Wir werden uns mit der Mathematik des GARCH-Modells ausführlicher in Paragraph 4

beschäftigen, nachdem wir in Paragraph 3 die notwendigen Hilfsmittel dazu bereitgestellt

Page 38: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

32 Paragraph 2 - Das GARCH-Modell

haben. In den folgenden Abschnitten dieses Paragraphen wollen wir nun noch die wichtigs-

ten stilisierten Fakten aus Abschnitt 2.1 in Bezug auf GARCH diskutieren. Hierzu müssen

wir teilweise allerdings auf spätere Resultate vorgreifen.

Satz 2.2.3 Es sei (X,σ) eine stationäre Lösung der GARCH(p,q)-Gleichungen, sowieFt := σ(Xs | s ≤ t). Dann gilt Zt ⊥⊥ Ft−1 und es existiert eine Ft−1-messbare Version vonσt für alle t ∈ Z.

Den Beweis hierzu werden wir in Abschnitt 4.4.1 führen. Aus Satz 2.2.3 folgt sofort, dass

Zt und σs für alle s ≤ t ∈ Z stochastisch unabhängig sind.

2.3 Die Bedingte Varianz

Für diesen Abschnitt sei X eine stationäre GARCH(p,q)-Zeitreihe mit Volatilität σ. Wie

zuvor sei Ft := σ(Xs | s ≤ t) für t ∈ Z. Es ist üblich, Ft als Menge der Informatio-

nen zu interpretieren, die einem Beobachter zum Zeitpunkt t zur Verfügung stehen. Man

kann sich dies verdeutlichen, indem man eine Entscheidung oder Prognose S zum Zeit-

punkt t als reelle Zufallsvariable ansieht, die von den bisher gemachten Beobachtungen~Xt := (Xt, Xt−1, Xt−2, . . .) abhängt also S = f(Xt, Xt−1, . . .) mit messbarem f . Nach

dem Faktorisierungssatz sind dann alle zum Zeitpunkt t möglichen Entscheidungen und

Prognosen gerade durch die Ft-messbaren reellen Zufallsvariablen gegeben. Natürlich ist

es aus praktischer Sicht unmöglich, unendlich viele vergangene Beobachtungen zu machen,

und man wird mit endlich viel Information Xt, Xt−1, . . . , Xt−n auskommen müssen.

Die bedingte Verteilung PXt+1|Ft lässt sich in diesem Zusammenhang nun wie folgt in-

terpretieren. Haben wir zum Zeitpunkt t die Beobachtung ~Xt = x mit x ∈ RN ge-

macht, so ist PXt+1|Ft(ω,A) für alle A ∈ B(R) auf der Menge ~Xt = x konstant, dennω 7−→ PXt+1|Ft(ω,A) ist per Denition Ft-messbar und faktorisiert somit nach ~Xt. Die

bedingte Verteilung führt also für jede Beobachtung ~Xt = x 6= ∅ zu einem eindeutig

bestimmten W-Maÿ auf (R,B(R)), das wir mit PXt+1| ~Xt=x bezeichnen. Da wir annehmen,

~Xt = x beobachtet zu haben, ist es sinnvoll, auch P ( ~Xt = x) > 0 vorauszusetzen, und

wir können die Verteilung von Xt+1 gegeben der Information ~Xt = x mit Hilfe bedingter

Wahrscheinlichkeiten modellieren, wie sie aus der elementaren Stochastik bekannt sind.

Dies führt dann für A ∈ B(R) zu

P (Xt+1 ∈ A| ~Xt = x) =P (Xt+1 ∈ A, ~Xt = x)

P ( ~Xt = x)

(1.13)=

1

P ( ~Xt = x)·∫ ~Xt=x

PXt+1|Ft(ω,A) dP

= PXt+1| ~Xt=x(A).

PXt+1|Ft liefert also für jede mögliche Beobachtung bis zum Zeitpunkt t die Verteilung von

Xt+1 in Abhängigkeit von der gemachten Beobachtung.

Page 39: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.3 Bedingte Varianz 33

Wir wollen nun als nächstes Erwartungswert und Varianz der bedingten Verteilung für

GARCH berrechnen:

E(PXt+1|Ft(ω, · )

):=

∫Rs dPXt+1|Ft(ω, · )(s),

V ar(PXt+1|Ft(ω, · )

):=

∫R

(s− E(PXt+1|Ft(ω, · ))

)2dPXt+1|Ft(ω, · )(s).

Ist Xt+1 quadratisch-integrierbar, so erhalten wir sofort mit Lemma 1.5.2, dass

E (Xt+1|Ft) (ω) = E(PXt+1|Ft(ω, · )

),

E(X2t+1|Ft

)(ω) =

∫Rs2 dPXt+1|Ft(ω, · )(s)

P -f.s. gilt. Die Funktion s2 ist also P -f.s. integrierbar bezüglich PXt+1|Ft(ω, · ) und somit

gilt das gleiche für(s− E(PXt+1|Ft(ω, · ))

)2. Deshalb folgt P -f.s.

V ar(PXt+1|Ft(ω, · )

)=

∫Rs2 dPXt+1|Ft(ω, · )(s)− E

(PXt+1|Ft(ω, · )

)2

= E(X2t+1|Ft

)− E (Xt+1|Ft)2

= E(

(Xt+1 − E(Xt+1|Ft))2∣∣Ft) .

Für eine beliebige quadratisch-integrierbare Zufallsvariable Y und eine beliebige σ-Algebra

F deniert man dementsprechend auch die bedingte Varianz als

V ar(Y |F) := E(

(Y − E(Y |F))2∣∣F) .

Wir hatten im vorherigen Abschnitt jedoch erwähnt, dass es stationäre GARCH-Prozesse

gibt, die nicht quadratisch-integrierbar sind. Im Grunde wissen wir noch nicht einmal,

ob Xt+1 quasi-integrierbar ist. Die Objekte E(Xt+1|Ft) und V ar(Xt+1|Ft) könnten also

überhaupt nicht existieren. Daher ist es vorteilhaft, hier bedingte Varianz und bedingten

Erwartungswert im zuerst genannten Sinne zu verstehen. Da R polnisch ist, existieren die

bedingten Verteilungen PXt+1|Ft nach Theorem 1.5.4 immer, und wir werden im Folgenden

sehen, dass sich für GARCH auch P -f.ü. deren Erwartungswert und Varianz bestimmen

lassen. Abgesehen davon lässt sich dieses Konzept im obigen Sinne ja auch recht anschaulich

interpretieren.

Satz 2.3.1 Es sei X eine stationäre GARCH(p,q)-Zeitreihe mit Volatilität σ. Dann giltE(PXt|Ft−1(ω, · )

)= 0 und V ar

(PXt|Ft−1(ω, · )

)= σ2

t P -f.s. für alle t ∈ Z.

Beweis. Nach Lemma 1.5.2 gilt∫1[0,∞)(s)s dPXt|Ft−1(ω, · )(s) = E(1[0,∞)(Xt)Xt|Ft−1),

da s+ = 1[0,∞)(s)s nicht-negativ ist. Wir erhalten desweiteren P -f.s.

E(1[0,∞)(Xt)Xt | Ft−1)(2.1)= E(1[0,∞)(σtZt)σtZt | Ft−1)σt>0

= E(1[0,∞)(Zt)σtZt | Ft−1)

= E(σtZ+t |Ft−1)

= σt · E(Z+t |Ft−1) = σt · E(Z+

t ),

Page 40: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

34 Paragraph 2 - Das GARCH-Modell

wobei in der letzten Zeile eingeht, dass man σt nach Satz 2.2.3 messbar bezüglich Ft−1

wählen kann und sich somit die Glättungseigenschaft des bedingten Erwartungswertes für

nicht-negative Zufallsvariable (vgl. Bauer [3] Randnummer 15.21) anwenden lässt. Auÿer-

dem gilt E(Z+t |Ft−1) = E(Z+

t ), da Zt und Ft−1 unabhängig sind. Analog erhalten wir

dann∫−1(−∞,0](s)s dPXt|Ft−1(ω, · )(s) = σt ·E(Z−t ) und, da E(Zt) = 0 und σt reellwertig

ist, folgt E(PXt|Ft−1(ω, · )

)= 0.

Nun, da der bedingte Erwartungswert 0 ist, folgt V ar(PXt|Ft−1(ω, · )

)= E(X2

t |Ft−1) er-neut mit Lemma 1.5.2. Dies liefert wegen E(X2

t |Ft−1) = E(σ2tZ

2t |Ft−1) = σ2

t ·E(Z2t ) = σ2

t

die Behauptung.

Wir können nun auch erläutern, warum das GARCH-Modell, wie im vorherigen Abschnitt

bereits erwähnt, in Bezug auf zukünftige Renditen nicht informativ ist. Der bedingte Erwar-

tungswert E(PXt+1|Ft(ω, · )

)stellt nämlich im Sinne der erwarteten quadratischen Abwei-

chung die beste Prognose von Xt+1 zum Zeitpunkt t dar. Ist Xt+1 quadratisch integrierbar,

so können wir mit E(Xt+1|Ft) arbeiten, und die Behauptung ist bekannt (vgl. Bauer [3]

Satz 15.8). Aber auch ohne quadratische Integrierbarkeit macht die Aussage Sinn. Wir

gehen wieder von einer Beobachtung ~Xt = x zum Zeitpunkt t mit P ( ~Xt = x) > 0 aus

und betrachten dementsprechend die erwartete quadratische Abweichung einer Prognose

a ∈ R bezüglich PXt+1| ~Xt=x. Diese ist dann gegeben durch

(2.3)∫

(s− a)2 dPXt+1| ~Xt=x(s) =∫

(Xt+1 − a)2 dP ( · | ~Xt = x).

Man beachte hierbei, dass für GARCH wegen Satz 2.3.1 und P ( ~Xt = x) > 0 die Funktion

s2 integrierbar ist bezüglich PXt+1| ~Xt=x. Formen wir (2.3) ein wenig um und dierenzieren

nach a, so folgt leicht, dass das Minimum von (2.3) an der Stelle a =∫s dPXt+1| ~Xt=x(s)

angenommen wird. Für ω ∈ ~Xt = x ist somit E(PXt+1|Ft(ω, · )

)die beste Prognose.

Da nach Satz 2.3.1 der bedingte Erwartungswert jedoch stets 0 ist, hängt dieser nicht von

dem vergangenen Verlauf der Zeitreihe ab. Beobachtungen in GARCH sind zur Vorhersage

der nächsten Rendite also wertlos. Im Gegensatz dazu ist die Varianz von Xt+1 von der

Vergangenheit abhängig. Aus theoretischer Sicht ist sie sogar zum Zeitpunkt t bekannt,

denn nach Satz 2.3.1 ist sie durch σ2t+1 gegeben, welches nach Satz 2.2.3 Ft-messbar ist.

Durch diese Abhängigkeit der bedingten Varianz von den Pfaden des Prozesses wird der

Eekt des volatilitiy clustering erzeugt. Für das ARCH(p)-Modell kann man dies grob wie

folgt veranschaulichen: Sind die vergangenen p Beobachtungen X2t−1, . . . , X

2t−p groÿ, so ist

die Varianz von Xt groÿ. Sind die vergangenen Beobachtungen klein, so ist ebenfalls die

Varianz von Xt klein. Erst wenn man die unterschiedlichen bedingten Varianzen über alle

möglichen Pfade des Prozesses mittelt∫V ar(Xt+1|Ft) dP =

∫E(X2

t+1|Ft) dP = E(X2t+1) = V ar(Xt+1),

gelangt man bei quadratisch-integriebaren GARCH-Prozessen zur unbedingten Varianz,

die sich homoskedastisch verhält.

Page 41: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.4 Kovarianzen 35

2.4 Kovarianzen im GARCH-Modell

2.4.1 Varianz und Kovarianz von GARCH

Wir wollen nun die Kovarianz-Struktur von GARCH auf die in Abschnitt 2.1 beschriebenen

Beobachtungen hin untersuchen. Dafür ist es notwendig von einem quadratisch integrier-

baren GARCH-Prozess auszugehen. Wir werden später sehen, dass eine hinreichende und

notwendige Bedingung für die Existenz eines quadratisch integrierbaren und stationären

GARCH(p,q)-Prozess X mit Parametern a0, . . . , ap und b1, . . . , bq durch

(2.4)p∑i=1

ai +q∑i=1

bi < 1

gegeben wird. Hinsichtlich der Momente und Kovarianzen von GARCH gilt dann der fol-

gende Satz:

Satz 2.4.1 Es sei X eine quadratisch integrierbare, stationäre GARCH(p,q) Zeitreihe mitVolatilität σ. Dann gilt E(Xt) = 0, Cov(Xt, Xs) = 0, sowie

V ar(Xt) =a0

1− (∑p

i=1 ai +∑q

i=1 bi)

für alle t 6= s ∈ Z.

Beweis. Zunächst wissen wir bereits aus dem vorherigen Abschnitt, dass für quadratisch

integrierbare GARCH-Prozesse E(Xt|Ft−1) = E(PXt|Ft−1(ω, · )

)= 0 gilt vgl. Satz 2.3.1.

Es folgt sofort E(Xt) = E (E(Xt|Ft−1)) = 0. Desweiteren sind σ2t und Z

2t nach Satz 2.2.3

unabhängig und wegen E(Z2t ) = 1 erhält man E(X2

t ) = E(Z2t )E(σ2

t ) = E(σ2t ) für alle

t ∈ Z aus Gleichung (2.1). Dies führt zu

V ar(Xt) = E(X2t ) = E(σ2

t )(2.2)= a0 +

p∑i=1

aiE(X2t−i) +

q∑i=1

biE(σ2t−i)

= a0 +p∑i=1

aiV ar(Xt) +q∑i=1

biV ar(Xt),

wobei im letzten Schritt die Stationarität von X eingeht. Lösen wir diese Gleichung nach

V ar(Xt) auf, so erhalten wir obigen Ausdruck für die Varianz. Um die Kovarianz zu be-

rechnen nehmen wir s < t an. Aus Satz 2.2.3 folgt dann, dass Zt und σtXs unabhängig

sind. Auÿerdem beachte man, dass σtXs nach der Hölderschen Ungleichung integrierbar

ist, da sowohl σt als auch Xs quadratisch integrierbar sind. Wegen E(Zt) = 0 folgt

Cov(Xt, Xs) = E(XtXs) = E(ZtσtXs) = E(Zt)E(σtXs) = 0.

Page 42: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

36 Paragraph 2 - Das GARCH-Modell

2.4.2 ARMA(max(p,q),q)-Form des quadrierten GARCH-Prozesses

Um nun die Kovarianzen des quadrierten GARCH-Prozesses zu untersuchen, müssen wir

zusätzlich annehmen, dass X4t integrierbar ist. Auf Grund der Unabhängigkeit und Nicht-

Negativität von σ4t und Z4

t gilt dann E(X4t ) = E(σ4

t )E(Z4t ) und es folgt, dass somit auch

die 4. Momente von σ und Z existieren. E(σ4t ) und E(Z4

t ) können nämlich beide nicht 0

sein, wegen σt > 0 bzw. E(Z2t ) = 1. Durch Quadrieren von (2.1) erhält man

(2.5) X2t = σ2

t + σ2t (Z

2t − 1)

und wir denieren ηt := X2t − σ2

t = σ2t (Z

2t − 1) für t ∈ Z. Man rechnet nun leicht nach,

dass η ein weiÿes Rauschen d.h. ein zentrierter, unkorrellierter Prozess mit über die Zeit

konstanter Varianz ist. Ersetzen wir das erste σ2t in (2.5) durch (2.2) und verwenden

innerhalb von (2.2) auÿerdem σ2t−i = X2

t−i − ηt−i, so erhalten wir

X2t = a0 +

p∑i=1

aiX2t−i +

q∑i=1

bi(X2t−i − ηt−i) + ηt

= a0 +max(p,q)∑i=1

(ai + bi)X2t−i −

q∑i=1

biηt−i + ηt,

wobei wir in der letzten Zeile ai = 0 für i > p und bi = 0 für i > q setzen. Zentrieren

wir nun X2t , indem wir Xt := X2

t − E(X2t ) denieren, so führt dies zu der folgenden

ARMA(max(p,q),q) Darstellung

(2.6) Xt +max(p,q)∑i=1

(−ai − bi)Xt−i = ηt +q∑i=1

(−bi)ηt−i,

wie man mit Hilfe der Formel für E(X2t ) aus Satz 2.4.1 leicht nachrechnet. Die Theorie

solcher ARMA-Gleichungen ist gut erforscht und lässt sich Buch von Kreiÿ & Neuhaus [24]

nachlesen. Bei der Analyse von ARMA-Gleichungen, die in ihrer allgemeinen Form durch

(2.7) Yt +p∑j=1

αjYt−j = et +q∑j=1

βjet−j , ∀t ∈ Z,

mit αj , βj ∈ C; p, q ∈ N; αp, βq 6= 0, und einem geeignetem reellen oder komplexen weiÿen

Rauschen e gegeben sind, spielen die sogenannten z-Transformationen eine wichtige Rolle.

Darunter werden die Polynome

A(z) = 1 +p∑j=1

αjzj und B(z) = 1 +

q∑j=1

βjzj

mit z ∈ C verstanden, die bei gegebenem weiÿen Rauschen 1 zu 1 mit den Gleichun-

gen (2.7) korrespondieren. Weiter deniert man H := ggT(A,B), sowie A0 := AH und

B0 := BH , wobei man H so normiert, dass A0(0) = 1 = B0(0) gilt. Die Gleichung (2.7), die

Page 43: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.4 Kovarianzen 37

zu den z-Transformationen A0 und B0 gehört, nennt man dann auch reduzierte ARMA-

Gleichung. Eine notwendige und hinreichende Bedingung für die Existenz einer schwach

stationären Lösung Y ist sowohl für die Ausgangsgleichung (A,B), als auch für die redu-

zierte Gleichung (A0, B0) durch A0(z) 6= 0 für alle z mit |z| = 1 gegeben. Eine schwach

stationäre Lösung der reduzierten Gleichung ist eindeutig bestimmt und löst ebenfalls die

Ausgangsgleichung. Die Ausgangsgleichung besitzt genau dann neben der Lösung der re-

duzierten Gleichung noch weitere schwach stationäre Lösungen, wenn H Nullstellen auf

z ∈ C | |z| = 1 hat (vgl. [24] Satz 7.4).In der Situation des quadrierten GARCH-Prozess berechnen sich die z-Transformationen

von (2.6) zu

A(z) = 1 +max(p,q)∑i=1

(−ai − bi)zi und B(z) = 1 +q∑i=1

(−bi)zi.

Mit Hilfe einer leichten Rechnung folgt nun aus (2.4), dass weder A noch B eine Nullstelle

auf dem Einheitskreis z ∈ C | |z| ≤ 1 besitzen. Insbesondere kann somit H auch keine

Nullstelle auf z ∈ C | |z| = 1 haben und X ist damit die eindeutig bestimmte schwach

stationäre Lösung von (2.6) und von der aus (2.6) abgeleiteten reduzierten Gleichung.

Man beachte, dass für reelle z-Transformationen A,B, wie in (2.6), das Polynom H und

damit auch A0 und B0 ebenfalls reelle Polynome sind. Dies liegt daran, dass für reelle

Polynome P ∈ R[z] die Äquivalenz P (z) = 0 ⇐⇒ P (z) = 0 für alle z ∈ C gilt. Abgesehen

von der Normierung ist dann nämlich

H(z) =r∏i=1

(z − ζi)vi ·s∏i=1

(z − νi)wi(z − νi)wi ∈ R[z]

mit gemeinsamen reellen Nullstellen ζi und gemeinsamen komplexen, nicht-reellen Null-

stellen νi von A und B.

Da der zentrierte, quadrierte GARCH-Prozess X die reduzierte Gleichung von (2.6) löst

und A0 auÿerdem keine Nullstelle auf dem Einheitskreis besitzt (da A dort schon keine

hat), folgt, dass X kausal ist (vgl. [24] Satz 7.10). Dies bedeutet, dass X eine Darstellung

der Form

Xt =∞∑i=0

cjηt−i ∀t ∈ Z

besitzt, wobei sich die Koezienten ci aus der Taylorentwicklung im Punkt 0 von

B0(z)A0(z)

=∞∑i=0

cizi

ergeben. Die Autokovarianzfunktion von X berrechnet sich für h ∈ Z dann zu (vgl. [24]

Randnummer (8.2))

(2.8) γ(h) := Cov(Xt+h, Xt) = V ar(ηt) ·∞∑i=0

cici+|h|.

Page 44: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

38 Paragraph 2 - Das GARCH-Modell

Es folgt nun unmittelbar, dass die Kovarianzen des quadrierten GARCH-Prozesses X2t

ebenfalls durch (2.8) gegeben sind und nicht verschwinden.

2.5 Heavy Tails

Wir hatten in Abschnitt 2.1 erwähnt, dass verhältnismäÿig häug betragsmäÿig sehr groÿe

Renditen auftreten. Um das Verhalten der Verteilung einer Zufallsvariable X hinsichtlich

extremer Ereignisse zu beschreiben, ist es sinnvoll, die asymptotischen Eigenschaften der

Funktionen P (X > u) und P (X < −u) für u → ∞ zu untersuchen. Diesbezüglich gibt es

verschiedene Begrisbildungen, um Verteilungen zu klassizieren. Gewöhnlich sagt man,

dass X eine schwere rechte Flanke (heavy right tail) besitzt, falls

(2.9) limu→∞

exp(λu)P (X > u) =∞

für alle λ > 0 gilt, und interpretiert dies als Tendenz von X zu extremen positiven Ereig-

nissen. Ist X z.B. standard-normalverteilt und u ≥ 1, so folgt

P (X > u) =∫ ∞u

1√2π

exp(−x

2

2

)dx ≤

∫ ∞u

x exp(−x

2

2

)dx

=[− exp

(−x

2

2

)]∞u

= exp(−u

2

2

)und man sieht, dass (2.9) für alle λ > 0 gegen 0 konvergiert. Die Standard-Normalverteilung

ist also light-tailed. Die Flanke einer Exponential-Verteilung zum Parameter λ > 0 ist

gerade durch exp(−λu) gegeben, weshalb die Exponential-Verteilung ebenfalls light-tailed

ist und einen Grenzfall darstellt, mit dem andere Verteilungen verglichen werden. Beispiele

für Verteilungen mit schweren Flanken sind die Pareto- und Lognormal-Verteilung, sowie

für gewisse Parameter die Weibull-Verteilung (vgl. Asmussen [1] I.2b). Analog zu (2.9)

deniert man, dass X eine schwere linke Flanke (heavy left tail) besitzt, falls

(2.10) limu→∞

exp(λu)P (X < −u) =∞

für alle λ > 0 gilt.

Wir wollen im folgenden die asymptotischen Eigenschaften der Flanken der Beobachtun-

gen eines stationären GARCH(p,q) Prozesses X mit Volatilität σ diskutieren. Es ist für

GARCH grundsätzlich sehr schwierig insbesondere für nicht quadratisch integrierbare

X Aussagen über die unbedingte Verteilung der Beobachtungen Xt zu machen. Basrak,

Davis & Mikosch haben 2002 in [2] jedoch gezeigt, dass sich unter gewissen Vorausset-

zungen für GARCH eine Arbeit von Kesten über Zufallsmatrizen anwenden lässt. Kesten

hatte 1973 in [21] die Verteilung von Objekten studiert, wie sie bei GARCH als stationäre

Lösungen auftreten. Genauer gesagt, hatte Kesten sich mit Objekten beschäftigt, die als Lö-

sungen von stochastischen Rekurrenz-Gleichungen mit i.i.d. Zufallsmatrizen und -vektoren

(At, Bt)t∈Z entstehen. Um diesen Zusammenhang und damit auch die Gestalt von Yt in

Page 45: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.5 Heavy Tails 39

dem folgendem Theorem zu verstehen, verweisen wir auf die Abschnitte 3.3 und 4.2. Wir

wollen das Ergebnis von Basrak, Davis & Mikosch nun hier kurz vorstellen und anwenden.

Dabei beachte man, dass in [2] die Denition einer GARCH-Zeitreihe etwas allgemeiner als

in Denition 2.2.1 gefasst ist von dem i.i.d. Prozess Z wird lediglich E(log+ |Z0|) < ∞verlangt. Die gleiche Situation begegnet uns noch einmal in Abschnitt 4.4, wenn wir uns

mit der Arbeit von Berkes, Horváth und Kokoszka beschäftigen, wo wir etwas näher auf

dieses Thema eingehen werden. Satz 2.2.3 können wir unter der neuen Voraussetzung nicht

ohne Weiteres benutzen es bleibt aber richtig, dass σt und Zt für eine stationäre Lösung

(X,σ) der GARCH-Gleichungen unabhängig sind. Der Zeitparameter t spielt im Folgenden

auf Grund der Stationarität keine Rolle.

Theorem 2.5.1 (Basrak, Davis & Mikosch [2] Theorem 3.1) Es sei (X,σ) einestationäre Lösung der GARCH-Gleichungen. Ferner gelte:

1) Zt besitzt eine positive Lebesgue-Dichte auf R und es existiert ein h0 ∈ (0,∞], so dassE(|Zt|h) <∞ für alle h < h0 und E(|Zt|h0) =∞ gilt.2) Nicht alle Parameter ai und bi verschwinden.

Dann existiert ein α > 0 und eine reelle Funktion w : Rp+q−1 −→ R, so dass

(2.11) limu→∞

uαP (〈x, Yt〉 > u) = w(x)

für alle x ∈ Rp+q−1 \ 0 gilt (bzw. Rp statt Rp+q−1 für q = 0) . Dabei bezeichnet Yt denZufallsvektor (4.2) aus Abschnitt 4.2.1 Ist x ∈ [0,∞)p+q−1 \ 0, so gilt w(x) > 0.

Bemerkung 2.5.2 Voraussetzung (2) in Theorem 2.5.1 ist recht schwammig formuliertund sehr wahrscheinlich so nicht ganz korrekt. Dem (recht knappen) Beweis in [2] ist zuentnehmen, dass die Matrizen At, die in (4.1) in Abschnitt 4.2.1 aufgeführt sind, P -f.s.aperiodisch und irreduzibel sein sollen es soll nämlich ein m ∈ N existieren mit

(2.12) A0A−1 · . . . ·A−m+1 > 0 P -f.s.,

was auf Grund der identischen Verteilung der Zt äquivalent zu Amt > 0 P -f.s. ist. Voraus-setzung (1) stellt unter anderem sicher, dass At P -f.s. irreduzibel ist (in der Sprache derMarkov-Ketten: alle Zustände kommunizieren miteinander). At muss jedoch nicht aperi-odisch sein auch unter Voraussetzung (2) nicht. Man wähle z.B. die Parameter p = q = 4,b2, b4, a4 > 0, sowie die restlichen Parameter gleich 0. Ein hinreichendes Kriterium für dieAperiodizität von At wäre auf jeden Fall durch a1 > 0 oder b1 > 0 gegeben. Es scheint auchso zu sein, dass Ungleichung (2.12) notwendig ist, um die Voraussetzungen in Kesten'sArbeit zu zeigen (vgl. Kesten [21] Voraussetzung/Randnummer (1.11)).

Um Theorem 2.5.1 nun anzuwenden, seien im Folgenden die Voraussetzungen (1) und (2)

erfüllt. Dann können wir unmittelbar folgern, dass

(2.13) limu→∞

u2αP (σt > u) > 0 und limu→∞

u2αP (Xt > u) > 0

Page 46: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

40 Paragraph 2 - Das GARCH-Modell

gilt, indem wir einen geeigneten Vektor x wählen und ausgehend von einer Folge u → ∞in (2.13) die Folge u2 →∞ in (2.11) einsetzen.

Bekannterweise gilt desweiteren lims→∞exp(s)sk

= ∞ für k ∈ N. Wählen wir zu α nun ein

k ∈ N mit k ≥ 2α, so folgt deshalb für alle λ > 0

exp(λu)u2α

≥ λk · exp(λu)(λu)k

−→∞

für u→∞ und wir erhalten aus (2.13)

(2.14) limu→∞

exp(λu)P (σt > u) =∞ und limu→∞

exp(λu)P (Xt > u) =∞.

Xt und die Volatilität besitzen also beide eine schwere rechte Flanke. Wir können auch

zeigen, dass Xt eine schwere linke Flanke besitzt. Da σt nicht-negativ ist, gilt für u > 0

Xt < −u = σtZt < −u = σtZ−t > u.

Mit Hilfe des Satzes von Fubini und der Unabhängigkeit von Zt und σt folgt daraus

P (Xt < −u) =∫ ∞

0

(∫ ∞0

1(u,∞)(zs) dPσt(s)

)dPZ

−t (z)

=∫1(0,∞)(z)P

(σt >

u

z

)dPZ

−t (z).

Wegen P (Z−t > 0) > 0 und mittels Lemma von Fatou erhalten wir somit

lim infu→∞

exp(λu)P (Xt < −u) ≥∫

lim infu→∞

1(0,∞)(z) exp(λz · u

z

)P(σt >

u

z

)dPZ

−t (z)

(2.14)=

∫1(0,∞)(z) · ∞ dPZ

−t (z) =∞

für alle λ > 0 und wir haben (2.10) für Xt gezeigt.

2.6 Der Leverage-Eekt

Wir betrachten nun wieder einen stationären GARCH(p,q)-Prozess X mit Volatilitität σ,

E(Zt) = 0 und E(Z2t ) = 1. Satz 2.2.3 besagt dann, dass zu σt eine σ(Xs| s ≤ t − 1)-

messbare Version existiert. In Abschnitt 4.4.1 werden wir die Gestalt von σt noch genauer

besprechen und dort zeigen, dass man σt sogar σ(X2s | s ≤ t−1)-messbar wählen kann. Ab-

gesehen von einer P -Nullmenge hängt die Volatilität im GARCH-Modell also vollständig

von den quadrierten, verzögerten Renditen ab, weshalb GARCH nicht zwischen positiven

und negativen Renditen unterscheiden kann. Eine asymmetrische Reaktion der Volatilität

auf das Vorzeichen der verzögerten Renditen kann mit GARCH also nicht modelliert wer-

den. Um den Leverage-Eekt dennoch abbilden zu können, sind zahlreiche andere Modelle

entwickelt worden, von denen wir zwei exemplarisch erwähnen möchten ohne jedoch tiefer

in diese Thematik einzusteigen.

Page 47: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

2.6 Der Leverage-Effekt 41

Bei AGARCH (asymmetric GARCH) wird ein zusätzlicher Parameter |γ| ≤ 1 eingeführt

und die Regressionsgleichung (2.2) für die bedingte Varianz abgewandelt zu

σ2t = a0 +

p∑i=1

ai(|Xt−i| − γXt−i)2 +q∑i=1

bjσ2t−i.

Ansonsten ändert sich im Vergleich zu Denition 2.2.1 nichts und der Fall γ = 0 entspricht

dem GARCH-Modell. AGARCH soll ein Spezialfall der sogenannten Threshold-GARCH-

Modelle sein und wird in dem Buch von Straumann [32] ausführlicher besprochen.

Bei EGARCH (exponential GARCH), das 1991 von Nelson in [29] vorgeschlagen wurde,

wird in seiner einfachsten Form die bedingte Varianz durch die Gleichung

log σ2t = α+ β log σ2

t−1 + γZt−1 + δ|Zt−1|

beschrieben mit Parametern α, γ, δ ∈ R und |β| < 1. Der Rendite-Prozess selbst ist wievorher durch Xt = σtZt mit i.i.d. Variablen Zt gegeben.

Ist γ 6= 0, so können beide Modelle das Vorzeichen vergangener Renditen berücksichtigen.

Bei AGARCH führt γ > 0 zum Leverage-Eekt, während bei EGARCH dies durch γ < 0geschieht.

Page 48: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

42 Paragraph 2 - Das GARCH-Modell

Page 49: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Paragraph 3

Zufallsmatrizen und Stochastische

Rekurrenz-Gleichungen

Wie gehabt sei (Ω,A, P ) ein Wahrscheinlichkeits-Raum und desweiteren sei M(d,R) die

Menge der reellen d × d−Matrizen. Wir wollen im Folgenden M(d,R) mit einer Norm

ausstatten und uns mit M(d,R)-wertigen Zufallsvariablen beschäftigen. Zu diesen soge-

nannten Zufallsmatrizen existiert eine recht umfangreiche Theorie - einen Überblick zu

dieser Thematik ndet man in [12]. Wie wir in Abschnitt 2.2 bereits erwähnt haben, ist die

Theorie der Zufallsmatrizen für die mathematische Analyse von GARCH sehr hilfreich und

wir wollen im Folgenden die für GARCH wichtigsten Resultate erarbeiten. Dazu treen

wir im ersten Abschnitt dieses Paragraphen einige Vorbereitungen und erinnern dort an

ein paar allgemeine mathematische und wahrscheinlichkeitstheoretische Konzepte.

3.1 Mathematische Vorbereitungen

3.1.1 Endlich-dimensionale normierte Räume

Zunächst wollen wir an einige Eigenschaften von endlich-dimensionalen normierten Räu-

men erinnern. Es sei E ein R-Vektorraum mit dim(E) < ∞. Dann sind alle Normen auf

E äquivalent (vgl. Meise/Vogt [27] Lemma 5.14). Dies bedeutet, dass zu zwei beliebigen

Normen | · | und ‖ · ‖ auf E eine Konstante C ≥ 1 mit

(3.1)1C‖x‖ ≤ |x| ≤ C ‖x‖

für alle x ∈ E existiert. Die Denition δ(x, y) := ‖x − y‖ führt bekanntlich zu einer

Metrik auf E, über die man mittels der oenen ε-Kugeln Bε(x) := y | δ(x, y) < ε alsBasis auf natürliche Weise zu einer Topologie gelangt. Aus (3.1) lässt sich nun einfach ab-

leiten, dass äquivalente Normen dieselbe Topologie induzieren. Hinsichtlich topologischen

Begrien wie Konvergenz, Stetigkeit, Kompaktheit oder Separabilität, und insbesondere

auch in Bezug auf die Borel-σ-Algebra, ist es also egal mit welcher Norm wir auf einem

endlich-dimensionalen Raum arbeiten. Desweiteren überlegt man sich leicht, dass äqui-

valente Normen auch zu den gleichen Cauchy-Folgen bezüglich der kanonischen Metrik

43

Page 50: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

44 Paragraph 3 - Zufallsmatrizen und SRG's

führen und somit (E, | · |) genau dann vollständig ist, wenn (E, ‖ · ‖) vollständig ist. Man

beachte, dass im Allgemeinen zwei Metriken, die die gleiche Topologie erzeugen, dennoch

unterschiedliche Cauchy-Folgen besitzen können - z.B. erzeugen δ1(t, s) := |t − s| undδ2(t, s) := | arctan(t)−arctan(s)| die gleiche Topologie auf R, aber (n)n∈N ist eine Cauchy-

Folge bezüglich δ2. Auÿerdem ist eine Menge A ⊆ E genau dann beschränkt bezüglich | · |,wenn sie bezüglich ‖ · ‖ beschränkt ist.

Satz 3.1.1 Es sei (E, ‖ · ‖) ein normierter R-Vektorraum mit dim(E) <∞. Dann gilt:a) E ist vollständig und separabel.b) Ist K ⊆ E abgeschlossen und beschränkt, so ist K kompakt.

Beweis. Es sei e1, . . . , en eine Basis von E. Dann bildet ϕ : Rn −→ E, ϕ((a1, . . . , an)) :=∑nj=1 ajej einen Vektorraum-Isomorphismus. Denieren wir nun folglich |(a1, . . . , an)| :=

‖ϕ((a1, . . . , an))‖, so erhalten wir eine Norm | · | auf dem Rn und ϕ : (Rn, | · |) −→ (E, ‖ · ‖)wird zu einem isometrischen Isomorphismus. ϕ ist somit insbesondere ein Homöomorphis-

mus und bildet die Topologien und die kompakten Mengen der beiden Räume bijektiv

aufeinander ab. Da ϕ Abstände unverändert lässt, werden auch Cauchy-Folgen und be-

schränkte Mengen 1 zu 1 aufeinander abgebildet. Für (Rn, | · |) sind die Aussagen (a) und

(b) bekannt - Qn bildet eine abzählbare, dichte Teilmenge und man siehe Forster [16]

3 Satz 5 (Heine-Borel) und 2 Satz 3 (Vollständigkeit). Mit Hilfe von ϕ lassen sich die

Aussagen nun auch auf (E, ‖ · ‖) übertragen.

3.1.2 Unendliche Produkte metrischer Räume

Wir wollen uns später vor allem mit Folgen von Zufallsmatrizen beschäftigen und in die-

sem Zusammenhang den Satz von Prochorov anwenden. Deshalb ist es sinnvoll sich mit

Produkten metrischer Räume zu befassen.

Für alle n ∈ N sei (Xn, δn) ein metrischer Raum und X :=∏n∈NXn sei der Produktraum.

Wir fassen die Elemente von X als Folgen (xn)n∈N mit xn ∈ Xn auf. Man überlegt sich

leicht, dass

δ(x, y) :=∞∑n=1

2−n min (1, δn(xn, yn))

für x, y ∈ X eine Metrik auf X deniert - die sogenannte Produktmetrik (vgl. auch Billings-

ley [5] M6). Konvergenz bezüglich der Produktmetrik ist äquivalent zu koordinatenweiser

Konvergenz. Dies ist die Aussage des folgenden Lemmas. Man beachte, dass die Produktto-

pologie (siehe unten) auf dem Produkt von überabzählbar vielen, nicht-trivialen metrischen

Räumen nicht metrisierbar ist (vgl. Dudley [13] S.51).

Lemma 3.1.2 Sind (Xn, δn) metrische Räume, X der Produktraum und δ die Produkt-metrik, so gilt für x(k), x ∈ X

limk→∞

δ(x(k), x) = 0 ⇐⇒ limk→∞

δn(x(k)n , xn) = 0 für alle n ∈ N.

Page 51: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.1 Mathematische Vorbereitungen 45

Beweis. Die Implikation =⇒ lässt sich unmittelbar einsehen. Die andere Richtung ist

eine Anwendung des Satzes von der dominierten Konvergenz. Sei µ das Zählmaÿ auf

(N,P(N)). Für nicht-negative Funktionen f : N −→ R gilt dann∫f dµ =

∑∞n=1 f(n).

Setzen wir nun fk(n) := 2−n min(1, δn(x(k)n , xn)) und gn := 2−n, so bildet g eine integrier-

bare Majorante der fk. Es folgt

limk→∞

δ(x(k), x) = limk→∞

∫fk dµ =

∫ (limk→∞

fk

)dµ =

∫0 dµ = 0.

Seien I 6= ∅ eine Indexmenge und (Ti, Ti) i ∈ I topologische Räume, sowie T :=∏i∈I Ti der

Produktraum. Die Produkt-Topologie T =⊗

i∈I Ti wird dann deniert durch die Subbasis

S := π−1i (A)

∣∣A ∈ Ti, i ∈ I,wobei wie immer πi : T −→ Ti die Projektionen darstellen. Sie ist also die gröbste Topologie

auf T , so dass alle Projektionen πi stetig sind. Man überlegt sich leicht, dass Konvergenz

bezüglich der Produkt-Topologie äquivalent ist zur Konvergenz in allen Koordinaten.

Lemma 3.1.3 Sind (Xn, δn) n ∈ N metrische Räume, X der Produktraum und δ die Pro-duktmetrik, sowie Tδn die kanonische Topologie bezüglich δn auf Xn und Tδ die kanonischeTopologie bezüglich δ auf X, so gilt ⊗

n∈NTδn = Tδ.

Beweis. In metrischen Räumen ist der topologische Begri der Stetigkeit - nämlich: Ur-

bilder oener Mengen sind oen - äquivalent zur Folgenstetigkeit (vgl. Forster [16] 2 Satz

11) und man sieht mit Lemma 3.1.2, dass die Projektionen von X jeweils Tδ − Tδn stetig

sind. Es folgt S ⊆ Tδ und somit⊗

n∈N Tδn ⊆ Tδ.Um die andere Inklusion zu zeigen, denieren wir zu ε > 0, k ∈ N und x ∈ X

(3.2) Nk,ε(x) :=k⋂i=1

π−1i

(y ∈ X

∣∣ δi(xi, yi) < ε).

Da die Nk,ε(x) als endliche Schnitte von Mengen aus S in der Produkttopologie liegen,

folgt Tδ ⊆⊗

n∈N Tδn , wenn wir zeigen, dass die Mengen (3.2) eine Basis von Tδ bilden.

Zunächst liegen auf Grund der Stetigkeit der Projektionen die Mengen Nk,ε(x) in Tδ. Seinun x ∈ X und ε > 0. Wir wählen dann ein k ∈ N mit

∑∞j=k+1 2−j < ε

2 . Es folgt Nk, ε2(x) ⊆

Bε(x), denn für y ∈ Nk, ε2(x) gilt

∑kj=1 2−j min(1, δj(xj , yj)) < ε

2

(∑kj=1 2−j

)< ε

2 und wir

erhalten δ(x, y) < ε. Da die oenen ε-Kugeln Bε(x) eine Basis von Tδ bilden, folgt, dassdie Mengen (3.2) ebenfalls eine Basis sind.

Wir wollen noch einmal auf den Begri der Produkt-σ-Algebra zurückkommen, den wir

bereits in Abschnitt 1.1 eingeführt hatten. Ist I 6= ∅ eine beliebige Indexmenge und sind

Page 52: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

46 Paragraph 3 - Zufallsmatrizen und SRG's

(Ei, Ei) Messräume, so können wir etwas allgemeiner als in Abschnitt 1.1 die Produkt-σ-

Algebra⊗

i∈I Ei als die kleinste σ-Algebra denieren, so dass für alle i ∈ I die Projektionenπi : (

∏i∈I Ei,

⊗i∈I Ei) −→ (Ei, Ei) messbar sind.

Satz 3.1.4 (vgl. Elstrodt [14] III. 5. Satz 5.9 und 5.10) Es sei (T, T ) das topolo-gische Produkt der topologischen Räume (Ti, Ti) für i ∈ I. Dann gilt

⊗i∈I B(Ti) ⊆ B(T ).

Besitzen alle Räume (Ti, Ti) eine abzählbare Basis, so gilt auch⊗

i∈I B(Ti) = B(T ).

Hinsichtlich Satz 3.1.4 beachte man, dass ein metrischer Raum genau dann eine abzählbare

Basis besitzt, wenn er separabel ist (vgl. Dudley [13] Proposition 2.1.4).

Satz 3.1.5 (vgl. Billingsley [5] M6) Sind (Xn, δn) metrische Räume, X der Produk-traum und δ die Produktmetrik, so gelten die folgenden beiden Aussagen.a) Sind alle (Xn, δn) separabel, so ist (X, δ) separabel.b) Sind alle (Xn, δn) vollständig, so ist (X, δ) vollständig.

Bemerkung 3.1.6 Sind (X1, δ1), . . . , (XN , δN ) endlich viele metrische Räume, so de-nieren wir die Produktmetrik auf X = X1 × . . .×XN durch

δ(x, y) := max1≤i≤N

δi(xi, yi).

Lemma 3.1.2 und 3.1.3, sowie Satz 3.1.5 gelten dann analog.

3.1.3 Der Satz von Prochorov

Am Ende dieses Abschnitts wollen wir noch den Satz von Prochorov in Erinnerung rufen.

Es sei X ein metrischer Raum, sowie M eine Menge von W-Maÿen auf (X,B(X)). Mheiÿt relativ kompakt, falls jede Folge inM eine schwach-konvergente Teilfolge besitzt.Mheiÿt stra, falls für alle ε > 0 eine kompakte Menge K ⊆ X existiert mit P (K) ≥ 1 − εfür alle P ∈M.

Theorem 3.1.7 (Satz von Prochorov) Es sei X ein metrischer Raum und M eineMenge von W-Maÿen auf (X,B(X)). Dann gilt:a) IstM stra, so folgt, dassM relativ kompakt ist.b) Ist X vollständig und separabel undM relativ kompakt, so folgt, dassM stra ist.

Beweis. Siehe Billingsley [5] Theorem 5.1 und 5.2.

3.2 Zufallsmatrizen

Da es sich bei (M(d,R), ‖ · ‖) um einen endlich-dimensionalen normierten Vektorraum

handelt, ist, wie bereits in Abschnitt 3.1.1 erwähnt, die Borel-σ-Algebra unabhängig von der

Wahl der Norm. Wir treen deshalb jetzt noch einmal ganz formal die folgende Denition.

Page 53: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.2 Zufallsmatrizen 47

Denition 3.2.1 Es sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Dann verstehen wir untereiner Zufallsmatrix A eine messbare Abbildung

A : (Ω,A) −→ (M(d,R),B (M(d,R))) .

3.2.1 Matrix-Normen und Folgen von Zufallsmatrizen

Einige Normen auf M(d,R) verhalten sich submultiplikativ. Dies ist sehr nützlich und wir

wollen solche Normen Matrixnorm nennen.

Denition 3.2.2 Eine Norm ‖ · ‖ auf M(d,R) heiÿt Matrixnorm, falls für alle A,B ∈M(d,R) gilt ‖AB‖ ≤ ‖A‖‖B‖.

Da die Wahl der Norm aufM(d,R) häug keine Rolle spielt, ist es in Beweisen oft möglich,

nur den Fall einer Matrixnorm diskutieren, was die Argumentation erleichtert.

Ein Beispiel für eine Matrixnorm ist die 1-Norm ‖A‖1 :=∑d

i=1

∑dj=1 |aij |. Man rechnet

nach, dass

‖AB‖1 =d∑i=1

d∑j=1

∣∣∣∣∣d∑

k=1

aikbkj

∣∣∣∣∣ ≤d∑i=1

d∑j=1

(d∑

k=1

|aikbkj |

)

≤d∑i=1

d∑j=1

(d∑

k=1

|aik|

)(d∑

k=1

|bkj |

)= ‖A‖1‖B‖1

gilt. Ein weiteres Beispiel für eine Matrixnorm geht aus der Betrachtung von M(d,R) alsRaum aller linearen Abbildungen Rd −→ Rd hervor. Ist ‖ · ‖ eine beliebige Norm auf dem

Rd, so denieren wir die dazugehörige Operatornorm durch

‖A‖op := sup‖Ax‖‖x‖

∣∣∣x ∈ Rd \ 0.

Die Operatornorm ist in einem allgemeineren Kontext aus der Funktionalanalysis bekannt

und wird dort analog auf dem Raum der linearen und stetigen Abbildungen A : E −→ F

zwischen beliebigen normierten Räumen E und F deniert (vgl. Meise/Vogt [27] Satz 5.4 -

Satz 5.6). Da eine lineare Abbildung A : (E, ‖·‖) −→ (F, | · |) zwischen normierten Räumen

unter der Bedingung dim(E) <∞ immer stetig ist (vgl. Meise/Vogt [27] Satz 5.15), sieht

man also, dass es sich bei M(d,R) um einen Spezialfall handelt. Für Operatornormen gilt

ganz allgemein die Abschätzung ‖AB‖ ≤ ‖A‖‖B‖ (vgl. Meise/Vogt [27] Lemma 5.7) und

wir erhalten, dass die Operatornorm auf M(d,R) eine Matrixnorm bildet. Ist ‖ · ‖op die

Operatornorm zu ‖ · ‖, so gilt auÿerdem die Ungleichung

‖Ax‖ ≤ ‖A‖op · ‖x‖

für alle x ∈ Rd, wie leicht aus der Denition folgt.

Weitere bekannte Normen aufM(d,R) sind die euklidische Norm ‖A‖2 :=(∑d

i=1

∑dj=1 a

2ij

) 12

(Matrixnorm) und die Supremumsnorm ‖A‖sup := sup1≤i,j≤d |aij | (keine Matrixnorm).

Page 54: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

48 Paragraph 3 - Zufallsmatrizen und SRG's

Den gröÿten Teil unserer Vorbereitungen in Abschnitt 3.1 haben wir getroen, um die

Menge aller Folgen von Zufallsmatrizen als metrischen Raum auassen zu können. Dies

wird uns dabei helfen die Arbeit von Furstenberg & Kesten [18] zu verstehen, auf die wir

in 3.2.4 eingehen. Wir führen die folgende Bezeichnung ein.

Denition 3.2.3 Es bezeichne Mf := M(d,R)N die Menge aller Folgen von Zufallsmatri-zen und δ sei die Produktmetrik auf Mf bezüglich der von einer Norm erzeugten Metrik aufM(d,R). Auÿerdem sei Tδ die kanonische Topologie bezüglich δ.

Betrachten wir M(d,R) bezüglich einer beliebigen Norm als metrischen Raum, so hatten

wir in Abschnitt 3.1.1 festgestellt, dass die Topologie auf M(d,R) unabhängig von der

Wahl der Norm ist. Da nach Lemma 3.1.3 die kanonische Topologie auf (Mf, δ) gleich

der Produkttopologie ist, folgt, dass auch Tδ unabhängig von der Wahl der Norm auf

M(d,R) ist. Unter Beachtung von Satz 3.1.1 (a) schliessen wir ferner aus Satz 3.1.5, dass

(Mf, δ) ein vollständiger und separabeler metrischer Raum ist. Mit Satz 3.1.4 erhalten wir

B(Mf) =⊗

n∈N B(M(d,R)).Die gerade gemachten Aussagen über Mf gelten auf Grund von Bemerkung 3.1.6 entspre-

chend auch für M(d,R)n. Schlieÿlich benötigen wir noch das folgende Lemma.

Lemma 3.2.4 Für die folgenden Abbildungen M(d,R)n −→M(d,R) gilt:a) f : (A1, . . . , An) 7−→ A1 · . . . ·An ist stetig bezüglich der Produktmetrik auf M(d,R)n.b) g : (A1, . . . , An) 7−→ A1·...·An

‖A1·...·An‖ ist B(M(d,R)n)−B(M(d,R)) messbar (00 := 0).

Beweis. (a) Da Stetigkeit hier als topologischer Begri unabhängig von der Wahl der

Norm auf M(d,R) gilt, können wir annehmen, dass ‖ · ‖ eine Matrixnorm ist. Wir zeigen

Folgenstetigkeit und betrachten zunächst den Fall n = 2. Es sei limk→∞(A(1)k , A

(2)k ) =

(A(1), A(2)). Dies bedeutet für i = 1, 2 gilt ‖A(i)k −A

(i)‖ −→ 0 für k →∞. Es folgt

‖A(1)k A

(2)k −A

(1)A(2)‖ ≤ ‖A(1)k (A(2)

k −A(2))‖+ ‖(A(1)

k −A(1))A(2)‖

≤ ‖A(1)k ‖ · ‖A

(2)k −A

(2)‖+ ‖A(1)k −A

(1)‖ · ‖A(2)‖ −→ 0

für k → ∞, wobei die erste Ungleichung auf Grund der Dreiecksungleichung gilt und

die zweite Ungleichung gilt, da ‖ · ‖ eine Matrixnorm ist. Auÿerdem verwenden wir, dass

in normierten Räumen die Abbildung x 7−→ ‖x‖ immer stetig ist. Für n > 2 folgt die

Behauptung nun mit Induktion.

(b) Mit Teil (a) erhalten wir, dass n : (A1, . . . , An) 7−→ ‖A1 · . . . · An‖ stetig ist. Wir

zerbrechen den Raum M(d,R)n nun in B(M(d,R)n)-messbare Scherben, indem wir Sk :=n−1

(( 1k ,

1k−1 ]

)für k ≥ 2 setzen, sowie S0 := n−1 (0) und S1 := n−1 ((1,∞)). Da in allen

normierten Räumen E die skalare Multiplikation R×E −→ E stetig ist (vgl. Meise/Vogt

[27] Satz 5.1), folgt aus der Stetigkeit von f und n die Stetigkeit von g|Sk . Somit ist g|Skmessbar bezüglich B(Sk), wobei wir Sk als metrischen Teilraum betrachten. B(Sk) ist

gleich der Spur-σ-Algebra B(M(d,R)n)|Sk = A ∩ Sk |A ∈ B(M(d,R)n) (vgl. Elstrodt[14] I. Korollar 4.6) und da Sk messbar ist, folgt die Messbarkeit von g =

∑k∈N 1Skg|Sk .

Page 55: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.2 Zufallsmatrizen 49

3.2.2 Das starke Gesetz der groÿen Zahlen für Zufallsmatrizen

Wir kommen nun zu einer wichtigen Anwendung von Kingman's Subadditiven Ergoden-

satz und werden ein starkes Gesetz der groÿen Zahlen für Zufallsmatrizen beweisen. Das

folgende Resultat war schon vor dem Subadditiven Ergodensatz bekannt und geht auf

Furstenberg & Kesten zurück ([18] (1960), Theorem 2). Auch wenn es nicht der einzige

Grenzwertsatz dieser Art für Zufallsmatrizen ist, so ist es wohl doch einer der bekanntesten

und wichtigsten. Die Idee Kingman's Theorem in der Theorie der Zufallsmatrizen und ins-

besondere in der folgenden Situation anzuwenden ist schon länger bekannt (vgl. Kingman

[23] (1973), Theorem 5 und 6).

Theorem 3.2.5 Es sei A eine stationäre und ergodische Folge von Zufallsmatrizen mitE(log+ ‖A1‖) <∞. Dann existiert ein γA ∈ [−∞,∞) mit (log 0 := −∞)

(3.3)1n

log ‖A1A2 · . . . ·An‖ −→ γA P -f.s.

für n→∞ und es gilt auÿerdem

(3.4) γA = limn→∞

1nE(log ‖A1A2 · . . . ·An‖).

Desweiteren ist γA unabhängig von der Wahl der Norm ‖ · ‖ auf M(d,R).

Beweis. Wir zeigen die Behauptung zunächst für eine beliebige Matrixnorm auf M(d,R).Es sei A : Ω −→ Mf unsere Folge von Zufallsmatrizen, πn : Mf −→ M(d,R) seien die

Projektionen, sowie θ der Rückwärts-Shift aufMf. Wir denieren nun fn := log ‖π1 . . . πn‖und zeigen, dass F eine subadditive Funktionen-Folge auf dem Raum (Mf,B(Mf), PA)bildet. fn ist stetig und somit messbar. Desweiteren gilt für alle n,m ∈ N

fn+m = log ‖π1 . . . πnπn+1 . . . πn+m‖≤ log ‖π1 . . . πn‖+ log ‖πn+1 . . . πn+m‖= log ‖π1 . . . πn‖+ log ‖π1 . . . πm‖ θn = fn + fm θn,

wobei in obiger Ungleichung eingeht, dass ‖ · ‖ eine Matrixnorm ist. Damit gilt für F

Ungleichung (1.7) aus Abschnitt 1.4 und wegen EPA(f+1 ) = E(log+ ‖A1‖) < ∞ folgt,

dass F subadditiv ist. Nach Theorem 1.4.2 (b) konvergiert nun n−1fn PA-f.s. gegen eine

θ-invariante Funktion γA (in der Schreibweise von Theorem 1.4.2 γA ' ϕ) mit EPA(γA) =γ(F ) = infn∈N

(n−1EPA(fn)

). Da EPA(fn) eine subadditive Folge in R∪−∞ bildet, gilt

analog zu Lemma 1.4.11 (a) limn→∞ n−1EPA(fn) = γ(F ). Desweiteren ist θ ergodisch und

somit γA PA-f.s. konstant, was γA = EPA(γA) impliziert. Wegen log ‖A1 . . . An‖ = fn Afolgen schlieÿlich die Behauptungen (3.3) und (3.4).

Seien nun ‖ · ‖ und | · | zwei beliebige Normen auf M(d,R) und unter der Voraussetzung

E(log+ ‖A1‖) < ∞ gelte (3.3) und (3.4) für ‖ · ‖. Da beide Normen äquivalent sind, gilt

(3.1) und wir erhalten

E(log+ ‖A1‖) ≤ E(log+C|A1|) = E((logC + log |A1|)+)(3.5)

≤ E(log+C + log+ |A1|) = E(log+C) + E(log+ |A1|).

Page 56: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

50 Paragraph 3 - Zufallsmatrizen und SRG's

E(log+ |A1|) <∞ impliziert also E(log+ ‖A1‖) <∞. Wegen

1n

log ‖A1 . . . An‖ −logCn≤ 1n

log |A1 . . . An| ≤1n

log ‖A1 . . . An‖+logCn

für alle n ∈ N, folgt dann (3.3) und (3.4) für | · | mit demselben γA.

Ist ‖ · ‖ eine Matrixnorm auf M(d,R), so entnimmt man dem Beweis von Theorem 3.2.5,

dass γA = infn−1E(log ‖A1A2 · . . . ·An‖) |n ∈ N gilt. Ist γA > −∞, so folgt insbesondere,

dass log ‖A1A2 · . . . · An‖ für alle n ∈ N integrierbar ist. Auf Grund der Äquivalenz aller

Normen auf M(d,R) gilt diese Integrierbarkeit unabhängig von der Wahl der Norm, wie

man sich mittels Abschätzungen für log− ‖A1A2 · . . . ·An‖ analog zu (3.5) überlegt.

Ist d = 1 und wählen wir als Norm den Betrag | · | auf R, so gilt E(log |A1 · . . . · An|) =∑nk=1E(log |Ak|). Mit Hilfe der Stationarität von A folgt somit E(log |A1 · . . . · An|) =

nE(log |A1|) und (3.4) ergibt γA = E(log |A1|). Wir fassen die beiden soeben gemachten

Beobachtungen in folgender Bemerkung zusammen.

Bemerkung 3.2.6 Unter den Voraussetzungen von Theorem 3.2.5 gilt:a) Ist γA > −∞, so ist log ‖A1A2 · . . . ·An‖ für alle n ∈ N integrierbar.b) Ist d = 1, so gilt γA = E(log |A1|), wobei | · | den Betrag auf R bezeichnet.

3.2.3 Der Top-Lyapunov-Exponent

Es sei nun A eine stationäre und ergodische Zeitreihe mit Werten in M(d,R), ZeithorizontZ und E(log+ ‖A0‖) < ∞. Weiter sei t0 ∈ Z ein beliebiger Zeitpunkt. Wendet man nun

Proposition 1.3.5 mit f := πt0 an, so folgt, dass A(t0) :=(f θ−k+1 A

)k∈N - also die Folge

(At0 , At0−1, At0−2, . . .) - eine stationäre und ergodische Folge von Zufallsmatrizen bildet.

Auf Grund der Stationarität von A gilt E(log+ ‖At0‖) <∞ und wir können Theorem 3.2.5

auf A(t0) anwenden und erhalten ein γA(t0).

Für alle t, s ∈ Z folgt auÿerdem aus der Stationarität von A

E(log ‖AtAt−1 . . . At−n+1‖) = E(log ‖AsAs−1 . . . As−n+1‖)

für alle n ∈ N und wir erkennen mit Hilfe von (3.4), dass γA(t) = γA(s) gilt. Die so erhaltende

Invariante von A nennen wir Top-Lypunov-Exponent.

Denition 3.2.7 Es sei A eine stationäre und ergodische M(d,R)-wertige Zeitreihe mitZeithorizont Z und E(log+ ‖A0‖) <∞. Dann heiÿt

λA := limn→∞

1nE(log ‖A0A−1 . . . A−n+1‖)

der Top-Lyapunov-Exponent von A.

Das nächste Ziel dieses Paragraphen ist der Beweis des folgenden Resultat aus Bougerol

& Picard [8] (Lemma 3.4). Es beinhaltet ein hinreichendes Kriterium für die strikte Nega-

tivität des Top-Lyapunov-Exponenten und stellt den mathematisch schwierigsten Teil des

Existenzsatzes für GARCH-Zeitreihen von Bougerol & Picard dar.

Page 57: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.2 Zufallsmatrizen 51

Theorem 3.2.8 Es sei A eine stationäre und ergodische Folge von Zufallsmatrizen mitE(log+ ‖A1‖) <∞. Dann gilt

limn→∞

‖A1 · . . . ·An‖ = 0 P -f.s. ⇐⇒ γA < 0.

Bougerol & Picard greifen in ihrem Beweis von Theorem 3.2.8 auf eine Konstruktion von

Furstenberg & Kesten aus [18] zurück, die dort benutzt worden ist, um Theorem 3.2.5

herzuleiten. Wir übernehmen diese Beweisidee und wollen dieses Verfahren nun vorstellen.

Den eigentlichen Beweis von Satz 3.2.8, in den auch noch das Lemma von Guivarc'h &

Raugi eingeht, führen wir dann im Anschluss daran.

3.2.4 Eine Konstruktion von Furstenberg & Kesten

Zu einer stationären Folge von Zufallsmatrizen X ′ werden wir einen W-Raum Ω2 konstru-

ieren, in dem wir X ′ einbetten, um auf Ω2 einen stationären Prozess (X,Z) mit X = X ′

und einer Hilfsfolge von Zufallsmatrizen Z zu erhalten. Konkret meinen wir das Folgende:

Es sei (Mf, δ) der Raum aller Folgen von Zufallsmatrizen samt Produktmetrik, sowie

(M2f , δ2) das 2-fache metrische Produkt des zuvorgenannten Raumes. Auÿerdem stellen

wir für x, z ∈Mf die folgenden Gleichungen auf:

‖znxn+1‖zn+1 = znxn+1 für alle n ∈ N.(3.6)

‖zn‖ = 0 oder ‖zn‖ = 1 für alle n ∈ N.(3.7)

Man beachte, dass durch (3.6) im Fall von znxn+1 = 0 keine Bedingung an zn+1 gestellt

wird. Wir fordern nur im Fall znxn+1 6= 0, dass zn+1 = znxn+1

‖znxn+1‖ gelten solle. Als neuen

W-Raum denieren wir nun

Ω2 :=

(x, z) ∈M2f

∣∣ (x, z) erfüllt (3.6) & (3.7)

samt Borel-σ-Algebra B(Ω2), die Ω2 bezüglich δ2 als metrischer Raum trägt. Wie im-

mer bezeichne θ : Mf −→ Mf den Shift auf Mf. Wir denieren dann θ2 : Ω2 −→ Ω2,

(x, z) 7−→ (θ(x), θ(z)) als Shift auf Ω2. Man sieht unmittelbar, dass für (x, z) ∈ Ω2 das

Bild (θ(x), θ(z)) die Bedingungen (3.6) & (3.7) erfüllt und somit tatsächlich in Ω2 liegt.

Auÿerdem ist θ2 stetig (folgenstetig - man vgl. Abschnitt 3.1.2) und somit Borel-messbar.

Um X ′ in Ω2 einzubetten, betrachten wir zunächst die Abbildung(

00 := 0

)ζ : Mf −→Mf, (xn)n∈N 7−→

(x1 · . . . · xn‖x1 · . . . · xn‖

)n∈N

.

ζ ist Borel-messbar. Da wir dies nur auf einem Erzeuger von B(Mf) zeigen müssen und

wegen B(Mf) =⊗

n∈N B(M(d,R)) reicht es die Messbarkeit der Abbildungen πnζ für allen ∈ N nachzuweisen. Ist g die Abbildung aus Lemma 3.2.4 (b), so gilt πnζ = g(π1, . . . , πn)

Page 58: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

52 Paragraph 3 - Zufallsmatrizen und SRG's

und wir erhalten mit Hilfe des Lemmas die nachzuweisende Messbarkeit. Wir denieren

nun unsere einbettende Abbildung:

e : Mf −→ Ω2, x 7−→ (x, ζ(x)).

Man überlegt sich leicht, dass (x, ζ(x)) die Bedingungen (3.6) & (3.7) erfüllt und somit

tatsächlich in Ω2 liegt. Wegen B(M2f ) = B(Mf) ⊗ B(Mf) ist klar, dass e : Mf −→ M2

f

Borel-messbar ist. Mit B(Ω2) = B(M2f )|Ω2

(vgl. Elstrodt [14] I. Korollar 4.6) folgt dann

die Borel-Messbarkeit von e : Mf −→ Ω2.

Schlieÿlich bezeichnen wir mitX : Ω2 −→Mf, (x, z) 7−→ x und Z : Ω2 −→Mf, (x, z) 7−→ z

die Projektionen von Ω2, die gleichzeitig unsere neu zu konstruierenden Prozesse darstellen.

X und Z sind stetig und somit insbesondere Borel-messbar.

Lemma 3.2.9 (Furstenberg - Kesten) Es sei X ′ eine stationäre Folge von Zufallsmatri-zen. Dann existiert auf (Ω2,B(Ω2)) ein θ2-invariantes W-Maÿ µ mit L(X |µ) = L(X ′ |P ).Ist X ′ ergodisch mit E(log+ ‖X ′1‖) <∞ und γX′ > −∞, so gilt auÿerdem

(3.8) γX′ ≤∫

log ‖Z1X2‖ dµ <∞.

Tatsächlich gilt in (3.8) Gleichheit anstatt ≤. Da dies für uns nicht von Bedeutung ist,

gehen wir im Folgenden nicht näher darauf ein.

Beweis. (vgl. Furstenberg & Kesten [18] Lemma 1 und den Beweis zu Theorem 2) Es sei

µ1 := L(e |PX′) und µk := L(θk−12 |µ1) für k ≥ 2. Desweiteren setzen wir νn := 1

n

∑nk=1 µk

für alle n ∈ N. Wir wollen zeigen, dassM = νn |n ∈ N relativ kompakt ist. Nach dem

Satz von Prochorov Teil (a) reicht es dazu, die Straheit vonM nachzuweisen. Da Mf ein

separabler und vollständiger metrischer Raum ist, folgt mit Hilfe des Satzes von Prochorov

Teil (b), dass L(X |µ1) stra ist. Zu ε > 0 existiert somit ein kompaktes K ⊆ Mf mit

µ1(X−1(K)) ≥ 1− ε. Wir zeigen als nächstes, dass X−1(K) eine kompakte Teilmenge von

Ω2 ist.

Setzen wir S := A ∈ M(d,R) | ‖A‖ = 0 oder ‖A‖ = 1, so ist S nach Satz 3.1.1 (b)

eine kompakte Teilmenge von M(d,R). Mit Hilfe des Satzes von Tychono (vgl. Dudley

[13] Theorem 2.2.8) ist somit SN = z ∈ Mf | z erfüllt (3.7) bezüglich der Produkt-

Topologie kompakt inMf. Wegen Lemma 3.1.3 ist die Produkt-Topologie gleich der von der

Produktmetrik δ erzeugten Topologie und es folgt, dass SN eine kompakte Teilmenge von

(Mf, δ) ist. Entsprechend erhalten wir, dassK×SN kompakt in (M2f , δ2) ist. Zeigen wir nun,

dass X−1(K) abgeschlossen ist, so folgt wegen X−1(K) ⊆ K ×SN, dass X−1(K) ebenfallsin M2

f kompakt ist. Es sei also limn→∞(x(n), z(n)) = (x(0), z(0)) mit (x(n), z(n)) ∈ X−1(K).Da K abgeschlossen ist und wegen x(n) ∈ K folgt x(0) ∈ K. Desweiteren prüft man leicht

mit Hilfe der Stetigkeit der Abbildungen A 7−→ ‖A‖ und (x, z) 7−→ znxn+1 nach, dass

(x(0), z(0)) die Bedingungen (3.6) & (3.7) erfüllt und somit in X−1(K) liegt. X−1(K) ist

also abgeschlossen und somit kompakt in M2f . Dann ist X−1(K) als Teilmenge von Ω2

Page 59: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.2 Zufallsmatrizen 53

auch kompakt in Ω2. Wir zeigen als nächstes, dass für alle n ∈ N

(3.9) L(X | νn) = L(X |µ1)

ist. Zunächst bemerken wir dafür, dass wegen X e = idMfdie Gleichheit PX

′= L(X |µ1)

gilt. Auÿerdem überlegt man sich leicht, dass X−1(θ−1(A)) = θ−12 (X−1(A)) für jede belie-

bige Teilmenge A ⊆Mf gilt, woraus man induktiv auf

(3.10) X−1(θ−k(A)) = θ−k2 (X−1(A))

für alle k ∈ N schlieÿt. Für A ∈ B(Mf) folgt

νn(X−1(A)) =1n

n∑k=1

µ1

(θ−k+1

2

(X−1 (A)

)) (3.10)=

1n

n∑k=1

µ1

(X−1

(θ−k+1 (A)

))=

1n

n∑k=1

PX′(θ−k+1 (A)

)stat.= PX

′(A) = µ1

(X−1(A)

)und wir erhalten (3.9). Aus (3.9) folgt nun νn

(X−1(K)

)= µ1

(X−1(K)

)≥ 1 − ε für

alle n undM ist stra und somit relativ kompakt. Wir können also ohne Einschränkung

annehmen, dass (νn)n∈N schwach gegen ein W-Maÿ µ konvergiert. Da X stetig ist, folgt

dann L(X | νn) w−→ L(X |µ) für n → ∞ und wegen (3.9) gilt L(X |µ) = L(X |µ1) =L(X ′ |P ). Ebenso folgt L(θ2 | νn) w−→ L(θ2 |µ) aus der Stetigkeit von θ2 und wegen

L(θ2 | νn) =1n

n∑k=1

µk+1 =n+ 1n

νn+1 −1nµ1

w−→ µ

für n→∞ erhalten wir schlieÿlich µ = L(θ2 |µ) und µ ist θ2-invariant. Damit ist der erste

Teil von Lemma 3.2.9 bewiesen.

Sei nun X ′ zusätzlich ergodisch mit E(log+ ‖X ′1‖) < ∞ und γX′ > −∞. Nach Be-

merkung 3.2.6 (a) gilt, dass log ‖X ′1 · . . . · X ′n‖ für alle n integrierbar ist, was wegen

L(X |µ1) = L(X ′ |P ) äquivalent zu der µ1-Integrierbarkeit von log ‖X1 · . . . · Xn‖ für

alle n ist. Insbesondere gilt somit µ1(‖X1 · . . . ·Xn‖ = 0) = 0 für alle n und per Denition

von e ist ‖ZnXn+1‖ = ‖X1·...·Xn+1‖‖X1·...·Xn‖ µ1-f.s.. Wir erhalten also∫

log ‖Z1X2‖ dνn =1n

n∑k=1

∫log ‖ZkXk+1‖ dµ1

=1n

∫ n∑k=1

log(‖X1 · . . . ·Xk+1‖‖X1 · . . . ·Xk‖

)dµ1

=1n

∫(log ‖X1 · . . . ·Xn+1‖ − log ‖X1‖) dµ1

=1nE(log ‖X ′1 · . . . ·X ′n+1‖)−

1nE(log ‖X ′1‖)

und mit (3.4) folgt∫

log ‖Z1X2‖ dνn −→ γX′ für n→∞.

Auÿerdem erhalten wir auf Grund der Stetigkeit der Abbildung (x, z) 7−→ log− ‖z1x2‖

Page 60: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

54 Paragraph 3 - Zufallsmatrizen und SRG's

L(log− ‖Z1X2‖ | νn) w−→ L(log− ‖Z1X2‖ |µ). Dies führt uns zu (vgl. Billingsley [5] Theo-

rem 3.4) Eµ(log− ‖Z1X2‖) ≤ lim infn→∞Eνn(log− ‖Z1X2‖).Ebenso gilt L(log+ ‖Z1X2‖ | νn) w−→ L(log+ ‖Z1X2‖ |µ). Zeigen wir nun, dass die W-Maÿe

L(log+ ‖Z1X2‖ | νn) gleichgradig integrierbar sind, so folgt daraus (vgl. Billingsley [5] Theo-rem 3.5) limn→∞Eνn(log+ ‖Z1X2‖) = Eµ(log+ ‖Z1X2‖) <∞.

Insgesamt erhalten wir dann also

γX′ = limn→∞

Eνn(log ‖Z1X2‖) = limn→∞

Eνn(log+ ‖Z1X2‖)− lim infn→∞

Eνn(log− ‖Z1X2‖)

≤ Eµ(log+ ‖Z1X2‖)− Eµ(log− ‖Z1X2‖) = Eµ(log ‖Z1X2‖) <∞

und das Lemma ist bewiesen. Wir zeigen also noch die gleichgradige Integrierbarkeit. Unter

Beachtung der Äquivalenz aller Normen gilt für eine beliebige Matrixnorm |·| und ein C ≥ 1

log ‖ZkXk+1‖ ≤ log (C|ZkXk+1|) ≤ log (C · |Zk| · |Xk+1|) ≤ log(C2 · ‖Zk‖ · |Xk+1|

)= 2 logC + log ‖Zk‖+ log |Xk+1| = 2 logC + log |Xk+1|

µ1-f.s. für alle k ∈ N, da µ1(‖Zk‖ = 1) = 1. Es folgt für a > 0∫log ‖Z1X2‖≥a

log ‖Z1X2‖ dνn =1n

n∑k=1

∫log ‖ZkXk+1‖≥a

log ‖ZkXk+1‖ dµ1

≤ 1n

n∑k=1

∫2 logC+log |Xk+1|≥a

2 logC + log |Xk+1| dµ1

=∫

2 logC+log |X1|≥a

2 logC + log |X1| dµ1,

wobei die letzte Gleichung auf Grund der Stationarität von X folgt. Wir erhalten somit

auf Grund der µ1-Integrierbarkeit von 2 logC + log |X1| und mit Hilfe des Satzes von der

majorisierten Konvergenz lima→∞ supn∈NEνn(1log ‖Z1X2‖≥a log ‖Z1X2‖

)= 0 und die W-

Maÿe L(log ‖Z1X2‖ | νn) sind gleichgradig integrierbar.

Beweis Theorem 3.2.8. Der schwierige Teil besteht darin, die Implikation ⇒ zu zeigen.

Es gelte also ‖A1 · . . . ·An‖ −→ 0 P -f.s.. Falls γA = −∞ gilt, so ist nichts zu zeigen. Es sei

also γA > −∞. Wir wenden nun die Furstenberg-Kesten Konstruktion samt Lemma 3.2.9

mit A = X ′ an. log ‖Z1X2‖ ist dann µ-integrierbar. Somit folgt auf Grund der θ2-Invarianz

von µ, dass log ‖ZkXk+1‖ für alle k ≥ 1 integrierbar ist bezüglich µ. Insbesondere ist also

µ-f.s. ZkXk+1 6= 0 und daher Zk+1 = ZkXk+1

‖ZkXk+1‖ gemäÿ (3.6) für alle k ≥ 1. Hieraus schlieÿenwir induktiv, dass auÿer auf einer µ-Nullmenge

(3.11) ZkXk+1 =Z1X2 · . . . ·Xk+1

‖Z1X2 · . . . ·Xk‖für alle k ≥ 2

gilt. Wir wollen nun Lemma 1.7.3 (b) von Guivarc'h-Raugi mit f = log ‖Z1X2‖, T = θ2

und P = µ anwenden. Ω2 ist eine abgeschlossene Teilmenge von dem vollständigen Raum

Page 61: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.3 Stochastische Rekurrenz-Gleichungen 55

M2f und daher selbst vollständig. Desweiteren sind Teilmengen separabler, metrischer

Räume selbst separabel (vgl. Billingsley [5] M3) und wir erkennen, da M2f separabel

ist, dass (Ω2,B(Ω2)) einen polnischen Raum bildet. Es bleibt also noch zu zeigen, dass∑∞k=0 log ‖ZkXk+1‖ = −∞ µ-f.s. gilt. Aus (3.11) und durch Auösen der entstehenden

Teleskopsumme erhalten wir

n∑k=0

log ‖ZkXk+1‖ = log ‖Z1X2 · . . . ·Xn+1‖ − log ‖Z1X2‖ µ-f.s.

für alle n ∈ N. Mit Hilfe einer äquivalenten Matrixnorm benutzen wir nun eine ähnliche

Abschätzung wie am Ende des Beweises von Lemma 3.2.9 und nden ein C ≥ 1, so dass

für alle n

log ‖Z1X2 · . . . ·Xn+1‖ ≤ log(C3 · ‖Z1‖ · ‖X2 · . . . ·Xn+1‖

)= 3 logC+ log ‖X2 · . . . ·Xn+1‖

µ-f.s. gilt, denn aus Z1X2 6= 0 folgt Z1 6= 0 und somit ‖Z1‖ = 1 µ-f.s. wegen (3.7). Nach Vor-aussetzung gilt limn→∞ ‖X ′1·. . .·X ′n‖ = 0 P -f.s., woraus wir auf Grund der Stationarität vonX ′ auf limn→∞ ‖X ′2 · . . . ·X ′n+1‖ = 0 P -f.s. schlieÿen. Wegen L(X|µ) = L(X ′|P ) führt dieszu ‖X2 · . . . ·Xn+1‖ −→ 0 µ-f.s. und wir erhalten insgesammt

∑∞k=0 log ‖ZkXk+1‖ = −∞ µ-

f.s., womit die Voraussetzungen von Lemma 1.7.3 gezeigt sind. Es folgt∫

log ‖Z1X2‖ dµ < 0und somit γX′ < 0 wegen (3.8).

Die Implikation ⇐ ist einfach. Es sei γA < 0. Dann folgt nach (3.3) für P -f.a. ω ∈ Ω,dass ein N(ω) ∈ N exitiert mit

log ‖A1 · . . . ·An‖(ω) < n · γA2

für alle n ≥ N(ω). Wir erhalten also log ‖A1 · . . . · An‖(ω) −→ −∞, was schlieÿlich zu

‖A1 · . . . ·An‖(ω) −→ 0 führt.

3.3 Stochastische Rekurrenz-Gleichungen

Der entscheidende Schritt zur allgemeinen stationären Lösung der GARCH-Gleichungen

bestand darin, diese als stochastische Rekurrenz-Gleichung aufzufassen, um darüber auf

bereits bekannte Resultate und auf die Theorie der Zufallsmatrizen zurückgreifen zu kön-

nen. Unter einer stochastischen Rekurrenz-Gleichung verstehen wir einen Prozess (A,B) =(At, Bt)t∈Z mit reellen d×d− Zufallsmatrizen At und Rd-wertigen Zufalls-Spaltenvektoren

Bt. Eine Lösung von (A,B) ist dann ein Prozess Y = (Yt)t∈Z von Rd-wertigen Zufalls-

Spaltenvektoren, so dass die Gleichungen

(3.12) Yt+1 = At+1Yt +Bt+1

P -f.s. für alle t ∈ Z erfüllt sind. Bei Bougerol & Picard [8] wird (A,B) auch multivariatestochastische Dierenzengleichung und verallgemeinertes autoregressives Modell genannt.

Page 62: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

56 Paragraph 3 - Zufallsmatrizen und SRG's

Die Bezeichnung stochatische Rekurrenz-Gleichung haben wir aus dem Buch von Strau-

mann [32] übernommen, wo sie allerdings etwas allgemeiner verstanden wird. Anstatt

Zufallsmatrizen werden dort zufällige Lipschitz-stetige Abbildungen Φt : (E,B(E)) −→(E,B(E)) auf einem vollständigen und separablen metrischen Raum E betrachtet. Die

Lösung ist dann ein E-wertiger Prozess und (3.12) liest sich als Yt+1 = Φt+1(Yt). Da für

At(ω) ∈ M(d,R) und Bt(ω) ∈ Rd die Abbildung x 7−→ At(ω)x + Bt(ω) Lipschitz-stetig

ist mit Lipschitz-Konstante ‖At(ω)‖op, bilden stochastische Rekurrenz-Gleichungen mit

Zufallsmatrizen davon einen Spezialfall, auf den wir uns hier beschränken wollen.

Ein grundlegendes Resultat zur Lösbarkeit von (A,B) stammt von Brandt (1986) aus [11].

Für den Beweis haben wir jedoch mit Bougerol & Picard [8] gearbeitet.

Theorem 3.3.1 (Brandt) Es sei (At, Bt)t∈Z ein stationärer und ergodischer Prozess mitd× d−Zufallsmatrizen At und Rd-wertigen Zufallsvektoren Bt.Auÿerdem gelte E(log+ ‖A0‖) < ∞, sowie E(log+ |B0|) < ∞ und der Top-Lypunov-Exponent λA sei strikt negativ. Dann konvergiert P -f.s. für alle t ∈ Z die Reihe

Yt :=∞∑k=0

AtAt−1 · . . . ·At−k+1Bt−k = Bt +∞∑k=1

AtAt−1 · . . . ·At−k+1Bt−k

in (Rd, | · |) und der so denierte Prozess Y ist die eindeutig bestimmte stationäre Lösungvon (3.12).

Beweis. Wir hatten im Beweis zu Theorem 3.2.5 bereits gezeigt, dass die Endlichkeit

von E(log+ ‖A0‖) und E(log+ |B0|) eine von der Wahl der jeweiligen Norm unabhängige

Eigenschaft ist. Die Konvergenz von Yt ndet auf Grund der Äquivalenz aller Normen

ebenfalls unabhängig von der Wahl von | · | statt. Wir können also ohne Einschränkung

annehmen, dass ‖ · ‖ die Operatornorm zu | · | sei.Wir wollen zeigen, dass obige Reihe absolut konvergiert. Zunächst sei λA > −∞. Da

− 2λA

log+ |B0| nicht negativ ist, erhalten wir

∞∑k=1

P

(log+ |B0| > −

kλA2

)≤

∫ ∞0

P

(− 2λA

log+ |B0| > s

)ds

= E

(− 2λA

log+ |B0|)<∞.

Auf Grund der Stationarität von B folgt hieraus∑∞

k=1 P(

log+ |Bt−k| > −kλA2

)<∞ und

das Lemma von Borel-Cantelli ergibt

(3.13) lim supk→∞

1k

log+ |Bt−k| ≤ −λA2

P -f.s..

Page 63: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.3 Stochastische Rekurrenz-Gleichungen 57

Wir erhalten damit P -f.s.

lim supk→∞

1k

log |AtAt−1 . . . At−k+1Bt−k| ≤ lim supk→∞

1k

log (‖AtAt−1 . . . At−k+1‖ · |Bt−k|)

= lim supk→∞

1k

(log ‖At . . . At−k+1‖+ log |Bt−k|)

= λA + lim supk→∞

1k

log |Bt−k|

(3.13)

≤ λA2,

wobei in der 1. Ungleichung die übliche Abschätzung für Operatornormen eingeht und beim

2. Gleichheitszeichen benutzt wird, dass P -f.s. 1k log ‖At . . . At−k+1‖ −→ λA für k → ∞

nach Theorem 3.2.5 gilt. Für P -f.a. ω gilt somit: |AtAt−1 . . . At−k+1Bt−k|(ω) ≤ exp(λA2 )k

für alle bis auf endlich viele k. Die Reihe∑∞

k=1 exp(λAk2 ) bildet also auf Grund der Negati-

vität von λA eine konvergente Majorante und wir haben die absolute Konvergenz gezeigt.

Da (Rd, | · |) vollständig ist, folgt nun aus der absoluten Konvergenz auch die gewöhnliche

Konvergenz. Ist λA = −∞, so argumentieren wir analog zu oben mittels Borel-Cantelli,

dass P -f.s.

lim supk→∞

1k

log |Bt−k| ≤ 1

gilt. Wegen 1k log ‖At . . . At−k+1‖ −→ −∞ folgt dann

lim supk→∞

1k

log |AtAt−1 . . . At−k+1Bt−k| = −∞ P -f.s.

und es lässt sich erst recht eine konvergente Majorante nden.

Als nächstes werden wir nachrechnen, dass Y den Gleichungen (3.12) genügt. Für alle

ω ∈ Ω ist die Abbildung (Rd, | · |) −→ (Rd, | · |), y 7−→ At+1(ω)y eine stetige Abbildung

und man kann die Matrix in die Reihe Yt(ω) hineinziehen, falls diese konvergiert. Es folgtsomit P -f.s.

At+1(ω)Yt(ω) +Bt+1(ω) =∞∑k=0

At+1AtAt−1 · . . . ·At−k+1Bt−k(ω) +Bt+1(ω)

= Bt+1(ω) +At+1Bt(ω) +At+1AtBt−1(ω) + . . .

=∞∑k=0

At+1At · . . . ·A(t+1)−k+1B(t+1)−k(ω)

= Yt+1(ω).

Die Stationarität von Y folgt aus Proposition 1.2.2, indem wir in der dortigen Bezeichnung

die Abbildung f :(M(d,R)× (Rd)

)Z −→ Rd wie folgt denieren πi : Rd −→ R seien

dabei wie immer die Projektionen auf die Koordinaten. Für i = 1, . . . , d und (a, b) ∈(M(d,R)× (Rd)

)Zsetzen wir

πi (f (a, b)) := lim supn→∞

πi

(n∑k=0

a0a−1 · . . . · a−k+1b−k

),

Page 64: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

58 Paragraph 3 - Zufallsmatrizen und SRG's

falls die rechte Seite endlich ist. Ansonsten setzen wir f in der i-ten Koordinate gleich 0. Wir

denieren f so umständlich, um seine Messbarkeit sicherzustellen und einfach begründen

zu können. f ist genau dann messbar, wenn πi f für alle i messbar ist, was aus obiger De-

nition auf Grund der Stetigkeit der Abbildung (a, b) 7−→ πi (∑n

k=0 a0a−1 · . . . · a−k+1b−k)für alle n leicht folgt. Konvergiert die zu (a, b) gebildete Reihe, so folgt dann aus der

Stetigkeit der Projektionen πi, dass

f (a, b) =∞∑k=0

a0a−1 · . . . · a−k+1b−k

gilt. Wir erhalten damit (Yt)t∈Z =(f θt (A,B)

)t∈Z P -f.s. und die Stationarität von Y

folgt aus der Stationarität von (A,B).Es bleibt noch die Eindeutigkeit zu zeigen. Seien Y und Z zwei stationäre Lösungen von

(3.12). Dann folgt für alle t ∈ Z, indem wir (3.12) mit den verschiedenen Lösungen von

sich selbst abziehen, Yt − Zt = At(Yt−1 − Zt−1) und wir erhalten P -f.s. für alle n ∈ N

Yt − Zt = AtAt−1 · . . . ·At−n+1(Yt−n − Zt−n).

Dies führt schlieÿlich P -f.s. zu der Abschätzung

|Yt − Zt| ≤ ‖AtAt−1 · . . . ·At−n+1‖ · |Yt−n − Zt−n|(3.14)

≤ ‖AtAt−1 · . . . ·At−n+1‖ · (|Yt−n|+ |Zt−n|)

Zeigen wir nun, dass ‖AtAt−1 · . . . · At−n+1‖ · |Yt−n| stochastisch gegen 0 konvergiert für

n→∞, und dasgleiche damit entsprechend auch für Z gilt, so konvergiert der Term rechts

unten in (3.14) als Summe ebenfalls stochastisch gegen 0. Es folgt dann P (|Yt−Zt| > 0) = 0und somit Yt = Zt P -f.s.. Um die stochastische Konvergenz nachzuweisen, stellen wir

zunächst fest, dass

ϕn := ‖AtAt−1 · . . . ·At−n+1‖

wegen λA < 0 nach der leichten Implikation von Theorem 3.2.8 P -f.s. und somit auch

stochastisch gegen 0 konvergiert. Es sei nun α > 0. Zu ε > 0 existiert dann auf Grund der

Stationarität von Y ein K ∈ N mit P (|Yt−n| > K) ≤ ε2 für alle n ∈ N und wir erhalten

P (ϕn|Yt−n| > α) = P (ϕn|Yt−n| > α, |Yt−n| ≤ K) + P (ϕn|Yt−n| > α, |Yt−n| > K)

≤ P(ϕn >

α

K

)+ P (|Yt−n| > K)

≤ ε

für alle bis auf endlich viele n, wegen P(ϕn >

αK

)−→ 0 für n→∞.

Bemerkung 3.3.2 Proposition 1.3.5 und der Beweis von Theorem 3.3.1 zeigen, dass dieLösung Y für die Gleichung (3.12) in Theorem 3.3.1 nicht nur stationär, sondern auchergodisch ist.

Page 65: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

3.3 Stochastische Rekurrenz-Gleichungen 59

Unter gewissen Voraussetzungen existiert eine Umkehrung zu Brandt's Theorem. Bougerol

& Picard haben in [8] für den Fall von i.i.d. Gleichungen (A,B) und unter einem gewissen

Irreduzibilitätskriterium gezeigt, dass λA < 0 für die Existenz einer stationären und von

der Zukunft unabhängigen Lösung Y von (3.12) notwendig ist. Von der Zukunft unabhän-

gig soll dabei Yt ⊥⊥ (As, Bs)s>t für alle t bedeuten.Desweiteren gibt es für stochastische Rekurrenz-Gleichungen mit zufälligen Lipschitz-stetigen

Abbildungen ein zu Brandt's Theorem ähnliches Resultat, das sich im Anhang von Bou-

gerol (1993) [9] nachlesen lässt.

Page 66: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

60 Paragraph 3 - Zufallsmatrizen und SRG's

Page 67: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Paragraph 4

Stationäre Lösungen der

GARCH-Gleichungen

Bis auf weiteres wollen wir in diesem Paragraphen die i.i.d. Folge von Zufallsvariablen Ztfür t ∈ Z mit E(Zt) = 0 und E(Z2

t ) = 1, sowie die nicht-negative Parameter a0, . . . , ap

und b1, . . . , bq aus Denition 2.2.1 als gegeben annehmen.

4.1 Quadratisch-integrierbare Lösungen

Satz 4.1.1 a) Existiert eine quadratisch integrierbare (nicht notwendigerweise stationäre)Lösung der GARCH Gleichungen (X,σ), so folgt

∑pi=1 ai +

∑qi=1 bi < 1.

b) Gilt∑p

i=1 ai+∑q

i=1 bi < 1, so existiert eine quadratisch integrierbare, stationäre Lösung.

Beweis. (a) Wir nehmen ohne Einschränkung an, dass p = q sei. Ansonsten denieren

wir einfach ai = 0 für i > p und bi = 0 für i > q. Setzen wir nun sukzessive die Gleichung

(2.2) in sich selbst ein, so erhalten wir nach n ∈ N Schritten, dass

σ2t = a0 +

p∑i1=1

(ai1Z2t−i1 + bi1)σ2

t−i1

= a0 +p∑

i1=1

(ai1Z2t−i1 + bi1)

(a0 +

p∑i2=1

(ai2Z2t−i1−i2 + bi2)σ2

t−i1−i2

)= . . .

= a0 + a0

n∑j=1

s(t)j +

∑(i1,...,in+1)

∈1,...,pn+1

(ai1Z2t−i1 + bi1) · . . . · (ain+1Z

2t−i1−...−in+1

+ bin+1) · σ2t−i1−...−in+1

.

P -f.s. gilt. Dabei denieren wir für j ∈ N

s(t)j :=

∑(i1,...,ij)

∈1,...,pj

(ai1Z2t−i1 + bi1)(ai2Z

2t−i1−i2 + bi2) · . . . · (aijZ2

t−i1−...−ij + bij ).

61

Page 68: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

62 Paragraph 4 - Lösungen der GARCH-Gleichungen

Formal lässt sich dies induktiv nachweisen. Auf Grund der Nicht-Negativität aller be-

teiligter Gröÿen führt diese Rechnung zu σ2t ≥ a0

(1 +

∑∞j=1 s

(t)j

)und damit zu X2

t ≥

Z2t · a0

(1 +

∑∞j=1 s

(t)j

)P -f.s.. Man beachte auÿerdem, dass Z2

t und∑∞

j=1 s(t)j unabhängig

sind. Es folgt daher

∞ > E(X2t ) ≥ a0 · E

(Z2t

)+ a0 · E

(Z2t

)· E

∞∑j=1

s(t)j

= a0 + a0

∞∑j=1

E(s

(t)j

),

wobei bei dem Gleichheitszeichen am Ende der Satz von der monotonen Konvergenz ein-

geht. Ebenso mit Hilfe der Unabhängigkeit der Folge Z erhalten wir

E(s

(t)j

)=

∑(i1,...,ij)

E(

(ai1Z2t−i1 + bi1) · . . . · (aijZ2

t−i1−...−ij + bij ))

=∑

(i1,...,ij)

E(ai1Z

2t−i1 + bi1

)· . . . · E

(aijZ

2t−i1−...−ij + bij

)=

∑(i1,...,ij)

(ai1 + bi1) · . . . · (aij + bij )

=

(p∑i=1

(ai + bi)

)j,

wobei man sich die letzte Gleichung mittels Induktion nach j überlegt. Es folgt schlieÿlich

∞ >∑∞

j=1 (∑p

i=1(ai + bi))j und somit

∑pi=1 ai +

∑qi=1 bi < 1.

(b) Denieren wir s(t)j wie in Teil (a) und setzen

∑pi=1 ai+

∑qi=1 bi < 1 voraus, so folgt mit

obiger Rechnung aus Teil (a), dass E(∑∞

j=1 s(t)j

)< ∞ gilt. Die Zufallsvariable

∑∞j=1 s

(t)j

ist folglich P -f.s. reellwertig. Wir denieren dann

σ2t := a0

1 +∞∑j=1

s(t)j

und Xt := Zt ·√σ2t

für alle t ∈ Z und rechnen nach, dass (X,σ) derart die Gleichung (2.2) erfüllt. Die Gültigkeitvon (2.1) ist trivial. Aus der Denition von s(t)

j erhält man

p∑i=1

(aiZ2t−i + bi)s

(t−i)j = s

(t)j+1, was

p∑i=1

(aiZ2t−i + bi)

n∑j=1

s(t−i)j =

n∑j=1

s(t)j+1

für alle n ∈ N impliziert. Auf Grund der Linearität von Grenzwerten führt uns dies zu

Page 69: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.2 Stationäre und allgemeine Lösungen 63

a0 +p∑i=1

(aiZ2t−i + bi)σ2

t−i = a0 +p∑i=1

(aiZ2t−i + bi)

∞∑j=1

s(t−i)j + 1

a0

= a0 + a0

s(t)1 + lim

n→∞

p∑i=1

(aiZ2t−i + bi)

n∑j=1

s(t−i)j

= a0

s(t)1 + lim

n→∞

n∑j=1

s(t)j+1

= σ2

t .

Die Stationarität von X folgt mit Proposition 1.2.2 aus der Stationarität von Z.

4.2 Stationäre und allgemeine Lösungen

4.2.1 GARCH als Lösung einer stochastischen Rekurrenz-Gleichung

Wir wollen im Folgenden zeigen, wie man die GARCH Gleichungen als stochastische

Rekurrenz-Gleichung auasst. Indem wir für q = 1 den Fall b1 = 0 zulassen, können

wir annehmen, dass von nun ab stets q ≥ 1 gelte. Für alle t ∈ Z denieren wir nun die

folgenden zufälligen M(p+ q − 1,R)Matrizen:

(4.1) A(p,q)

t :=

a1Z2t + b1 b2 · · · bq−1 bq a2 · · · ap−1 ap

1 0

. . . 0 0 0

0 1

Z2t 0

1 0

0 0. . . 0

0 1

.

Wir wollen einige Grenzfälle dieser Denition näher erläutern. Ist p = 1, so besteht A(p,q)

t

aus den ersten q Spalten und Zeilen in obiger Matrix also A(1,1)

t := a1Z2t + b1 und für

q ≥ 2 in Blockform

A(1,q)

t :=

[ϕt bq

Eq−1 0

]

Page 70: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

64 Paragraph 4 - Lösungen der GARCH-Gleichungen

mit dem Zeilenvektor ϕt := (a1Z2t + b1, b2, . . . , bq−1) ∈ Rq−1 und der Einheitsmatrix Eq−1

in M(q − 1,R). Ist p = 2, so gilt in Blockform

A(2,q)

t :=

[A(1,q)

t a2

ζt 0

]

mit dem Zeilenvektor ζt := (Z2t , 0, . . . , 0) ∈ Rq. Für q = 1 und p ≥ 3 gilt in Blockform

A(p,1)

t :=

a1Z2t + b1 ~a ap

Z2t 0 0

0 Ep−2 0

mit ~a := (a2, . . . , ap−1) ∈ Rp−2. Schlieÿlich erhalten wir für q = 2 und p ≥ 3

A(p,2)

t :=

a1Z

2t + b1 b2 ~a ap

1 0 0 0Z2t 0 0 0

0 0 Ep−2 0

.Die Gestalt von At für p, q ≥ 3 ist in (4.1) gut ersichtlich. Ansonsten wird die Denition

von At gleich noch klarer werden, wenn wir ihren Zusammenhang mit GARCH erläutern.

Desweiteren denieren wir die folgenden Rp+q−1 (Zufalls-) Spaltenvektoren

Bt := B := (a0, 0, . . . , 0)T .

Wir haben nun für alle p, q ∈ N eine stochastische Rekurrenz-Gleichung im Sinne von Ab-

schnitt 3.3 aufgestellt und wollen im Folgenden zeigen, dass jede nicht-negative Lösung von

(A,B) zu einer Lösung der GARCH-Gleichungen führt und umgekehrt. Dafür denieren

wir zu einem beliebigen R2-wertigen Prozess (X,σ) mit Zeithorizont Z schlieÿlich

(4.2) Y (p,q)

t := (σ2t+1, . . . , σ

2t−q+2, X

2t , . . . , X

2t−p+2)T ,

wobei Y (1,q)

t := (σ2t+1, . . . , σ

2t−q+2)T für p = 1 gelten soll. Wir wollen im Folgenden die

hochgestellten Indizes (p, q) weglassen, um die Formeln nicht zu überladen. Später werden

sie sich aber noch einmal als nützlich erweisen. Wir erklären nun den Zusammenhang mit

den GARCH-Gleichungen. Wenn (X,σ) eine Lösung der GARCH(p,q)Gleichungen ist, so

erfüllt Y aus (4.2) die Gleichungen (3.12)

Yt+1 = At+1Yt +Bt+1

für alle t ∈ Z. Ist umgekehrt Y eine nicht-negative Lösung von (A,B), so gelangen wir

über die erste Komponente von Yt−1 mittels

σt :=√π1 (Yt−1) und Xt := σtZt

zu einer Lösung (X,σ) der GARCH(p,q)-Gleichungen (2.1) und (2.2).

Page 71: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.2 Stationäre und allgemeine Lösungen 65

4.2.2 Der Existenzsatz von Bougerol & Picard

Der folgende Existenzsatz für GARCH-Zeitreihen stammt aus Bougerol & Picard [7]. Es sei

(A,B) die im vorherigen Abschnitt eingeführte stochastische Rekurrenz-Gleichung. (A,B)ist i.i.d. und somit auch stationär und ergodisch. Da alle Eingänge der Matrizen A0 inte-

grierbar sind, folgt unmittelbar die Integrierbarkeit von ‖A0‖1 (zur Denition von ‖ · ‖1siehe Abschnitt 3.2.1) und wir erhalten E(log+ ‖A0‖1) < ∞ wegen log+ x ≤ x für alle

x ≥ 0. Wie schon mehrfach erwähnt, gilt dann E(log+ ‖A0‖) < ∞ auch für jede andere

Norm. Die Existenz des Top-Lyapunov-Exponenten λA ist also sichergestellt.

Theorem 4.2.1 (Bougerol & Picard) a) Existiert eine (nicht notwendigerweise statio-näre) Lösung (X,σ) der GARCH-Gleichungen, so folgt λA < 0.b) Ist λA < 0, so existiert eine Lösung der GARCH-Gleichungen (X,σ), so dass (X,σ) alsR2-wertiger Prozess stationär und ergodisch, sowie σt messbar bezüglich σ(Zs | s ≤ t − 1)für alle t ∈ Z ist.

Beweis. (a) Wenn wir im Folgenden Ungleichungen von Vektoren oder Matrizen auühren,

so ist dies immer komponentenweise zu verstehen. Zu der Lösung (X,σ) wählen wir Y wie

in (4.2). Durch sukzessives Einsetzen von (3.12) in sich selber erhalten wir dann für alle

n ∈ N P -f.s.

Y0 = A0Y−1 +B

= A0(A−1Y−2 +B) +B

= . . .

= A0A−1 · . . . ·A−nY−n−1 +n−1∑k=0

A0 · . . . ·A−kB.

Auf Grund der Nicht-Negativität aller Eingänge in At, Yt und B folgt daraus

Y0 ≥n−1∑k=0

A0 · . . . ·A−kB P -f.s.

für alle n und die Reihe Rn :=∑n−1

k=0 A0 · . . . · A−kB konvergiert komponentenweise (und

damit auch bezüglich einer beliebigen Norm). Dies sieht man dadurch, dass die einzelnen

Komponenten von Rn alle monoton wachsend und nach oben beschränkt sind. Es folgt

somit

(4.3) limn→∞

A0A−1 · . . . ·A−n+1B = 0 P -f.s.

Wir wollen nun zeigen, dass daraus auch A0A−1 · . . . ·A−n+1 −→ 0 P -f.s. für n→∞ folgt,

denn dann erhalten wir λA < 0 mit Hilfe der schwierigen Richtung aus Theorem 3.2.8.

Dazu gehen wir nicht auf die ganzen Spezialfälle des vorherigen Abschnitts ein, sondern

zeigen die Behauptung nur für p, q ≥ 3. Die anderen Fälle gehen dann analog oder sind

trivial. e1, . . . , ep+q−1 seien die Einheitsvektoren in Rp+q−1. Es reicht dann zu zeigen, dass

(4.4) limn→∞

A0A−1 · . . . ·A−n+1ej = 0 P -f.s.

Page 72: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

66 Paragraph 4 - Lösungen der GARCH-Gleichungen

für alle j = 1, . . . , p+ q − 1 gilt.

(1) Wegen B = a0e1 mit a0 > 0 folgt (4.4) für j = 1 aus (4.3).

(2) Es ist A−n+1eq = bqe1 und somit folgt (4.4) für j = q aus (1).

(3) Für 2 ≤ j ≤ q − 1 gilt A−n+1ej = bje1 + ej+1 und (4.4) folgt rekursiv aus (2) und (1).

(4) Es ist A−n+1ep+q−1 = ape1 und (4.4) folgt für j = p+ q − 1 aus (1).

(5) Für q + 1 ≤ j ≤ p + q − 2 ist A−n+1ej = aj−q−1e1 + ej+1 und (4.4) folgt aus (1) und

wiederum rekursiv aus (4).

(b) Trivialerweise gilt E(log+ |B|) < ∞ und wegen λA < 0 sind die Voraussetzungen

von Theorem 3.3.1 erfüllt. Wir erhalten also eine Lösung Y der stochastischen Rekurrenz-

Gleichung (A,B), deren Gestalt in Brandts Theorem als

Yt :=∞∑k=0

AtAt−1 · . . . ·At−k+1B

angegeben ist. Auf Grund der Nicht-Negativität von A und B ist Y nicht negativ und

wir erhalten aus Y somit eine Lösung σt =√π1(Yt−1) und Xt = Ztσt der GARCH-

Gleichungen. Die Stationarität und Ergodizität von (X,σ) folgt aus der Stationarität undErgodizität von Z mit Hilfe von Proposition 1.3.5 und analogen Argumenten, wie wir sie

im Beweis von Theorem 3.3.1 vorgebracht haben. Ferner sieht man, dass σt für alle t ∈ Zmessbar bezüglich σ(Zs | s ≤ t− 1) ist.

Wir haben in Theorem 4.2.1 keine Eindeutigkeitsaussage formuliert. Dies haben wir auf

Abschnitt 4.3 verlegt. Zwar ist jede stationäre Lösung der Rekurrenz-Gleichung (A,B),wie wir aus Brandt's Theorem wissen, P -f.s. eindeutig. Jedoch ist (uns zumindestens) zu

diesem Zeitpunkt noch nicht klar, dass ein stationärer GARCH-Prozess X durch (4.2) zu

einer stationären Lösung Y von (A,B) führt, da wir nur X und nicht (X,σ) als stationärvoraussetzen. In [7] wird darauf nicht eingegangen. Vielleicht ist es auch aus praktischer

Sicht überhaupt nicht sinnvoll die Stationarität von X ohne die Stationarität von (X,σ) zufordern. Wir werden später auf jeden Fall zeigen, dass die Stationarität von (X,σ) bereitsaus der Stationarität von X folgt.

Bemerkung 4.2.2 Ist p = 1 und q ∈ 0, 1, so wissen wir aus Bemerkung 3.2.6, dass fürden Betrag | · | auf R

(4.5) λA = E(log |A0|) = E(log |a1Z20 + b1|)

gilt und der Top-Lyapunov-Exponent lässt sich relativ einfach bestimmen. Generell ist λAsehr schwierig zu berechnen.

4.2.3 Folgerungen aus dem Existenzsatz

Wir wollen als nächstes zwei wichtige Folgerungen aus Theorem 4.2.1 ziehen. Dafür wer-

den wir eine Aussage über den Spektralradius einer Matrix benötigen, die wir kurz zitieren

wollen. In dem Buch von Meise/Vogt [27] wird diese Aussage in dem allgemeineren Kon-

text von Banachalgebren formuliert. Da es sich bei M(d,C) versehen mit einer beliebigen

Page 73: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.2 Stationäre und allgemeine Lösungen 67

Operatornorm ‖ · ‖ jedoch um eine Banachalgebra handelt (zur Denition einer Banachal-

gebra siehe [27] 17), können wir auf das dortige Resultat zurückgreifen. Für A ∈M(d,C)bezeichnet die Menge

σ(A) := z ∈ C | (zEd −A) ist nicht invertierbar

das Spektrum von A, was hier nichts anderes als die Menge der Eigenwerte von A ist. Den

Spektralradius deniert man dann als

ρ(A) := sup |z|∣∣ z ∈ σ(A).

Nach [27] Satz 17.10 gilt nun für A ∈M(d,R) und eine Operatornorm ‖ · ‖

(4.6) ρ(A) = limn→∞

‖An‖1n .

Die rechte Seite in (4.6) ist wegen limn→∞C1n = limn→∞C

− 1n = 1 für C ≥ 1 und der

Äquivalenz aller Normen auf M(d,R) tatsächlich unabhängig von der Wahl der Norm und

wir werden im Folgenden (4.6) für beliebige Normen benutzen. Der nun folgende Satz

stammt ebenfalls aus Bougerol & Picard [7].

Satz 4.2.3 Besitzen die GARCH-Gleichungen eine (nicht notwendigerweise stationäre)Lösung, so folgt

∑qi=1 bi < 1.

Beweis. Es sei A = A(p,q) die Matrix, die man aus (4.1) erhält, indem man in At = A(p,q)

t die

Variablen Z2t durch 0 ersetzt. Da At ≥ A für alle t ∈ Z gilt, erhalten wir A0A−1 · . . . ·A−n ≥

An+1 und damit

exp(

1n+ 1

log ‖A0A−1 · . . . ·A−n‖1)≥ ‖An+1‖

1n+1

1

für alle n ∈ N. Wegen (4.6) und (3.3) aus Theorem 3.2.5, folgt nun exp(λA) ≥ ρ(A). NachTheorem 4.2.1 (a) gilt λA < 0 und wir erhalten somit ρ(A) < 1. Wir wollen nun das

charakteristische Polynom χA(z) berechnen. Entwickeln wir für p ≥ 2 die Determinante

von zEp+q−1 −A(p,q) nach der letzten Spalte, so erhalten wir

det(zEp+q−1 −A(p,q)

)= z · det

(zEp+q−2 −A(p−1,q)

).

Dies führt zu det (zEp+q−1 −A(p,q)) = zp−1 · det (zEq −A(1,q)) und wir müssen lediglich

noch die Determinante von (zEq −A(1,q)) bestimmen. Für q ≥ 2 entwickeln wir wiederum

nach der letzten Spalte und erhalten

det(zEq −A(1,q)

)= (−1)1+q(−1)q−1(−bq) + z · det

(zEq−1 −A(1,q−1)

)= −bq + z · det

(zEq−1 −A(1,q−1)

).

Zusammen mit det (zE1 −A(1,1)) = z − b1 folgt daraus induktiv

det(zEq −A(1,q)

)= zq ·

(1−

q∑i=1

biz−i

)

Page 74: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

68 Paragraph 4 - Lösungen der GARCH-Gleichungen

und wir erhalten somit insgesammt

χA(z) = zp+q−1 ·

(1−

q∑i=1

biz−i

).

Die Funktion f(x) := 1−∑q

i=1 bixi besitzt folglich keine Nullstelle auf dem Intervall [0, 1],

denn f(x) = 0 mit 0 < x ≤ 1 würde zu χA(x−1) = 0 mit x−1 ≥ 1 führen im Widerspruch

zu ρ(A) < 1. Da f stetig ist und f(0) = 1 gilt, folgt aus dem Zwischenwertsatz, dass

f(1) = 1−∑q

i=1 bi > 0 gelten muss.

Wir wollen im Folgenden ein hinreichendes Kriterium für die Existenz nicht quadratisch

integrierbarer, stationärer GARCH-Prozesse vorstellen. Es stammt ebenfalls aus Bougerol

& Picard [7] und verwendet Resultate aus der Theorie der Zufallsmatrizen, die wir lediglich

zitieren und nicht ausführlicher behandeln wollen. Es handelt sich dabei um eine Arbeit

von Kesten & Spitzer [22] (1984), die genau wie Kesten's Arbeit [21], die wir in Paragraph

2.5 erwähnt hatten, aufwändig ist.

Die bloÿe Existenz einer nicht quadratisch-integrierbaren, stationären GARCH-Zeitreihe

kann man sich für GARCH(1,1) mit Hilfe von Bemerkung 4.2.2 auch anhand eines Beispiels

überlegen. Neuhaus & Kreis geben so in [24] ein Beispiel mit auf dem Intervall (−√

3,√

3)gleichverteilten Zt an, wo sie Parameter a1 = b1 >

12 mit E(log |a1Z

2t + b1|) < 0 herleiten.

Satz 4.1.1 und Theorem 4.2.1 liefern dann die Existenz einer nicht quadratisch integrier-

baren, stationären Lösung.

Wenn wir im Folgenden den Erwartungswert einer Matrix bilden, so soll dies komponen-

tenweise verstanden werden.

Lemma 4.2.4 Es sei (A,B) die stochastische Rekurrenz-Gleichung aus Abschnitt 4.2.1.a) Es gilt det(zEp+q−1 − E(A0)) = zp+q−1

(1−

∑pi=1 aiz

−i −∑q

i=1 biz−i).

b) Für den Top-Lyapunov-Exponenten gilt λA ≤ log ρ (E(A0)).

Beweis. (a) Für d ≥ 2 sei Zd ∈ M(d,R) die Matrix, die −1 auf der Hauptdiagonalen, z

auf der oberen 1. Nebendiagonalen und sonst nur Eingänge 0 hat, sowie Z1 := −1. Danndenieren wir für p ≥ 2 und q ≥ 1 die Matrizen U (p,q) ∈ M(p + q − 2,R) wie folgt. Für

p ≥ 3 und q ≥ 2 sei in Blockform

U (p,q) :=

Zq−1 z · eTq−1 0−e1 0 z · e1

0 0 Zp−2

,wobei e1, eq−1 Einheits-Zeilenvektoren in Rq−1 und e1 Einheits-Zeilenvektor in Rp−2 seien.

Sowie

U (2,1) := −1, U (p,1) :=

[−1 z · e1

0 Zp−2

]und U (2,q) :=

[Zq−1 z · eTq−1

−e1 0

]

Page 75: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.2 Stationäre und allgemeine Lösungen 69

mit p ≥ 3 bzw. q ≥ 2 und e1 Einheitsvektor in Rp−2 bzw. e1, eq−1 Rq−1.

Zur Vereinfachung der Schreibweise sei A := A0. Entwickeln wir nun für p ≥ 2 die Deter-

minante von zEp+q−1 − E(A(p,q)) nach der letzten Spalte, so erhalten wir

det(zEp+q−1 − E(A(p,q))

)= (−1)p+q(−ap) · detU (p,q) + z · det

(zEp+q−2 − E(A(p−1,q))

).

Man rechnet nun relativ leicht aus, dass detU (p,q) = (−1)p+qzq−1 für alle p ≥ 2 und q ≥ 1gilt und für p ≥ 2 folgt aus obiger Gleichung induktiv

det(zEp+q−1 − E(A(p,q))

)= zp

(det(zEq − E(A(1,q))

)z−1 − zq−1

p∑i=2

aiz−i

).

Analog zu dem Beweis von Satz 4.2.3 sieht man, dass

det(zEq − E(A(1,q))

)= zq

(1− a1z

−1 −q∑i=1

biz−i

)gilt und es folgt die Behauptung von Teil (a).

(b) Für beliebige Matrizen C1, . . . , Cn ausM(d,R) gilt für den Eingang der Produkt-Matrix

zu den Koordinaten 1 ≤ i, j ≤ d (mit der Bezeichnung Ck = (c(k)ij ))

(4.7) (C1C2 · . . . · Cn)i,j =∑

(k1,...,kn−1)

∈1,...,dn−1

c(1)ik1· c(2)k1k2· c(3)k2k3· . . . · c(n)

kn−1j.

Sind die Ck stochastische Matrizen, unabhängig und komponentenweise integrierbar (bzw.

nicht-negativ), so folgt daraus E (C1C2 · . . . · Cn) = E(C1) · . . . ·E(Cn). Ist C eine beliebige

stochastische Matrix mit nicht-negativen Eingängen, so gilt auÿerdem ‖E(C)‖1 = E(‖C‖1)für die 1-Norm ‖ · ‖1, wie man sich leicht überlegt. Für unsere GARCH-Folge A von

Zufallsmatrizen aus Abschnitt 4.2.1 folgt deshalb insgesammt

E (‖A0A−1 · . . . ·A−n+1‖1) = ‖E(A0) · . . . · E(A−n+1)‖1(4.8)

= ‖E(A0)n‖1

für alle n ∈ N. Nach Theorem 3.2.5 gilt limn→∞1nE (log ‖A0 · . . . ·A−n+1‖1) = λA und wir

erhalten für alle ε > 0

E (log ‖A0A−1 · . . . ·A−n+1‖1) ≥ n(λA − ε)

für alle bis auf endlich viele n. Die Zufallsvariablen ‖A0A−1 · . . . · A−n+1‖1 sind für alle

n integrierbar, [0,∞) ist eine konvexe Teilmenge von R und − log : [0,∞) −→ R ist eine

konvexe Funktion. Nach der Jensenschen Ungleichung (vgl. Dudley [13] 10.2.6) folgt daher

logE (‖A0A−1 · . . . ·A−n+1‖1) ≥ E (log ‖A0A−1 · . . . ·A−n+1‖1)

für alle n ∈ N. Fügen wir diese beiden Ungleichungen zusammen, benutzen (4.8) und

wenden dann auf beiden Seiten die monotone Funktion exp( 1nx) an, so führt dies zu

‖E(A0)n‖1n1 ≥ exp(λA − ε)

Page 76: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

70 Paragraph 4 - Lösungen der GARCH-Gleichungen

für schlieÿlich alle n. Die linke Seite dieser Ungleichung konvergiert nach (4.6) gegen den

Spektralradius von E(A0). Daher erhalten wir log ρ(E(A0)) ≥ λA− ε für alle ε > 0 und es

folgt die Behauptung.

Gilt P (1) ≥ 1 für P (z) :=∑p

i=1 aizi +∑q

i=1 bqzi, so besitzt die reelle und stetige Funktion

x 7−→ 1− P (x) nach dem Zwischenwertsatz eine Nullstelle x in dem Intervall (0, 1]. Nachobigem Lemma wäre dann x−1 ein Eigenwert von E(A0) und ρ(E(A0)) ≥ 1. Da λA < 0für P (1) < 1 schon aus Satz 4.1.1 und Theorem 4.2.1 folgt, ist das Beste bzw. Einfachste,

was mit obigen Lemma hinsichtlich der Existenz von GARCH neu erreicht werden kann,

der Fall ρ(E(A0)) = 1 mit λA 6= 0. Dementsprechend sind auch Bougerol & Picard vor-

gegangen, wobei sie den Fall λA = 0 mit Hilfe der besagten Arbeit von Kesten & Spitzer

[22] wegdiskutiert haben. In [22] werden an eine Folge A0, A1, A2, . . . nicht-negativer, i.i.d.

Zufallsmatrizen die folgenden Grundvoraussetzungen gestellt (Ungleichungen für Matrizen

sind wie zuvor komponentenweise zu verstehen):

H1 : Es existiert ein m ∈ N mit P (A0 · . . . ·Am−1 > 0) > 0.

H2 : P (A0 besitzt eine 0-Spalte oder 0-Zeile ) = 0.

H3 : E(A0) <∞ und ρ(E(A0)) = 1.

Man beachte, dass H3 zu E(log+ ‖A0‖1) <∞ führt und somit γA aus Theorem 3.2.5 exis-

tiert. Theorem 2 aus [22] besagt dann unter anderem (dort: Äquivalenz der Bedingungen

III. und IV.), dass genau dann γA = 0 gilt, wenn ein K <∞ existiert mit

(4.9) (A0 · . . . ·An−1)i,j ≤ K P -f.s.

für alle n ∈ N und 1 ≤ i, j ≤ d.

Satz 4.2.5 Es sei (A,B) die stochastische Rekurrenz-Gleichung aus Abschnitt 4.2.1. Fer-ner gelte

∑pi=1 ai +

∑qi=1 bi = 1, P (Z0 = 0) = 0 und P (Z2

0 ≤ K) < 1 für alle K ∈ (0,∞),sowie Bedingung H1. Dann gilt λA < 0 und es existiert eine quadratisch nicht-integrierbare,stationäre Lösung der GARCH-Gleichungen.

Beweis. Wir wenden Lemma 4.2.4 und das Theorem von Kesten & Spitzer an, um λA < 0zu zeigen. Der Rest folgt dann aus Satz 4.1.1 und Theorem 4.2.1. Mit Hilfe der Formel für

das charakteristische Polynom χE(A0) von E(A0) aus Lemma 4.2.4 (a) sieht man, dass 1wegen

∑pi=1 ai +

∑qi=1 bi = 1 ein Eigenwert von E(A0) ist. Ferner führt die Abschätzung

|x − y| ≥ ||x| − |y|| auf χE(A0) angewandt mit anschlieÿender Benutzung der normalen

Dreiecksungleichung zu

∣∣χE(A0)(z)∣∣ ≥ |z|p+q−1 ·

(1−

∣∣∣∣∣p∑i=1

aiz−i +

q∑i=1

biz−i

∣∣∣∣∣)

≥ |z|p+q−1 ·

(1−

p∑i=1

ai|z|−i −q∑i=1

bi|z|−i)

Page 77: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.3 Eindeutigkeit 71

und es folgt |χE(A0)(z)| > 0 für |z| > 1. Der Spektralradius von E(A0) ist somit 1. Damit

gilt Bedingung H3 und aus Lemma 4.2.4 (b) folgt λA ≤ 0. Wegen P (Z0 = 0) = 0 gilt

Bedingung H2 und die zweite Voraussetzung, die wir an die Verteilung von Z20 gestellt

haben, führt dazu, dass (4.9) nicht für A0 gilt und somit schon gar nicht für alle n. Aus

dem Theorem von Kesten & Spitzer folgt dann also λA 6= 0 und somit λA < 0.

Bemerkung 4.2.6 In der Situation von Satz 4.2.5 geben Bougerol & Picard ai, bi > 0 füralle i als hinreichende Bedingung für H1 an. Der Beweis dieser Behauptung ist allerdingsnicht korrekt. Im Prinzip geht es um die gleiche Frage wie in Abschnitt 2.5 bei Kesten'sTheorem. Wie dort erwähnt, denken wir, dass (mit P (Z0 = 0) = 0) die Bedingung a1 > 0oder b1 > 0 hinreichend für die Aperiodizität und Irreduzibilität von A0 und damit hinrei-chend für H1 ist.

4.3 Eindeutigkeit

Satz 4.3.1 (Eindeutigkeitssatz) Es seien (X,σ) und (X, σ) zwei Lösungen der GARCH-Gleichungen (2.1) und (2.2). Ist X stationär oder gilt supt∈ZE(X2

t ) < ∞ und gilt einesvon beiden auch für X, so folgt

(X,σ) = (X, σ) P -f.s..

Beweis. Wir werden so ähnlich vorgehen wie in dem Beweis der Eindeutigkeitsaussage aus

dem Theorem von Brandt. Zu (X,σ) und (X, σ) seien Y und Y die jeweiligen Lösungen

der stochastischen Rekurrenz-Gleichung (A,B) aus (4.2), wobei wir wieder nur p, q ≥ 3diskutieren, da der Rest analog funktioniert. Für ein beliebiges t ∈ Z erhalten wir wie bei

Brandt's Theorem

Yt − Yt = AtAt−1 · . . . ·At−n+1 · (Yt−n − Yt−n) P -f.s.

für alle n ∈ N. Benutzen wir nun wiederum die 1-Norm ‖ · ‖1 mit dazugehöriger Operator-

norm ‖ · ‖op, so führt dies P -f.s. zu der folgenden Abschätzung

|σ2t+1 − σ2

t+1| ≤ ‖AtAt−1 · . . . ·At−n+1‖op · ‖Yt−n − Yt−n‖1

≤ ϕ(t)n ·

(q−1∑i=0

(σ2t−n+1−i + σ2

t−n+1−i) +p−2∑i=0

(X2t−n−i + X2

t−n−i)

)(4.10)

=: Z(t)n

für alle n ∈ N, wobei wir ϕ(t)n := ‖AtAt−1 · . . . ·At−n+1‖op denieren. Nach Theorem 4.2.1

(a) gilt λA < 0 und mit der leichten Richtung aus Theorem 3.2.8 folgt limn→∞ ϕ(t)n = 0

P -f.s.. Wie wir in dem Beweis zu Theorem 3.3.1 bereits gezeigt haben, folgt aus der Sta-

tionarität von X (bzw. der von X2), dass ϕ(t)n X2

s−n −→ 0 P -stochastisch für alle s ∈ Zgilt. Dasgleiche gilt natürlich ebenso für X.

Page 78: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

72 Paragraph 4 - Lösungen der GARCH-Gleichungen

Wir können auch unter der Voraussetzung supt∈ZE(X2t ) <∞ diese stochastische Konver-

genz nachweisen, was vollkommen analog verläuft. Der einzige Unterschied besteht darin,

dass wir in dem besagten Beweis zu ε2 ein K ∈ N mit

1K

supt∈Z

E(X2t ) ≤ ε

2

wählen. Denn dann folgt für alle n ∈ N

P (X2s−n > K) =

∫1X2

s−n>K dP ≤∫

1KX2s−n dP ≤

ε

2.

Setzen wir also r := max(p, q), so folgt unter jeweils einer, der genannten Voraussetzungen,

dass P -stochastisch

Φ(t)n := ϕ(t)

n ·r∑i=0

(X2t+1−n−i + X2

t+1−n−i) −→ 0

für n→∞ gilt, da Summen stochastisch konvergenter Folgen bekanntlich stochastisch ge-

gen die Summe der Grenzvariablen konvergieren. Wir können dann zu einer P -f.s. konver-

gierenden Teilfolge Φ(t)nk übergehen, wobei wir durch eventuelles Ausdünnen dieser Teilfolge

erreichen können, dass zusätzlich nk+1 − nk ≥ q für alle k ∈ N gilt. Es folgt dann, dass(Z2t+1−nk , Z

2t+1−nk−1, . . . , Z

2t+1−nk−(q−1)

)k∈N

eine i.i.d. Folge ist. Da PZ0 nicht das Einpunkt-Maÿ in 0 sein kann, existiert ein 0 < a < 1mit P (Z2

0 > a) > 0 und es folgt P (Ek) > 0 mit

Ek :=Z2t+1−nk−i > a für alle i = 0, . . . , q − 1

.

Die Ereignisse Ek sind alle unabhängig und besitzen diegleiche positive Wahrscheinlichkeit.

Nach dem Borel-Cantelli Lemma folgt somit P (E) = 1 für E := lim supk→∞Ek.Es sei nun N1 die P -Nullmenge, auf der Φ(t)

nk nicht konvergiert, und N2 die P -Nullmenge,

auf der (4.10) für ein n ∈ N nicht gilt. Wir zeigen, dass dann |σ2t+1 − σ2

t+1|(ω) = 0 für alle

ω ∈ E ∩N c1 ∩N c

2 gilt. Wegen P (E ∩N c1 ∩N c

2) = 1 und auf Grund der Nicht-Negativität

von σ und σ folgt dann σt+1 = σt+1 P -f.s., woraus wegen (2.1) ebenso Xt+1 = Xt+1 P -f.s.

folgt.

Es sei also ω ∈ E ∩ N c1 ∩ N c

2 . Wegen ω ∈ E existiert dann eine Folge natürlicher Zahlen

(kj)j∈N mit ω ∈ Ekj für alle j und wir führen (4.10) für dieses eine bestimmte ω fort

|σ2t+1 − σ2

t+1| ≤ Z(t)nkj

= ϕ(t)nkj

q−1∑i=0

X2t+1−nkj−i

+ X2t+1−nkj−i

Z2t+1−nkj−i

+p−2∑i=0

(X2t−nkj−i

+ X2t−nkj−i

)

≤ (

1a

+ 1) · Φ(t)nkj−→ 0 für j →∞.

Page 79: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.4 Struktur der stationären Lösungen 73

Korollar 4.3.2 Es sei (X,σ) eine Lösung der GARCH Gleichungen. Erfüllt X eine derbeiden Voraussetzungen von Satz 4.3.1, so ist (X,σ) als R2-wertiger Prozess stationär undergodisch. Auÿerdem besitzt σt dann für alle t ∈ Z eine σ(Zs | s ≤ t− 1)-messbare Version.

Beweis. Da (X,σ) eine Lösung ist, folgt λA < 0 nach Theorem 4.2.1 (a) und nach Teil (b)

des gleichen Theorems existiert eine Lösung (X, σ), so dass (X, σ) stationär und ergodisch

ist und die entsprechende Messbarkeit erfüllt. Nach Satz 4.3.1 folgt (X,σ) = (X, σ) P -f.s.und (X,σ) ist somit auch stationär und ergodisch.

Korollar 4.3.3 Ist (X,σ) eine Lösung der GARCH-Gleichungen mit schwach stationäremX, so folgt, dass X auch streng stationär ist.

Beweis. X erfüllt auf Grund der schwachen Stationarität supt∈ZE(X2t ) < ∞ und man

kann Korollar 4.3.2 anwenden.

4.4 Die Struktur der stationären Lösungen

Im Folgenden wollen wir eine ARCH(∞)-Darstellung für stationäre GARCH-Prozesse her-leiten und uns mit der Eindeutigkeit der Parametrisierung im GARCH-Modell beschäfti-

gen. Bei der Erarbeitung dieses Abschnitts haben wir auf die Arbeit von Berkes, Horváth

& Kokoszka (2003) [4] zurückgegrien, woher auch die Resultate stammen. In [4] werden

leicht andere Voraussetzungen getroen, als wir dies bisher getan haben. So wird für die

i.i.d. Folge Z dort nicht

(4.11) E(Zt) = 0 und E(Z2t ) = 1

gefordert. Stattdessen wird für die stochastische Rekurrenz-Gleichung (A,B) aus Abschnitt4.2.1 direkt und allgemeiner

(4.12) E(log+ ‖A0‖) <∞

vorausgesetzt. (4.12) ist äquivalent zu E(log+ |Z0|) <∞, was man am besten anhand der

1-Norm sieht. Für diese existiert einK > 0 mit Z20 ≤ ‖A0‖1 ≤ K(1+Z2

0 ) und man überlegt

sich leicht, dass mit geeignetem K ′ > 0 dann

2 log+ |Z0| ≤ log+ ‖A0‖1 ≤ K ′ + 2 log+ |Z0|

gilt. Wir haben (4.11) hauptsächlich für die Abschnitte 2.3 und 2.4 benötigt und ansonsten

nur in den Sätzen 4.1.1 und 4.2.5, sowie Lemma 4.2.4 benutzt. Die im Folgenden für

uns wichtigen Sätze aus Paragraph 4, Theorem 4.2.1 und Satz 4.2.3, gelten unter (4.12)

auch ohne (4.11). Bei dem Eindeutigkeitssatz 4.3.1 haben wir lediglich die Existenz eines

0 < a < 1 mit P (Z2t > a) > 0 benutzt. Für den Eindeutigkeitssatz müssen wir daher

Z = 0 P -f.s. ausschlieÿen, was kein groÿer Verlust ist. Wir lassen also in den nächsten

Abschnitten dieses Paragraphen (4.11) fallen und setzen fortan (4.12) und Z 6= 0 voraus.

Page 80: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

74 Paragraph 4 - Lösungen der GARCH-Gleichungen

4.4.1 Invertierbarkeit

Wie zuvor sehen wir die i.i.d. Folge Z, sowie die Paramter a0, . . . , ap und b1, . . . , bq mit

a0, ap, bq > 0 als gegeben an und setzen q ≥ 1 voraus, indem wir b1 = 0 für q = 1 zulassen.

In Analogie zu den z-Transformationen der ARMA-Modelle betrachten wir zu diesen

GARCH-Parametern die folgenden charakteristischen Polynome

(4.13) A(z) :=p∑i=1

aizi und B(z) := 1−

q∑i=1

bizi

mit z ∈ C. Ausgehend von der Existenz einer Lösung wissen wir nach Satz 4.2.3, dass

dann die Ungleichung∑q

i=1 bi < 1 gilt. Daraus folgt, dass B(z) keine Nullstelle auf dem

abgeschlossenen Einheitskreis besitzt, was man mit Hilfe der Abschätzung (vgl. den Beweis

von Satz 4.2.5)

|B(z)| ≥ 1− |q∑i=1

bizi| ≥ 1−

q∑i=1

bi|z|i

erkennt, aus der |B(z)| > 0 für |z| ≤ 1 folgt. Sind γ1, . . . , γl die verschiedenen Nullstellen

von B(z), derer es höchstens q geben kann, so gilt also

r := min|γ1|, . . . , |γl| > 1.

Die komplexe Abbildung 1B(z) ist daher auf der oenen Kreisscheibe Br = z ∈ C | |z| < r

holomorph und lässt sich dort in eine normal konvergente Potenzreihe entwickeln (vgl.

Remmert/Schumacher [30] Satz 7.3.2). Es gilt somit

(4.14)1B(z)

=∞∑j=0

djzj mit dj =

1j!· ∂

j

∂zj

(1B(z)

)|z = 0

für alle z ∈ Br. Mit Hilfe der Rechenregeln zur komplexen Dierentiation insbesondere

der Quotionentenregel überlegt man sich, dass wegen B(z) ∈ R[z] die Koezienten djalle reell sind. Desweiteren konvergiert die Reihe (4.14) auf Br absolut und wir nden

wegen r > 1 ein z ∈ Br mit |z| > 1. Aus der absoluten Konvergenz der Reihe folgt dann

limj→∞ |djzj | = 0 und somit

|dj | ≤(

1|z|

)jfür alle bis auf endlich viele j mit 1

|z| ∈ (0, 1). Dies bedeutet, dass die Folge (dj)j∈N0

exponentiell abfällt, wie wir zukünftig sagen wollen.

Denition 4.4.1 Wir sagen, dass eine Folge komplexer Zahlen (zn)n∈N exponentiell ab-fällt, wenn ein c ∈ (0,∞) und ein ϕ ∈ (0, 1) existiert mit |zn| ≤ c · ϕn für alle bis aufendlich viele n ∈ N.

Fassen wir B(z) =∑∞

i=0 bizi als Potenzreihe auf mit bi := −bi für i = 1, . . . q, b0 := 1 und

bi := 0 für i > q, so sind B(z) und die Reihe (4.14) beide auf Br normal konvergent und

Page 81: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.4 Struktur der stationären Lösungen 75

wir können ihr Cauchy-Produkt bilden (vgl. [30] Satz 3.3.2). Dies führt zu

1 =∞∑k=0

∑i+j=k

dj bi

zk

für alle z ∈ Br. Da die Darstellung der Funktion 1 auf Br als Potenzreihe eindeutig

bestimmt ist, können wir nun mittels Koezientenvergleich die dj rekursiv berechnen.

Dies ergibt

d0 = 1

d1 = b1

d2 = b2 + d1b1(4.15)

d3 = b3 + d1b2 + d2b1...

dq = bq + d1bq−1 + d2bq−2 + . . .+ dq−1b1

und allgemein gilt

(4.16) dj =min(j,q)∑i=1

bidj−i

für alle j ∈ N. Fassen wir nun auch A(z) als Potenzreihe auf und bilden das Cauchy-

Produkt mit 1B(z) , so erhalten wir genauso

(4.17)A(z)B(z)

=∞∑j=1

cjzj mit cj =

min(j,p)∑i=1

aidj−i

für alle z ∈ Br. Man beachte, dass diese Reihe keinen konstanten Term besitzt. Vollkommen

analog zu der Reihe aus (4.14) überlegt man sich, dass die Koezienten cj reell sind und

exponentiell abfallen.

Lemma 4.4.2 Es sei Yk für k ∈ N0 eine Folge identisch verteilter, komplexer Zufallsva-riablen mit E(log+ |Y0|) <∞, sowie (zk)k∈N0 eine exponentiell abfallende Folge komplexerZahlen. Dann konvergiert die Reihe

∑∞k=0 zkYk P -f.s. absolut.

Beweis. Wir wählen zu ϕ aus Denition 4.4.1 ein ψ ∈ (0, 1) mit ϕ < ψ < 1. Mit der

Konvention x0 =∞ für x > 0 erhalten wir dann

P(|zkYk| > ψk

)= P

(|Yk| >

ψk

|zk|

)≤ P

(|Yk| >

ψk

c · ϕk

)= P

(log+ c|Y0| > k · log

ψ

ϕ

)≤ P

(log+ c+ log+ |Y0|

logψ − logϕ> k

),

Page 82: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

76 Paragraph 4 - Lösungen der GARCH-Gleichungen

wobei man ψ > ϕ beachte. Analog zu dem Beweis von Brandt's Theorem 3.3.1 folgt nun

∞∑k=1

P(|zkYk| > ψk

)≤ E

(log+ c+ log+ |Y0|

logψ − logϕ

)<∞

und das Lemma von Borel-Cantelli ergibt für P -f.a. ω, dass |zkYk|(ω) ≤ ψk für alle bis

auf endlich viele k gilt. Für diese ω bildet somit∑∞

k=0 ψk eine konvergente Majorante für∑∞

k=0 |zkYk|(ω) und es folgt die Behauptung des Lemmas.

Theorem 4.4.3 (ARCH(∞)-Darstellung) Es sei (X,σ) eine stationäre Lösung derGARCH-Gleichungen mit E(log+ σ2

0) <∞. Dann gilt für alle t ∈ Z

(4.18) σ2t =

a0

B(1)+∞∑j=1

cjX2t−j P -f.s.

mit den Koezienten cj aus (4.17).

Beweis. Der Beweis besteht aus einer längeren Rechnung. Zunächst folgt E(log+ Z20 ) <∞

aus (4.12) und wir erhalten E(log+X20 ) ≤ E(log+ Z2

0 ) + E(log+ σ20) <∞. Weiter ist

log+

(p∑i=1

aiX2t−i

)≤ log+

(p ·

pmaxi=1

aiX2t−i

)≤ log+ p+ log+

(p

maxi=1

aiX2t−i

)

= log+ p+p

maxi=1

(log+ aiX

2t−i)≤ log+ p+

p∑i=1

log+ aiX2t−i

und die Abbildung log+(∑p

i=1 aiX2t−i)ist also integrierbar. Denieren wir

ξt := a0 +p∑i=1

aiX2t−i,

so ist die Folge (ξt−j − a0)j∈N0 auf Grund der Stationarität von X nach Proposition 1.2.2

selbst stationär und somit identisch verteilt, und erfüllt also die entsprechenden Voraus-

setzungen in Lemma 4.4.2. Wir werden Lemma 4.4.2 benötigen, wenn wir als Nächstes die

Reihe auf der rechten Seite von (4.18) umsortieren. Um die Umsortierung der Reihe besser

nachvollziehen zu können, führen wir die einzelnen Summanden in dem folgenden Schema

mit Hilfe der Formel für die cj aus (4.17) auf.

c1X2t−1 = a1d0 | ·X2

t−1

c2X2t−2 = a2d0 + a1d1 | ·X2

t−2

c3X2t−3 = a3d0 + a2d1 + a1d2 | ·X2

t−3

......

...... |

...

cpX2t−p = apd0 + ap−1d1 + ap−2d2 + . . . + a1dp−1 | ·X2

t−pcp+1X

2t−p−1 = apd1 + ap−1d2 + . . . + a2dp−1 + a1dp | ·X2

t−p−1

......

...... |

...

Page 83: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.4 Struktur der stationären Lösungen 77

Wir wenden nun den Umordnungssatz für Doppel-Reihen (vgl. [30] S.29 Aufgabe 5) bzw.

den Satz von Fubini bezüglich des Zählmaÿes auf (N,P(N)) an. Dazu betrachten wir alle

Eingänge in obigem Schema absolut und summieren spaltenweise. Nummeriert j ∈ N0 die

Spalten bei 0 beginnend durch, so ergibt sich die Reihe

∞∑j=0

|dj |

(p∑i=1

aiX2t−j−i

)=∞∑j=0

|dj |(ξt−j − a0),

welche nach Lemma 4.4.2 P -f.s. konvergiert. Damit sind die Voraussetzungen für eine

Umsortierung erfüllt und wir erhalten

a0

B(1)+∞∑j=1

cjX2t−j =

a0

B(1)+∞∑j=0

dj(ξt−j − a0) =∞∑j=0

djξt−j P -f.s.,

da nach (4.14) a0B(1) = a0

∑∞j=0 dj ist. Es bleibt also zu zeigen, dass

(4.19)∞∑j=0

djξt−j = σ2t P -f.s.

gilt. Um dies zu sehen, stellen wir die folgende Behauptung auf. Für alle n ∈ N gilt

(4.20)n∑j=0

djξt−j = σ2t −

q−n∑i=1

falls q−n≥1

ϕ(n)i · σ

2t−n−i −

q∑i=max(1,q−n+1)

ψ(n)i · σ2

t−n−i

P -f.s., wobei wir für n = 1, . . . , q − 1 und i = 1, . . . , q − n

ϕ(n)i :=

n∑s=0

bi+n−s · ds

setzen, sowie für i = 1, . . . , q und alle n ∈ N

ψ(n)i :=

q−i∑s=0

bq−s · dn−(q−i)+s.

Insbesondere folgt aus (4.20), dass für alle n ≥ q

(4.21)n∑j=0

djξt−j = σ2t −

q∑i=1

ψ(n)i · σ2

t−n−i P -f.s.

gilt, worauf wir im Endeekt mit (4.20) hinaus wollen. Man beweist (4.20) mit Induktion

nach n, wobei man beim Induktionsschritt am besten die Fälle q − n ≥ 1 und q − n < 1getrennt behandelt, da davon abhängt, ob auf der rechten Seite in (4.20) eine oder zwei

Summen stehen. Dieser Induktionsbeweis ist etwas mühselig und ansonsten für uns nicht

weiter von Bedeutung. Wir wollen ihn daher nicht im Detail durchführen, sondern lediglich

einige Hinweise geben. Beim Induktionsschritt n→ n+ 1 benutzt man links in (4.20)

dn+1ξt−(n+1) = dn+1

(σ2t−(n+1) −

q∑i=1

biσ2t−(n+1)−i

),

Page 84: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

78 Paragraph 4 - Lösungen der GARCH-Gleichungen

sowie die Induktionsvoraussetzung für die restlichen Terme, um dann mit Hilfe der fol-

genden Rechenregeln, die sich aus (4.15) und (4.16) und den entsprechenden Denitionen

herleiten, zu der rechten Seite von (4.20) zu gelangen.

R.1 Für n = 1, . . . , q − 2 und i = 1, . . . , q − n− 1 gilt ϕ(n)i+1 + dn+1bi = ϕ

(n+1)i .

R.2 Für n = 1, . . . , q − 1 gilt ϕ(n)1 = dn+1.

R.3 Für alle n ∈ N und i = 1, . . . , q − 1 gilt ψ(n)i+1 + bidn+1 = ψ

(n+1)i .

R.4 Für alle n ∈ N gilt ψ(n)q = bqdn.

R.5 Für alle n ≥ q gilt ψ(n)1 = dn+1.

Haben wir (4.20) und damit (4.21) nachgewiesen, so fahren wir wie folgt fort. Die linke Seite

in (4.21) konvergiert P -f.s. gegen die linke Seite in (4.19). Um (4.19) nachzuweisen, reicht

es also zu zeigen, dass die Summe auf der rechten Seite in (4.21) P -f.s. gegen 0 konvergiert

für n → ∞. Man überlegt sich leicht, dass die Folgen (ψ(n)i )n∈N für jedes i = 1, . . . , q

exponentiell abfallen. Nach Lemma 4.4.2 konvergiert dann die Reihe∑∞

n=1 ψ(n)i σ2

t−n−i und

wir erhalten limn→∞ ψ(n)i σ2

t−n−i = 0 P -f.s., woraus die Behauptung folgt.

Es gibt in gewisser Hinsicht eine Umkehrung von Theorem 4.4.3, die wir als Korollar

formulieren, da die wesentlichen Überlegungen bereits im Beweis von Theorem 4.4.3 statt-

gefunden haben.

Korollar 4.4.4 Es sei X eine stationäre, reelle Zeitreihe mit E(log+X20 ) < ∞. Auÿer-

dem seien GARCH-Parameter a0, . . . , ap und b1, . . . , bq gegeben, sowie die dazu gehörendenPolynome A und B aus (4.13). Besitzt B keine Nullstelle auf dem abgeschlossenen Ein-heitskreis und ist σ eine Zeitreihe, die (4.18) für alle t ∈ Z erfüllt, so löst σ die zu denParametern und X gehörende Gleichung (2.2).

Beweis. Wir gehen den Beweis von Theorem 4.4.3 exakt noch einmal durch bis wir zu

Gleichung (4.19) gelangen abgesehen von dem Umstand, dass wir E(log+X20 ) < ∞ an

Stelle von E(log+ σ20) < ∞ und Xt = σtZt vorausgesetzt haben. Der Unterschied besteht

nun darin, dass wir (4.19) nicht zeigen wollen, sondern jetzt gegeben haben und daraus

(2.2) ableiten wollen. Dazu müssen wir

∞∑j=0

djξt−j = ξt +q∑i=1

bi

∞∑j=0

djξ(t−i)−j

nachweisen, was unter der Gleichheit in (4.19) Gleichung (2.2) entspricht. Wir sortieren

nun die Reihe bzw. Summation auf der rechten Seite erneut um und verdeutlichen dies im

folgenden Schema.

b1| d0ξt−1 d1ξt−2 d2ξt−3 d3ξt−4 . . .

b2| d0ξt−2 d1ξt−3 d2ξt−4 . . .

b3| d0ξt−3 d1ξt−4 . . .

Page 85: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.4 Struktur der stationären Lösungen 79

Da wir zeilenweise absolute Konvergenz, sowie nur endlich viele Zeilen vorliegen haben,

dürfen wir umsortieren. Summieren wir wieder spaltenweise, so ergibt sich

q∑i=1

bi

∞∑j=0

djξ(t−i)−j

=∞∑k=1

∑i+j=k

bidj

ξt−k(4.16)

=∞∑k=1

dkξt−k

und das Korollar ist bewiesen.

Satz 4.4.5 (Eindeutigkeit der ARCH(∞)-Darstellung) Es sei (X,σ) eine stationäreLösung der GARCH-Gleichungen. Auÿerdem seien die Z2

t nicht P -f.s. konstant. Existierendann reelle Zahlen cj , cj ∈ R für j ∈ N0 und ein t ∈ Z mit

σ2t = c0 +

∞∑j=1

cjX2t−j = c0 +

∞∑j=1

cjX2t−j P -f.s.,

so folgt cj = cj für alle j ∈ N0.

Beweis. Wir führen einen Widerspruchsbeweis. Es sei m ∈ N die kleinste natürliche Zahl,

für die cm 6= cm gilt. Ist cm = cm für alle m ∈ N, so folgt auch c0 = c0. Es gilt dann

(cm − cm)X2t−m = c0 − c0 +

∞∑j=m+1

(cj − cj)X2t−j ,

was wegen σ2t−m ≥ a0 > 0 und (2.1) zu

(4.22) Z2t−m =

1(cm − cm)σ2

t−m·

c0 − c0 +∞∑

j=m+1

(cj − cj)X2t−j

P -f.s.

führt. Nach Korollar 4.3.2 besitzt σs für alle s ∈ Z eine σ(Zr | r ≤ s− 1) messbare Version,

was wegen (2.1) bedeutet, dass manXs für alle s ∈ Z als σ(Zr | r ≤ s) messbar wählen kann.

Es folgt somit, dass für die rechte Seite in (4.22) eine σ(Zs | s ≤ t−m−1)-messbare Version

existiert. Da Z unabhängig ist, schliessen wir daraus, dass Z2t−m von sich selbst unabhängig

ist. Die Verteilungsfunktion von Z2t−m kann also nur die Werte 0 und 1 annehmen und man

überlegt sich leicht, dass Z2t−m somit P -f.s. konstant ist, was einen Widerspruch zu unseren

Voraussetzungen darstellt.

Lemma 4.4.6 Es sei (X,σ) eine stationäre Lösung der GARCH-Gleichungen. Gibt es einδ > 0 mit E(|Z0|2δ) <∞, so existiert ein δ∗ > 0 mit E(|σ0|2δ

∗) <∞.

Beweis. Es sei (A,B) die stochastische Rekurrenz-Gleichung aus Abschnitt 4.2.1. Wir

denieren Mn := A0 · . . . ·A−n+1 und zeigen zunächst, dass δ∗ ∈ (0, 1) und n ∈ N mit

(4.23) E(‖Mn‖δ

∗)< 1

existieren, woraus wir dann die Aussage des Lemmas folgern wollen. Dabei sei ‖ · ‖ dieOperatornorm zu der 1-Norm | · |1 auf Rp+q−1. Wegen λA < 0 nden wir nach (3.4) ein

n ∈ N mit

E(log ‖Mn‖) < 0.

Page 86: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

80 Paragraph 4 - Lösungen der GARCH-Gleichungen

Ist |Z0|2δ integrierbar, so auch |Z0|2s für alle s ∈ [0, δ) und wir können δ < 1 annehmen.

Desweiteren existiert ein K ∈ (0,∞) mit ‖A0‖1 ≤ K(1 + Z20 ) und es folgt ‖A0‖δ1 ≤

Kδ(1 + |Z0|2δ), denn für δ ∈ (0, 1) gilt stets die Ungleichung (x + y)δ ≤ xδ + yδ für

x, y ∈ [0,∞). Wir erhalten also E(‖A0‖δ1) <∞ und auf Grund der Äquivalenz der Normen

ergibt sich ebenso E(‖A0‖δ) <∞ für die Operatornorm. Dies führt zu

E(‖Mn‖δ) = E(‖A0 · . . . ·A−n+1‖δ)≤ E

(‖A0‖δ · . . . · ‖A−n+1‖δ

)(4.24)

=(E(‖A0‖δ)

)n<∞,

wobei wir in der letzten Gleichung ausnutzen, dass A eine i.i.d. Zeitreihe ist. Man beachte,

dass folglich ‖Mn‖s für alle s ∈ [0, δ] integrierbar ist. Um (4.23) zu zeigen, machen wir nun

eine Fallunterscheidung. Falls P (‖Mn‖ = 0) > 0 gilt, so folgt für alle s ∈ (0, δ]

‖Mn‖s ≤ 1‖Mn‖≤1 + 1‖Mn‖>1‖Mn‖δ

und wir erhalten E (‖Mn‖s) −→ E(1‖Mn‖>0) < 1 für s → 0 aus dem Satz von der

majorisierten Konvergenz, weshalb sich ein δ∗ ∈ (0, 1) mit (4.23) nden lässt. (Tatsäch-

lich kann man sich mit Hilfe von (4.7) überlegen, dass auÿer für den ARCH(1)-Fall stets

‖Mn‖1 ≥ bm(n)q > 0 mit geeignetem m(n) ∈ N gilt.)

Ist P (‖Mn‖ = 0) = 0, so gilt für c ∈ (0, 1)

E(1‖Mn‖>c log ‖Mn‖

)= E(log+ ‖Mn‖)− E

(1‖Mn‖>c log− ‖Mn‖

),

was für c ↓ 0 nach dem Satz von der monotonen Konvergenz gegen

E(log+ ‖Mn‖)− E(1‖Mn‖>0 log− ‖Mn‖

)= E(log ‖Mn‖) < 0

konvergiert. Wir können somit ein c ∈ (0, 1) auswählen mit E(1‖Mn‖>c log ‖Mn‖

)< 0.

Wegen E(‖Mn‖δ∗) ≤ E(1‖Mn‖≤c) + E(1‖Mn‖>c‖Mn‖δ

∗) ist es für (4.23) ausreichend

E(1‖Mn‖>c‖Mn‖δ∗) < E(1‖Mn‖>c)

nachzuweisen und wir können die Existenz eines solchen δ∗ ∈ (0, 1) sicherstellen, indem

wir zeigen, dass der Limes

lims→0

1sE(1‖Mn‖>c · (‖Mn‖s − 1)

)mit s ∈ (0, δ]

existiert und strikt negativ ist. Wir wollen dazu unter dem Integral ableiten. Für alle ω ∈ Ωund s ∈ [0, δ2 ] ist die Abbildung ϕ(ω, s) := 1‖Mn‖>c(ω) · ‖Mn(ω)‖s nach s dierenzierbarund es gilt

∂sϕ(ω, s) = 1‖Mn‖>c · log ‖Mn‖ · ‖Mn‖s.

Bekanntlich ist limy→∞

(y−

δ2 · log y

)= 0, und wir wählen zu δ

2 nun ein K > 1 mit log y ≤

yδ2 für alle y ≥ K. Dann gilt für alle s ∈ [0, δ2 ] und ω ∈ Ω

log c ≤ ∂

∂sϕ(ω, s) ≤ 1‖Mn‖<K logKK

δ2 + 1‖Mn‖≥K‖Mn‖δ

Page 87: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.4 Struktur der stationären Lösungen 81

und wir sehen, dass ∂∂s ϕ(ω, s) für alle s ∈ [0, δ2 ] eine integrierbare Majorante besitzt. Mit

Hilfe des Mittelwertsatzes der Dierntialrechnung und des Satzes von der majorisierten

Konvergenz folgt damit durch Ableiten unter dem Integral (vgl. Elstrodt [14] IV. Satz 5.6)

lims→0

1sE(1‖Mn‖>c · (‖Mn‖s − 1)

)= E

(1‖Mn‖>c log ‖Mn‖

)< 0

und wir haben (4.23) nachgewiesen.

Ist nun Y aus (4.2) die Lösung der Rekurrenz-Gleichung (A,B), so gilt

Y0 =∞∑k=0

A0A−1 · . . . ·A−k+1B =∞∑k=0

MkB,

wie wir bereits wissen. Mittels Dreiecksungleichung und Standard-Abschätzung für die

Operatornorm folgt dann |Y0|1 ≤ |B|1 +∑∞

k=1 ‖Mk‖ · |B|1 und wegen δ∗ ∈ (0, 1) gelangenwir zu

(4.25) |σ1|2δ∗ ≤ |B|δ∗1 +

∞∑k=1

‖Mk‖δ∗ |B|δ∗1 .

Ist k = ln+ r mit l ∈ N0 und r ∈ 0, . . . , n− 1, so folgt analog zu (4.24)

E(‖Mk‖δ

∗)≤ E

(‖Mn‖δ

∗)l· E(‖A0‖δ

∗)r,

da A i.i.d. und ‖ · ‖ eine Matrixnorm ist. Setzen wir ϕ := E(‖Mn‖δ

∗) 1n , so gilt wegen

(4.23) ϕ < 1 und mit c := maxE(‖Mn‖δ

∗)− rn · E

(‖A0‖δ

∗)r ∣∣ r = 0, . . . , n− 1folgt

E(‖Mk‖δ

∗)≤ cϕk

für alle k ∈ N. Die Reihe∑∞

k=1E(‖Mk‖δ

∗)konvergiert somit nach dem Majorantenkrite-

rium und (4.25) zusammen mit dem Satz von der monotonen Konvergenz führt schlieÿlich

zu E(|σ1|2δ∗) <∞. Da σ stationär ist, folgt die Behauptung des Lemmas.

Bemerkung 4.4.7 Mit Lemma 4.4.6 sieht man leicht, dass E(|Z0|2δ) für ein δ > 0 dieIntegrierbarkeit von log+ σ2

0 zur Folge hat und damit die entsprechende Voraussetzung vonTheorem 4.4.3, der ARCH(∞)-Darstellung, erfüllt ist. Ähnlich wie im Beweis zum obigenLemma wählt man zu δ∗ ein K ≥ 1 mit log y ≤ yδ

∗für alle y ≥ K und es folgt log+ σ2

0 ≤logK + |σ0|2δ

∗. Die Integrierbarkeit von log+ σ2

0 folgt dann aus der Integrierbarkeit von|σ0|2δ

∗. Ferner folgt aus Lemma 4.4.6 E(|X0|2δ

∗) = E(|σ0|2δ

∗)E(|Z0|2δ

∗) < ∞, wenn wir

δ∗ wie im obigen Beweis kleiner δ wählen.

Beweis Satz 2.2.3. Nach Korollar 4.3.2 und (2.1) besitzt in der Situation von Satz 2.2.3

Xt für alle t ∈ Z eine σ(Zs|s ≤ t) messbare Version. Aus der Unabhängigkeit von Z folgt

daher Zt ⊥⊥ Ft−1 für alle t ∈ Z. Desweiteren lässt sich mit Bemerkung 4.4.7 Theorem 4.4.3

anwenden und wir erhalten für alle t eine Ft−1-messbare Version von σt.

Page 88: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

82 Paragraph 4 - Lösungen der GARCH-Gleichungen

4.4.2 Identizierbarkeit der Parameter

Aus dem Eindeutigkeitssatz wissen wir, dass zu einer GARCH-Gleichung höchstens ein

stationärer GARCH-Prozess existieren kann. Wir wollen uns in diesem Abschnitt nun umg-

kehrt mit der Frage beschäftigen, ob und inwiefern ein GARCH-Prozess (X,σ) mehrere

Gleichungen gleichzeitig lösen kann. Für die Parameterschätzung im GARCH-Modell ist es

später in gewisser Hinsicht wichtig, eine eindeutige Parametrisierung in der Modell- bzw.

Verteilungsannahme vorliegen zu haben. Wir sehen die i.i.d. Zeitreihe Z im Folgenden mit

E(log+ |Z0|) < ∞ als gegeben an und betrachten die Parameter a0, . . . , ap und b1, . . . , bq,

sowie p und q als nun variabel. Bis auf a0 korresondiert ein solcher Satz von Parametern

mit den Polynomen A und B aus (4.13). Wir wollen deshalb von nun an alle GARCH-

Gleichungen mit dem entsprechenden Tripel (a0,A,B) identizieren.Zunächst müssen wir feststellen, dass ohne irgendwelche Einschränkungen zu einem GARCH-

Prozess (X,σ), der nicht ARCH ist, stets unendlich viele Gleichungen existieren, die (X,σ)löst. Man sieht dies, indem man Gleichung (2.2) einfach in sich selbst einsetzt. Ausgehend

von einer Gleichung (a0,A,B), die von (X,σ) gelöst wird erhält man so für alle n ∈ Nsukzessive weitere Gleichungen (a(n)

0 ,A(n),B(n)), die alle von (X,σ) gelöst werden. Der

Grad der Polynome A(n) und B(n) steigt dabei immer weiter an.

Theorem 4.4.8 Es sei (X,σ) eine stationäre Lösung der GARCH-Gleichung (a0,A,B).Ferner gelte E(log+ σ2

0) <∞ und Z20 sei nicht P -f.s. konstant. Sind die Polynome A und B

in R[x] teilerfremd, so existiert keine andere GARCH-Gleichung (a0, A, B) mit grad(A) ≤grad(A) oder grad(B) ≤ grad(B), die ebenfalls von (X,σ) gelöst wird.

Beweis. Es sei (a0, A, B) eine GARCH-Gleichung, die ebenfalls von (X,σ) gelöst wird.

(4.17) besagt dannA(z)B(z)

=∞∑j=1

cjzj und

∞∑j=1

cjzj =A(z)B(z)

für alle z ∈ C mit |z| ≤ 1 und nach Theorem 4.4.3 gilt

(4.26)a0

B(1)+∞∑j=1

cjX2t−j = σ2

t =a0

B(1)+∞∑j=1

cjX2t−j .

Dies führt nach Satz 4.4.5 dann zu cj = cj für alle j ≥ 1 und wir erhalten A(z)B(z) =A(z)B(z) für alle z mit |z| ≤ 1 und somit auch für alle z ∈ C überhaupt. Es gilt also

AB = AB

als Gleichung im Polynomring R[x]. Da A und B teilerfremd sind, folgt hieraus, dass B ein

Teiler von B sein muss (oder selbst konstant ist). Es existiert somit ein Polynom P ∈ R[x]P 6= 0 mit BP = B und wir erhalten ABP = AB, woraus wegen B 6= 0 ebenso AP = Afolgt. Insgesammt erhalten so grad(A) ≥ grad(A) und grad(B) ≥ grad(B). Gilt grad(A) =grad(A) oder grad(B) = grad(B), so muss P konstant sein. Wegen B(0) = 1 = B(0) gilt

dann P = 1 und somit (A, B) = (A,B). Mit (4.26) folgt schlieÿlich auch noch a0 = a0.

Page 89: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

4.4 Struktur der stationären Lösungen 83

Ist nun umgekehrt A und B nicht teilerfremd, so existiert ein nicht konstantes Polynom

P ∈ R[x] und Polynome A, B ∈ R[x] mit A = P A und B = P B und wir erhalten

AB

=AB.

Es ist aber nicht klar, dass die Polynome A und B sich mit (4.13) über GARCH-Parameter

herleiten lassen. Wäre dies der Fall, so würde Korollar 4.4.4 zeigen, dass (X,σ) auch die

kleinere GARCH-Gleichung (a0, A, B) mit a0 = a0B(1)B(1) löst.

Page 90: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

84 Paragraph 4 - Lösungen der GARCH-Gleichungen

Page 91: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Paragraph 5

QML-Schätzer im GARCH-Modell

5.1 Die Quasi-Maximum-Likelihood Methode

Wir haben in diesem Paragraphen vor allem auf die Bücher von Straumann [32] und Kreiÿ

& Neuhaus [24] zurückgegrien.

In Abschnitt 2.4 hatten wir gezeigt, dass ein quadrierter GARCH-Prozess einer ARMA-

Gleichung genügt. Daher liegt der Versuch nahe, bei der Parameterschätzung im GARCH-

Modell ARMA-Verfahren auf den quadrierten GARCH-Prozess anzuwenden wie man

es z.B. bei dem sogenannten Whittle-Schätzer macht. Das Problem dieses Zugangs be-

steht allerdings in den äuÿerst restriktiven Annahmen, die dabei an die Endlichkeit hö-

herer Momente des GARCH-Prozesses X gestellt werden müssen. So benötigt man beim

Whittle-Schätzer z.B. E(X8t ) < ∞, um asymptotische Normalität nachzuweisen. Weni-

ger restriktiv und das in der Praxis wohl beliebteste Schätzverfahren für GARCH ist die

Quasi-Maximum-Likelihood (QML) Methode. Da es in vielen Modellen schwierig ist zu

einer Beobachtung (Xn, . . . , X1) eine Wahrscheinlichkeits-Dichte auszurechnen, ist es üb-

lich, die Aufstellung der Likelihoodfunktion für die Verteilung von (Xn, . . . , X1) bedingt

nach der Vergangenheit zu versuchen. Auch im GARCH-Modell ist die tatsächliche Like-

lihoodfunktion selbst bei normalverteilten Z unzugänglich und zwecks ML-Schätzung

muss man zur bedingten Verteilung übergehen. Wie wir im Folgenden sehen werden, lässt

sich ausgehend von der gemachten Beobachtung die Dichte der bedingten Verteilung bei

GARCH aber nur approximativ bestimmen.

Der erste strenge und unter relativ schwachen Voraussetzungen allgemeingültige Beweis der

Konsistenz und asymptotischen Normalität der QML-Methode im GARCH-Modell stammt

von Berkes, Horváth & Kokoszka [4]. Wir halten uns im Folgenden aber an die Darstellung

aus [32], in der die Resultate aus [4] noch etwas verallgemeinert werden.

5.1.1 Die bedingte Dichte im GARCH-Modell

Es sei ϑ = (a0, . . . , ap, b1, . . . , bq) ein GARCH-Parameter, sowie (Xn, . . . , X1) unsere Beob-achtung des zu ϑ gehörenden stationären GARCH-ProzessesX mit Volatilität σ. Auÿerdem

denieren wir ~Xk := (Xk, . . . , X1) für 1 ≤ k ≤ n und ~X0 := (X0, . . . , X1−p, σ20, . . . , σ

21−q).

85

Page 92: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

86 Paragraph 5 - QML-Schätzen

Der Vektor ~X0 gehört nicht zur Beobachtung und lässt sich später als eine Art Startwert

der Dichte-Approximation auassen.

Wir wollen nun unter der Voraussetzung, dass die Innovationen Zt standard normalverteilt

sind, die Lebesgue-Dichte von P (Xn,...,X1)|σ( ~X0) berechnen. Zunächst gilt für A ∈ B(R)P -f.s.

(5.1) PXn|σ( ~Xn−1, ~X0)(ω,A) =∫1A(xn)

1√2πσ2

n(ω)exp

(− x2

n

2σ2n(ω)

)dxn.

Dies sieht man wie folgt. Auf Grund von Gleichung (2.2) erhält man durch rekursives

Einsetzen eine stetige (von ϑ abhängende) Abbildung σ(ϑ)n : Rn−1+p × (0,∞)q −→ R mit

(5.2) σ(ϑ)n ( ~Xn−1, ~X0) = σ2

n.

σ2n ist also σ( ~Xn−1, ~X0) messbar und es folgt relativ leicht, dass der Integrand auf der

rechten Seite von (5.1) als Abildung R×Ω −→ R messbar bezüglich B(R)⊗ σ( ~Xn−1, ~X0)ist. Nach dem Satz von Fubini ist die rechte Seite von (5.1) dann σ( ~Xn−1, ~X0) messbar

und wir erhalten auf Grund der Unabhängigkeit von Zn und σn ebenfalls mit Fubini∫1A(Xn) dP =

∫ (∫1A(zs) dPZn(z)

)dP σn(s)

=∫ (∫

1A(xn)1√

2πs2exp

(− x

2n

2s2

)dxn

)dP σn(s)

=∫ (∫

1A(xn)1√

2πσ2n

exp(− x2

n

2σ2n

)dxn

)dP.

Die rechte Seite von (5.1) bildet somit eine Version von E(1A(Xn)|σ( ~Xn−1, ~X0)) und (5.1)

ist gezeigt. Wir denieren nun die stetige und somit B(Rn+p × (0,∞)q)−B(R) messbare

Abbildung

(5.3) (~xn, ~x0) 7−→ fϑ(xn| ~xn−1, ~x0) :=1√

2πσ(ϑ)n (~xn−1, ~x0)

exp

(− x2

n

2σ(ϑ)n (~xn−1, ~x0)

).

Ist E ein beliebiger abzählbarer und ∩-stabiler Erzeuger von B(R), so nden wir eine P -

Nullmenge N derart, dass auf N c (5.1) für alle A ∈ E und damit gleich für alle A ∈ B(R)gilt. Man sieht somit, dass fϑ(xn| ~Xn−1, ~X0) auf der Menge N c die Lebesgue-Dichte von

PXn|σ( ~Xn−1, ~X0)(ω, ·) bildet.Wegen P (id,Xn) = PXn|σ( ~Xn−1, ~X0)×P gilt daher für B ∈ B(Rn) mit Hilfe des Satzes von

Fubini für Kerne

P~Xn(B) =

∫1B(xn, ~Xn−1) dP (id,Xn)

=∫ (∫

1B(xn, ~Xn−1) dPXn|σ( ~Xn−1, ~X0)

)dP

=∫ (∫

1B(xn, ~Xn−1)fϑ(xn| ~Xn−1, ~X0) dxn

)dP.

Page 93: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

5.1 Die Quasi-Maximum-Likelihood Methode 87

Denieren wir für 1 ≤ k ≤ n die Abbildungen σ(ϑ)k und fϑ(xk|~xk−1, ~x0) analog zu (5.2) und

(5.3), so können wir diese Rechnung fortsetzen und erhalten mit Hilfe von P (id,Xn−1) =PXn−1|σ( ~Xn−2, ~X0)×P und Fubini für Kerne nach einem weiteren Schritt

P~Xn(B)

=∫ (∫

1B(xn, xn−1, ~Xn−2)fϑ(xn|xn−1~Xn−2, ~X0) dxn

)dP (id,Xn−1)

=∫ (∫ (∫

1B(xn, xn−1, ~Xn−2)fϑ(xn|xn−1~Xn−2, ~X0) dxn

)dPXn−1|σ( ~Xn−2, ~X0)

)dP

=∫ (∫

1B(xn, xn−1, ~Xn−2)fϑ(xn|xn−1~Xn−2, ~X0)fϑ(xn−1| ~Xn−2, ~X0) dλ2(xn, xn−1)

)dP.

Fahren wir sukzessive fort so erhalten wir schlieÿlich

P~Xn(B) =

∫ (∫1B(~xn)fϑ(~xn| ~X0)dλn(~xn)

)dP,

wobei wir

(5.4) fϑ(~xn| ~x0) :=n∏k=1

fϑ(xk| ~xk−1, ~x0)

denieren. fϑ(~xn| ~X0) bildet somit P -f.s. die Lebesgue-Dichte von P (Xn,...,X1)|σ( ~X0).

5.1.2 Quasi-Likelihoodfunktion und Parameterbereich

In der Situation des vorherigen Abschnittes berechnet sich die Log-Likelihoodfunktion von

P (Xn,...,X1)|σ( ~X0) mit Hilfe von (5.3) und (5.4) nun zu

(5.5) ϑ 7−→ log fϑ( ~Xn| ~X0) = −n2

log 2π− 12

n∑t=1

(X2t

σ(ϑ)t ( ~Xt−1, ~X0)

+ log σ(ϑ)t ( ~Xt−1, ~X0)

).

Diese Funktion kann ohne Kenntnis von ~X0 nicht berechnet werden und, da wir ~X0 als

unbekannt voraussetzen, nimmt man in (5.5) dementsprechend eine geeignete Ersetzung

von ~X0 durch eine stetige Abbildung ϑ 7−→ ~sϑ ∈ Rp × (0,∞)q vor. Hinsichtlich des asym-

ptotischen Verhaltens des aus (5.5) resultierenden Maximum-Likelihood Schätzers stellt

sich die Wahl von ~sϑ dabei als irrelevant heraus. Für praktische Zwecke und kleine n spielt

die Wahl von ~sϑ jedoch wohl eine Rolle. Nach [32] ist keine besonders gute Methode zur

Wahl von ~sϑ bekannt üblich ist X0 = . . . = X1−p = 0 und σ20 = . . . = σ2

1−q = a0

1−∑qk=1 bk

für ϑ = (a0, . . . , ap, b1, . . . , bq) zu setzen.

Lassen wir die zur Bestimmung der Maximalstelle irrelevante additive Konstante in (5.5)

weg, erhalten wir somit die folgende Quasi-Log-Likelihoodfunktion

(5.6) Lϑ(X1, . . . , Xn) := −12

n∑t=1

(X2t

σ(ϑ)t ( ~Xt−1, ~sϑ)

+ log σ(ϑ)t ( ~Xt−1, ~sϑ)

).

Page 94: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

88 Paragraph 5 - QML-Schätzen

Die Annahme einer Standard-Normalverteilung der Zt und die Berechnung der Lebesgue-

Dichte von P (Xn,...,X1)|σ( ~X0) im vorherigen Abschnitt diente vor allem als Motivation für die

Wahl der Quasi-Likelihood Funktion in (5.6). Im Folgenden wollen wir wie zuvor lediglich

forden, dass Z eine i.i.d. Zeitreihe mit E(Zt) = 0 und E(Z2t ) = 1 ist, und trotzdem (5.6)

als Quasi-Likelihoodfunktion denieren.

Als Parameterbereich wählt man nun zu p, q ∈ N eine kompakte Menge K mit

K ⊆ (0,∞)× [0,∞)p ×B

und B := (b1, . . . , bq) ∈ [0, 1)q |∑q

k=1 bk < 1. Man beachte dabei, dass für einen Pa-

rameter ϑ = (a(ϑ)0 , . . . , a

(ϑ)p , b

(ϑ)1 , . . . , b

(ϑ)q ) ∈ K nicht a(ϑ)

p , b(ϑ)q > 0 gelten muss und somit

auch GARCH-Modelle mit kleinerer Ordnung als p und q abgedeckt werden. Auÿerdem

muss nicht für alle ϑ ∈ K tatsächlich ein stationärer GARCH-Prozess existieren. σ(ϑ)t lässt

sich auch so analog zu (5.2) denieren und wegen a(ϑ)0 > 0 ist Lϑ(X1, . . . , Xn) für ϑ ∈ K

stets wohldeniert.

Die Abbildung ϑ 7−→ Lϑ(X1, . . . , Xn) ist stetig und als QML-Schätzer deniert man dann

schlieÿlich

ϑn := ϑn(X1, . . . , Xn) := argmaxϑ∈K

Lϑ(X1, . . . , Xn).

Ob und inwiefern die Maximalstelle eindeutig bestimmt ist, ist uns an dieser Stelle nicht

wirklich klar. Sowohl in [24] als auch [32] wird darauf nicht direkt eingegangen. Desweiteren

muss in obiger Situation die Parametrisierung durch K keinesfalls eindeutig sein. ϑn lässt

sich aber wohl immer messbar wählen.

5.2 Starke Konsistenz

Zu ϑ = (a(ϑ)0 , . . . , a

(ϑ)p , b

(ϑ)1 , . . . , b

(ϑ)q ) ∈ K denieren wir nun

Aϑ(z) :=p∑

k=1

a(ϑ)k zk und Bϑ(z) := 1−

q∑k=1

b(ϑ)k zk.

Theorem 5.2.1 (Straumann [32] Theorem 4.2.1) Es sei X ein stationärer GARCH-Prozess, der die zu dem (wahren) Parameter ϑ0 ∈ K gehörende GARCH-Gleichung löst.Unter der Voraussetzung

Z20 ist nicht P -f.s. konstant und die Polynome Aϑ0(z) und Bϑ0(z) besitzen keine(5.7)

gemeinsame Nullstelle. Für den Parameter ϑ0 gilt auÿerdem (a(ϑ0)p , b(ϑ0)

q ) 6= (0, 0),

sowie (a(ϑ0)1 , . . . , a(ϑ0)

p ) 6= (0, . . . , 0).

ist der QML-Schätzer ϑn stark konsistent, d.h. für n→∞ gilt

ϑn(X1, . . . , Xn) −→ ϑ0 P -f.s..

Bei Voraussetzung (5.7) in Theorem 5.2.1 geht es um Identizierbarkeit. Man vergleiche

diesbezüglich Theorem 4.4.8.

Page 95: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

5.3 Asymptotische Normalität 89

5.3 Asymptotische Normalität

Theorem 5.3.1 (Straumann [32] Theorem 4.2.1) Es sei X ein stationärer GARCH-Prozess, der die zu dem (wahren) Parameter ϑ0 ∈ K gehörende GARCH-Gleichung löst.Gilt zusätzlich zu (5.7), dass ϑ0 im Innern von K liegt, sowie E(Z4

0 ) < ∞, und existiertein µ > 0 mit

lims→0

s−µP (|Z0| ≤ s) = 0,

so ist der QML-Schätzer ϑn asymptotisch normal, d.h. für n→∞ gilt

√n(ϑn − ϑ0) −→ N(0,Σ(ϑ0))

in Verteilung, wobei N(0,Σ(ϑ0)) eine mehrdimensionale Normalverteilung mit geeigneter(p+ q + 1)× (p+ q + 1) Kovarianzmatrix Σ(ϑ0) ist.

Dadurch, dass in Theorem 5.3.1 ϑ0 im Innern von K liegen muss, wird a(ϑ0)p , b

(ϑ0)q > 0

erzwungen, und p und q müssen hinsichtlich der asymptotischen Normalität also schon im

Vorhinein richtig gewählt werden.

Eine explizite Angabe der Kovarianzmatrix Σ(ϑ0) in Theorem 5.3.1 ist wohl nicht bekannt.

Page 96: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

90 Paragraph 5 - QML-Schätzen

Page 97: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Literaturverzeichnis

[1] Asmussen, S. (2000) Ruin Probabilities. (vol. 2) Advanced series on statistical science and applied

probability. World Scientic Publishing.

[2] Basrak, B., Davis, R. A. & Mikosch T. (2002) Regular variation of GARCH processes. Stochastic

Processes and their Applications 99, 99-115.

[3] Bauer, H. (2001) Wahrscheinlichkeitstheorie. (5. Au.) de Gruyter.

[4] Berkes, I., Horváth, L. & Kokoszka, P. (2003) GARCH processes: Structure and Estimation.

Bernoulli 9(2), 201-227.

[5] Billingsley, P. (1999) Convergence of Probability Measures. (2nd ed.) Wiley Series in Probability

and Statistics.

[6] Bollerslev, T. (1986) Generalized Autoregressive Conditional Heteroskedasticity. Journal of Eco-

nometrics 31, 307-327.

[7] Bougerol, P. & Picard, N. (1992) Stationarity of GARCH processes and of some nonnegative

time series. Journal of Econometrics 52, 115-127.

[8] Bougerol, P. & Picard, N. (1992) Strict Stationarity of Generalized Autoregressive Processes.

The Annals of Probability 20(4), 1714-1730.

[9] Bougerol, P. (1993) Kalman Filtering with Random Coecients and Contractions. SIAM J. Con-

trol and Optimization 31, 942-959.

[10] *Black, F. (1976) Studies in stock price volatility changes. Proceedings of the 1976 Meeting of the

Business and Economic Statistic Section, American Statistical Association, 177-181.

[11] Brandt, A. (1986) The Stochastic Equation Yn+1 = AnYn+Bn with Stationary Coecients. Adv.

Appl. Prob. 18, 211-220.

[12] Cohen, J.E., Kesten, H. & Newman, C. M. (1986) Random Matrices and their Applications.

Contemporary Mathematics 50.

[13] Dudley, R. M. (2002) Real Analysis and Probability. (2nd ed.) Cambridge University Press.

[14] Elstrodt, J. (2002) Maÿ- und Integrationstheorie. (3. Au.) Springer-Verlag Berlin Heidelberg

New York.

[15] Engle, R. F. (1982) Autoregressive Conditional Heteroskedasticity with Estimates of the Variance

of United Kingdom Ination. Econometrica 50(4), 987-1007.

[16] Forster, O. (1999) Analysis II. (5. Au.) Vieweg studium - Grundkurs Mathematik.

91

Page 98: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

92 Literaturverzeichnis

[17] Franke, J.,Härdle, W. & Hafner, C. (2004) Einführung in die Statistik der Finanzmärkte. (2.

Au.) Springer-Verlag Berlin Heidelberg New York.

[18] Furstenberg, H. & Kesten, H. (1960) Products of random matrices. Ann. Math. Statist. 31,

457-469.

[19] Guivarc'h, Y. & Raugi, A. (1985) Frontière de Furstenberg, propriétés de contraction et théorèmes

de convergence. Z. Wahrsch. Verw. Gebiete 69, 187-242.

[20] Janssen, A. (2007) Vorlesung über Wahrscheinlichkeitstheorie. Heinrich-Heine Universität Düssel-

dorf.

[21] Kesten, H. (1973) Random Dierence Equations and Renewal Theory for Products of Random

Matrices. Acta math. 131, 207-248.

[22] Kesten, H. & Spitzer F. (1984) Convergence in Distribution of Products of Random Matrices.

Z. Wahrsch. Verw. Gebiete 67, 363-386.

[23] Kingman, J. F. C. (1973) Subadditive Ergodic Theory. The Annals of Probability 1, 883-909.

[24] Kreiÿ, J.-P. & Neuhaus, G. (2006) Einführung in die Zeitreihenanalyse. Springer-Verlag Berlin

Heidelberg.

[25] Krengel, U. (1985) Ergodic Theorems. de Gruyter Studies in Mathematics.

[26] Mandelbrot, B. (1963) The variation of certain speculative prices. J. Business 36, 394-419.

[27] Meise, R. & Vogt D. (1992) Funktionalanalysis. Vieweg-Studium.

[28] *Nelson, D. B. (1990) Stationarity and persistence in the GARCH(1,1) model. Econometric Theory

6, 318-334.

[29] Nelson, D. B. (1991) Conditional Heteroskedasticity in Asset Returns: A New Approach. Econo-

metrica 59(2), 347-370.

[30] Remmert, R. & Schumacher, G. (2002) Funktionentheorie 1. (5. Au.) Springer-Verlag Berlin

Heidelberg New York.

[31] Schmid, F. & Trede, M. (2006) Finanzmarktstatistik. Springer-Verlag Berlin Heidelberg.

[32] Straumann, D. (2005) Estimation in Conditionally Heteroscedastic Times Series Models. Lecture

Notes in Statistics, Springer.

Bei Einträgen mit * handelt es sich um Fremdreferenzen, die wir nicht selbst gesehen haben.

Page 99: Die Parameterschätzung in den GARCH-Modellen der ...herriger.net/philip/wp-content/uploads/Master-Arbeit.pdf · im Jahr 1982 Engle mit seinem ARCH-Modell, welches 1986 von Bollerslev

Erklärung

Hiermit versichere ich, die Arbeit selbständig erstellt und keine anderen als die angegebenen

Hilfsmittel benutzt zu haben.

Philip Herriger Düsseldorf, den 14. September 2008

93