Numerische Mathematik II - TU Berlin · Numerische Mathematik II Günter B ärwolff 15. März 2010 Skript, geschrieben parallel zur Vorlesung Numerische Mathematik im WS2009/10

Numerische Mathematik II

Gunter Barwolff

15. Marz 2010

Skript, geschrieben parallel zur Vorlesung Numerische Mathematik imWS2009/10 an der TU Berlin,Stand nach Berucksichtigung der Korrekturhinweise von K. Peisert und A.Heydt

i

Inhaltsverzeichnis

0 Vorwort 1

1 Numerische Losung von AWPs gewohnlicher Dgln. 21.1 Methoden zur geschlossenen Losung von Dgln. . . . . . . . . . 3

1.1.1 Trennung der Veranderlichen . . . . . . . . . . . . . . . 31.1.2 Variation der Konstanten . . . . . . . . . . . . . . . . 41.1.3 Homogene Systeme mit konstanten Koeffizienten . . . . 51.1.4 Existenz- und Eindeutigkeitsaussagen . . . . . . . . . . 7

1.2 Theorie der Einschrittverfahren . . . . . . . . . . . . . . . . . 101.3 Spezielle Einschrittverfahren . . . . . . . . . . . . . . . . . . . 14

1.3.1 Euler-Verfahren . . . . . . . . . . . . . . . . . . . . . . 141.3.2 Einschrittverfahren der Konsistenzordnung p = 2 . . . 15

1.4 Verfahren hoherer Ordnung . . . . . . . . . . . . . . . . . . . 161.4.1 Mehrstufige Runge-Kutta-Verfahren . . . . . . . . . . . 16

1.5 Einige konkrete Runge-Kutta-Verfahren und deren Butcher-Tabellen 201.6 Asymptotische Entwicklungen . . . . . . . . . . . . . . . . . . 231.7 Schrittweitensteuerung . . . . . . . . . . . . . . . . . . . . . . 33

1.7.1 Einbettungsverfahren . . . . . . . . . . . . . . . . . . . 331.7.2 Schrittweitensteuerung durch Extrapolation . . . . . . 35

1.8 Mehrschrittverfahren . . . . . . . . . . . . . . . . . . . . . . . 371.8.1 Technische Hilfsmittel zur Konstruktionvon linearen Mehrschrittverfahren 431.8.2 Adams-Verfahren . . . . . . . . . . . . . . . . . . . . . 461.8.3 Konsistenzordnung linearer Mehrschrittverfahren . . . 511.8.4 Stabilitat von Losungsverfahren . . . . . . . . . . . . . 551.8.5 BDF-Verfahren . . . . . . . . . . . . . . . . . . . . . . 60

1.9 Steife Differentialgleichungen . . . . . . . . . . . . . . . . . . . 631.10 Weitere klassische lineare Mehrschrittverfahren . . . . . . . . . 68

2 Zweipunkt-Randwertaufgaben 702.1 Theoretische Grundlagen . . . . . . . . . . . . . . . . . . . . . 70

2.1.1 Einfuhrendes Beispiel und Definitionen . . . . . . . . . 70

ii

2.1.2 Losbarkeit des 1. RWP im symmetrischen Fall . . . . . 722.1.3 Maximum-Prinzip fur lineare RWP . . . . . . . . . . . 74

2.2 Finite- Differenzen- Verfahren . . . . . . . . . . . . . . . . . . 772.2.1 Definition der klassischen FDM . . . . . . . . . . . . . 772.2.2 Losung des diskreten Problems . . . . . . . . . . . . . 782.2.3 Stabilitats- und Konvergenzanalyse . . . . . . . . . . . 80

2.3 Ritz-Galerkin-Verfahren fur RWP . . . . . . . . . . . . . . . . 862.3.1 Variationsgleichungen . . . . . . . . . . . . . . . . . . . 862.3.2 Verallgemeinerte Ableitungen . . . . . . . . . . . . . . 882.3.3 Ritz-Galerkin-Verfahren . . . . . . . . . . . . . . . . . 912.3.4 Finite-Element-Methode fur Zweipunkt-RWP . . . . . 942.3.5 Weitere mogliche Basisfunktionen . . . . . . . . . . . . 98

2.4 Kollokationsverfahren . . . . . . . . . . . . . . . . . . . . . . . 992.5 Schießverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 101

2.5.1 Das einfache Schießverfahren fur skalare Gleichungen . 1012.5.2 Schießverfahren fur Dgl.-Systeme . . . . . . . . . . . . 1042.5.3 Schießverfahren fur lineare Randwertaufgaben . . . . . 1052.5.4 Mehrzielverfahren (linearer Fall) . . . . . . . . . . . . . 1082.5.5 Mehrzielverfahren (allgemeiner Fall) . . . . . . . . . . . 110

3 Partielle Differentialgleichungen und deren numerische Losung1123.1 Beispiele partieller Differentialgleichungen der math. Physik . 1123.2 Numerische Losungsmethoden fur part. Dgln. . . . . . . . . . 118

3.2.1 Finite-Differenzen-Methoden . . . . . . . . . . . . . . . 1183.2.2 Finite-Volumen-Methode . . . . . . . . . . . . . . . . . 129

4 Matrix-Eigenwertprobleme 1394.1 Problembeschreibung und algebraische Grundlagen . . . . . . 1394.2 Abschatzungen und Lokalisierung von Eigenwerten . . . . . . 1434.3 Numerische Methoden zur Eigenwertberechnung . . . . . . . . 149

4.3.1 Transformation auf Hessenberg- bzw. Tridiagonalform . 1494.3.2 Newton-Verfahren zur Berechnung von Eigenwerten von Hessenberg-Matrizen1524.3.3 Das Newtonverfahren fur tridiagonale Matrizen . . . . 1534.3.4 Jacobi-Verfahren zur Eigenwertberechnung . . . . . . . 1544.3.5 Von-Mises-Vektoriteration . . . . . . . . . . . . . . . . 1594.3.6 QR-Verfahren . . . . . . . . . . . . . . . . . . . . . . . 164

iii

Kapitel 0

Vorwort

Diese Skript entsteht parallel zur Vorlesung im Wintersemester 2009/10 undenthalt die wesentlichen Inhalte wie z.B. alle Definitionen und Satze, wobeibei den Beweisen in der Regel nur Verweise auf Textbucher oder Beweisskiz-zen angegeben werden. Als Lehrbucher seien z.B.

• Robert Plato: Numerische Mathematik kompakt. Grundlagenwissen furStudium und Praxis

• Stoer/Bulirsch: Numerische Mathematik 1/2

• Deuflhard/Hohmann/Bornemann: Numerische Mathematik 1/2

• Hans R. Schwarz, Norbert Kockler: Numerische Mathematik

• Gunter Barwollf: Numerik fur Ingenieure, Physiker und Informatiker

• Walter Oevel: Einfuhrung in die numerische Mathematik

empfohlen.

1

Kapitel 1

Numerische Losung von AWPsgewohnlicher Dgln.

1. Vor-lesungam13.10.2009

Im Ergebnis mathematischer Modellierungen entstehen oft Differentialglei-chungen, die nicht geschlossen losbar sind. Z.B. erhalt man Dgln. der Form

x = αx − βxy

(1.1)

y = γxy − δy

wobei x(t) z.B. eine ”Beutepopulation” und y(t) eine ”Rauberpopulation”beschreiben (α, β, γ, δ > 0, reelle Konstanten). Mit vorgegebenen Anfangs-werten, z.B.

x(0) = x0 , y(0) = y0 (1.2)

hat man mit (1.1), (1.2) ein Anfangswertproblem mit einem System von Dgln.1. Ordnung gegeben, dass nur numerisch losbar ist.Als weitere Beispiele von AWP seien hier mathematische Modelle fur denradioaktiven Zerfall

dm

d t= −k(t) m , m(t0) = m0 ∈ R ,

wobei k(t) eine positive vorgegebene Funktion ist, bzw. das Modell fur dieAbkuhlung eines ”idealen” Korpers

d T

d t= −k(T − Tu) , T (t0) = T0 ∈ R ,

mit einer positiven reellen Konstanten k und der Umgebungstemperatur Tu

genannt.

2

1.1 Methoden zur geschlossenen Losung von

Dgln.

Bevor man numerische Methoden zur Losung von Dgln. bemuht, sollte mangegebenenfalls prufen, ob eine Losung auf analytischem Weg bestimmt wer-den kann. Im Folgenden sollen einige wichtige Methoden der geschlossenenLosung von gewohnlichen Dgln. kurz dargestellt werden.

1.1.1 Trennung der Veranderlichen

Hat man eine homogene Dgl. der Form

y′ = g(y)h(t) (1.3)

zu losen, dann kann man unter der Voraussetzung, dass g(y) 6= 0 ist, unterNutzung der Substitutionsregel den folgenden Losungsweg beschreiben:

y′

g(y)= h(t) =⇒

∫dy

g(y)=

∫

h(t) dt =⇒ G(y) = H(t) + c ,

wobei hier davon ausgegangen wurde, dass mit G(y) und H(t) Stammfunk-tionen von 1

g(y)und h(t) vorliegen. Vorausgesetzt, dass der Teil des Definiti-

onsbereiches von G(y), auf dem G injektiv ist, nichtleer ist, kann man mit

y(t) = G−1[H(t) + c]

die allgemeine Losung der Differentialgleichung bestimmen. c ist hierbei einefreie Konstante, die man bei Vorgabe einer Anfangsbedingung y(t0) = y0

durchc = G(y0) − H(t0)

bestimmen kann. Als Beispiel betrachten wir das AWP

y′ =2ty

t2 + 1, y(0) = 1 .

Nach Trennung der Veranderlichen y und t erhalt man

y′

y=

2t

t2 + 1=⇒

∫dy

y=

∫2t

t2 + 1dt =⇒ ln |y| = ln(1 + t2) + c ,

und nach Integration erhalt man

y(t) = ± exp(c)(1 + t2) =: c∗(1 + t2)

und die Berucksichtigung des AWs ergibt mit c∗ = 1 die Losung des AWPs

y(t) = 1 + t2 .

3

1.1.2 Variation der Konstanten

Hat man es mit einer linearen Differentialgleichung der Form

y′ + a(t)y = f(t) (1.4)

zu tun, dann gehen wir nun davon aus, dass man mit der Methode der Tren-nung der Veranderlichen die allgemeine Losung yh(t) der zugehorigen homo-genen Dgl. y′ + a(t)y = 0 bestimmt hat. Mit yh ist auch c yh eine Losung derhomogenen Dgl. y′ + a(t)y = 0 und durch den Ansatz der Variation derKonstanten

yp(t) = c(t)yh(t)

kann nun eine partikulare Losung yp der Dgl. (1.4) bestimmt werden. Mit

y′p(t) = c′(t)yh(t) + c(t)y′

h(t)

erhalt man durch Einsetzen in (1.4)

c′(t)yh(t) + c(t)y′h(t) + a(t)c(t)yh(t) =

c′(t)yh(t) + c(t)[y′h(t) + a(t)yh(t)] = c′(t)yh(t) = f(t) ,

da yh Losung der homogenen Dgl. ist. Unter der Voraussetzung, dass yh 6= 0gilt, erhalt man mit

c(t) =

∫f(t)

yh(t)dt

die ”variierte” Konstante und erhalt schließlich mit

y(t) = c0yh(t) + yp(t) , c0 ∈ R ,

die allgemeine Losung der Dgl. (1.4). Die freie Konstante c0 erlaubt dieErfullung einer Anfangsbedingung.Hat man die mit

yh(t) = c1y1(t) + · · · + cnyn(t)

die allgemeine Losung des linearen homogenen Dgl.-Systems 1. Ordnung

y′ = A(t)y , (1.5)

wobei A(t) eine (n×n)-Matrix stetiger Koeffizientenfunktionen ist, gegeben,dann kann man fur das lineare inhomogene Dgl.-System

y′ = A(t)y + f(t)

4

ebenfalls durch Variation der Konstanten eine partikulare Losung bestim-men. Der Ansatz

yp(t) = c1(t)y1(t) + · · · + cn(t)yn(t) =: W (t)c(t)

ergibt nach Differentiation

y′p(t) = W ′(t)c(t) + W (t)c′(t) = A(t)W (t) + f(t) =⇒ W (t)c′(t) = f(t) ,

da die Spalten yk der Matrix W (t) Losungen des homogenen Systems sind.Bilden yk, k = 1, . . . , n, eine Losungsbasis, handelt es sich bei der Matrix Wum die Wronski-Matrix und man erhalt nach Integration

c(t) =

∫

W−1(t)f(t) dt

mity(t) = c1y1(t) + · · · + cnyn(t) + W (t)c(t)

die allgemeine Losung des linearen inhomogenen Dgl.-Systems (1.5) (W−1(t)existiert, da yk, k = 1, . . . , n, eine Losungsbasis ist).

1.1.3 Homogene Systeme mit konstanten Koeffizien-ten

Im vorigen Abschnitt wurde von einer allgemeinen Losung eines homogenenDgl.-Systems 1. Ordnung ausgegangen. Im Allg. ist die Bestimmung einersolchen allgemeinen Losung nicht ohne Weiteres moglich. Recht einfach wirdes jedoch im Fall eines Systems mit konstanten Koeffizienten, d.h. Systemender Form

y′ = Ay , (1.6)

mit einer konstanten (n × n)-Matrix. Besonders einfach wird es, wenn dieMatrix A diagonalisierbar ist, d.h. in der Form

A = BΛB−1

mit einer Diagonalmatrix Λ darstellbar ist. Die Spalten von B bestehen dabeiaus den Eigenvektoren von A und die Diagonalmatrix Λ enthalt die Eigen-werte λk, wobei auch mehrfache EW moglich sind, bei denen allerdings diealgebraische und geometrische Vielfachheit im Falle der Diagonalisierbarkeitubereinstimmt. Mit der Hilfsfunktion z = B−1y erhalt man aus (1.5)

y′ = BΛB−1y =⇒ z′ = Λz

5

mit den Losungen

zk(t) = ckeλk t , k = 1, . . . , n, ck ∈ R,

fur die einzelnen Komponenten von z. Fur die allgemeine Losung von (1.5)erhalt man schließlich

y(t) = c1eλ1 tb1 + · · · + cne

λn tbn .

Die Losung von (1.5) ist also gleichbedeutend mit der Losung des Eigenwert-problems fur die Matrix A.Etwas komplizierter ist der allgemeine Fall einer Matrix A, die nicht dia-gonalisierbar ist. Hier wird die Jordansche Normalform benotigt, d.h. eineregulare Matrix B und eine Matrix D (Jordansche Normalform)

D =

J1

. . .

Jk

, Ji =

λi 1λi 1

0. . . 1

λi

,

mit den (ni × ni)-Jordan-Kastchen Ji, so dass

A = BDB−1 ⇐⇒ B−1AB = D

gilt. Wie oben fuhren wir die Hilfsfunktion z = B−1y ein, wobei

z(t) = (z(1)(t), . . . , z(k)(t))T

mit z(i)(t) ∈ Rni partitioniert ist. Das Gleichungssystem (1.6) lasst sich zer-

legen in die separaten Systeme

[z(i)(t)]′ = Jiz(i)(t) , 1 ≤ i ≤ k .

Es ist nun leicht festzustellen, dass das Gleichungssystem

w′ = Jw , J =

λ 1λ 1

0. . . 1

λ

∈ Rs×s ,

also

w′1 = λw1 + w2

...

w′s−1 = λws−1 + ws

w′s = λws

6

die allgemeine Losung

ws(t) = cseλt

ws−1(t) = (cs−1 + cst)eλt

... (1.7)

w1(t) = (c1 + c2t + · · · + csts−1

(s − 1)!eλt

hat. Die allgemeine Gestalt von z(i) entnimmt man jeweils aus (1.7) fur λ = λi

und s = ni. Mit y = Bz erhalt man schließlich die allgemeine Losung desursprunglichen Problems.Alles in allem lasst sich die Losung eines linearen homogenen Dgl.-Systemsmit konstanten Koeffizienten auf die Losung eines EW-Problems der Koeffizi-entenmatrix oder allgemeiner auf die Bestimmung der Jordanschen Normal-form der Koeffizientenmatrix A zuruckfuhren (die Bestimmung der Jordan-schen Normalform fallt mit der Diagonalisierung zusammen, wenn bei allenEW von A die algebraische mit der geometrischen Vielfachheit ubereinstimmt).

1.1.4 Existenz- und Eindeutigkeitsaussagen2. Vor-lesungam14.10.2009

Wenn man Losungen nicht wie in den diskutierten Fallen ”ausrechnen” kann,dann sollte vor einer evtl. numerischen Losung klar sein, ob uberhaupt eineLosung existiert, und wenn ja, ob es die einzige ist.Im Folgenden werden die wichtigsten Aussagen zur Existenz und Einzigkeitder Losung von Anfangswertproblemen der Form

y′ = f(t, y) , y(t0) = y0 , (1.8)

Die wichtigsten Anforderungen an die Funktion

f : [t0, T ] × Rn → R

n

sollen an Beispielen herausgearbeitet werden.Betrachtet man die Dgl.

y′ = sgn(t) ,

d.h. man hat als rechte Seite eine unstetige Funktion, dann gibt es in jedemIntervall, das Null enthalt, keine Losung, denn fur t > 0 hatte man mity(t) = t und fur t < 0 mit y(t) = −t eine Losung, und das ergibt eineFunktion, die an der Stelle t = 0 nicht diff’bar ist, was aber fur eine Losungeiner Dgl. zutreffen sollte. Damit ist die Stetigkeit zumindest eine notwendigeVoraussetzung fur die Existenz einer Losung. Diesen Sachverhalt beschreibtder

7

Satz 1.1 (Peano). Fur das AWP (1.8) sei f : Za,b → Rn stetig auf

Za,b := [t0 − a, t0 + a] × Unb (y0)

(mit Unb (y0) = y ∈ R

n | ||y − y0|| ≤ b, a, b > 0). Dann existiert mindestenseine Losung des AWPs (1.8) auf dem Intervall [t0 − α, t0 + α], wobei

α := mina,b

M , M := max||f(t, y)|| | (t, y) ∈ Za,b .

Dieser Satz wird auch Existenzsatz von Peano genannt. Der Beweis wirdunter Zuhilfenahme von Euler-Polygonen, die uns spaeter bei der numeri-schen Losung von AWPs begegnen werden, unter wesentlicher Nutzung derStetigkeitsvoraussetzung gefuhrt.Aber nicht hier. Zum Nachlesen sei z.B. auf das Buch von B. Aulbach ”Gew.Dgln.” verwiesen.Nach dem Satz von Peano existiert also bei Stetigkeit der rechten Seite einLosung. Wir werden aber mit dem folgenden Beispiel sehen, dass die Stetig-keit keine Eindeutigkeit garantiert.Wir betrachten das Beispiel

y′ = 3√

y2 , y(0) = 0 .

Mit der Trennung der Veranderlichen findet man die allgemeine Losung derForm

y(t) =1

27(t − c)3

mit c ∈ R. Als Losungen des AWPs findet man mit

yα,β(t) =

127

(t − α)3 , t ≤ α0 , t = 0127

(t − β)3 , t ≥ β,

wobei α ≤ 0 ≤ β beliebige reelle Zahlen sind. Man findet damit unendlichviele Losungen des AWPs. Die rechte Seite f(t, y) = 3

√

y2 ist offensichtlichstetig. Allerdings ist die rechte Seite in der Nahe von y = 0 nicht Lipschitz-stetig. Grob gesprochen liegt das daran, dass die Ableitung fy(t, y) = 2

3y1/3

fur kleine y groß wird, d.h. man findet keine Lipschitz-Konstante L, so dass

|f(t, y1) − f(t, y2)| ≤ L|y1 − y2|

fur alle t und y1, y2 ∈ R gilt. Im folgenden Satz von Picard-Lindelof wird ge-zeigt, dass im Falle der Lipschitz-Stetigkeit von f bezugl. y die Eindeutigkeiteiner Losung gesichert ist.

8

Satz 1.2 (Picard-Lindelof). Fur das AWP (1.8) sei f : Za,b → Rn stetig auf

Za,b := [t0 − a, t0 + a] × Unb (y0)

(mit Unb (y0) = y ∈ R

n | ||y − y0|| ≤ b, a, b > 0). Außerdem gebe es eineKonstante L ≥ 0 mit der Eigenschaft

||f(t, y) − f(t, z)|| ≤ L||y − z|| fur alle (t, y), (t, z) ∈ Za,b . (1.9)

Dann existiert genau eine Losung des AWPs (1.8) auf dem Intervall [t0 −α, t0 + α], wobei

α := mina,b

M , M := max||f(t, y)|| | (t, y) ∈ Za,b .

Beweis. Im folgenden werden die wesentlichen Beweis-Schritte skizziert.Schritt 1: Auf [t0 − α, t0 + α] wird die Folge der Picard-Iterierten

λ0(t) := y0

λk+1(t) := y0 +

∫ t

t0

f(s, λk(s)) ds , k ∈ N (1.10)

konstruiert, wobei mit dem Nachweis der Ungleichung

||λk(t) − y0|| ≤ b

und damit (s, λk(s)) ∈ Za,b, also im Def.-Bereich von f , die Konstruktiongerechtfertigt wird.

2. Schritt: Mit vollst. Induktion wird fur alle t ∈ [t0 − α, t0 + α] und allek ∈ N die Ungleichung

||λk+1(t) − λk(t)|| ≤ MLk |t − t0|k+1

(k + 1)!

gezeigt, wobei wesentlich die Voraussetzung (1.9) benutzt wird.

3. Schritt: Es wird die gleichmaßige Konvergenz der Funktionenfolge (λk(t))k∈N

auf dem Intervall [t0 − α, t0 + α] gezeigt. Die Grenzfunktion wird mit λ∞(t)bezeichnet.

4. Schritt: Es wird gezeigt, dass die Grenzfunktion λ∞(t) Losung des AWPist, d.h. dass

λ∞(t) = y0 +

∫ t

t0

f(s, λ∞(s)) ds

gilt. Dazu wird gezeigt, dass mit (λk(t))k∈N auch f(t, λk(t))k∈N gleichmaßigauf [t0 − α, t0 + α] konvergiert.

9

5. Schritt: Die Eindeutigkeit wird gezeigt, indem man annimmt, dass mit µ(t)eine weitere Losung des AWP existiert. Durch vollst. Induktion zeigt man,dass

||λk(t) − µ(t)|| ≤ MLk |t − t0|k+1

(k + 1)!

gilt, und damit mit dem Grenzubergang k → ∞ die Gleichheit von λ∞(t)und µ(t) gezeigt wird.

Aus dem Satz 1.2 folgt fur jedes n ∈ N die folgende Fehlerabschatzung furdie Picard-Iterierten

||λk(t) − λ∞(t)|| ≤ MLk αk+1

(k + 1)!(1.11)

fur alle t ∈ [t0 − α, t0 + α].

Mit dem Satz von Picard-Lindelof liegt somit nicht nur ein qualitatives Ergeb-nis vor, sondern mit den Picard-Iterierten (1.10) ein Algorithmus zur Kon-struktion von Naherungslosungen sowie mit (1.11) eine Fehlerabschatzung(vorausgesetzt, man kann M und L quantifizieren).

1.2 Theorie der Einschrittverfahren3. Vor-lesungam20.10.2009

Definition 1.3. Unter dem Richtungsfeld der Differentialgleichung

y′ = f(t, y)

versteht man das Vektorfeld

r(t, y) =

1√1+f2(t,y)f(t,y)√1+f2(t,y)

d.h. das Vektorfeld der normierten Steigungen

Betrachtet man um einen beliebigen Punkt (t0, y0) der (t, y)- Ebene, kannman Losungskurven y(t) durch diesen Punkt annahern:

Beispiel.

y′ = y2 + t2, r(t, y) =

1√1+(y2+t2)2

y2+t2√1+(y2+t2)2

10

(I) y′(t0) = y20 + t20, (t0 = a entspricht Start in Anfangspunkt (a, y0))

t-Achse wird durch tk = t0 + hk aquidistant unterteilt

(II) mit dem Schritt von Punkt

(t0, y0) zu (t0 + h, y0 + hy′(t0)) =: (t1, y1)

bzw. allgemein vom Punkt

(tk, yk) zu (tk + h, yk + hf(tk, yk)) =: (tk+1, yk+1)

erhalt man mit h = b−aN

nach m Schritten mit

y0, y1, . . . , yN

unter “gunstigen” Umstanden eine Approximation der Losung y(t) anden Stellen

a = t0, t1, . . . , tN = b

(III) D.h. man fahrt das Richtungsfeld geeignet ab, um eine numerischeLosung yk, k = 0, 1, . . . , N zu erhalten

Die Polygonzuge, die man beim durchlaufen des Richtungsfeldes erzeugt,nennt man auch Eulerpolygone. Diese Polygonzuge finden z.B. Verwendungbei dem Beweis des Existenzsatzes von Peano. Im Folgenden werden wir sieaber auch bei den numerischen Losungsverfahren fur Anfangswertprobleme(1.8) verwenden.

Definition 1.4. Ein Einschrittverfahren zur naherungsweisen Bestim-mung einer Losung des AWP (1.8) hat die Form

yk+1 = yk + hkΦ(tk, yk, yk+1, hk), k = 0, 1, . . . , N − 1 (1.12)

mit einer Verfahrensfunktion

Φ : [a, b] × R × R × R+ → R

und einem (noch nicht naher spezifizierten) Gitter bzw. Schrittweiten

∆ = a = t0 < t1 < . . . < tN ≤ b, hk := tk+1 − tk, k = 0, 1, . . . , N − 1(1.13)

Bemerkung. Hangt die Verfahrensfunktion nicht von yk+1 ab, ist die Be-rechnungsvorschrift (1.12) eine explizite Formel zur Berechnung von yk+1 undman spricht von einem expliziten Einschrittverfahren.

11

Zur Klassifizierung und Bewertung von numerischen Losungsverfahren furAWP benotigen wir im Folgenden einige Begriffe (y(t) bezeichnet hier dieexakte Losung).

Definition 1.5. Unter dem lokalen Diskretisierungsfehler an der Stelletk+1 des Verfahrens (1.12) versteht man den Wert

dk+1 := y(tk+1) − y(tk) − hkΦ(tk, y(tk), y(tk+1), hk) (1.14)

Bemerkung 1.6. Benutzt man die Darstellung

yk+1 = y(tk) + hkΦ(tk, y(tk), y(tk+1), hk)

fur die an der Stelle t = tk+1 berechnete Naherung mit einem Einschrittver-fahren mit der Verfahrensfunktion Φ, dann kann man den lokalen Diskreti-sierungsfehler auch in der Form

dk+1 := y(tk+1) − yk+1 (1.15)

darstellen. Da man tk+1 beliebig aus [a, b] durch die Wahl eines geeignetenh wahlen kann, kann man den lokalen Diskretisierungsfehler an der Stelle tauch in der Form

τ(t, h) = y(t + h) − y(t) − hΦ(t, y(t), y(t + h), h)

aufschreiben.

Definition 1.7. Unter dem globalen Diskretisierungsfehler gk an derStelle tk versteht man den Wert

gk := y(tk) − yk

Definition 1.8. Ein Einschrittverfahren (1.12) besitzt die Fehlerordnung

p, falls fur seinen lokalen Diskretisierungsfehler dk die Abschatzungen

|dk| ≤ Chp+1k , k = 1, . . . , N

max1≤k≤N

|dk| ≤ D = Chp+1max = O(hp+1

max) (1.16)

mit einer Konstanten C >= und hmax = maxk=0,...,N−1 tk+1 − tk gilt. (StattFehlerordnung verwendet man auch den Begriff Konsistenzordnung.) Ist p ≥1, dann heißt das Verfahren konsistent.

12

Die Bedingungen

|Φ(t, u1, u2, h) − Φ(t, v1, u2, h)| ≤ L1 |u1 − v1||Φ(t, u1, u2, h) − Φ(t, u1, v2, h)| ≤ L2 |u2 − v2| (1.17)

fur t ∈ [a, b], 0 < h ≤ b − t, uj, vj ∈ R, mit positiven Konstanten L1, L2

sind fur die folgenden Konvergenzuntersuchungen von Einschrittverfahrenvon Bedeutung

Satz 1.9. Ein Einschrittverfahren (1.12) zur Losung des AWP (1.8) besitzedie Konsistenzordnung p ≥ 1 und die Verfahrensfunktion erfulle die Bedinung(1.17). Dann liegt die Konvergenzordnung p vor, d.h. es gilt

maxk=0,...,N

|yk − y(tk)| ≤ Khpmax

Mit einer Konstanten K, die vom Intervall [a, b], Konstanten C aus derAbschatzung (1.16) und L1, L1 aus (1.17) herruhrt.

Bewiesen werden soll der Satz 1.9 fur ein explizites Einschrittverfahren (Be-weise von allgemeinen Einschrittverfahren in Barwolff oder Schwarz).Benotigt wird das

Lemma 1.10. Fur Zahlen L > 0, ak ≥ 0, hk ≥ 0 und b ≥ 0 sei

ak+1 ≤ (1 + hkL)ak + hkb, k = 0, 1, . . . , N − 1

erfullt. Dann gelten die Abschatzungen

ak ≤ eLtk − 1

Lb + eLtka0 mit tk :=

k−1∑

j=0

hj (k = 0, . . . , N)

Beweis. (vollstandige Induktion)Induktionsanfang ist fur k = 0 offensichtlich gewahrleistet. Der Schritt k →k + 1 ergibt sich wie folgt:

ak+1 ≤ (1 + hkL)

(eLtk − 1

Lb + eLtka0

)

+ hkb

≤(

eL(tk+hk) − 1 − hkL

L+ hk

)

b + eL(tk+hk)a0

=eLtk+1 − 1

Lb + eLtk+1a0

13

Beweis von Satz 1.9. Mit den Festlegungen

ek = yk − y(tk), k = 0, 1, . . . , N

gilt fur k = 0, 1, . . . , N − 1

y(tk+1) = y(tk) + hkΦ(tk, y(tk), hk) − dk+1

yk+1 = yk + hkΦ(tk, yk, hk)

und damit

ek+1 = ek + hk(Φ(tk, yk, hk) − Φ(tk, y(tk), hk)) + dk+1

bzw.

|ek+1| ≤ |ek| + hk |Φ(tk, yk, hk) − Φ(tk, y(tk), hk)| + |dk+1|≤ (1 + hkL1) |ek| + hkChp

max

Die Abschatzung des Lemmas 1.10 liefert wegen e0 = 0 die Behauptung desSatzes 1.9

1.3 Spezielle Einschrittverfahren

1.3.1 Euler-Verfahren

Mit der Verfahrensfunktion

Φ(t, y, hk) = f(t, y)

erhalt man mit

yk+1 = yk + hkf(tk, yk), k = 0, . . . , N − 1 (1.18)

das Euler-Verfahren.Fur eine stetig partiell diff’bare Funktion f : [a, b]×R → R besitzt das Euler-Verfahren die Konsistenzordnung p = 1, denn mit der Taylorentwicklung

y(t + h) = y(t) + y′(t)h +h2

2y′′(ξ), ξ ∈ [a, b]

erhalt man

dk+1 = y(tk+1) − y(tk) − hkf(tk, y(tk)) =h2

k

2y′′(ξ)

bzw.

|dk+1| ≤ Ch2k mit C =

1

2maxξ∈[a,b]

|y′′(ξ)|

14

1.3.2 Einschrittverfahren der Konsistenzordnung p = 2

Um ein explizites Einschrittverfahren der Konsistenzordnung p = 2 zu erhal-ten, machen wir den Ansatz

Φ(t, y, h) = a1f(t, y)+a2f(t+b1h, y+b2hf(t, y)), t ∈ [a, b], h ∈ [0, b−t], y ∈ R

(1.19)mit noch festzulegenden Konstanten aj, bj ∈ R. Es gilt nun der

Satz 1.11. Ein Einschrittverfahren (1.12) mit einer Verfahrensfunktion derForm (1.19) ist konsistent mit der Ordnung p = 2, falls f : [a, b] × R → R

zweimal stetig partiell diff’bar ist und fur die Koeffizienten

a1 + a2 = 1, a2b1 =1

2, a2b2 =

1

2(1.20)

gilt.

Beweis. Taylorentwicklung von Φ(t, y(t), ·) im Punkt h = 0 und von derLosung y in t ergeben

Φ(t, y(t), h) = Φ(t, y(t), 0) + hdΦ

dh(t, y(t), 0) + O(h2)

= (a1 + a2)f(t, y(t)) + h

(

a2b1∂f

∂t(t, y(t))

+a2b2f(t, y(t))∂f

∂y(t, y(t))

)

+ O(h2)

= f(t, y(t)) +h

2

∂f

∂t(t, y(t)) +

h

2f(t, y(t))

∂f

∂y(t, y(t)) + O(h2)

y(t + h) = y(t) + hy′(t) +h2

2y′′(t) + O(h3)

= y(t) + h

[

f(t, y(t)) +h

2y′′(t)

]

+ O(h3)

= y(t) + h

[

f(t, y(t)) +h

2

∂f

∂t(t, y(t))

+f(t, y(t))∂f

∂y(t, y(t))

]

+ O(h3)

= y(t) + hΦ(t, y(t), h) + O(h3)

und damit folgt

dk+1 = y(tk+1) − y(tk) − hkΦ(tk, y(tk), hk) = O(h3k)

also p = 2

15

Mit der konkreten Wahl a1 = 0, a2 = 1, b1 = b2 = 12

erhalt man mit

yk+1 = yk + hkf

(

tk +hk

2, yk +

hk

2f(tk, yk)

)

, k = 0, . . . , N − 1 (1.21)

das modifizierte Euler-Verfahren (verbesserte Polygonzugmethode) mitder Konsistenzordnung p = 2Mit der Wahl a1 = a2 = 1

2, b1 = b2 = 1 erhalt man mit

yk+1 = yk +hk

2[f(tk, yk) + f(tk + hk, yk + hkf(tk, yk))] , k = 0, . . . , N − 1

(1.22)das Verfahren von Heun mit der Konsistenzordnung p = 2

1.4 Verfahren hoherer Ordnung

1.4.1 Mehrstufige Runge-Kutta-Verfahren

Die bisher besprochenen Methoden (Euler, Heun) haben wir weitestgehendintuitiv ermittelt. Um systematisch Einschrittverfahren hoherer Ordnung zukonstruieren, betrachten wir die zum AWP y′ = f(t, y), y(a) = y0 aquivalenteGleichung (nach Integration)

y(t) = y0 +

∫ t

a

f(s, y(s))ds (1.23)

bzw. fur eine Diskretisierung des Intervalls [a, b]

y(tk+1) = y(tk) +

∫ tk+1

tk

f(s, y(s))ds (1.24)

Das letzte Integral aus (1.24) approximieren wir durch eine Quadraturformel

∫ tk+1

tk

f(s, y(s))ds (1.25)

wobei die sl zu einer Zerlegung von [tk, tk+1] gehoren. (1.24) und (1.25) erge-ben

y(tk+1) ≈ y(tk) + hk

m∑

l=1

γlf(sl, y(sl)) (1.26)

wobei wir die Werte y(sl) nicht kennen. Sie mussen naherungsweise aus y(tk)bestimmt werden, damit (1.26) als Integrationsverfahren benutzt werdenkann.

16

Wahlt man z.B. m = 2 und γ1 = γ2 = 12

sowie s1 = tk und s2 = tk+1, dannbedeutet (1.26)

y(tk+1) ≈ y(tk) +hk

2[f(tk, y(tk)) + f(tk+1, y(tk+1))]

und mit der Approximation

y(tk+1) ≈ y(tk) + hkf(tk, y(tk))

ergibt sich mit

y(tk+1) ≈ y(tk) +hk

2[f(tk, y(tk)) + f(tk+1, y(tk) + hkf(tk, y(tk)))]

die Grundlage fur das Verfahren von Heun.Im Weiteren wollen wir mit yk die Verfahrenswerte zur Naherung der exaktenWerte y(tk) bezeichnen und als Naherungen von f(sl, y(sl))

f(sl, y(sl)) ≈ kl(tj, yj)

verwenden. Mit 4. Vor-lesungam21.10.2009

sl = tk + αlhk, αl =l−1∑

r=1

βlr

werden die kl rekursiv definiert:

k1(tk, yk) = f(tk, yk)

k2(tk, yk) = f(tk + α2hk, yk + hkβ21k1(tk, yk))

k3(tk, yk) = f(tk + α3hk, yk + hk(β31k1 + β32k2)) (1.27)

...

km(tk, yk) = f(tk + αmhk, yk + hk(βm1k1 + · · · + βmm−1km−1))

Ausgehend von (1.26) und (1.27) wird durch

yk+1 = yk + hk(γ1k1(tk, yk) + · · · + γmkm(tk, yk)) (1.28)

ein explizites numerisches Verfahren zu Losung des AWP y′ = f(t, y), y(a) =y0 definiert.

Definition 1.12. Das Verfahren (1.28) heißt m-stufiges Runge-Kutta-

Verfahren mit kl aus (1.27) und die kl heißen Stufenwerte.

17

Bemerkung. Wir haben oben schon festgestellt, dass im Fall m = 2 mitγ1 = γ2 = 1

2, α2 = 1, β21 = 1 (1.28) gerade das Heun-Verfahren ergibt, also ein

Verfahren mit der Konsistenzordnung p = 2. Wir werden nun Bedingungenfur die freien Parameter im Verfahren (1.28) formulieren, sodass einmal einkonsistentes Verfahren (p ≥ 1) entsteht und andererseits eine moglichst großeKonsistenzordnung erhalten wird.

Aus der Verwendung der Quadraturformel

hk

m∑

l=1

γlf(sl, y(sl)) ≈∫ tk+1

tk

f(s, y(s))ds

folgt die sinnvolle Forderung

1 = γ1 + γ2 + · · · + γm (1.29)

also haben die γl die Funktion von Gewichten.Fordert man vom Verfahren (1.28), dass die Dgl y′ = 1 (y linear) exaktintegriert wird, ergibt sich die Bedingung

αl = βl1 + · · · + βll−1 (1.30)

Es ist namlich f(t, y) ≡ 1 und damit kl ≡ 1 fur alle l. Ausgangspunkt war

kl(tk, yk) ≈ f(sl, y(sl))

undkl ≈ f(tk + αlhk, y(tk) + hk(βl1k1 + · · · + βll−1kl−1))

Also steht das y-Argument fur y(sl) = y(tk + αlhk). Wir fordern, dass diesbei f ≡ 1 exakt ist, also

y(sl) = y(tk) + hk(βl1 + · · · + βll−1) (1.31)

da alle kr = 1 sind. Andererseits ist y als exakte Losung linear, d.h.

y(sl) = y(tk) + αlhk (1.32)

und aus dem Vergleich von (1.31),(1.32) folgt

αl = βl1 + · · · + βll−1

18

Definition 1.13. Die Tabelle mit den Koeffizienten αl, βlr, γr in der Form

0α2 β21

α3 β31 β32...

......

. . .

αm βm1 βm2 . . . βmm−1

γ1 γ2 . . . γm−1 γm

(1.33)

heißt Butcher-Tabelle und beschreibt das Verfahren (1.28). α1 ist hiergleich 0, weil explizite Verfahren betrachtet werden.

Satz 1.14. Ein explizites Runge-Kutta-Verfahren (1.28), dessen Koeffizien-ten die Bedingungen (1.29) und (1.30) erfullen, ist konsistent.

Beweis. Es ist zu zeigen, dass der lokale Diskretisierungsfehler die OrdnungO(hp+1

k ) mit p ≥ 1 hat. Wir setzen hk =: h, da k jetzt fixiert ist.

|dk+1| = |y(tk+1) − y(tk) − hΦ(tk, y(tk), h)|

=

∣∣∣∣∣y(tk+1) − y(tk) − h

m∑

r=1

γrkr(tk, y(tk))

∣∣∣∣∣

(1.29)=

∣∣∣∣∣y(tk+1) − y(tk) − hf(tk, y(tk)) − h

m∑

r=1

γr(kr(tk, y(tk)) − f(tk, y(tk)))

∣∣∣∣∣

≤ |y(tk+1) − y(tk) − hy′(tk)|︸︷︷︸

∈O(h2)

+h

∣∣∣∣∣∣∣

m∑

r=1

γr (kr(tk, y(tk)) − f(tk, y(tk)))︸︷︷︸

∈O(h) (1.30)

∣∣∣∣∣∣∣

also|dk+1| ≤ Ch2

Bemerkung. Butcher hat bewiesen, wie groß die maximale Ordnung ist,welche mit einem m-stufigen Runge-Kutta-Verfahren erreichbar ist, was inder folgenden Tabelle notiert ist:

m 1 2 3 4 5 6 7 8 9 fur m ≥ 9p 1 2 3 4 4 5 6 6 7 p < m − 2

19

1.5 Einige konkrete Runge-Kutta-Verfahren

und deren Butcher-Tabellen

(i) Euler-Verfahren0

1m = 1, γ1 = 1

yk+1 = yk + hkf(tk, yk), p = 1

(ii) Modifiziertes Euler-Verfahren

012

12

0 1m = 2, γ1 = 0, γ2 = 1, α2 =

1

2, β21 =

1

2

k1 = f(tk, yk)

k2 = f(tk +1

2hk, yk +

1

2hkk1)

yk+1 = yk + hkk2, p = 2

(iii) Verfahren von Runge von 3. Ordnung

012

12

1 0 10 0 1

m = 3, γ1 = γ2 = 0, γ3 = 1, α2 =1

2, α3 = 1, β21 =

1

2, β31 = 0, β32 = 1

k1 = f(tk, yk)

k2 = f(tk +1

2hk, yk +

1

2hkk1)

k3 = f(tk + hk, yk + hkk2)

yk+1 = yk + hkk3, p = 3

(iv) Klassisches Runge-Kutta-Verfahren 4. Ordnung

012

12

12

0 12

1 0 0 116

13

13

16

20

k1 = f(tk, yk)

k2 = f(tk +1

2hk, yk +

1

2hkk1)

k3 = f(tk +1

2hk, yk +

1

2hkk2)

k4 = f(tk + hk, yk + hkk3)

yk+1 = yk + hk

(1

6k1 +

1

3k2 +

1

3k3 +

1

6k4

)

, p = 4

Bemerkung. Die Ordnung eines konkreten Runge-Kutta-Verfahrens kannmit Hilfe von Taylor-Entwicklungen ermittelt werden, wobei man dabei voneiner geeigneten Glattheit von f(t, y) ausgeht.

Im Folgenden soll die Ordnung eines 3-stufigen expliziten Runge-Kutta-Verfahrensbestimmt werden.

Satz 1.15. Sei f dreimal stetig partiell diff’bar und gelte fur die Parameter

α2 = β21

α3 = β31 + β32

γ1 + γ2 + γ3 = 1

sowie

α2γ2 + α3γ3 =1

2

α2γ3β32 =1

6

α22γ2 + α2

3γ3 =1

3

Dann hat das Runge-Kutta-Verfahren (explizit, 3-stufig) die Fehlerordnungp = 3

Beweis. Grundlage fur den Beweis ist die Taylor-Approximation

f(t + ∆t, y + ∆y) = f(t, y) +

(∂f∂t

(t, y)∂f∂t

(t, y)

) (∆t∆y

)

+1

2(∆t, ∆y)

(∂2f∂t2

(t, y) ∂2f∂t∂y

(t, y)∂2f∂y∂t

(t, y) ∂2f∂y2 (t, y)

)(∆t∆y

)

+ O(∆3)

(1.34)

21

der Funktion f , wobei ∂2f∂t∂y

= ∂2f∂y∂t

aufgrund der Glattheit von f gilt. Mit

k1 = f(tk, y(tk))

k2 = f(tk + α2h, y(tk) + α2hk1)

k3 = f(tk + α3h, y(tk) + h(β31k1 + β32k2))

gilt es, den lokalen Diskretisierungsfehler

dk+1 = y(tk+1) − y(tk) − h(γ1k1 + γ2k2 + γ3k3)

abzuschatzen, wobei schon α2 = β21 verwendet wurde (h = hk). Mit ∆t =α2h und ∆y = α2hf(tk, y(tk)) ergibt (1.34) fur k2

k2 = f(tk + ∆t, y(tk) + ∆y)

= f + α2hft + α2hffy +1

2α2

2h2ftt + α2

2h2ffty +

1

2α2

2h2f 2fyy + O(h3)

=: f + α2hF +1

2α2

2h2G + O(h3) (1.35)

f, ft, . . . , fyy sind dabei die Funktions- bzw. Ableitunswerte an der Stelle(tk, y(tk)). Fur k3 erhalt man unter Nutzung von (1.35) und (1.34)

k3 = f(tk + α3h, y(tk) + h(β31k1 + β32k2))

= f + α3hft + h(β31k1 + β32k2)fy +1

2α2

3h2ftt

+ α3(β31k1 + β32k2)h2fty +

1

2(β31k1 + β32k2)

2h2fyy + O(h3)

= f + h(α3ft + [β31 + β32]ffy) + h2(

α2β32Ffy

+1

2α2

3ftt + α3[β31 + β32]ffty +1

2(β31 + β32)f

2fyy

)

+ O(h3)

= f + α3hF + h2(α2β32Ffy +1

2α2

3G) + O(h3) (1.36)

Mit (1.35) und (1.36) folgt fur den lokalen Diskretisierungsfehler

dk+1 = h(1 − γ1 − γ2 − γ3)f + h2

(1

2− α2γ2 − α3γ3

)

F

+h3

([1

6− α2γ3β32

]

Ffy +

[1

6− 1

2α2

2γ2 −1

2α2

3γ3

]

G

)

+ O(h4)

(1.37)

Aufgrund der Voraussetzungen werden die Klammerausdrucke gleich Nullund es gilt

dk+1 = O(h4)

also hat das Verfahren die Fehlerordnung p = 3

22

1.6 Asymptotische Entwicklungen5. Vor-lesungam27.10.2009

Um zu einer Methode mit einer Fehlerordnung großer als 1 zu gelangen,nehmen wir an, mit dem expliziten Eulerverfahren seien bis zu einer gege-benen Stelle t = tk+1 zwei Integrationen durchgefuhrt worden, zuerst mitder Schrittweite h[0] = h und dann mit der Schrittweite h[1] = h

2. Fur die

erhaltenen Werte yh[0] und yh[1] nach k bzw. 2k Integrationsschritten giltnaherungsweise (wird weiter unten erlautert)

yh[0]= y(t) + c1h[0] + O(h2)

yh[1]= y(t) + c1h[1] + O(h2) . (1.38)

Durch Linearkombination der beiden Beziehungen erhalt man nach der sogenannten Richardson-Extrapolation den extrapolierten Wert

y = 2yh[1]− yh[0]

= y(t) + O(h2) , (1.39)

dessen Fehler gegenuber y(t) von zweiter Ordnung in h ist. Anstatt ei-ne Differentialgleichung nach der Euler-Methode zweimal mit unterschied-lichen Schrittweiten parallel zu integrieren, ist es besser, die Extrapolationdirekt auf die Werte anzuwenden, die einmal von einem Integrationsschrittmit der Schrittweite h[1] und andererseits von einem Doppelschritt mit halberSchrittweite h[2] stammen. In beiden Fallen startet man vom Naherungspunkt(tk, yh(tk)).Der Normalschritt mit der Euler-Methode mit der Schrittweite h[0] ergibt

yh[0]= yh(tk) + h[0]f(tk, yh(tk)) . (1.40)

Ein Doppelschritt mit der Schrittweite h[2] ergibt sukzessive die Werte

yk+ 12

= yh(tk) + h[1]f(tk, yh(tk)) ,

yh[1] = yk+ 12

+ h[1]f(tk + h[1], yk+ 12) . (1.41)

Die Richardson-Extrapolation, angewandt auf yh[1] und yh[0], ergibt mit h[0] =h, h[1] = h/2

yk+1 = 2yh(1) − yh(0)

= 2yk+ 12

+ hf(tk +h

2, yk+ 1

2) − yk − hf(tk, yk)

= 2yk + hf(tk, yk) + hf(tk +h

2, yk+ 1

2) − yk − hf(tk, yk)

= yk + hf(tk +h

2, yk +

h

2f(tk, yk)) . (1.42)

23

Wir fassen das Ergebnis (1.42) algorithmisch zusammen

k1 = f(tk, yk)

k2 = f(tk +h

2, yk +

h

2k1) (1.43)

yk+1 = yk + h k2

und nennen die Rechenvorschrift (1.43) verbesserte Polygonzugmethodevon Euler. Fur die Funktion Φ ergibt sich im Falle der verbesserten Polygon-zugmethode

Φ(tk, yk, yk+1, h) = f(tk +h

2, yk +

h

2f(tk, yk)) .

k1 stellt die Steigung des Richtungsfeldes im Punkt (xk, yk) dar, mit der derHilfspunkt (tk + h

2, yk + h

2k1) und die dazugehorige Steigung k2 berechnet

wird. Schließlich wird yk+1 mit der Steigung k2 berechnet. Die geometri-sche Interpretation eines Verfahrensschrittes ist in Abb. 1.1 dargestellt. PerKonstruktion hat diese Methode die Ordnung p = 2. Die eben beschriebene

tk

tk+h/2 t

k+1t

yk

yk+1/2

yk+1

y y(t)

k1

k2

Abbildung 1.1: Verbesserte Polygonzug-Methode

Methode kann man naturlich sukzessiv fortsetzen, indem man z.B. 4 Schrittedes Eulerverfahrens mit der Schrittweite h[2] = h/4 mit dem Ergebnis y

(3)k+1

durchfuhrt. Man geht dann von der naherungsweisen Gultigkeit der Entwick-lungen

yh[0] ≈ y(t) + c1h + c2h2 + O(h3)

yh[1] ≈ y(t) + c1h

2+ c2

h2

4+ O(h3) (1.44)

yh[2] ≈ y(t) + c1h

4+ c2

h2

16+ O(h3)

24

aus. Und mit der Richardson-Extrapolation erhalt man ausgehend von denWerten yh[2], yh[1] und yh[0] eine Approximation

yk+1 =1

3[yh[0] − 6yh[1] + 8yh[2])] (1.45)

des Losungswertes y(tk+1). Das entstehende 3-stufige Einschrittverfahren hatdann die Ordnung p = 3.Fur eine folgende allgemeine Darstellung der Extrapolationsverfahren gebenwir die Schrittweitenabhangigkeit der Approximationen eines Einschrittver-fahrens wie folgt explizit an:

yh(tk+1) := yh(tk) + hΦ(tk, yh(tk), h) , k = 0, 1, . . . , N − 1, yh(a) = y0 ,(1.46)

wobei der Einfachheit halber ein aquidistantes Gitter mit h > 0 und tk =a+k h fur k =, 1, . . . , N , mit 0 < N ≤ b−a

hverwendet wird. Grundlage fur die

eben skizzierte Methode zur Konstruktion von Verfahren hoherer Ordnungsind asymptotische Entwicklungen (1.38), (1.44) von Diskretisierungsfehlernvon Einschrittverfahren. Es gilt der

Satz 1.16 (Gragg). Es sei yh die von einem Einschrittverfahren der Ordnungp gelieferte Naherungslosung der Losung y(t) des AWPs y′ = f(t, y), y(a) =y0, mit der Schrittweite h, wobei f und die Verfahrensfunktion des Einschritt-verfahrens Φ als p + r mal stetig partiell differenzierbar vorausgesetzt wurde.Dann besitzt yh eine asymptotische Entwicklung der Form

yh(t) = y(t)+cp(t)hp +cp+1(t)h

p+1 + · · ·+cp+r−1(t)hp+r−1 +O(hp+r) , (1.47)

mit cp+j(a) = 0 und cp+j ∈ Cr+1−j([a, b], R) fur alle j = 0, . . . , r−1, und h =hi = t−a

i, i = 1, 2, . . . , wobei die angegebenen Konvergenzraten gleichmaßig

in t auftreten.

Auf den Beweis des Satzes 1.16 kommen wir etwas spater noch einmal zuruck(s.auch Plato oder Deuflhard/Bornemann).Die Ergebnisse (1.42) und (1.44) kann man auch durch folgende Uberlegungerhalten. Wir definieren

Ht = t − a

m, m = 1, 2, . . . ,

so dass man nach m Schritten eines Einschrittverfahrens mit der Schrittwei-te h ∈ Ht eine Naherung yh(t) des Losungswertes y(t) erreicht. Bei einemVerfahren der Ordnung p gilt

yh(t) = y(t) + O(hp) fur h → 0, h ∈ Ht .

25

Unter Nutzung der asymptotischen Entwicklung (1.47) betrachtet man zurApproximation von y(t) fur die feste Stelle t ∈ [a, b] Schrittweiten h[0] >h[1] > h[2] > . . . aus Ht und eine Zahl 0 ≤ m ≤ r (fur den Fall (1.44) warendas h[0] = h, h[1] = h/2, h[2] = h/4 und r = 2) das Polynom

P0,...,m(h) = d0 + dphp + dp+1h

p+1 + · · · + dp+m−1hp+m−1 , h ∈ R (1.48)

mit Koeffizienten d0, dp, dp+1, . . . , dp+m−1, wobei diese m + 1 Koeffizienten sozu bestimmen sind, dass die m + 1 Interpolationsbedingungen

P0,...,m(h[k]) = uh[k](t) fur k = 0, . . . ,m , (1.49)

erfullt sind. Fur die Wahl der Schrittweiten gilt bezuglich einer Grundschritt-weite h ∈ Ht

h[k] = h/nk fur k = 0, 1, . . . , mit 1 ≤ n0 ≤ n1 ≤ . . . . (1.50)

Als Naherung fur y(t) wird schließlich P0,...,m(0) herangezogen, d.h. man ex-trapoliert von h[0] > h[1] > h[2] > . . . auf 0. Durch diese Extrapolation nachh → 0 erhalt man ein Verfahren der Ordnung m + p, es gilt

P0,...,m(0) = y(t) + O(hm+p) .

Die Berechnung von P0,...,m(0) erfolgt mit dem Schema von Neville/Aitkenzur Polynomwertberechnung an der Stelle 0.

h[0] uh[0]= P0

h[1] uh[1]= P0 P0,1

h[2] uh[2]= P0 P0,1 P0,1,2

...h[m] uh[m]

= P0 P0,1 P0,1,2 . . . P0,...,m

Dabei ist das Tableau so zu verstehen, dass z.B. in der dritten Spalte undder dritten Zeile mit P0,1 der Wert des Polynoms 1. Grades zu verstehenist, das die Werte (h[1], uh[1]

) und (h[2], uh[2]) interpoliert. Entscheidend ist

das letzte Element der letzten Zeile, wo mit P0,...,m der gewunschte WertP0,...,m(0) steht. Fur den Fall (1.44) erhalten wir konkret das Schema

yh[0]

yh[1]

(0−h[0])yh[1]−(0−h[1])yh[0]

h[1]−h[0]= 2yh[1]

− yh[0]

yh[2]

(0−h[1])yh[2]−(0−h[2])yh[1]

h[2]−h[1]= 2yh[2]

− yh[1]

(0−h[0])[2yh[1]−yh[0]

]−(0−h[2])[2yh[2]−yh[1]

]

h[2]−h[0]

26

und mit

(0 − h[0])[2yh[1]− yh[0]

] − (0 − h[2])[2yh[2]− yh[1]

]

h[2] − h[0]

=8yh[2]

− 6yh[1]+ yh[0]

3

erhalt man das obige Resultat (1.45). Ist h[k] eine streng monoton fallendeNullfolge, so konvergiert die erste Spalte des obigen Neville/Aitken-Schemaswie h[k] gegen y(t), die zweite Spalte wie h2

[k] gegen y(t) und die dritte Spalte

wie h3[k] gegen y(t). Mittels Extrapolation hat man damit ein Verfahren der

Ordnung p + m = 1 + 2 = 3 konstruiert.Bei den besprochenen Extrapolationsverfahren haben wir pro Extrapolati-onsschritt aufgrund von (1.47) die Ordnung um eins erhoht. Besonders vor-teilhaft ist jedoch die Situation, wenn man fur ein Verfahren statt (1.47) eineasymptotische Entwicklung der Form

yh(t) = y(t)+cp(t)zp + cp+1(t)z

p+1 + · · ·+ cp+r−1(t)zp+r−1 +O(zp+r) , (1.51)

mit z = hγ mit γ ∈ N, γ ≥ 2 vorzuliegen hat. Dann wird pro Extrapolati-onsschritt die Ordnung des zugrunde liegenden Verfahrens um γ erhoht.

Bemerkung 1.17. Eine solche Situation liegt z.B. dem Rombergverfahrenzugrunde, denn fur die summierte Trapezregel

T (h) = h(1

2(f(a) + f(b)) +

n−1∑

i=1

f(a + i h)), h = (b − a)/n, (1.52)

zur naherungsweisen Berechnung des Integrals∫ b

af(x) dx gibt es eine asym-

ptotische Entwicklung der Form

T (h) = τ0 + τ1h2 + τ2h

4 + · · · + τmh2m + Rm+1(h) (1.53)

mit

τ0 =

∫ b

a

f(x) dx , τk =B2k

(2k)![f (2k−1)(b) − f (2k−1)(a)] ,

wobei B2k die Bernoullizahlen sind, und fur das Restglied Rm+1(h) = O(h2m+2)fur h → 0 gilt (außerdem muss f die Glattheitsforderung f ∈ C(2m+2)([a, b])erfullen). Man berechnet nun T (hk) nach (1.52) fur h[0] > h[1] > . . . (z.B.h[k] = (b − a)/nk, nk = 1, 2, . . . ) und legt ein Polynom Pm(z), z = h2,durch die Punkte (h2

[0], T (h[0])), (h2[1], T (h[1])), . . . , (h2

[m], T (h[m])) und findet

mit Pm(0) eine Naherung von τ0 =∫ b

af(x) dx vor, wobei

Pm(0) = τ0 + O(h2m+2)

gilt. Man erhoht damit pro Extrapolationsschritt die Ordnung von q auf q+2.

27

Im Folgenden sollen die Grundlagen fur den Nachweis der Existenz der asym-ptotischen Entwicklung (1.47) diskutiert werden. Wir betrachten ein Ein-schrittverfahren der Form (1.46), also

yh(tk+1) := yh(tk) + hΦ(tk, yh(tk), h) , k = 0, 1, . . . , N − 1, yh(a) = y0 .

Zuerst soll eine spezielle Darstellung des lokalen Verfahrensfehlers eines Ein-schrittverfahrens gezeigt werden.

Lemma 1.18. f und die Verfahrensfunktion Ψ eines Einschrittverfahrensder Ordnung p seien p + r-mal stetig partiell differenzierbar (wie in Satz1.16). Dann gilt fur den lokalen Diskretisierungsfehler eines Verfahrens mitder Ordnung p die Entwicklung

y(t+h)− y(t)−hΦ(t, y(t), h) = dp+1(t)hp+1 +O(hp+2) fur h → 0 , (1.54)

mit einer Funktion dp+1 ∈ Cr([a, b]), wobei die angegebenen Konvergenzratengleichmaßig in t sind.

Beweis. Eine Taylorentwicklung der Hilfsfunktion g(h) = y(t + h) − y(t) −hΦ(t, y(t), h) in h = 0 ergibt

y(t+h)−y(t)−hΦ(t, y(t), h) =

p+1∑

l=0

dl(t)hl+O(hp+2) = dp+1(t)h

p+1+O(hp+2)

da wegen der vorliegenden Konsistenzordnung p notwendigerweise d0(t) =· · · = dp(t) = 0 gilt, womit das Lemma bewiesen ist. Fur die Funktion dp+1(t)gilt die Darstellung

dp+1(t) =y(p+1)(t)

(p + 1)!− 1

p!

∂pΦ

∂hp(t, y(t), 0) .

Es gilt nun der folgende

Satz 1.19. Das Einschrittverfahren (1.46) habe die Konvergenzordnung p,d.h. es gilt

y(tk+1) − y(tk) − hΦ(tk, y(tk), h) = dp+1(tk) hp+1 + O(hp+2) . (1.55)

f und Φ seien p + 2-mal stetig partiell differenzierbar. Sei cp die Losung deslinearen, inhomogenen AWPs

c′p(t) =∂f

∂y(t, y(t))cp(t) + dp+1(t) (1.56)

cp(a) = 0 .

28

Dann isty∗

h(tk) = yh(tk) + cp(tk) hp (1.57)

Losung eines Einschrittverfahrens mit der Verfahrensfunktion

Φ∗(t, y∗, h) = Φ(t, y∗ − cp(t) hp, h) + (cp(t + h) − cp(t))hp−1 (1.58)

mit der Konsistenzordnung p + 1.

Beweis. Offensichtlich gilt y∗h(a) = yh(a) = y0 und man erhalt induktiv fur

t = a + h, a + 2h, . . .

y∗h(t + h) = y∗

h(t) + hΦ∗(t, y∗h(t), h)

= yh(t) + hpcp(t) + hΦ(t, yh(t), h) + [cp(t + h) − cp(t)]hp

= yh(t) + hΦ(t, yh(t), h)︸︷︷︸

=yh(t+h)

+cp(t + h)hp .

Fur den lokalen Diskretisierungsfehler (damit es keine Konfusion mit (1.56)gibt, bezeichnen wir ihn mit τ) gilt nun

τ ∗k+1 = y(tk+1) − y(tk) − hΦ∗(tk, y(tk), h)

= y(tk+1) − y(tk) − hΦ(tk, y(tk) − cp(tk)hp, h) − (cp(tk+1) − cp(tk))h

p

= y(tk+1) − y(tk) − hΦ(tk, y(tk), h) − [cp(tk+1) − cp(tk)]hp

+h[Φ(tk, y(tk), h) − Φ(tk, y(tk) − cp(tk)hp, h)] ,

wegen (1.55) und der Glattheitsvoraussetzungen an f und Φ gilt [cp(tk+1) −cp(tk)] = hc′p(tk) + O(h2) und

[Φ(tk, y(tk), h)−Φ(tk, y(tk)−cp(tk)hp, h)] = cp(tk)h

p ∂Φ

∂y(tk, y(tk), h)+O(h2) ,

so dass sich fur τ ∗k+1 unter Nutzung von (1.54)

τ ∗k+1 = (dp+1(tk) +

∂Φ

∂y(tk, y(tk), h)cp(t) − c′p(t))h

p+1 + O(hp+2)

ergibt. Da die Konsistenzordnung p vorliegt, gilt auch

∂Φ

∂y(tk, y(tk), h) − ∂f

∂y(tk, y(tk)) = O(h) ,

so dass sich letztendlich

τ ∗k+1 = dp+1(tk) +

∂f

∂y(tk, y(tk))cp(tk) − c′p(tk)hp+1 + O(hp+2)

ergibt, und da der Klammerausdruck wegen (1.56) verschwindet, ergibt sichals Ordnung p + 1.

29


Die rekursive Anwendung des Satzes 1.19 ermoglicht durch die beschriebeneVeranderung der Verfahrensfunktion eine sukzessive Erhohung der Verfah-rensordnung und ergibt schließlich unter Nutzung des Lemma 1.18 auch eineasymptotische Entwicklung des lokalen Diskretisierungsfehlers. Bezeichnetman y0,h = yh und die durch Rekursion mit der Verfahrensfunktion (1.58)ausgehend von yl,h (Verfahren der Ordnung p + l) konstruierte Losung yl+1,h

(Verfahren der Ordnung p + l + 1, Losung im Satz 1.19 mit y∗h bezeichnet),

so erhalt man

yl+1,h(t) = yl,h + cp+l(t) hp+l, l = 0, . . . , r − 1,

beziehungsweise

yr,h(t) = yh(t) + cp(t)hp + cp+1(t)h

p+1 + · · · + cp+r−1(t)hp+r−1 . (1.59)

Das rekursiv definierte Verfahren mit der Losung yr,h(t) besitzt nun gemaßSatz 1.19 die Konvergenzordnung p + r, d.h. es gilt

yr,h(t) − y(t) = O(hp+r) . (1.60)

Aus (1.59) und (1.60) folgt direkt die asymptotische Entwicklung (1.47) unddamit der Beweis des Satzes 1.16.

Bemerkung 1.20. Die rekursive Anwendung des Satzes 1.19, speziell diemittels (1.56) sukzessiv konstruierten Verfahren mit wachsender Ordnung,hat nur eine theoretische beweistechnische Bedeutung fur den Nachweis derExistenz der asymptotischen Entwicklung (1.47), und keine praktische Be-deutung fur die numerische Losung eines AWPs.

Im Folgenden soll aus der Existenz einer asymptotischen Entwicklung (1.47)fur den globalen Diskretisierungsfehler auf die Existenz einer asymptotischenEntwicklung fur den lokalen Diskretisierungsfehler geschlossen werden.

Satz 1.21. f und die Verfahrensfunktion Ψ eines Einschrittverfahrens derOrdnung p seien p + r-mal stetig partiell differenzierbar. Dann gilt fur jedefixierte Zahl l ∈ N die folgende Entwicklung fur den lokalen Diskretisierungs-sfehler:

yh(a + lh) − y(a + lh) = bp+1hp+1 + · · · + bp+r−1h

p+r−1 + O(hp+r) (1.61)

fur h > 0, mit gewissen von l abhangigen Koeffizienten bp+1, . . . , bp+r−1 ∈ R.

30

Beweis. Aus Satz 1.16 erhalt man unter Verwendung der Taylorentwicklun-gen

cp+j(a + lh) =

r−j−1∑

k=0

c(k)p+j(a)

(lh)k

k!+ O(hr−j)

unter Berucksichtigung von cp(a) = 0 mit

yh(a + lh) = y(a + lh) +r−1∑

j=0

cp+j(a + lh)hp+j + O(hp+r)

=r−1∑

j=1

[

r−j−1∑

k=0

c(k)p+s−k(a)

lk

k!]

︸︷︷︸

=:bp+s

hp+s + O(hp+r)

die Aussage des Satzes.

Korollar 1.22. Unter den Bedingungen des Satzes 1.16 uber die Asymptotikdes globalen Verfahrensfehlers und mit jeder Zahl l ∈ N gilt fur den lokalenExtrapolationsfehler

P0,...,m(0) − y(a + lh) =

p+r−1∑

j=p+m+1

bjhj + O(hp+r) (1.62)

mit gewissen von l abhangigen Koeffizienten bp+m+1, . . . , bp+r−1 ∈ R. Insbe-sondere gilt fur r ≥ m+1 die Darstellung P0,...,m(0)−y(a+ lh) = O(hp+r+1).

Der Beweis erfolgt analog zum Beweis von Satz 1.21.

Wir haben schon darauf hingewiesen, dass man mit Entwicklung der Form(1.51) mit γ ≥ 2 durch Extrapolation die Verfahrensordnung nicht nur um 1sondern um γ erhohen kann. Es ist also sinnvoll nach Verfahren zu suchen,fur die eine asymptotische Entwicklung der Form (1.51) mit γ ≥ 2 existiert.Dazu benotigen wir einige Begriffe.

Definition 1.23 (Adjungiertes Verfahren). Sei mit

yh(tk+1) = yh(tk) + hΦ(tk, yh(tk), yh(tk+1), h) (1.63)

ein Einschrittverfahren gegeben, dann wird durch

y−h(tk) = y−h(tk+1) − hΦ(tk+1, y−h(tk+1), y−h(tk),−h)

31

oder umgeschrieben

y−h(tk+1) = y−h(tk) + hΦ(tk+1, y−h(tk+1), y−h(tk),−h) (1.64)

gespiegelt. Die Gleichung (1.64) wird als eine implizite Gleichung zur Bestim-mung von y−h(tk+1) betrachtet, die fur kleine Schrittweiten h nach dem Satzuber implizite Funktionen auch (lokal eindeutig) auflosbar ist. Wir schreibendann fur die Losung

y−h(tk+1) = y−h(tk) + hΦ∗(tk, y−h(tk),−h)

und bezeichnen mit Φ∗ die Verfahrensfunktion des gespiegelten oder adjun-

gierten Einschrittverfahrens von Φ.

In der Definition beschranken wir uns nicht auf explizite Verfahren, sondernbetrachten mit der Verfahrensfunktion Φ(tk, yh(tk), yh(tk+1), h) auch impliziteEinschrittverfahren.

Beispiel 1.24. Betrachten wir das explizite Eulerverfahren

yh(tk+1) = yh(tk) + hf(tk, yh(tk)) ,

die Spiegelung ergibt im ersten Schritt durch die Ersetzung von h durch −h

y−h(tk−1 = y−h(tk) − hf(tk, y−h(tk)) ,

und die Ersetzung von t durch t + h das gespiegelte Verfahren

y−h(tk) = y−h(tk+1) − hf(tk+1, y−h(tk+1)) ,

das umgeschrieben die Form

y−h(tk+1) = y−h(tk) + hf(tk+1, y−h(tk+1))

hat. Darin erkennen wir das implizite Eulerverfahren.

Definition 1.25. Ein Einschrittverfahren (1.63) heißt symmetrisch, fallsΦ = Φ∗ ist.

Wir erkennen am Beispiel, dass das Eulerverfahren offensichtlich nicht sym-metrisch ist.

Bemerkung 1.26. Das explizite Eulerverfahren ist leider kein Einzelfall.Man kann zeigen, dass es kein explizites Einschrittverfahren gibt, das sym-metrisch ist. Nur unter den impliziten Verfahren findet man symmetrischeVerfahren.

32

Beispiel 1.27. Sowohl die implizite Mittelpunktsregel

yh(tk+1) = yh(tk) + hf(tk+1/2,1

2[yh(tk) + yh(tk+1)]) (1.65)

als auch die implizite Trapezregel

yh(tk+1) = yh(tk) +h

2[f(tk, yh(tk)) + f(tk+1, yh(tk+1))] (1.66)

sind symmetrische Verfahren.

Bei den symmetrischen Verfahren ergibt sich fur den Schritt (tk, yh(tk)) zu(tk+1, yh(tk+1)), dass man mit dem adjungierten Verfahren ausgehend von(tk+1, yh(tk+1)) durch einen Schritt mit der Schrittweite −h, also einen Ruck-schritt (tk, yh(tk)) erhalt.Der Wert von symmetrischen Einschrittverfahren besteht darin, dass sie dieoben angesprochenen quadratischen asymptotischen Entwicklungen (1.51)mit z = γ, γ = 2 besitzen. Es gilt der

Satz 1.28. Der globale Diskretisierungsfehler von symmetrischen Einschritt-verfahren mit der Fehlerordnung p ≥ 1 besitzt unter den Vorausetzungen desSatzes 1.16 eine quadratische asymptotische Entwicklung der Form

yh(t) − y(t) = cp(t)zp + cp+1(t)z

p+1 + · · · + cp+r−1(t)zp+r−1 + O(zp+r)

mit z = h2.

Beweis. Beweis als Ubung.

1.7 Schrittweitensteuerung

1.7.1 Einbettungsverfahren

Bisher wurde die Schrittweite h = tk+1 − tk in der Regel aquidistant vor-gegeben. Lasst man hier eine Variabilitat zu, hat man die Moglichkeit, denlokalen Diskretisierungsfehler dk+1 durch die Wahl einer geeigneten Schritt-weite hk+1 = tk+1 − tk betragsmaßig zu beschranken. Man spricht hier vonSchrittweitensteuerung. Das Prinzip soll am Beispiel des Heun-Verfahrens(1.22) der Ordnung p = 2

k1 = f(tk, yk) , k2 = f(tk + h, yk + h k1) , yk+1 = yk +h

2[k1 + k2]

33

erlautert werden. Als lokaler Diskretisierungsfehler ergibt sich

d(H)k+1 = y(tk+1) − y(tk) −

h

2[k1 + k2] ,

wobei k1, k2 aus k1, k2 dadurch hervorgehen, dass yk durch y(tk) ersetztwird. Nun sucht man ein Verfahren hoherer, also mindestens dritter Ord-nung, dessen Steigungen k1 und k2 mit den Steigungen des Heun-Verfahrensubereinstimmen. Solch ein Runge-Kutta-Verfahren 3. Ordnung soll nun kon-struiert werden. Die Forderung der Gleichheit der Steigungen k1 und k2 mitden Steigungen des Heun-Verfahrens bedeutet α2 = β21 = 1. Die weiterenParameter ergeben sich aus dem Gleichungssystem aus dem Satz 1.15 bei derWahl von α3 = 1

2

γ3 =2

3, γ2 =

1

6, γ1 =

1

6, β32 =

1

4, β31 = α3 − β32 =

1

4,

so dass sich das Runge-Kutta-Verfahren 3. Ordnung (auch Heun-Verfahren3. Ordnung genannt)

k1 = f(tk, yk), k2 = f(tk + h, yk + h k1), k3 = f(tk +1

2h, yk +

h

4(k1 + k2))

yk+1 = yk +h

6[k1 + k2 + 4k3] (1.67)

ergibt. Fur den lokalen Diskretisierungsfehler des Verfahrens (1.67) ergibtsich

d(RK)k+1 = y(tk+1) − y(tk) −

h

6[k1 + k2 + 4k3] .

Damit kann man den lokalen Diskretisierungsfehler des Heun-Verfahrens inder Form

d(H)k+1 =

h

6[k1 + k2 + 4k3] −

h

2[k1 + k2] + d

(RK)k+1

darstellen. Berucksichtigt man d(RK)k+1 = O(h4), so erhalt man

d(H)k+1 =

h

6[k1 + k2 + 4k3] −

h

2[k1 + k2] + O(h4) =

h

3[2k3 − k1 − k2] + O(h4)

und benutzt man (unter Voraussetzung genugender Glattheit von f)

h

3[2k3 − k1 − k2] −

h

3[2k3 − k1 − k2] = O(h4) ,

so erhalt man schließlich

d(H)k+1 =

h

3[2k3 − k1 − k2] + O(h4)

34

und damit kann der lokale Diskretisierungsfehler des Heun-Verfahrens mit derzusatzlichen Steigungsberechnung von k3 durch den Ausdruck h

3[2k3 − k1 −

k2] recht gut geschatzt werden. Aufgrund der Kontrolle des Betrages diesesAusdrucks kann man eine vorgegebene Schranke ǫtol > 0 durch entsprechendeWahl von h = hk+1 = tk+1 − tk

hk+1

3|2k3 − k1 − k2| < ǫtol ⇐⇒ hk+1 <

3ǫtol

|2k3 − k1 − k2|

unterschreiten.Man spricht bei der dargestellten Methode der Schrittweitensteuerung auchvon einer Einbettung des Heun-Verfahrens (1.22) zweiter Ordnung in dasRunge-Kutta-Verfahren (1.67) dritter Ordnung.

1.7.2 Schrittweitensteuerung durch Extrapolation

Zur Losung des AWPs y′ = f(t, y), y(a) = y0 wird fur eine Verfahrensfunk-tion Φ mit der Konsistenzordnung p ≥ 1 die Vorschrift

w = yk + hk

2Φ(tk, yk,

hk

2),

yk+1 = w + hk

2Φ(tk + hk

2, w, hk

2),

tk+1 := tk + hk, k = 0, 1, . . . .

(1.68)

betrachtet. Nun wird eine adaptive Wahl der Schrittweiten hk diskutiert mitdem Ziel einer effizienten Fehlerkontrolle.Ausgehend von einer gegebenen Stelle tk ∈ [a, b] und einer gegebenen Nahe-rung yk ≈ y(tk) soll eine Schrittweite hk > 0 bestimmt werden, fur die

|yk+1 − z(tk + hk)| ≈ ǫtol (1.69)

erfullt ist, wobei yk+1 aus einem Schritt des Verfahrens (1.68) hervorgeht,ǫtol > 0 eine vorgegebene Fehlerschranke ist, und z : [tk, b] → R die Losungdes AWPs

z′ = f(t, z) , t ∈ [tk, b] ; z(tk) = yk , (1.70)

ist.

Bemerkung 1.29. Die Forderung (1.69) bedeutet, dass die angestrebteSchrittweitensteuerung auf einer Vorgabe des lokalen Verfahrensfehlers be-ruht.Die Losung des AWPs (1.70) ist nicht bekannt, also insbesondere z(tk + hk),und muss erst noch bestimmt werden.

35

Wie bei Plato fuhren wir zur Vereinfachung der Notation die Bezeichnungfur einen von dem Punkt (tk, yk) ausgehenden Verfahrensschritt (1.68) mitder Lange h ein,

y2×h/2 = w +hk

2Φ(tk +

hk

2, w,

hk

2) mit w = yk +

hk

2Φ(tk, yk,

hk

2) . (1.71)

Zur Bestimmung einer Schrittweite hk, mit der die Forderung (1.69) anna-hernd erfullt wird, geht man von einer nicht zu kleinen Startschrittweite h(0)

aus, und fur j = 0, 1, . . . , fuhrt man den folgenden Algorithmus aus:

1) Berechnung von y2×h/2.

2) Ermittelung einer Schatzung fur den Fehler |y2×h/2 − z(tk + h)| undAbbruch des Iterationsprozesses mit jǫtol

= j, falls die Schatzung kleinergleich ǫtol ausfallt.

3) Anderenfalls, falls diese Schatzung großer als ǫtol ist, wird eine neueTestsschrittweite h(s+1) < h(s) bestimmt.

Wie man den unbekannten Wert z(tk + h) schatzt und im Falle von 3) dieneue Testschrittweite h(s+1) bestimmt, soll im Folgenden beschrieben werden.Der Wert z(tk +hk) wird mittels lokaler Extrapolation entsprechend Korollar1.22 mittels zh(s) geschatzt, wobei man mit vh = yk +hΦ(tk, yk, h), also einemSchritt mit der Schrittweite h = h(s), und y2×h/2

zh = y2×h/2 −vh − y2×h/2

2p − 1︸︷︷︸

z(tk+h(s))+O(hp+2)

.

Der Fehler y2×h(s)/2 − z(tk + h(s))| berechnet sich dann naherungsweise zu

δ(s) = |y2×h(s)/2 − z(tk + h(s))| =|vh − y2×h(s)/2|

2p − 1. (1.72)

Zur Bestimmung der neuen Testschrittweite h(s+1) benutzt man die nahe-rungsweise Darstellung des Fehlers y2×h/2 − z(tk + h):

Lemma 1.30. Mit den Notationen (1.70)-(1.72) gilt unter den Bedingungendes Satzes 1.16 uber die Asymptotik des globalen Verfahrensfehlers (fur r = 2)

|y2×h/2 − z(tk + h)| = (h

h(s))p+1δ(s) + O((h(s))p+2), 0 < h ≤ h(s) . (1.73)

36

Gilt also (h(s))p+2 ≪ ǫtol, so gewinnt man aus der Darstellung (1.73) unterVernachlassigung des Restgliedes die neue Testschrittweite

h(s+1) = (ǫtol

δ(s))1/(p+1)h(s) (1.74)

und wiederholt damit den oben beschriebenen Algorithmus mit s um einserhoht.

Beweis. Der Beweis des Satzes beruht im Wesentlichen auf den Darstellungen

y2×h/2 − z(tk + h) = bp+1hp+1 + O(hp+2), h > 0, (1.75)

undzh − z(tk + h) = O(hp+2) .

Damit hat man

y2×h/2 − zh = bp+1hp+1 + O((h(s))p+2) . (1.76)

Wegen δ(s) = |y2×h(s)/2 − z(tk + h(s))| bedeutet (1.76) insbesondere

|bp+1|(h(s))p+1 = δ(s) + O((h(s))p+2) bzw. |bp+1| =δ(s)

(h(s))p+2+ O(h(s)) .

(1.77)Und die Darstellung (1.77) eingesetzt in (1.75) ergibt die Behauptung desLemmas.

1.8 Mehrschrittverfahren7. Vor-lesungam03.11.2009

Die Klasse der Mehrschrittverfahren zur Losung von Anfangswertproblemenist dadurch gekennzeichnet, dass man zur Berechnung des Naherungswertesyk+1 nicht nur den Wert yk verwendet, sondern auch weiter zuruckliegendeWerte, z.B. yk−1, yk−2, yk−3. Ausgangspunkt fur die Mehrschrittverfahrenbildet die zur Differentialgleichung y′ = f(t, y) aquivalente Integralgleichung

y(tk+1) = y(tk) +

∫ tk+1

tk

f(t, y(t)) dt . (1.78)

Kennt man z.B. die Werte fk = f(tk, yk), . . . , fk−3 = f(tk−3, yk−3), dannkann man das Integral auf der rechten Seite durch eine interpolatorischeQuadraturformel i.d.R. besser approximieren als bei den Einschrittverfahrenunter ausschließlicher Nutzung des Wertes fk. Das ist die Grundidee der

37

Mehrschrittverfahren. Man bestimmt das Interpolationspolynom durch dieStutzpunkte (tj, fj) (j = k − 3, . . . , k)

p3(t) =3∑

j=0

fk−jLk−j(t)

mit den Lagrange’schen Basispolynomen

Lj(t) =k∏

i=k−3i6=j

t − titj − ti

(j = k − 3, k − 2, k − 1, k)

und bestimmt das Integral in (1.78) unter Nutzung der Naherung von f durchp3. Man erhalt

yk+1 = yk +

∫ tk+1

tk

3∑

j=0

fk−jLk−j(t) dt = yk +3∑

j=0

fk−j

∫ tk+1

tk

Lk−j(t) dt .

Im Fall aquidistanter Stutzstellen und h = tk+1 − tk erhalt man fur denzweiten Integralsummanden (j = 1)

I1 =

∫ tk+1

tk

Lk−1(t) dt =

∫ tk+1

tk

(t − tk−3)(t − tk−2)(t − tk)

(tk−1 − tk−3)(tk−1 − tk−2)(tk−1 − tk)dt

und nach der Substitution ξ = t−tkh

, dt = hdξ,

I1 = h

∫ 1

0

(ξ + 3)(ξ + 2)ξ

2 · 1 · (−1)dξ = −h

2

∫ 1

0

(ξ3 + 5ξ2 + 6ξ) dξ = −59

24h .

Fur die restlichen Summanden erhalt man

I0 =55

24h, I2 =

37

24h, I3 = − 9

24h ,

so dass sich schließlich mit

yk+1 = yk +h

24[55fk − 59fk−1 + 37fk−2 − 9fk−3] (1.79)

das Verfahren ergibt.Bei Verwendung von m Stutzwerten (tk, fk), . . . , (tk−m+1, fk−m+1) zur Berech-nung eines Interpolationspolynoms pm−1 zur Approximation von f zwecksnaherungsweiser Berechnung des Integrals (1.78) spricht man von einem li-nearen m-Schrittverfahren. Im Folgenden werden wir uns in der Darstel-lung und Diskussion der Verfahren auf aquidistante Gitter, d.h. hk = h =const. beschranken.

38

Definition 1.31. (allgemeine lineare Mehrschrittverfahren)Unter einem linearen m-Schrittverfahren (m > 1) versteht man eineVorschrift

m∑

j=0

ajyl+j = hm∑

j=0

bjf(tl+j , yl+j), l = 0, 1, . . . , n − m (1.80)

wobei am 6= 0 ist und aj, bj geeignet zu wahlende reelle Zahlen sind. Diekonkrete Wahl der Koeffizienten aj, bj entscheidet uber die Ordnung des Ver-fahrens (1.80). Als Gitterpunkte oder Schrittweiten werden tl = a + lh, l =0, . . . , n, mit h = b−a

nbetrachet. y0, . . . , ym−1 sind nicht naher spezifizierte

Startwerte.

In Verallgemeinerung zur Definition der Fehler eines Einschrittverfahrens de-finieren wir den lokalen und globalen Verfahrensfehler.

Definition 1.32. Ein lineares Mehrschrittverfahren (1.80) besitzt die Kon-

vergenzordnung p ≥ 1, falls sich zu jeder Konstanten c ≥ 0 und beliebigenStartwerten y0, . . . , ym−1 ∈ R mit |yk − y(tk)| ≤ c hp fur k = 0, . . . ,m− 1 derglobale Verfahrensfehler in der Form

maxl=m,...,n

|yl − y(tl)| ≤ K hp (1.81)

mit einer von der Schrittweite h unabhangigen Konstanten K ≥ 0 abschatzenlasst.

Definition 1.33. Fur ein lineares Mehrschrittverfahren zur Losung des AWPsy′ = f(t, y), y(a) = y0 bezeichnet

τ(t, h) := [∑m

j=0 ajy(t + jh)] − h[∑m

j=0 bjf(t + jh, y(t + jh))] ,

0 < h ≤ b−tm

,

(1.82)

den lokalen Verfahrensfehler im Punkt (t, y(t)) bezuglich der Schrittweiteh.

Nun kann man wie bei den Einschrittverfahren die Fehlerordnung eines m-Schrittverfahrens definieren.

Definition 1.34. (Fehlerordnung eines m-Schrittverfahrens)Ein m-Schrittverfahren hat die Fehler- oder Konsistenzordnung p, fallses eine Konstante C und eine hinreichend kleine Zahl H > 0 gibt, so dassfur seinen lokalen Diskretisierungsfehler τ die Abschatzung

|τ(t, h)| ≤ Chp+1 , a ≤ t ≤ b , 0 ≤ h ≤ H

gilt.

39

Fur das spezielle lineare 4-Schritt-Verfahren (1.79) erhalt man durch Taylor-Reihenentwicklung und entsprechender Glattheit (sechsfache stetige Diffe-renzierbarkeit von y(t)) den lokalen Diskretisierungsfehler

τ =251

720h5y(5) + O(h6) . (1.83)

Das sogenannte Adams-Bashforth-Verfahren (1.79) besitzt aufgrund derAbschatzung (1.83) die Fehlerordnung 4.Bevor wir weiter konkrete m-Schrittverfahren konstruieren, sollen allgemeineKonvergenzaussagen gemacht werden. Eine wichtige Voraussetzung fur dieKonvergenz eines m-Schrittverfahrens ist die Nullstabilitat.

Definition 1.35. Ein m-Schrittverfahren zur Losung von y′ = f(t, y), y(a) =y0 heißt nullstabil, falls das erzeugende Polynom

ρ(ξ) := amξm + am−1ξm−1 + · · · + a0 ∈ Πm (1.84)

die folgende Dahlquistsche Wurzelbedingung erfullt,

ρ(ξ) = 0 =⇒ |ξ| ≤ 1

ρ(ξ) = 0, |ξ| = 1 =⇒ ξ ist einfache Nullstelle von ρ .

An dieser Stelle sei darauf hingewiesen, dass alle Einschrittverfahren nullsta-bil sind, da sie das triviale erzeugende Polynom

ρ(ξ) = ξ − 1

haben, das die Dahlquistsche Wurzelbedingung offensichtlicht erfullt.Es gilt nun der

Satz 1.36. Ein m-Schrittverfahren (1.80) fur das AWP y′ = f(t, y), y(a) =y0 sei nullstabil und die Funktion f genuge der Lipschitzbedingung

|f(t, y) − f(t, z)| ≤ L|y − z| , L∗ ≥ 0, t ∈ [a, b], y, z ∈ R .

Dann existieren Konstanten K ≥ 0 und H > 0, so dass fur 0 < h = (b −a)/n ≤ H die Abschatzung

maxl=0,...,n

|yl − y(tl)| ≤ K[ maxk=0,...,m−1

|yk − y(tk)| + ( maxa≤t≤b−mh

|τ(t, h)|)/h] (1.85)

gilt.

40

Beweis. O.B.d.A. nehmen wir am = 1 an, und setzen

el = yl − y(tl) , l = 0, 1, . . . , n

τl = τ(tl, h) , l = 0, 1, . . . , n − m ,

es gelten dann fur l = 0, . . . , n − m die Darstellungen

m∑

j=0

ajyl+j = h[m∑

j=0

bjf(tl+j, yl+j)] ,

m∑

j=0

ajy(tl+j) = h[m∑

j=0

bjf(tl+j, y(tl+j))] + τl ,

und damit

m∑

j=0

ajel+j = hm∑

j=0

bj[f(tl+j, yl+j) − f(tl+j, y(tl+j))]

︸︷︷︸

=:δl

−τl . (1.86)

(1.86) kann man nun wie folgt schreiben,

el+1

el+2...

el+m

︸︷︷︸

=:El+1

=

0 1. . . . . .

0 1−a0 . . . . . . −am−1

︸︷︷︸

=:A

el

el+1...

el+m−1

︸︷︷︸

=:El

+

00...

δl − τl

︸︷︷︸

=:Fl

(1.87)mit der reellen Matrix A vom Typ m × m und den Vektoren El, Fl ∈ R

m.Mit vollstandiger Induktion schlussfolgert man aus (1.87) die Beziehung

El = AlE0 +l−1∑

ν=0

Al−1−νFν , l = 0, 1, . . . , n − m + 1 . (1.88)

An dieser Stelle berucksichtigen wir, dass die Eigenwerte der Matrix A mitden Nullstellen des erzeugenden Polynoms des m-Schrittverfahrens uberein-stimmen, die aufgrund der vorausgesetzten Nullstabilitat die DahlquistscheWurzelbedingung erfullen. Daraus folgt die Potenzbeschranktheit der MatrixA (die als Ubung bewiesen werden sollte!), d.h.

||Ak||∞ ≤ C , k = 0, 1, . . . , (1.89)

41

mit einer Konstanten C > 0. Aus (1.88) und (1.89) ergibt sich dann dieAbschatzung

||El||∞ ≤ C[||E0||∞ +l−1∑

ν=0

||Fν ||∞] , l = 0, 1, . . . , n − m + 1 . (1.90)

Wegen (1.86) und (1.87) gilt mit L := L∗ ∑mj=0 |bj|

||Fν ||∞ = |δν − τν | ≤ |τν | + hLm∑

j=0

|eν+j|

≤ maxj=0,...,n−m

|τj| + hLm||Eν ||∞ + hL||Eν+1||∞ ,

die Summation ergibt dann

l−1∑

ν=0

||Fν ||∞ ≤ n[ maxj=0,...,n−m

|τj|] + hc1

l−1∑

ν=0

||Eν ||∞ + hL||El||∞ (1.91)

mit c1 := L(m+1). Dieses Ergebnis eingesetzt in (1.90) fuhrt fur 0 < h < Hmit einer Konstanten H < 1/(CL) auf die Abschatzung

||El||∞ ≤ C

1 − CLH(||E0||∞ + n[ max

j=0,...,n−m|τj|])

+Cc1

1 − CLHh

l−1∑

ν=0

||Eν ||∞

≤ max1, C

1 − CLH(||E0||∞ + n[ max

j=0,...,n−m|τj|])

︸︷︷︸

=:α

+Cc1

1 − CLH︸︷︷︸

=:β

hl−1∑

ν=0

||Eν ||∞ , l = 1, 2, . . . , n − m + 1 .

bzw.

||El||∞ ≤ α + βhl−1∑

ν=0

||Eν ||∞ , l = 1, 2, . . . , n − m + 1

mit ||E0||∞ ≤ α. Aus dem diskreten Gronwallschen Lemma

|v0| ≤ α, |vl| ≤ α + βhl−1∑

j=0

|vj|, l = 1, . . . , r =⇒ |vl| ≤ α eβlh, l = 0, . . . , r

42

und aufgrund von

||E0||∞ = maxl=0,...,m−1

|yl − y(tl)| , |yl − y(tl)| ≤ ||El||∞

folgt die Behauptung des Satzes.

Der Satz zeigt wie in vielen Fallen der Numerik die Gultigkeit des Prinzips

Stabilitat + Konsistenz =⇒ Konvergenz .

Satz 1.37. (Konvergenz von Mehrschrittverfahren)Konsistente und nullstabile Mehrschrittverfahren sind konvergent, falls f(t, y)bezugl. y Lipschitz-stetig ist. D.h., die berechneten Naherungswerte an einerfesten Stelle t = t0 + hk fur h → 0 mit kh = t − t0 konvergieren gegen denWert der Losung y(t) der Differentialgleichung.

1.8.1 Technische Hilfsmittel zur Konstruktionvon linearen Mehrschrittverfahren

Beim obigen AB-Verfahren haben wir die Integration des LagrangeschenInterpolationspolynoms konkret durchgefuhrt und damit die Verfahrensvor-schrift (1.79) hergeleitet. Um die Berechnung der Gewichte der Verfahrens-vorschrift (1.79) etwas zu erleichtern und um auch schneller zu Abschatzungenvon Diskretisierungsfehlern zu gelangen, sollen nun ein paar Hilfsmittel bereitgestellt werden.

Definition 1.38 (Ruckwartsdifferenzen). Fur einen gegebenen Datensatzg0,..., gr ∈ R sind die Ruckwartsdifferenzen ∇kgj ∈ R fur 0 ≤ k ≤ j ≤ rrekursiv durch

∇0gj = gj , j = 0, 1, . . . , r,

∇kgj = ∇k−1gj −∇k−1gj−1 , j = k, k + 1, . . . , r (k = 1, 2, . . . , r)

erklart.

Man kann die rekursive Ruckwartsdifferenzenberechnung durch das folgende

43

Schema beschreiben:

∇0g0 = g0

ց∇0g1 = g1 → ∇1g1

ց ց∇0g2 = g2 → ∇1g2 → ∇2g2

......

.... . .

∇0gr−1 = gr−1 → ∇1gr−1 → . . . . . . ∇r−1gr−1

ց ց ց∇0gr = gr → ∇1gr → . . . . . . ∇r−1gr → ∇rgr

Zur Berechnung der Ruckwartsdifferenzen benutzen wir das

Lemma 1.39. Fur die Ruckwartsdifferenzen ∇kgj ∈ R eines gegebenen Da-tensatzes g0, ..., gr ∈ R gilt

∇kgj =k∑

i=0

(−1)i

(k

i

)

gj−i , j = 1, 2, . . . , r . (1.92)

Beweis. Wenn man mit S den Ruckwartsshift

Sgj := gj−1 , j = 1, 2, . . . , r ,

bezeichnet, und (I − S)k und Si ebenso rekursiv erklart, d.h.

(I−S)gj = gj −gj−1, (I−S)2gj = (I−S)(I−S)gj, Sigj = S(Si−1gj) . . .

dann erhalt man mit dem binomischen Satz

∇kgj = (I − S)kgj =k∑

i=0

(−1)i

(k

i

)

Ik−iSigj

=k∑

i=0

(−1)i

(k

i

)

Sigj =k∑

i=0

(−1)i

(k

i

)

gj−i .

Lemma 1.40. Gegeben seien r + 1 aquidistante Stutzstellen tl = t0 + l h furl = 0, 1, . . . , r, mit Zahlen t0 ∈ R und h > 0. Dann besitzt das zu den Werteng0, . . . , gr ∈ R gehorende eindeutug bestimmte interpolierende Polynom P ∈Πr (Polynome r-ten Grades) die Darstellung

P(tr + s h) =r∑

k=0

(−1)k

(−s

k

)

∇kgr , s ∈ R . (1.93)

44

Dabei gelten die Identitaten(−s

k

)

=(−s)(−s − 1) . . . (−s − k + 1)

k!=

(−1)k

k!s(s + 1) . . . (s + k − 1) .

(1.94)

Beweis. Unter Verwendung von (1.94) erhalt man fur P mit der Newton-Interpolation

P(tr + s h) = a0 + a1(tr + sh − tr) + · · · + ar(tr + sh − tr) . . . (tr + sh − t1)

=r∑

k=0

akΠk−1j=0(tr + sh − tr−j) =

r∑

k=0

akΠk−1j=0(tr + sh − (tr − jh))

=r∑

k=0

akhkΠk−1

j=0(s + j) =r∑

k=0

akhkk!

(−s

k

)

(1.95)

mit den dividierten Differenzen

ak = g[tr, . . . , tr−k] ∈ R , k = 0, 1, . . . , r . (1.96)

Mittels vollstandiger Induktion erhalt man fur die dividierten Differenzen(1.95) die Darstellung

g[tl, . . . , tr−l] =∇kgl

k!hk0 ≤ k ≤ l ≤ r ,

die zusammen mit (1.95) die Aussage des Lemmas ergibt.

Lemma 1.41. Zu einer gegebenen Funktion g ∈ Cr+1([c, d]) und zu gegebe-nen Stutzstellen tl = t0 + l h ∈ [c, d], l = 0, 1, . . . , r, bezeichne P ∈ Πr das zu-gehorige interpolierende Polynom. Der Interpolationsfehler in tr + sh ∈ [c, d]besitzt die Darstellung

g(tr + sh) − P(tr + sh) = (−1)r+1( −s

r+1

)F (s)hr+1

F (s) = g(r+1)(ξ(s)) ∈ R ,

(1.97)

mit einer geeigneten Zwischenstelle ξ(s) ∈ [c, d] .

Beweis. Mit der (aus der Polynominterpolation...) bekannten Fehlerdarstel-lung

g(tr + sh) − P(tr + sh) =ω(tr + sh)g(r+1)(ξ(s))

(r + 1)!,

wobei ω(t) = (t − t0) · · · (t − tr) gilt, erhalt man mit der Darstellung (1.94)

ω(tr + sh) = Πrj=0(tr + sh − (tr − jh)) = hr+1Πr

j=0(s + j)

= hr+1(−1)r+1

( −s

r + 1

)

(r + 1)! ,

also die Aussage des Lemmas.

45

1.8.2 Adams-Verfahren

Wir hatten oben die Integralgleichung

y(tl+m) − y(tl+m−1) =

∫ tl+m

tl+m−1

f(t, y(t)) dt , l = 0, 1, . . . , n − m (1.98)

als Ausgangspunkt fur die Konstruktion von Mehrschrittverfahren betrach-tet. Adams-Verfahren gewinnt man durch Ersetzen des Integranden durchgeeignete Polynome P

yl+m − yl+m−1 =

∫ tl+m

tl+m−1

P(t) dt , l = 0, 1, . . . , n − m . (1.99)

P ist dabei ein Interpolationspolynom, dass unter Nutzung der Werte

(tj, f(tj, yj)), j = l, l + 1, . . . , l + m − 1

bestimmt wird. Je nach spezieller Wahl von P erhalt man explizite oderimplizite Mehrschrittverfahren.

Adams-Bashforth-Verfahren

Wir beginnen mit explizitenen Adams-Verfahren.

Definition 1.42. Fur m ≥ 1 erhalt man das m-schrittige Adams-Bashforth-

Verfahren durch den Ansatz (1.99) mit

P ∈ Πm−1, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m − 1 . (1.100)

Der folgende Satz liefert eine formelmaßig explizite Darstellung fur das Adams-Bashforth-Verfahren.

Satz 1.43. Das m-schrittige Adams-Bashforth-Verfahren hat die Gestalt

yl+m − yl+m−1 = hm−1∑

k=0

γk∇kfl+m−1 , l = 0, 1, . . . , n − m , (1.101)

mit den von m unabhangigen Koeffizienten

γk = (−1)k

∫ 1

0

(−s

k

)

ds , k = 0, 1, . . . . (1.102)

die sich rekursiv berechnen durch

1

k + 1γ0 +

1

kγ1 +

1

k − 1γ2 + · · ·+ 1

2γk−1 + γk = 1 fur k = 0, 1, . . . . (1.103)

46

Beweis. Darstellung (1.101) mit den Koeffizienten (1.102) folgt aus Lemma1.40, man erhalt

∫ tl+m

tl+m−1

P(t) = h

∫ 1

0

P(tl+m−1+sh) ds = hm+1∑

k=0

(−1)k

∫ 1

0

(−s

k

)

ds

︸︷︷︸

γk

∇kfl+m−1 .

(1.104)Fur den Nachweis der Rekursionsvorschrift (1.103) betrachtet man

G(t) :=∞∑

k=0

γktk =

∞∑

k=0

(−t)k

∫ 1

0

(−s

k

)

ds =

∫ 1

0

[∞∑

k=0

(−s

k

)

(−t)k]ds

=

∫ 1

0

(1 − t)−sds = − 1

ln(1 − t)(1 − t)−s|s=1

s=0

= − t

(1 − t) ln(1 − t), −1 < t < 1 . (1.105)

Die dabei vorgenommene Vertauschung von∫

und∑

war moglich, da dieReihe

∑∞k=0(−t)k

(−sk

)fur s ∈ [0, 1] gleichmaßig konvergiert. Die Darstellung

fur G(t) ergibt

G(t)− ln(1 − t)

t=

1

1 − t, |t| < 1 ,

bzw. unter Nutzung der Reihen fur − ln(1−t)t

und 11−t

(γ0 + γ1t + γ2t2 + . . . )(1 +

t

2+

t2

3+ . . . ) = (1 + t + t2 + . . . ) , (1.106)

und ein Koeffizientenvergleich ergibt die Rekursionsvorschrift (1.103).

Bemerkung 1.44. Aufgrund von

m−1∑

k=0

γk∇kfl+m−1−j =m−1∑

k=0

k∑

j=0

(−1)j

(k

j

)

γkfl+m−1−j =m−1∑

j=0

[(−1)j

m−1∑

k=j

(k

j

)

γk]

︸︷︷︸

=:βm,m−1−j

fl+m−1

kann man das m-schrittige Adams-Bashforth-Verfahren (1.101) auf eindeu-tige Weise in der Form

yl+m − yl+m−1 = hm−1∑

j=0

βm,jfl+j , l = 0, 1, . . . , n − m , (1.107)

schreiben.

47

Die Rekursion (1.103) ergibt fur die ersten Koeffizienten

γ0 = 1, γ1 =1

2, γ2 =

5

12, γ3 =

3

8, γ4 =

251

720.

Mit etwas Rechenarbeit kann man unter Nutzung der Koeffiezienten und derdividierten Differenzen die folgenden 3-, 4-, 5- und 6-Schritt-Verfahren vomAdams-Bashforth-Typ herleiten.

yk+1 = yk +h

12[23fk − 16fk−1 + 5fk−2] , (1.108)

yk+1 = yk +h

24[55fk − 59fk−1 + 37fk−2 − 9fk−3] , (1.109)

yk+1 = yk +h

720[1901fk − 2774fk−1

+2616fk−2 − 1274fk−3 + 251fk−4] , (1.110)

yk+1 = yk +h

1440[4277fk − 7923fk−1

+9982fk−2 − 7298fk−3 + 2877fk−4 − 475fk−5].

Die Formeln der Mehrschrittverfahren funktionieren erst ab dem Index k =m, d.h., bei einem 3-Schrittverfahren braucht man die Werte y0, y1, y2, umy3 mit der Formel (1.108) berechnen zu konnen. Die Startwerte y1, y2 werdenmeistens mit einem Runge-Kutta-Verfahren berechnet, wobei evtl. auch meh-rere Schritte mit kleineren Schrittweiten h < h, z.B. 4 Runge-Kutta-Schrittemit der Schrittweite h = h/2 zur Berechnung von y1/2, y1, y3/2, y2 benutztwerden.

Adams-Moulton-Verfahren

Es ist offensichtlich moglich, die Qualitat der Losungsverfahren fur das An-fangswertproblem y′ = f(t, y), y(a) = y0 , zu erhohen, indem man das Inte-gral in der Beziehung (1.78) genauer berechnet. Das soll nun durch die Hin-zunahme des Stutzpunktes (tk+1, fk+1), also die Benutzung des unbekanntenFunktionswertes fk+1 := f(tk+1, yk+1) getan werden. Analog zur Herleitungder Formel (1.79) erhalt man mit dem Ansatz

p4(t) =3∑

j=−1

fk−jLk−j(t)

bei Verwendung der Lagrange’schen Basispolynome Lk+1, ..., Lk−3

yk+1 = yk +

∫ tk+1

tk

3∑

j=−1

fk−jLk−j(t) dt = yk +3∑

j=−1

fk−j

∫ tk+1

tk

Lk−j(t) dt

48

bzw. nach Auswertung der Integrale

yk+1 = yk +h

720[251f(tk+1, yk+1) + 646fk − 264fk−1 + 106fk−2 − 19fk−3] .

(1.111)Das Verfahren (1.111) heißt Methode von Adams-Moulton (kurz AM-Verfahren) und ist eine implizite 4-Schritt-Methode, da die Formel (1.111)auf beiden Seiten yk+1 enthalt und die 4 Werte yk, . . . , yk−3 zur Berechnungvon yk+1 benutzt werden. Fur ein implizites 3-Schritt-Verfahren vom Adams-Moulton-Typ erhalt man auf analogem Weg

yk+1 = yk +h

24[9f(tk+1, yk+1) + 19fk − 5fk−1 + fk−2] . (1.112)

Allgemein kann man das Adams-Moulton-Verfahren wie folgt beschreiben.

Definition 1.45. Fur m ≥ 1 erhalt man das m-schrittige Adams-Moulton-


P ∈ Πm, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m . (1.113)

Genau wie beim Adams-Bashforth-Verfahren gibt es pragnante Darstellun-gen des Verfahrens, es gelten die Aussagen:

Satz 1.46. Das m-schrittige Adams-Moulton-Verfahren hat die Gestalt

yl+m − yl+m−1 = h

m∑

k=0

γ∗k∇kfl+m , l = 0, 1, . . . , n − m , (1.114)

mit den von m unabhangigen Koeffizienten

γ∗k = (−1)k

∫ 0

−1

(−s

k

)

ds , k = 0, 1, . . . . (1.115)

die sich rekursiv berechnen durch γ∗0 = 1 und

1

k + 1γ∗

0 +1

kγ∗

1 +1

k − 1γ∗

2 + · · · + 1

2γ∗

k−1 + γ∗k = 1 fur k = 1, . . . . (1.116)

Fur die ersten Koeffizienten findet man

γ∗0 = 1, γ∗

1 = −1

2, γ∗

2 = − 1

12, γ∗

3 =1

24, .

Zur Bestimmung von yk+1 bei den impliziten Verfahren (1.111) bzw. (1.112)kann man z.B. eine Fixpunktiteration der Art

y(s+1)k+1 = yk +

h

24[9f(tk+1, y

(s)k+1) + 19fk − 5fk−1 + fk−2]

49

zur Losung von (1.112) durchfuhren (als Startwert empfiehlt sich y(0)k+1 = yk).

Bestimmt man den Startwert y(0)k+1 als Resultat eines expliziten 3-Schritt-

Adams-Bashforth-Verfahrens und fuhrt nur eine Fixpunktiteration durch,dann erhalt man in Analogie zum Heun-Verfahren das Pradiktor-Korrektor-Verfahren

y(p)k+1 = yk +

h

12[23fk − 16fk−1 + 5fk−2] ,

yk+1 = yk +h

24[9f(tk+1, y

(p)k+1) + 19fk − 5fk−1 + fk−2] . (1.117)

Diese Kombination von Adams-Bashforth- und Adams-Moulton-Verfahrenbezeichnet man als Adams-Bashforth-Moulton-Verfahren (kurz alsABM-Verfahren). Das ABM-Verfahren (1.117) hat ebenso wie das Verfahren(1.112) den lokalen Diskretisierungsfehler τ = O(h5) und damit die Fehler-ordnung 4. 8. Vor-

lesungam04.11.2009

Generell kann man mit dem Lemma (1.47) zeigen, dass m-Schritt-Verfahrenvom AM- oder ABM-Typ durch die geeignete Wahl der Koeffizienten ak, bk

jeweils die Fehlerordnung p = m + 1 haben. Im folgenden Abschnitt werdenwir Konstruktionsvorschriften fur allgemeine lineare Mehrschrittverfahrenmit maximaler Fehlerordnung besprechen.

Bei den bisher betrachteten konkreten Mehrschrittverfahren haben wir diezuruckliegenden Werte yk, . . . , yk−m+1 nur benutzt, um das Integral in (1.78)moglichst genau zu approximieren. Schreibt man das 3-Schritt-Adams-Bashforth-Verfahren (1.108) in der Form

yk+1 − yk

h=

1

12[23fk − 16fk−1 + 5fk−2]

auf, dann ist die rechte Seite eine Approximation des Funktionswertes vonf an der Stelle (tk, yk) von der Ordnung O(h3). Die linke Seite ist allerdingsnur eine Approximation der Ordnung O(h) von y′ an der Stelle tk. Da mandie Werte yk, yk−1, yk−2 sowieso benutzt, kann man sie auch verwenden, umdie Ableitung y′ genauer zu approximieren. Das ist die Grundidee der allge-meinen linearen Mehrschrittverfahren. In den bisher behandelten Verfahrenwar jeweils am = 1 und am−1 = −1 sowie am−2 = · · · = a0 = 0. Bei explizi-ten Verfahren ist bm = 0 und bei impliziten Verfahren ist bm 6= 0. Ohne dieAllgemeinheit einzuschranken, setzen wir im Folgenden am = 1. Die anderen2m−1 freien Parameter aj, bj sind so zu wahlen, dass die linke und die rechteSeite von (1.80) Approximationen von

α[y(tk+1) − y(tk)] bzw. α

∫ tk+1

tk

f(t, y(t)) dt

50

sind, wobei α eine von Null verschiedene Zahl ist. Spater werden wir mit denBDF-Verfahren spezielle lineare Mehrschrittverfahren behandeln, bei denennur der Koeffizient bm 6= 0 ist und alle anderen Koeffizienten bk gleich Nullsind.

1.8.3 Konsistenzordnung linearer Mehrschrittverfah-ren

Im Folgenden sollen Vorschriften zur Konstruktion konsistenter Mehrschritt-verfahren, d.h. Verfahren mit einer Fehlerordnung p ≥ 1 erarbeitet werden.Dazu betrachten wir das folgende

Lemma 1.47. Sind fur das lineare m-Schrittverfahren

m∑

j=0

ajyl+j = hm∑

j=0

bjf(tj+l, yj+l) , l = 0, 1, . . . , n − m,

mit einer (p + 1)-mal stetig differenzierbaren Funktion f : [a, b] × R → R

(p ≥ 1) die Gleichungen

m∑

j=0

[jνaj − νjν−1bj] = 0 , ν = 0, 1, . . . , p, (1.118)

erfullt, so ist das m-Schrittverfahren konsistent mit der Fehlerordnung p. Esgilt die Darstellung

τ(t, h) = Cp+1y(p+1)(t)hp+1 + O(hp+2) fur h → 0,

mit Cp+1 =∑m

j=0[jp+1aj

(p+1)!− jpbj

p!] .

(1.119)

Beweis. Die Losung y(t) des AWPs ist (p+ 2)-mal stetig differenzierbar auf-grund der Voraussetzung uber f . Taylorentwicklungen von y und y′ im Punktt ∈ [a, b − mh] ergeben

y(t + jh) =∑p+1

ν=0(jh)ν

ν!y(ν)(t) + O(hp+2)

y′(t + jh) =∑p

ν=0(jh)ν

ν!y(ν+1)(t) + O(hp+1) .

(1.120)

51

Fur den lokalen Verfahrensfehler folgt daraus

τ(t, h) =m∑

j=0

[ajy(t + jh) − hbjf(t + jh, y(t + jh))]

=m∑

j=0

[ajy(t + jh) − hbjy′(t + jh)]

=

p+1∑

ν=0

[m∑

j=0

[jνaj − νjν−1bj]]y(ν)

ν!hν + O(hp+2), (1.121)

0 < h ≤ b − t

m.

Da nach Voraussetzung die ersten p + 1 Faktoren

cν := [m∑

j=0

[jνaj − νjν−1bj] , ν = 0, 1, . . . , p,

gleich Null sind, ergibt (1.121) die Aussage des Lemmas.

Mit dem Lemma erhalt mit der Bedingung c0 = · · · = cp = 0 Bestim-mungsgleichungen fur die Koeffizienten des Mehrschrittverfahrens. Damit dasMehrschrittverfahren (1.80) uberhaupt zur numerischen Losung des Anfangs-wertproblems taugt, muss es konsistent sein, d.h. die Fehlerordnung mussmindestens gleich 1 sein.Fur die Koeffizienten cj ergibt sich konkret

c0 = a0 + a1 + · · · + am ,c1 = a1 + 2a2 + · · · + mam − (b0 + b1 + · · · + bm) ,c2 = (a1 + 22a2 + · · · + m2am) − 2(b1 + 2b2 + · · · + mbm) ,...cr = (a1 + 2ra2 + · · · + mram) − r(b1 + 2r−1b2 + · · · + mr−1bm)

(1.122)fur r = 2, 3, . . . , p.

Beispiel 1.48. Es soll ein explizites 2-Schritt-Verfahren

a0yk−1 + a1yk + a2yk+1 = h[b0fk−1 + b1fk]

der Ordnung 2 bestimmt werden. Mit der Festsetzung a2 = 1 ergibt sich furc0, c1, c2

c0 = a0 + a1 + 1 = 0 ,c1 = a1 + 2 − (b0 + b1) = 0 ,c2 = (a1 + 4) − 2b1 = 0 .

52

Zur Bestimmung von 4 Unbekannten stehen 3 Gleichungen zur Verfugung,also ist eine Unbekannte frei wahlbar. Die Festlegung von a1 = 0 fuhrt aufdie Losung a0 = −1, b0 = 0 und b1 = 2, so dass das 2-Schritt-Verfahren dieForm

yk+1 = yk−1 + h 2 fk (1.123)

hat.

Es wurde schon darauf hingewiesen, dass nur konsistente Verfahren (Ordnungmindestens gleich 1) von Interesse sind. Aus dem Gleichungssystem (1.122)kann mit dem ersten und zweiten charakteristischen Polynom

ρ(z) =m∑

j=0

ajzj , σ(z) =

m∑

j=0

bjzj (1.124)

des Mehrschrittverfahrens (1.80) eine notwendige und hinreichende Bedin-gung fur die Konsistenz formulieren.

Satz 1.49. (notwendige und hinreichende Bedingung fur die Konsistenz)Notwendig und hinreichend fur die Konsistenz des Mehrschrittverfahrens(1.80) ist die Erfullung der Bedingungen

c0 = ρ(1) = 0 , c1 = ρ′(1) − σ(1) = 0 . (1.125)

Macht man außer der Wahl von a2 = 1 keine weiteren Einschrankungen andie Koeffizienten des expliziten 2-Schritt-Verfahrens

a0yk−1 + a1yk + a2yk+1 = h[b0fk−1 + b1fk] ,

dann erreicht man die maximale Ordnung p = 3 durch die Losung des Glei-chungssystems (1.122) fur q = 3, also cj = 0 (j = 0, 1, 2, 3). Man findet dieeindeutige Losung

a0 = −5 , a1 = 4 , b0 = 2 , b1 = 4

und damit das Verfahren

yk+1 = 5yk−1 − 4yk + h[4fk + 2fk−1] . (1.126)

Obwohl das Verfahren die maximale Fehlerordnung p = 3 hat, ist es imVergleich zum Verfahren (1.123) unbrauchbar, weil es nicht nullstabil ist.Das soll im Folgenden genauer untersucht werden. Wir betrachten dazu dieTestdifferentialgleichung

y′ = λy , y(0) = 1 λ ∈ R, λ < 0 , (1.127)

53

von der wir die exakte abklingende Losung y(t) = eλt kennen. Von einembrauchbaren numerischen Losungsverfahren erwartet man mindestens dieWiderspiegelung des qualitativen Losungsverhaltens. Mit f = λy folgt furdas Verfahren (1.126)

(−5 − λh2)yk−1 + (4 − λh4)yk + yk+1 = 0 . (1.128)

Macht man fur die Losung yk der Differenzengleichung (1.128) den Ansatzyk = zk, z 6= 0, dann erhalt man durch Einsetzen in (1.128) nach Divisiondurch zk−1

(−5 − λh2) + (4 − λh4)z + z2 = 0 ⇐⇒ φ(z) = ρ(z) − λhσ(z) = 0 (1.129)

mit den ersten und zweiten charakteristischen Polynomen der Methode(1.126). Die Nullstellen z1,2 = −2 + λh2 ±

√

(2 − λh2)2 + 5 + λh2 von φ(z)aus (1.129) liefern die allgemeine Losung von (1.128)

yk = c1zk1 + c2z

k2 (c1, c2 beliebig) . (1.130)

Die Konstanten c1, c2 sind mit den vorzugebenden Startwerten der 2-Schritt-Methode y0, y1 eindeutig als Losung des linearen Gleichungssystems

c1 + c2 = y0 ,z1c1 + z2c2 = y1

festgelegt. Notwendig (nicht unbedingt hinreichend) fur das Abklingen derLosung yk in der Form (1.130) fur wachsendes k ist die Bedingung |z1,2| ≤ 1.Da fur h → 0 die Nullstellen von φ(z) in die Nullstellen des ersten charakteris-tischen Polynoms ubergehen, durfen diese dem Betrage nach nicht großer als1 sein. Im Fall einer doppelten Nullstelle z von φ(z) eines 2-Schritt-Verfahrenshat die Losung yk der entsprechenden Differenzengleichung die Form

yk = c1zk + c2kzk ,

so dass das Abklingen der Losung yk unter der starkeren Bedingung |z| < 1erreicht wird. Die Uberlegungen zeigen die Bedeutung der Nullstabilitat furQualitat von Mehrschrittverfahren.Man erkennt, dass aufgrund der Nullstellen z1,2 = −2 ± 3 des ersten cha-rakteristischen Polynoms ρ(z) das Verfahren (1.126) der Ordnung 3 nichtnullstabil ist. Im Unterschied dazu ist das Verfahren (1.123) der Ordnung 2mit dem ersten charakteristischen Polynom ρ(z) = −1 + z2 und den Null-stellen z1,2 = ±1 nullstabil.Generell erkennt man leicht an den ersten charakteristischen Polynomen, dassAdams-Bashforth- und Adams-Moulton-Verfahren nullstabil sind.

54

1.8.4 Stabilitat von Losungsverfahren

Im vorangegangenen Abschnitt wurde die Nullstabilitat von m-Schritt-Ver-fahren als Kriterium fur die Tauglichkeit der Verfahren zur korrekten Wieder-gabe des Abklingverhaltens der numerischen Losung im Vergleich zur Losungder Testaufgabe (1.127) behandelt. Nun soll der Begriff der absoluten Stabi-litat von Verfahren eingefuhrt werden. Ausgangspunkt ist wiederum eine imVergleich zu (1.127) leicht modifizierte Testaufgabe

y′ = λy , y(0) = 1 , λ ∈ R oder λ ∈ C , (1.131)

mit der Losung y(t) = eλt. Die Zulassigkeit von komplexen Zahlen λ bein-haltet z.B. auch den Fall von Losungen der Form eαt cos(βt). Eine solcheSituation kann entstehen, wenn man es mit Differentialgleichungen hohererOrdnung oder Systemen erster Ordnung zu tun hat. Das Differentialglei-chungsystem

y′ = Ay

mit der reellen (n × n)-Matrix A und y : [a, b] → Rn kann man unter der

vereinfachenden Annahme der Diagonalisierbarkeit von A mit einer orthogo-nalen Matrix C uberfuhren in das aquivalente System

Cy′ = CAC−1Cy ⇐⇒ z′ = Dz (z := Cy) ,

wobei die Diagonalmatrix D = CAC−1 = (dij) mit djk = λk die Eigenwerteder Matrix A enthalt, die im Allg. komplex sind. Die entkoppelten Diffe-rentialgleichungen z′k = λkzk, i = 1, . . . , n haben dann die Form unsererTestaufgabe (1.131) (s. auch obige Diskussion von (1.6)).Die numerischen Verfahren sollen auch in diesem Fall im Allg. komplexerZahlen λ fur α = Re(λ) < 0 den dann stattfindenden Abklingprozess korrektwiedergeben. Betrachtet man das Euler-Verfahren

yk+1 = yk + hf(tk, yk) ,

dann erhalt man mit f(t, y) = λy

yk+1 = yk + hλyk ⇐⇒ yk+1 = (1 + hλ)yk =: F (hλ)yk .

Falls λ > 0 und reell ist, wird die Losung, fur die y(tk+1) = y(tk + h) =ehλy(tk) gilt, in jedem Fall qualitativ richtig wiedergegeben, denn der FaktorF (hλ) = 1 + λh besteht ja gerade aus den ersten beiden Summanden der e-Reihe, und es wird ein Fehler der Ordnung 2 gemacht, was mit der Ordnung1 des Euler-Verfahrens korreliert. Im Fall eines reellen λ < 0 wird nur unter

55

der Bedingung |F (hλ)| = |1 + hλ| < 1 das Abklingverhalten der Losungbeschrieben. Der Fall λ < 0 und reell ist deshalb im Folgenden von Interesse.Beim Kutta-Verfahren 3. Ordnung

k1 = f(tk, yk), k2 = f(tk +1

2h, yk + h

1

2k1), k3 = f(tk + h, yk − hk1 + 2hk2)

yk+1 = yk +h

6[k1 + 4k2 + k3] .

ergeben die gleichen Uberlegungen

k1 = λyk , k2 = λ(yk +1

2hk1) = (λ +

1

2hλ2)yk ,

k3 = λ(yk − hk1 + 2hk2) = (λ + hλ2 + h2λ3)yk ,

yk+1 = yk +h

6[k1 + 4k2 + k3] = (1 + hλ +

1

2h2λ2 +

1

6h3λ3)yk ,(1.132)

also yk+1 als Produkt von yk mit dem Faktor

F (hλ) = 1 + hλ +1

2h2λ2 +

1

6h3λ3 . (1.133)

Der Faktor (1.133) enthalt gerade die ersten 4 Summanden der e-Reihe und eswird ein Fehler der Ordnung 4 gemacht, so dass die Losung y(t) = eλt qualita-tiv durch (1.132) beschrieben wird. Fur reelles λ < 0 muss die Losung abklin-gen, was nur bei |F (hλ)| < 1 erreicht wird. Wegen limhλ→−∞ F (hλ) = −∞ist die Bedingung |F (hλ)| < 1 nicht fur alle negativen Werte von hλ erfullt.Auch im Fall einer komplexen Zahl λ sollte fur den Fall α = Re(λ) < 0 durchdas numerische Verfahren das Abklingverhalten qualitativ korrekt beschrie-ben werden. Das ist der Fall, wenn die Bedingung |F (hλ)| < 1 erfullt ist.Offensichtlich arbeiten die numerischen Verfahren genau dann stabil, wenndie Bedingung |F (hλ)| < 1 erfullt ist. Damit ist die folgende Definition ge-rechtfertigt.

Definition 1.50. (Gebiet der absoluten Stabilitat eines Einschrittverfahrens)Fur ein Einschrittverfahren, das fur das Testanfangswertproblem (1.131) aufyk+1 = F (hλ)yk fuhrt, nennt man die Menge

B = µ ∈ C | |F (µ)| < 1 (1.134)

Gebiet der absoluten Stabilitat. Enthalt das Gebiet der absoluten Sta-bilitat B eines Verfahrens die gesamte linke Halbebene G = z = a + i b ∈C, a < 0, dann nennt man das Verfahren A-stabil.

56

Um mit einem Einschrittverfahren im Fall Re(λ) < 0 das Abklingen desBetrages der Losung zu sichern, ist also eine Schrittweite h zu wahlen, sodass µ = hλ ∈ B gilt. Hat man es mit mehreren Abklingkonstanten λj

mit Re(λj) < 0 zu tun, muss hλj ∈ B fur alle j gelten. Das Gebiet derabsoluten Stabilitat liefert also eine Information zur Wahl der Schrittweiteh. Da man allerdings in den meisten Fallen evtl. Abklingkonstanten des vonder zu losenden Differentialgleichung beschriebenen Modells nicht kennt, hatman in der Regel keine quantitative Bedingung zur Wahl der Schrittweitezur Verfugung.In der Abbildung 1.2 sind die Gebiete der absoluten Stabilitat fur das expli-zite Euler-Verfahren 1. Ordnung (F (µ) = F (hλ) = 1+hλ) und ein explizitesRunge-Kutta-Verfahren 2. Ordnung (F (µ) = F (hλ) = 1 + hλ + h2λ2/2)skizziert. Den Rand des Gebietes der absoluten Stabilitat des Runge-Kutta-

−2 −1 0 1

−2

−1

1

Runge−Kutta− Verfahren

Euler−Verfahren

Abbildung 1.2: Gebiete der absoluten Stabilitat

Verfahrens (1.132) erhalt man wegen |eiθ| = 1 uber die Parametrisierung

F (µ) = 1 + µ +1

2µ2 = eiθ (θ ∈ [0, 2π]) ,

so dass die Losungen der quadratischen Gleichung µ2 + 2µ + 2 − 2eiθ = 0

µ(θ) = −1 ±√

1 − 2 + 2eiθ (θ ∈ [0, 2π])

gerade die Randpunkte ergeben. Die Gebiete der absoluten Stabilitat furexplizite Verfahren hoherer Ordnung werden großer als in den betrachtetenFallen, wobei die Bestimmung der Gebiete recht aufwendig ist. In der folgen-den Tabelle sind die reellen Stabilitatsintervalle, d.h. die Schnittmenge derGebiete der absoluten Stabilitat mit der Re(µ)-Achse, fur explizite r-stufige

57

r Stabilitatsintervall1 ] − 2, 0[2 ] − 2, 0[3 ] − 2, 51, 0[4 ] − 2, 78, 0[5 ] − 3, 21, 0[

Tabelle 1.1: Stabilitatsintervalle expliziter Runge-Kutta-Verfahren

Runge-Kutta-Verfahren angegeben.

Besonders komfortabel ist die Situation, wenn das Gebiet der absoluten Sta-biltat eines Verfahrens mindestens aus der gesamten linken Halbebene, d.h.B ⊇ µ ∈ C |Re(µ) < 0, besteht, also im Falle der A-Stabilitat. Dann gibtes keine Einschrankungen fur die Schrittweite.Unter den Einschrittverfahren sind die folgenden impliziten Runge-Kutta-Verfahren A-stabil.

k1 = f(tk + 12h, yk + 1

2hk1)

yk+1 = yk + hk1 ,(1.135)

k1 = f(tk + 3−√

36

h, yk + 14hk1 + 3−2

√3

12hk2)

k2 = f(tk + 3+√

36

h, yk + 3+2√

312

hk1 + 14hk2)

yk+1 = yk + h2[k1 + k2] .

(1.136)

Fur (1.135) erhalt man mit f = λy

k1 = λ(yk +1

2hk1) =⇒ k1 =

λ

1 − 12hλ

yk ,

yk+1 = yk + hk1 = yk +hλ

1 − 12hλ

yk =1 + 1

2hλ

1 − 12hλ

yk = F (hλ)yk .

Der Faktor F (hλ) ist fur λ mit negativem Realteil α = Re(λ) < 0 demBetrage nach kleiner als 1, denn es gilt fur negatives a offensichtlich

|1 + a + b i| < |1 − a − b i| . (1.137)

Fur das implizite Runge-Kutta-Verfahren 2. Ordnung (1.136) erhalt man aufahnliche Weise

F (hλ) =1 + 1

2hλ + 1

12h2λ2

1 − 12hλ + 1

12h2λ2

und stellt ebenso wie bei (1.135) die absolute Stabilitat fest, weil |F (hλ)| < 1aus (1.137) folgt.

58

Fur die Trapezmethode yk+1 = yk + h2(f(tk, yk) + f(tk+1, yk+1) erhalt man

den gleichen Faktor F (hλ) wie im Fall des Runge-Kutta-Verfahrens (1.135)so dass die absolute Stabilat folgt.


Bei den Mehrschrittverfahren (1.80) versteht man unter Stabilitat ebenfallsdie Verfahrenseigenschaft, dass im Fall Re(λ) < 0 die numerische Losung derTestaufgabe (1.131) das Abklingverhalten der analytischen Losung der Auf-gabe hat. Wir erhalten mit den Nullstellen z1, . . . , zm der charakteristischenGleichung φ(z) = ρ(z)−hλσ(z) des jeweiligen Verfahrens fur die Testaufgabeim Fall paarweise verschiedener Nullstellen

yk = c1zk1 + c2z

k2 + · · · + cmzk

m

als numerische Losung. yk klingt mit wachsendem k genau dann ab, wenn|zj| < 1 fur alle j gilt. Das fuhrt auf die

Definition 1.51. (Gebiet der absoluten Stabilitat eines Mehrschrittverfah-rens)Das Gebiet der absoluten Stabilitat eines Mehrschrittverfahrens (1.80)besteht aus den Zahlen µ = h λ, fur die die charakteristische Gleichungρ(z)−hλσ(z) = 0 nur Losungen zj ∈ C aus dem Inneren des Einheitskreiseshat.

Die Lokalisierung des Randes des Gebietes der absoluten Stabilitat ist durchdie Gleichung |z| = 1 moglich. Man bestimmt µ = hλ aus der charakteris-tischen Gleichung mit den Punkten des Einheitskreises z = eiθ, θ ∈ [0, 2π]und erhalt mit

µ(z(θ)) =ρ(z)

σ(z)=

ρ(eiθ)

σ(eiθ)

die Randpunkte. Fur das Adams-Bashforth-Verfahren (1.79) ergibt sich kon-kret

µ(z(θ)) =24z4 − 24z3

55z3 − 59z2 + 37z − 9=

24ei4θ − 24ei3θ

55ei3θ − 59ei2θ + 37eiθ − 9

als Randkurve, die in der Abb. 1.3 skizziert ist. Bei der Bestimmung der Ge-biete der absoluten Stabilitat zeigt sich, dass die Adams-Moulton-Methodengroßere Stabilatsbereiche als die Adams-Bashforth-Methoden haben. Fur das3-Schritt-AM-Verfahren (1.112) ergibt sich mit dem ersten und zweiten cha-rakteristischen Polynom

ρ(z) = z3 − z2 und σ(z) =9

24z3 +

19

24z2 − 5

24z +

1

24

59

−3 −2 −1 0 1

−2

−1

1

Adams−Bashforth− VerfahrenAdams−Moulton− Verfahren

Abbildung 1.3: Gebiete der absoluten Stabilitat von AB- und AM-Verfahren

der Rand des Gebietes der absoluten Stabilitat als

µ(z(θ)) =24z3 − 24z2

9z3 + 19z2 − 5z + 1=

24ei3θ − 24ei2θ

9ei3θ + 19ei2θ − 5eiθ + 1(θ ∈ [0, 2π]) ,

der in der Abb. 1.3 im Vergleich zum AB-Verfahren skizziert ist.

1.8.5 BDF-Verfahren

Mehrschritt-Verfahren (1.80), bei denen bis auf den Koeffizienten bm alleanderen b-Koeffizienten gleich null sind, also Verfahren der Form

m∑

j=0

ajyl+j = hbmf(tl+m, yl+m) , (1.138)

werden Ruckwartsdifferentiationsmethoden oder kurz BDF-Verfahren(backward differentiation formula) genannt. Die Idee dieser Verfahren be-steht darin, ausgehend von den Wertepaaren (tl, yl), . . . , (tl+m, yl+m) ein In-terpolationspolynom P zur Approximation von y(t) zu bestimmen, wobeiyl, . . . , yl+m− bekannte Werte sind, und durch P ′(tl+m) = f(tl+m, yl+m), alsodie Nutzung der Differentialgleichung, eine Gleichung zur Berechnung vonyl+m zu verwenden.

Definition 1.52. Fur m ≥ 1 erhalt man das m-schrittige BDF-Verfahren,indem man ausgehend von yl, . . . , yl+m fur das Interpolationspolynom

P ∈ Πm, P(tj) = yj, j = l, l + 1, . . . , l + m , (1.139)

die Erfullung der Bedingung

P ′(tl+m) = fl+m (= f(tl+m, yl+m)) (1.140)

fordert.

60

Bei der Konstruktion von BDF-Verfahren hilft der

Satz 1.53. Das m-schrittige BDF-Verfahren hat die Gestalt

m∑

k=1

1

k∇kyl+m = hfl+m, l = 0, 1, . . . , n − m . (1.141)

Beweis. Das Polynom P nach (1.139) hat wie fruher gezeigt die Darstellung

P(tl+m + sh) =m∑

k=0

(−1)k

(−s

k

)

∇kyl+m , s ∈ R, (1.142)

wobei yl+m als Parameter noch frei ist. Zur Anpassung an die Bedingung(1.140) wird (1.142) differenziert, man erhalt

P ′(tl+m) =1

h

d

dsP(tl+m + sh)|s=0 =

1

h

m∑

k=0

(−1)k d

ds

(−s

k

)

|s=0∇kyl+m ,

und wegen(−s

0

)= 1 und der Definition des verwendeten Binomialkoeffizien-

ten

d

ds

(−s

k

)

|s=0 =d

ds

(−s)(−s − 1) · · · (−s − k + 1)

k!|s=0 =

(−1) · · · (−k + 1)

k!

= (−1)k 1 · 2 · · · (k − 1)

k!=

(−1)k

k!.

Fur k ≥ 1 erhalt man die Aquivalenz von (1.141) und (1.139), (1.140).

Bemerkung 1.54. Das m-schrittige BDF-Verfahren (1.141) kann man auchauf eindeutige Weise in der Form

m∑

k=1

αm,jyl+m = hfl+m , l = 0, 1, . . . , n − m,

schreiben, wobei sich fur die von m abhangigen Koeffizienten αm,j

m∑

k=1

1

k∇kyl+m =

m∑

k=1

1

k

k∑

j=0

(−1)j

(k

j

)

yl+m−j =m∑

j=0

[(−1)j

m∑

k=maxj,1

1

k

(k

j

)

]

︸︷︷︸

=:αm,m−j

yl+m−j

ergibt.

61

Die einfachsten 2- und 3-Schritt-BDF-Verfahren 2. und 3. Ordnung habendie Form

3

2yk+1 − 2yk +

1

2yk−1 = hf(tk+1, yk+1) , (1.143)

11

6yk+1 − 3yk +

3

2yk−1 −

1

3yk−2 = hf(tk+1, yk+1) . (1.144)

Das einfachste BDF-Verfahren ist das so genannte Euler-ruckwarts-Verfahren

yk+1 − yk = hf(tk+1, yk+1) . (1.145)

Fur das Euler-ruckwarts-Verfahren findet man fur das Testproblem y′ = λyschnell mit der Beziehung

yk+1 =1

1 − hλyk = F (hλ)yk

heraus, dass |F (hλ)| < 1 fur Re(λ) < 0 ist. D.h., das Euler-ruckwarts-Verfahren ist absolut stabil. Das BDF-Verfahren (1.143) hat die charakte-ristische Gleichung

φ(z) =3

2z2 − 2z +

1

2− µz2 = 0 ⇐⇒ µ(z) =

3z2 − 4z + 1

2z2.

Fur die Punkte z = eiθ, θ ∈ [0, 2π] erhalt man die in der Abb. 1.4 skizzierteRandkurve µ(z(θ)) des Gebiets der absoluten Stabilitat. Da man z.B. fur µ =−1

2die Losung z1,2 = 1

2mit |z1,2| < 1 findet, kann man schlussfolgern, dass

der Bereich der absoluten Stabilitat im Außenbereich der Randkurve liegt.Damit ist das Verfahren (1.143) absolut stabil. Das Verfahren (1.144) ist nichtabsolut stabil, weil das Gebiet der absoluten Stabilitat nicht die gesamte linkekomplexe Halbebene enthalt. In der Abb. 1.4 ist der Rand des Gebietes derabsoluten Stabilitat des Verfahrens skizziert. Das Gebiet liegt wiederum imAußenbereich der Randkurve. In solchen Situationen kann man den Winkelα zwischen der reellen Achse und einer Tangente an die Randkurve durchden Ursprung legen. Bei dem BDF-Verfahren (1.144) ist der Winkel α = 88o,so dass das Verfahren A(88o)-stabil ist. A(90o)-Stabilitat bedeutet absoluteStabilitat. Liegt der Winkel α nahe bei 90o, dann liegt zwar kein absolutstabiles, jedoch ein ”sehr” stabiles Verfahren vor. Bei BDF-Verfahren hohererOrdnung wird der Winkel α kleiner, so dass die Stabilitat der BDF-Verfahrennachlasst, jedoch zumindest noch A(α)-stabil sind. Zur Illustration ist dasGebiet der absoluten Stabilitat des 4-Schritt-BDF-Verfahrens

25

12yk+1 − 4yk + 3yk−1 −

4

3yk−2 +

1

4yk−3 = hf(tk+1, yk+1) , (1.146)

62

−4 0 4 8

−8

−4

4

BDF−Verfahren

2.Ordnung3.Ordnung4.Ordnung

72°

Abbildung 1.4: Gebiete der absoluten Stabilitat der BDF-Verfahren (1.143),(1.144) und (1.146)

also die Kurve

µ(z(θ)) =2512

z4 − 4z3 + 3z2 − 43z + 1

4

z4=

2512

ei4θ − 4ei3θ + 3ei2θ − 43eiθ + 1

4

ei4θ,

θ ∈ [0, 2π], in der Abbildung 1.4 im Vergleich zu den Verfahren (1.143) und(1.144) skizziert. Das Verfahren (1.146) ist A(72o)-stabil.Zur Konvergenz von BDF-Verfahren notieren wir den

Satz 1.55. Das m-schrittige BDF-Verfahren ist genau fur 1 ≤ m ≤ 6 null-stabil. Fur hinreichend glatte Funktionen f besitzt es die Konvergenzordnungp = m.

1.9 Steife Differentialgleichungen

Differentialgleichungssysteme, die physikalische oder chemische Prozesse be-schreiben, haben oft Losungen, die sich aus sehr unterschiedlich schnell ab-klingenden Komponenten zusammensetzen. Das passiert dann, wenn Teilpro-zesse mit stark unterschiedlichen Geschwindigkeiten ablaufen. Man sprichthier auch von Teilprozessen mit sehr unterschiedlichen Zeitkonstanten.Als Beispiel soll hier das lineare Differentialgleichungssystem

y′1 = −y1 + 50y2

y′2 = −70y2

mit den Anfangswerten y1(0) = 1 und y2(0) = 10 betrachtet werden. AlsLosung findet man mit der Eigenwertmethode mit den Eigenwerten λ1 = −1,

63

λ2 = −70 und den dazugehorigen Eigenvektoren ~v1 = (1, 0)T bzw. ~v2 =(−50, 69)T unter Berucksichtigung der Anfangsbedingungen

y1(t) = 8, 24638e−t − 7, 2464e−70t , y2(x) = 10e−70t .

Um die am schnellsten abklingende Komponente mit einer Genauigkeit vonǫ = 10−4 durch ein numerisches Losungsverfahren zu erfassen, muss man dieSchrittweite h so wahlen, dass e−70h mit F (−70h)e0 = F (−70h) auf funfStellen ubereinstimmt. Bei dem Runge-Kutta-Verfahren 3. Ordnung (1.132)mit

F (λh) = 1 + hλ +1

2h2λ2 +

1

6h3λ3

bedeutet das aufgrund des Restglieds der Taylor-Reihenentwicklung der e-Reihe die Erfullung der Ungleichung

|e−70h − F (−70h)| ≤ 1

24(70h)4 ≤ 10−6 ,

was mit h = 0, 001 moglich ist. Nach 100 Schritten ist dieLosungskomponente mit der Abklingfunktion e−70t gegenuber der langsa-mer abklingenden Komponente e−t schon sehr klein geworden (e−70·0,1 =0, 00091188 < e−0,1 = 0, 90484). Deshalb kann man im weiteren Verlauf dernumerischen Integration die Schrittweite erhohen durch die Forderung derUbereinstimmung von e−h mit F (−h) auf funf Stellen. Die entsprechendeUngleichung

|e−h − F (−h)| ≤ 1

24h4 ≤ 10−6

wird mit h = 0, 069 erfullt. Da −70h = −4, 8995 < −2, 17 außerhalb des In-tervalls der absoluten Stabilitat des 3-stufigen Runge-Kutta-Verfahrens liegt(s. dazu Tab. 1.1), kann man die numerische Integration aber zumindest mitder Schrittweite h = −70

−2,17= 0, 031 stabil fortsetzen. Allerdings ist dieses

Beispiel mit S = |λ2/λ1| = 70 (s. dazu Def. 1.56) nicht sehr steif. Von steifenSystemen spricht man etwa ab S = 103.Das Beispiel zeigt in etwa die Problematik der Losung von Differential-gleichungen bzw. Systemen, mit denen Prozesse mit stark unterschiedli-chen abklingenden Teilprozessen beschrieben werden. Um uberhaupt etwasvon dem Abklingprozess mit der Konstanten λ2 = −70 im numerischenLosungsprozess wiederzuerkennen, darf man auf keinen Fall mit maxima-len Schrittweiten h gemaß Stabilitatsintervall des Verfahrens am Beginn derRechnung arbeiten. Die Schrittweiten mussen zum jeweils relevanten Ab-klingverhalten der Losung passen.

Der Begriff der Steifheit soll fur ein lineares Differentialgleichungssystem er-klart werden.

64

Definition 1.56. (Steifheit eines Differentialgleichungssystems)Das lineare Differentialgleichungssystem mit der Matrix A vom Typ n × n

~y ′(t) = A~y(t) +~b(t) (~y(t),~b ∈ Rn) (1.147)

heißt steif, falls die Eigenwerte λj (j = 1, . . . , n) von A sich sehr starkunterscheidende negative Realteile besitzen. Als Maß S der Steifheit des Dif-ferentialgleichungssystems (1.147) gilt der Quotient der Betrage der absolutgroßten und kleinsten Realteile der Eigenwerte

S =max1≤j≤n |Re(λj)|min1≤j≤n |Re(λj)|

. (1.148)

Das oben beschriebene Phanomen der Steifheit tritt sehr haufig bei nichtli-nearen Differentialgleichungssystemen

~y ′(t) = ~F (t, ~y(t)) (~y(t) ∈ Rn) (1.149)

auf und es entsteht das Problem, dass man die Abklingkonstanten nicht apriori kennt. Man kann aber versuchen, die Steifheit von (1.149) durch eineschrittweise Linearisierung zu analysieren. Ausgehend von einer bekanntenNaherung ~yk an der Stelle tk kann man den Ansatz ~y(t) = ~yk + ~z(t) furtk ≤ t ≤ tk +h fur eine kleine Schrittweite h und einen Anderungsvektor ~z(t)mit einer kleinen Lange machen. Aus (1.149) folgt dann

~y ′(t) = ~z ′(t) = ~F (t, ~y(t)) = ~F (tk +(t− tk), ~yk +~z(t)) (~z(t) ∈ Rn) . (1.150)

In Verallgemeinerung der Linearisierung einer Funktion zweier Veranderlicher

f(t + ∆t, y + ∆y) ≈ f(t, y) +∂f

∂t(t, y)∆t +

∂f

∂y(t, y)∆y

erhalt man fur (1.150) die Linearisierung

~z ′(t) ≈ ∂ ~F

∂t(tk, ~yk)(t − tk) + ~F ′(tk, ~yk)~z(t) , (1.151)

wobei

∂ ~F

∂t(tk, ~yk) =

∂f1

∂t(tk, ~yk)...

∂fn

∂t(tk, ~yk)

=: ~q, ~F ′(tk, ~yk) =

∂f1

∂y1

(tk, ~yk) . . . ∂f1

∂yn

(tk, ~yk)∂f2

∂y1

(tk, ~yk) . . . ∂f2

∂yn

(tk, ~yk)...

...∂fn

∂y1

(tk, ~yk) . . . ∂fn

∂yn

(tk, ~yk)

=: Ak

(1.152)

65

gilt. Mit dem Vektor ~b(t) = (t − tk)~q und der Matrix Ak nach (1.152) ist(1.151) ein lineares Differentialgleichungssystem der Form (1.147), also

~z ′(t) ≈ Ak~z(t) +~b(t) ,

fur das man die Steifheit durch Betrachtung der Eigenwerte von Ak ermittelnkann. In der Regel kann man somit im k-Integrationsschritt durch eine Ei-genwertbetrachtung der Matrix Ak Informationen fur die Wahl einer Schritt-weite h erhalten, die eine Berucksichtigung aller Losungskomponenten mitunterschiedlichem Abklingverhalten sichert.Bei der praktischen Anwendung dieser Methode stellt man fest, dass die Steif-heit eines Differentialgleichungssystems an unterschiedlichen Stellen tk vari-iert. Speziell bei der Beschreibung von chemischen Reaktionen durch nicht-lineare Differentialgleichungssysteme nimmt die Steifheit mit wachsendem toft ab. 10.

Vorle-sungam11.11.2009

Als Integrationsverfahren benotigt man Verfahren, die die Wahl großerSchrittweiten h ermoglicht. In Frage kommen hauptsachlich die absolutstabilen impliziten Runge-Kutta-Methoden und die A(α)-stabilen BDF-Methoden. Bei Verwendung anderer Methoden muss man bei der Schritt-weitenwahl immer die aufgrund eines endlichen Stabilitatsintervalls existie-rende untere Schranke fur hλ im Fall einer reellen Abklingkonstante λ < 0berucksichtigen.

Beispiel 1.57. In Schwarz[1997] wurde das Gleichungssystem

y′1 = −0, 1y1 + 100y2y3

y′2 = 0, 1y1 − 100y2y3 − 500y2

2 (1.153)

y′3 = 500y2

2 − 0, 5y3

zur Beschreibung der kinetischen Reaktion von drei chemischen SubstanzenY1, Y2, Y3 mit den Anfangsbedingungen y1(0) = 4, y2(0) = 2, y3(0) = 0, 5untersucht. Die Losungskomponenten y1(t), y2(t), y3(t) bedeuten dabei dieKonzentrationen der Substanzen zum Zeitpunkt t. Eine genauere Analyseder Eigenwerte der Jacobi-Matrizen ~F ′ der Linearisierung (1.151) ergab ab-nehmende Steifheiten im Laufe der Zeit.

Im Zusammenhang mit steifen Differentialgleichungen wurde mit der soge-nannten L-Stabilitat ein Stabilitatsbegriff eingefuhrt, der die absolute Sta-bilitat umfasst, aber speziell auf das Problem von Losungskomponenten mitstark unterschiedlichem Abklingverhalten ausgerichtet ist. Man betrachtetwiederum das Testproblem

y′ = λy , y(0) = 1, λ ∈ C .

66

Von einem L-stabilen Verfahren

yk+1 = F (hλ)yk

erwartet man, dass im Falle von Re(λ) < 0 auch fur beliebig große Schritt-weiten h

limk→∞

yk = 0

gilt, d.h. das qualitative Losungsverhalten der exakten Losung y(t) = eλt

auch fur große h durch das numerische Verfahren beschrieben wird. Fur li-neare Mehrschrittverfahren ergibt sich die

Definition 1.58. Ein lineares Mehrschrittverfahren heißt L-stabil, wenndie Wurzeln zj der charakteristischen Gleichung

ρ(z) − hλσ(z) = 0

auch fur hRe(λ) → −∞ die Eigenschaft |zj| < 1 haben.

Die A-stabile Trapezregel

yk+1 = yk +h

2[f(tk+1, yk+1) + f(tk, yk)]

ergibt fur die Testaufgabe

yk+1

yk

=1 + hλ

2

1 − hλ2

= F (hλ)

und man erhaltlim

hRe(λ)→−∞|yk+1

yk

| = 1 ,

und damit ist das Verfahren nicht L-stabil. Fur große Schrittweiten h undλ < 0, reell, ist der Faktor F (hλ) negativ, so dass das Vorzeichen von yk furwachsendes k alterniert, was auch nicht fur das Losungsverfahren spricht.Aus

yk+1

yk

=1

1 − hλ

folgt dagegen fur das implizite Euler-Verfahren die L-Stabilitat.

67

1.10 Weitere klassische lineare Mehrschritt-

verfahren

Geht man bei der Konstruktion von linearen Mehrschrittverfahren von derBeziehung

y′ = f(t, y) ⇐⇒ y(tl+m)−y(tl+m−2) =

∫ tl+m

tl+m−2

f(t, y(t)) dt , l = 0, 1, . . . , n−m ,

(1.154)aus so kann man mit dem Ansatz

yl+m − yl+m−2 =

∫ tl+m

tl+m−2

P(t) dt , (1.155)

durch eine geeignete Wahl des Polynoms P die Nystrom- bzw. Milne-Simpson-Verfahren konstruieren.

Definition 1.59. Fur m ≥ 1 erhalt man das m-schrittige Nystrom-


P ∈ Πm−1, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m − 1 . (1.156)

Das Nystrom-Verfahren ist damit ein explizites Mehrschrittverfahren. Bei-spiele von Nystrom-Verfahren sind

m = 2 : yl+2 = yl + 2hfl+1 , (1.157)

m = 3 : yl+3 = yl+1 +h

3[7fl+2 − 2fl+1 + fl] , (1.158)

m = 4 : yl+4 = yl+2 +h

3[8fl+3 − 5fl+2 + 4fl+1 − fl] . (1.159)

Es ist offensichtlich, dass die Nystrom-Verfahren nullstabil sind. Es giltdaruberhinaus der

Satz 1.60. Das m-schrittige Nystrom-Verfahren ist nullstabil. Fur genugendglatte Funktionen f hat es die Konsistenzordnung p = m.

Approximiert man die ”rechte” Seite von (1.154) genauer, dann erhalt mandas Milne-Simpson-Verfahren.

Definition 1.61. Fur m ≥ 1 erhalt man das m-schrittige Milne-Simpson-


P ∈ Πm, P(tj) = fj(:= f(tj, yj)), j = l, l + 1, . . . , l + m . (1.160)

68

Die Bedingung (1.160) bedeutet, dass das Milne-Simpson-Verfahren ein im-plizites lineares Mehrschrittverfahren ist. Der damit erhohte Berechnungs-aufwand fur yl+m wirkt sich positiv auf die Konsistenzordnung aus. Es giltder

Satz 1.62. Das m-schrittige Milne-Simpson-Verfahren ist nullstabil. Furgenugend glatte Funktionen f gilt bezuglich der Konsistenzordnung:

• Fur m = 2, also ein zweischrittiges Milne-Simpson-Verfahren, erhaltman die Konsistenzordnung p = 4.

• Fur m ≥ 4 besitzt das m-schrittige Milne-Simpson-Verfahren die Kon-sistenzordnung p = m + 1.

Beispiele von Milne-Simpson-Verfahren sind

m = 2 : yl+2 = yl +h

3[fl+2 + 4fl+1 + fl] ,

m = 4 : yl+4 = yl+2 +h

90[29fl+4 + 124fl+3 + 24fl+2 + 4fl+1 − fl] .

Das zweischrittige Verfahren heißt auch Verfahren von Milne und entsprichtder Simpson- bzw. Keplersche Fassregel der numerischen Integration.Die Bestimmung der Bereiche der absoluten Stabilitat der angegebenenNystrom bzw. Milne-Simpson-Verfahren sei ebenso wie der Nachweis der re-sultierenden Konsistenzordnungen (durch Taylorapproximationen) als Ubungempfohlen.

69

Kapitel 2

Zweipunkt-Randwertaufgaben

11.Vorle-sungam17.11.2009

Wir setzen in den folgenden drei Kapiteln die Einfuhrung in die numerischeBehandlung gewohnlicher Differentialgleichungen mit Randwertaufgaben 2.Ordnung fort. Dabei sucht man die Losung einer Differentialgleichung zweiterOrdnung. Deren eindeutige Festlegung erfolgt durch Randbedingungen, d.h.Bedingungen an die Losung am Randes des betrachteten Losungsintervalls.

2.1 Theoretische Grundlagen

2.1.1 Einfuhrendes Beispiel und Definitionen

Beispiel 2.1. Wir betrachten einen isothermen Stromungsreaktor mit konti-nuierlicher Zufuhr bzw. Abfuhr der Reaktionsmasse bzw. des Reaktionspro-duktes. Die Konzentrationsverteilung C(x1, x2, x3, t) im Reaktor ergibt sichaus der Stoffbilanzgleichung

∂c

∂t= −

3∑

i=1

∂

∂xi

(wic) +3∑

i=1

∂

∂xi

(D∂c

∂xi

) + r(c) .

Dabei sind w = (wi)i=1,2,3 das Geschwindigkeitsfeld der Stromung im Re-aktor, D der Diffusionskoeffizient und r(c) der Reaktionsterm. Zur Verein-fachung nehmen wir einen stationaren Reaktorbetrieb, d.h. ∂c

∂t= 0, einen

konstanten Diffusionskoeffizienten D und ein konstantes Geschwindigkeits-feld w = (w, 0, 0) an. Ferner sollen Anderungen der Konzentration c nur inaxialer Richtung x des rotationssymmetrischen Reaktors betrachtet werden.Dann vereinfacht sich die Stoffbilanzgleichung zur gewohnlichen Differential-gleichung 2. Ordnung

−Dd2c

dx2+ w

dc

dx+ r(c) = 0, 0 < x < L .

70

Durch Entdimensionierung mittels ξ := xL, u = c

c0mit der Anfangskonzen-

tration c0 erhalten wir mit der Peclet-Zahl P := wLD

− 1

P

d2u

dξ2+

du

dξ+ R(u) = 0 , 0 < ξ < 1 .

Die Losung kann vereinfachend durch die Randbedingungen

u(0) − 1

P

du

dξ|ξ=0 = 1 ,

du

dξ|ξ=1 = 0

festgelegt werden.

Wir geben nachfolgend eine Klassifikation gewohnlicher Differentialgleichun-gen 2. Ordnung

F (x, u(x), u′(x), u′′(x)) = 0. (2.1)

Definition 2.2. Eine Differentialgleichung 2. Ordnung heißt quasilinear,falls

F (x, u, u′, u′′) := −u′′ + B(x, u)u′ + C(x, u) = 0,

semilinear , falls

F (x, u, u′, u′′) := −u′′ + b(x)u′ + C(x, u) = 0,

bzw. linear, falls

F (x, u, u′, u′′) := −u′′ + b(x)u′ + c(x)u − f(x) = 0.

Offenbar ist die im Beispiel 2.1 betrachtete Gleichung semilinear. Die Rand-bedingungen sind im allgemeinen Fall

Gi(a, b, u(a), u(b), u′(a), u′(b)) = 0, i = 1, 2

nicht linear und gekoppelt. In Anwendungen ist es oft ausreichend, Randbe-dingungen in linearer und entkoppelter Form zu betrachten. Dies vereinfachtauch die Untersuchung entsprechender Randwertprobleme (RWP) erheblich.

Definition 2.3. Lineare und entkoppelte Randbedingungen der Form

u(a) = α, u(b) = β (2.2)

u′(a) = α, u′(b) = β (2.3)

c1u(a) + u′(a) = α, c2u(b) + u′(b) = β (2.4)

heißen Randbedingungen 1. Art (oder vom DIRICHLET-Typ), 2. Art

(oder vom NEUMANN-Typ) bzw. 3. Art (oder vom ROBIN-Typ).

71

Man spricht von gemischten Randbedingungen, wenn auf x = a und x = bunterschiedliche Typen von Randbedingungen gestellt werden. Dies trifft inBeispiel 2.1 zu. Bei den weiteren Betrachtungen werden wir in der Regelvereinfachend lineare RWP 1. Art, d.h.

(Lu)(x) := −u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), a < x < b, (2.5)

u(a) = α, u(b) = β , (2.6)

betrachten. Mittels

u(x) = v(x) + αx − b

a − b+ β

x − a

b − a

kann man die Untersuchung auf den Fall homogener Randbedingungen, d.h.α = β = 0 zuruckfuhren. Uber x = (b − a)ξ transformiert man das RWPauch oft auf das Einheitsintervall, d.h.

(Lu)(x) := −u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1 (2.7)

u(0) = u(1) = 0 . (2.8)

2.1.2 Losbarkeit des 1. RWP im symmetrischen Fall

Das nachfolgendes Beispiel zeigt, dass RWP 2. Ordnung nicht in jedem Falllosbar oder eindeutig losbar sind.

Beispiel 2.4. Die allgemeine Losung der Schwingungsgleichung

−u′′(x) − u(x) = 0, 0 < x < b

hat die Form u(x) = cl cos x + c2 sin x. Die beiden Konstanten sind so zubestimmen, dass jeweils die folgenden Randbedingungen u(0) = α, u(b) = βerfullt werden. Daraus ergibt sich das lineare System

cos(0) c1 + sin(0) c2 = α,

cos(b) c1 + sin(b) c2 = β .

Im Ergebnis der Losungstheorie linearer Gleichungssysteme zeigt sich, dassdas entstehende System in Abhangigkeit von b sowie α und β entweder eineeindeutige, keine oder unendlich viele Losungen hat.

Wir betrachten noch einen wichtigen Spezialfall, in dem die Losung in Inte-gralform angebbar ist. Die mehrdimensionale Verallgemeinerung ist das furAnwendungen wichtige POISSON-Problem.

72

Lemma 2.5. Die Funktion

u(x) =

∫ 1

0

G(x, t)f(t) dt, x ∈ [0, 1]

mit der sogenannten Greenschen Funktion

G(x, t) :=

t(1 − x), 0 ≤ t ≤ x ≤ 1,x(1 − t), 0 ≤ x ≤ t ≤ 1

lost das 1. RWP der POISSON-Gleichung

−u′′(x) = f(x), x ∈ (0, 1); u(0) = u(1) = 0.

Zur Klarung der Losbarkeit des RWP (2.7), (2.8) betrachten wir hier zunachstden allgemeinen symmetrischen Fall mit b(x) = 0. Hier gilt der

Satz 2.6. Gelte c, f ∈ C[0, 1] sowie b(x) = 0, c(x) ≥ 0 in [0, 1]. Dannexistiert eine und nur eine Losung u ∈ C2[0, 1] des RWP (2.7), (2.8).

Beweis. (i) Eindeutigkeit: Wir nehmen an, u1, u2 sind Losungen des RWP(2.7), (2.8). Dann genugt u := u1 − u2 dem homogenen RWP

−u′′ + cu = 0, 0 < x < 1; u(0) = u(1) = 0.

Multiplikation der Differentialgleichung mit u, Integration uber [0, 1] undpartielle Integration des Integralterms mit u′′u fuhrt unter Beachtung derRandbedingungen auf

0 =

∫ 1

0

(−u′′ + cu)u dx =

∫ 1

0

[(u′)2 + cu2] dx.

Wegen c ≥ 0 und u ∈ C[0, 1] folgt daraus u(x) = 0 in [0, 1] und damit dieEindeutigkeit der Losung von (2.7), (2.8).(ii) Existenz: Die allgemeine Losung des RWP (2.7), (2.8) hat die Gestalt

u(x) = α1u1(x) + α2u2(x) + up(x) .

Dabei bilden ul, u2 ein Fundamentalsystem aus zwei linear unabhangigenLosungen der homogenen Differentialgleichung (d.h. mit f(x) = 0). up ist eine(beliebige partikulare) Losung der Gleichung (2.7). Die Aussage lasst sich mitHilfe des Satzes von PICARD-LINDELOF zeigen, der im Zusammenhang mitder Losbarkeit von Anfangswertproblemen behandelt wurde. Zur Erfullungder Randbedingungen entsteht das lineare Gleichungssystem

ul(0)α1 + u2(0)α2 = α − up(0)

ul(1)α1 + u2(1)α2 = β − up(1)

73

fur die Koeffizienten α1 und α2. Dieses System ist eindeutig losbar. Sindnamlich αi, i = 1, 2 Losung des zugehorigen homogenen Systems, ware u =αlul + α2u2 Losung des entsprechenden homogenen RWP und damit u = 0nach Teil (i). Wegen der linearen Unabhangigkeit von u1, u2 impliziert diesα1 = α2 = 0.

Bemerkung 2.7. Die Existenz- und Eindeutigkeitsaussage von Satz 2.6 lasstsich unter Verwendung Greenscher Funktionen ausdehnen auch auf den se-milinearen Fall

−u′′(x) = g(x, u(x)), x ∈ (0, 1), u(0) = u(1) = 0.

2.1.3 Maximum-Prinzip fur lineare RWP

Wir betrachten nun das (eventuell nichtsymmetrische ) RWP

(Lu)(x) := −u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1 (2.9)

u(0) = α, u(1) = β. (2.10)

Zunachst gelingt eine Transformation auf den symmetrischen Fall mittels

u(x) = v(x) exp(1

2

∫ x

0

b(t)dt).

Nach kurzer Rechnung erhalt man fur v das RWP

(Lv)(x) := −v′′(x) + c(x)v(x) = f(x), 0 < x < 1; v(0) = α, v(1) = β

mit

c(x) := c(x) +1

4b2(x) − 1

2b′(x), f(x) := f(x) exp(−1

2

∫ x

0

b(t)dt)

und entsprechend modifizierten Randwerten α, β. Unter der Voraussetzungc(x) ≥ 0, x ∈ [0, 1] erhalt man sofort nach Satz 2.6 Existenz und Eindeutig-keit der Losung des RWP (2.9), (2.10), sofern b ∈ C[0, 1] gilt. Allgemeinergilt der folgende

Satz 2.8. (i) Hat das (2.9), (2.10) zugeordnete homogene RWP (d.h. f(x) =0, α = β = 0) nur die triviale Losung, so hat das RWP (2.9), (2.10) eineund nur eine Losung in

X := v ∈ C2[0, 1] : v(0) = α, v(1) = β.

(ii) Ist c(x) ≥ 0, so hat das (2.9), (2.10) zugeordnete homogene RWP nurdie triviale Losung.

74

Wir beweisen hier nur das Resultat (ii) des Satzes mittels des wichtigenMaximum-Minimum Prinzips.

Lemma 2.9. Gelte b, c ∈ C[0, 1] sowie c(x) ≥ 0. Dann gelten fur u ∈C[0, 1] ∩ C2(0, 1) die Aussagen:

(i) (Lu)(x) ≤ 0 in (0, 1) =⇒ u(x) ≤ max0; u(0), u(1)(ii) (Lu)(x) ≥ 0 in (0, 1) =⇒ u(x) ≥ min0; u(0), u(1).Beweis. (1) Fur den Differentialoperator Lu := −u′′ + bu′, d.h. c = 0, bewei-sen wir zuerst die Aussagen

(i’) (Lu)(x) ≤ 0 in (0, 1) =⇒ u(x) ≤ maxu(0), u(1)(ii’) (Lu)(x) ≥ 0 in (0, 1) =⇒ u(x) ≥ minu(0), u(1).Wir beschranken uns beim Nachweis auf (i’).

(i′1) Sei (Lu)(x) < 0 in (0, 1). Wir nehmen an, dass u ein Maximum inx0 ∈ (0, 1) annimmt. Wegen u′(x0) = 0 folgt

(Lu)(x0) = −u′′(x0) < 0

im Widerspruch zur Bedingung u′′(x0) < 0 fur ein Maximum.(i′2) Sei nun (Lu)(x) ≤ 0 in (0, 1). Fur die Hilfsfunktion v(x) := δ eλx mitδ > 0 gilt

(Lv)(x) = λ(b − λ)δ eλx < 0

fur geeignetes λ. Wegen L(u + v)(x) < 0 ergibt (i′1)

(u + v)(x) ≤ max(u + v)(0), (u + v)(1).

Im Grenzfall δ → 0 folgt die gesuchte Aussage (i’).

(2) Sei jetzt c(x) ≥ 0 in (0, 1). Die Punktmenge

G+ := x ∈ (0, 1) : u(x) > 0

ist wegen u ∈ C[0, 1] offen. Ferner ist

(Lu)(x) ≤ −c(x)u(x) ≤ 0 auf G+.

Anwendung von (1) auf jeder Zusammenhangskomponente Gi von G+ zeigt

u(x) ≤ maxx∈∂Gi

u(x), f.a. x ∈ G+ .

Dabei ist ∂Gi der Rand von Gi. Nach Definition von G+ impliziert das diegewunschte Aussage

u(x) ≤ max0, u(0), u(1) .

(3) Die Minimumaussage (ii) wird analog bewiesen.

75

Als Folgerung beweisen wir folgendes Resultat uber die Stabilitat der Losungbezuglich der Problemdaten f, α, β.

Satz 2.10. Seien b, c ∈ C[0, 1] und c(x) ≥ 0. Fur Losungen u ∈ C2(0, 1) ∩C[0, 1] des RWP

Lu(x) = f(x), x ∈ (0, 1); u(0) = α, u(l) = β

gilt||u||C[0,1] ≤ C||f ||C[0,1] + maxu(0), u(1) .

Beweis. Fur die Hilfsfunktion

v(x) := A − B eλx , A,B > 0

mit hinreichend großer Konstante λ > 0 gilt

Lv(x) = −B eλxc(x) + b(x)λ − λ2 + c(x)A

≥ B eλxλ2 − λb(x) − c(x) ≥ B .

Mit B := ||f ||C[0,1] folgert man daraus

L(v ± u)(x) ≥ B ± f(x) ≥ B − ||f ||C[0,1] = 0 .

Ferner gilt fur die Randwerte x = 0 und x = 1

(v ± u)(x) = A − B eλx ± u(x) ≥ A − B eλ − maxu(0), u(1) = 0 ,

sofern A := maxu(0), u(1)+B eλ. Wegen L(v±u) ≥ 0 in (0, 1) und v±u ≥ 0fur die Randpunkte x = 0 und x = 1 erhalten wir nach Lemma 2.9 (ii)

(v ± u)(x) ≥ 0 ,

d.h. ±u(x) ≤ v(x) und damit

|u(x)| ≤ v(x) ≤ A − B

≤ maxu(0), u(1) + B(eλ − 1)

≤ maxu(0), u(1) + (eλ − 1)||f ||C[0,1] ,

also die Behauptung des Satzes.

Korollar 2.11. Die Aussage des Satzes 2.10 impliziert nun die Eindeutigkeitder Losung, d.h. die Aussage von Satz 2.8 (ii).Nach Aussage (i) des Satzes 2.8 ergibt sich daraus auch eine Existenzaussagefur das RWP (2.9), (2.10).

76

2.2 Finite- Differenzen- Verfahren12.Vorle-sungam18.11.2009

Im vorliegenden Kapitel besprechen wir das klassische Finite Differenzen Ver-fahren (FDM) zur Losung von Zweipunkt-Randwertaufgaben. Bei der Finite-Differenzen Methode ersetzt man Ableitungen in der Differentialgleichungdurch Differenzenquotienten. Dies fuhrt dann zu einem linearen Gleichungs-system fur Naherungswerte uh, an die gesuchten Werte u der Losung in vor-gegebenen Knotenpunkten.

2.2.1 Definition der klassischen FDM

Ausgangspunkt ist das lineare Randwertproblem (RWP)

− u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1, (2.11)

u(0) = u(1) = 0 . (2.12)

Wir betrachten vereinfachend eine aquidistante Zerlegung Ωh = xi = ih, i =0, ..., n+1 mit der Schrittweite h = 1

n+1, n ∈ N. Zur Approximation der ers-

ten Ableitung u′(xi) betrachten wir drei Varianten, die auf dem sogenanntenDreipunktestern xi−1, xi, xi+1 basieren.

• Vorwartsdifferenzenquotient: D+u(xi) := u(xi+1)−u(xi)h

• Ruckwartsdifferenzen-Quotient: D−u(xi) = u(xi)−u(xi−1)h

• Zentraler Differenzen-Quotient: D0u(xi) = u(xi+1)−u(xi−1)2h

.

Zur Approximation von u′′(xi) nutzen wir den zentralen Differenzenquotien-ten 2. Ordnung

D+D−u(xi) :=u(xi+1) − 2u(xi) + u(xi−1)

h2.

Fur die Naherungswerte uh(xi) an die gesuchten Losungswerte u(xi) in denKnotenpunkten xi erhalten wir bei Approximation der ersten und zweitenAbleitungen in der Differentialgleichung (2.11) durch die zentralen Differen-zenquotienten 1. bzw. 2. Ordnung das System

−uh(xi+1) − 2uh(xi) + uh(xi−1)

h2+b(xi)

uh(xi+1) − uh(xi−1)

2h+c(xi)uh(xi) = f(xi) .

Mit der Notation

ui = uh(xi), bi := b(xi), ci := c(xi), fi := f(xi)

77

erhalten wir das System von Differenzengleichungen

1

h2[−(1 +

bih

2)ui−1 + (2 + cih

2)ui − (1 − bih

2)ui+1] = fi, i = 1, ..., n . (2.13)

Hinzu kommen wegen der Randbedingungen (2.12) die Forderungen

u0 = un+1 = 0. (2.14)

Mit den Bezeichnungen

A :=1

h2tridiag−(1 +

bih

2); (2 + cih

2);−(1 − bih

2)

und U = (u1, ..., un)T , F = (f1, ..., fn)T ergibt sich aus (2.13),(2.14) daslineare Gleichungssystem

AU = F . (2.15)

Bemerkung 2.12. Im Fall inhomogener Randbedingungen 1. Art u(0) =α, u(1) = β setzt man u0 = α, un+1 = β und bringt die entsprechendenMatrixeintrage 1

h2 (1 + b1h2

)α fur i = 1 und 1h2 (1 − b1h

2)β fur i = n auf die

rechte Seite. Die Diskretisierung von Randbedingungen 2. und 3. Art werdenin den Ubungen behandelt.

Von Interesse sind nun folgende Fragen:

• Losbarkeit des diskreten Problems (2.15).

• Konvergenz der Losung von (2.15) fur h → 0 gegen die Losung desZweipunkt-RWP (2.11), (2.12).

2.2.2 Losung des diskreten Problems

Eine hinreichende Losbarkeitsbedingung fur das diskrete Problem (2.15) gibt

Satz 2.13. Fur das Problem (2.11), (2.12) gelte

ci = c(xi) ≥ 0, |bih

2| ≤ 1, i = 1, ..., n. (2.16)

Dann hat das zugehorige klassische Finite-Differenzen Schema (2.13), (2.14)bzw. (2.15) eine und nur eine Losung U = (u1, . . . , un)T .

Bemerkung 2.14. Fur bi 6= 0 ergibt Bedingung (2.16) eine Schrittweiten-beschrankung h ≤ h0. Darauf wird spater nochmal eingegangen.

78

Beweis. (von Satz 2.13) Die Matrix A ist unter Voraussetzung (2.16) schwachdiagonal-dominant, denn es ist

|aii| := |2 + cih2| ≥

n∑

j=1,j 6=i

|aij| := |1 +bih

2| + |1 − bih

2| = 2 , i = 1, ..., n .

Außerdem ist A irreduzibel. Die schwache Diagonaldominanz und die Irredu-zibilitat von A ergeben die Invertierbarkeit von A und damit die eindeutigeLosbarkeit des Systems (2.15).

Unter den Voraussetzungen von Satz 2.13 ist das diskrete Problem durch dieeinfachsten iterativen Verfahren (wie Gesamt- und Einzelschritt Verfahren,SOR) losbar. Ein derartiger Zugang ist auch beim allgemeineren Problem vonRandwertaufgaben bei partiellen Differentialgleichungen fur die dort entste-henden sehr großen und schwachbesetzten linearen Gleichungssysteme erfor-derlich. Aufgrund der sehr speziellen Tridiagonalstruktur der Matrix A er-weist sich aber hier die direkte Losung mittels LU -Zerlegung als wesentlichefffizienter. Wir betrachten dazu allgemeiner Tridiagonalmatrizen

A = tridiag(bi, ai, ci) ∈ Rn×n , b1 = cn = 0 .

Fur die LU -Zerlegung setzen wir an

A = LU , L = tridiag(bi, αi, 0) ∈ Rn×n, U = tridiag(0, 1, γi) ∈ R

n×n .

Ausmultiplizieren auf der Hauptdiagonalen ergibt die Beziehungen

a1 = α1 , ai = αi + biγi−1 , i = 2, . . . , n ,

auf der oberen Nebendiagonalen entsteht

ci = γiαi, i = 1, ..., n − 1 .

Dies ermoglicht eine rekursive Berechnung der Großen αi und γi uber

α1 = a1, γi−1 =ci−1

αi−1

, αi = ai − biγi−1, i = 2, ..., n .

Die Realisierbarkeit dieses Verfahrens ist bei αi 6= 0, i = 1, ..., n gesichert, wasetwas spater noch gezeigt wird. Wir erhalten damit den folgenden THOMAS-Algorithmus oder Methode des Vertreibens genannt:

1. LU -Zerlegung von A, d.h. Bestimmung von αi, γi

79

2. Lose das gestaffelte System Lz = F durch Vorwartseinsetzen

z1 =f1

α1

, zi =1

αi

(fi − bizi−1), i = 2, . . . , n

3. Lose das gestaffelte System UU = z durch Ruckwartseinsetzen

un = zn, ui = zi − γiui+1, i = n − 1, ..., 1 .

Eine hinreichende Losbarkeitsbedingung liefert das

Lemma 2.15. Fur die Matrix A = tridiag(bi, ai, ci) ∈ Rn×n gelte

|a1| > |c1| > 0 , |an| > |bn| > 0 ,

|ai| > |bi| + |ci| > 0 , bici 6= 0 , i = 2, . . . , n − 1 . (2.17)

Dann ist die Matrix A nichtsingular und fur die Koeffizienten der LU-Zerlegung gilt

|γi| < 1 , i = 1, ..., n − 1 , αi 6= 0 , i = 1, . . . , n .

Beweis sei als Ubung empfohlen.

Bemerkung 2.16. Fur den THOMAS-Algorithmus benotigt man O(n) we-sentliche Operationen, d.h. der Rechenaufwand ist asymptotisch fur n → ∞optimal.

2.2.3 Stabilitats- und Konvergenzanalyse

Wir fuhren hier die fur die Fehleranalyse des Verfahrens wesentlichen Begriffeein. Sie sind so allgemein gehalten, dass sich die Analyse auf allgemeinereDiskretisierungsverfahren fur Randwertaufgaben ubertragen lasst.Seien Ωh := x1, ..., xn die inneren Knotenpunkte im Intervall (0, 1) undΓh := Ωh \Ωh = x0, xn die Randpunkte. Rhv bezeichne die Einschrankungvon v ∈ C[0, 1] auf Ωh und L den Differentialoperator des Randwertpro-blems. u bzw. uh sind die Losung des Randwertproblems bzw. des diskretenProblems. Dann gilt fur den Diskretisierungsfehler Rhu − uh

A(Rhu − uh) = ARhu − Auh = ARhu − F = ARhu − RhLu ,

wobei der letzte Term auch als Defekt bezeichnet wird.Zur Fehlerabschatzung sind nun sowohl eine Abschatzung des Defekts nachoben (Konsistenzanalyse) als auch eine Abschatzung des links stehenden

80

Terms (Stabilitatsanalyse) in einer geeigneten Norm erforderlich. Bei unserenUntersuchungen verwenden wir die folgende (diskrete) Maximum-Norm

||vh||∞,Ωh:= max

i=1,...,n|vi| fur vh = (v1, . . . , vn)T .

Dies fuhrt auf die

Definition 2.17. (i) Eine FDM heißt konsistent in der Maximum-Norm,falls

limh→0

||ARhu − RhLu||∞,Ωh= 0 .

(ii) Die FDM hat die Konsistenzordnung p, falls mit einer von h un-abhangigen Konstanten Ck > 0 gilt

||ARhu − RhLu||∞,Ωh≤ Ckh

p .

Der Konsistenzbegriff beschreibt, wie gut der Differentialoperator durch dasDifferenzenverfahren approximiert wird. Konsistenz liegt demnach immerdann vor, wenn p > 0 ist.

Definition 2.18. Eine FDM heißt stabil in der Maximum-Norm, falls furden Vektor W aus

AW = F in Ωh , W |Γh= 0

die Existenz einer von h unabhangigen Konstanten CS folgt mit

||W ||∞,Ωh= ||A−1F ||∞,Ωh

≤ CS||F ||∞,Ωh.

Definition 2.19. (i) Eine FDM heißt konvergent in der Maximum-Norm,falls

limh→0

||Rhu − uh||∞,Ωh= 0 .

(ii) Die FDM hat die Konvergenzordnung p, falls mit einer von h un-abhangigen Konstanten M > 0 gilt

||Rhu − uh||∞,Ωh≤ Mhp .

Wir beginnen mit der Analyse des Konsistenzfehlers:

Die Abschatzung des Konsistenzfehlers der klassischen FDM (2.13), (2.14)fur das Zweipunkt-RWP (2.11), (2.12) erfolgt mittels des Taylorschen Satzes.Zunachst betrachten wir die Genauigkeit der Approximation der auftretendenAbleitungen durch zentrale Differenzenquotienten.

81

Lemma 2.20. Es gilt

(i) (D0u)(x) = u′(x) + h2R, |R| ≤ 1

6||u(3)||C[0,1], falls u ∈ C3[0, 1]

bzw.

(ii) (D+D−u)(x) = u′′(x)+h2R, |R| ≤ 1

12||u(4)||C[0,1], falls u ∈ C4[0, 1] .

Beweis. Aus der Taylor-Entwicklung an der Stelle x folgt

u(x ± h) = u(x) ± hu′(x) + h2u′′(x)

2± R±

3

u(x ± h) = u(x) ± hu′(x) + h2u′′(x)

2± h3u(3)(x)

6+ R±

4

mit den Restgliedern R±3 = O(h3) und R±

4 = O(h4) (z.B. in der Lagrange-Form). Die Aussage (i) erhalt man durch die Kombination der Entwicklungen

(D0u)(x) =u(x + h) − u(x − h)

2h= u′(x) + (R+

3 − R−3 )/h = u′(x) + O(h2) .

Die Aussage (ii) wird analog bewiesen.

Damit finden wir

Lemma 2.21. Unter der Voraussetzung u ∈ C4[0, 1] an die Losung des RWP(2.11), (2.12) hat die FDM (2.13), (2.14) die Konsistenzordnung 2.

Beweis. Aus (2.13), (2.14) bzw. (2.11), (2.12) haben wir unter Beachtungder eingefuhrten Bezeichnungen

(ARhu − RhLu)(xi) = (−D+D−u(xi) + biD0u(xi) + ciu(xi))

−(−u′′(xi) + biu′(xi) + ciu(xi)) .

Lemma 2.20 ergibt daraus

|(ARhu−RhLu)(xi)| ≤1

12h2||u(4)||C[0,1] +

1

6h2||b||C[0,1]||u(3)||C[0,1] , xi ∈ Ωh .

Maximumbildung uber alle Gitterpunkte xi liefert die Behauptung.

Bemerkung 2.22. Die Glattheits-Voraussetzung an die Losung u des RWPist in der Regel nicht realistisch. Eine sorgfaltige Abschatzung zeigt

||ARhu − RhLu||∞,Ωh≤

Chα, u ∈ C2;α[0, 1]Ch1+α, u ∈ C3;α[0, 1]

mit 0 ≤ α ≤ 1 und den Holder-Raumen

Ck;α[0, 1] :=

v ∈ Ck[0, 1] : supx,y∈(0,1);x 6=y

|v(k)(x) − v(k)(y)||x − y|α < ∞

.

82

Wir kommen nun zur Stabilitatsanalyse der klassischen FDM:

Die oben angegebene Stabilitatsdefinition ist aquivalent zu

||A−1||∞ ≤ CS mit ||B||∞ := maxi=1,...,n

n∑

j=1

|bij|

(Zeilensummennorm von B). 13.Vorle-sungam24.11.2009

Bei den weiteren Untersuchungen nutzen wir die Halbordnungsrelation x ≥0 fur Vektoren x, falls komponentenweise gilt xi ≥ 0. Entsprechend giltx ≥ y, falls x − y ≥ 0 gilt. Ferner schreiben wir fur Matrizen A ≥ 0, fallskomponentenweise gilt aij ≥ 0.

Definition 2.23. Eine Matrix A heißt inversmonoton, falls aus der Hal-bordnungsrelation Ax ≤ Ay auch x ≤ y folgt.

Zur Inversmonotonie von A ist die Existenz von A−1 mit A−1 ≥ 0 aquivalent.

Lemma 2.24. Unter den Voraussetzungen von Satz 2.13 ist A inversmono-ton, d.h. A−1 ≥ 0.

Beweis. Wir betrachten die iterative Losung des linearen GleichungssystemsAz = r mit dem Gesamtschritt- oder Jacobi-Verfahren. Aus der ZerlegungA = AD + AL + AR mit der Diagonalmatrix AD und den strikten unterenbzw. oberen Dreiecksmatrizen AL und AR ergibt sich die Iteration

zk+1 = −A−1D (AL + AB)zk + A−1

D r, k = 0, 1, . . . . (2.18)

Das Jacobi-Verfahren konvergiert unter den Voraussetzungen des Satzes 2.13,denn dann ist die Matrix A sowohl schwach diagonaldominant als auch unzer-legbar (außerdem gilt akk > 0 und ajk ≤ 0, j 6= k). Man vergleiche hierzu dieErgebnisse aus dem Kurs ”Einfuhrung in die Numerische Mathematik”. Furdie Spalten der inversen Matrix A−1 = (a1, ..., an) gilt Aai = ei, i = 1, ..., nmit den kartesischen Einheitsvektoren ei. Damit entsteht ai als Grenzelementder Iteration (2.18) mit r = ei und dem Startvektor z0 = 0. Nach den Vor-aussetzungen von Satz 2.13 sind die Elemente von A−1

D und −A−1D (AL + AR)

nichtnegativ. Daraus folgt die Aussage A−1 ≥ 0.

Nun besteht das Ziel darin, die Stabilitatskonstante CS abzuschatzen. Wirnutzen dazu das

Lemma 2.25. (M-Kriterium)Sei A ∈ R

n×n L0-Matrix, d.h. gelte akj ≤ 0 fur k 6= j. Dann ist A invers-monoton genau dann, wenn ein (majorisierender) Vektor e > 0 existiert mitAe > 0. Ferner gilt dann die Abschatzung

||A−1||∞ ≤ ||e||∞mink(Ae)k

. (2.19)

83

Man spricht hier vom M -Kriterium, weil man inversmonotone L0-Matrizenauch M-Matrizen nennt.

Beweis. (i) Sei A inversmonoton. Dann wahle man e = A−1(1, ..., 1)T . Esist offensichtlich aufgrund der Inversmonotonie e > 0 und auch Ae =(1, . . . , 1)T > 0.(ii) Sei e > 0 ein Vektor mit Ae > 0, d.h.

(Ae)k =n∑

j=1

akjej > 0 fur alle k ,

daraus folgt akk > 0, da nach Voraussetzung akj ≤ 0 fur k 6= j gilt, und damitist AD := diag(akk) invertierbar. Wir setzen (E ist die Einheitsmatrix)

P := A−1D (AD − A) ⇐⇒ A = AD(E − P ) .

Nach Konstruktion gilt P ≥ 0. Damit ergibt sich

(E − P )e = A−1D Ae > 0 also Pe < e .

Wir definieren mit

||x||e := maxk

|xk|ek

eine spezielle Vektornorm und bezeichnen mit || · ||e die induzierte Ma-trixnorm. Aus

||P ||e = sup||x||e=1

||Px||e

und P ≥ 0 folgt ||P ||e = ||Pe||e. Mit

||P ||e = ||Pe||e = maxk

|(Pe)k|ek

und Pe < e, was oben gezeigt wurde, erhalt man ||P ||e < 1. Daher existiert(E − P )−1 mit

(E − P )−1 =∞∑

j=0

P j .

Da A = AD(E −P ) gilt, existiert mit A−1D und (E −P )−1 auch A−1 und aus

P ≥ 0 folgt A−1 ≥ 0.

Zum Nachweis der Stabilitatsschranke fur ||A−1||∞ betrachten wir die Glei-chung Aw = f . Dann ist

±w = ±A−1f ≤ ||f ||∞A−1(1, . . . , 1)T .

84

Die Ungleichung Ae ≥ mink(Ae)k(1, . . . , 1)T ergibt

A−1(1, . . . , 1)T ≤ e

mink(Ae)k

.

Beide Ungleichungen ergeben nun

||w||∞ ≤ ||e||∞mink(Ae)k

||f ||∞ ,

woraus die Behauptung (2.19) folgt.

Die gesuchte Abschatzung der Stabilitatskonstanten CS gelingt nun bei ge-eigneter Wahl eines majorisierenden Vektors e zur Matrix A gemaß Lemma2.25.

Korollar 2.26. (i) Unter der Voraussetzung c(x) ≥ c∗ > 0 gilt

||A−1||∞ ≤ 1

mink(akk −∑

j 6=k |ajk|).

(ii) Bei c(x) ≥ 0 existiert eine Konstante CS > 0 mit

||A−1||∞ ≤ CS .

Beweis. (i) Bei c(x) ≥ c∗ > 0 ist A streng diagonaldominant. Die Behaup-tung folgt aus Lemma 2.25 mit e = (1, 1, ..., 1)T .(ii) Die Matrix A ist eine L0-Matrix und nach Lemma 2.24 inversmonoton.Damit folgt aus Lemma 2.24 die Existenz eines majorisierenden Vektors e > 0mit Ae > 0, woraus

CS =||e||∞

mink(Ae)k

folgt.

Bemerkung 2.27. Auf die folgende Weise kann man einen majorisierendenVektor e konstruieren. Sei e(x) Losung des RWP

−e′′(x) + b(x)e′(x) = 1, 0 < x < 1; e(0) = e(1) = 0 .

Aus dem Maximumprinzip (vgl. Lemma 2.9) folgt e(x) > 0, 0 < x < 1.Ferner ist nach Konstruktion (Le)(x) ≥ 1, 0 < x < 1. Nun wahlen wir denVektor

e := (e(x1), ..., e(xn))T .

85

Aus Konsistenzgrunden ist Ae ≥ 12

fur h ≤ h0, denn in der Darstellung

Ae = ARhe = (ARh − RhL)e + RhLe

konvergiert der erste Term der rechten Seite nach Lemma 2.21 gegen 0. Furden zweiten Term ist RhLe ≥ 1. Diese Argumentation erfordert allerdingse(x) ∈ C4[0, 1], was wir nur unter bestimmten Anforderungen an b(x) zeigenkonnen.e := (e(x1), ..., e(xn))T ist damit ein majorisierender Vektor mit dem man CS

ausrechnen kann.

Wir kombinieren die Ergebnisse zum folgenden Konvergenzsatz.

Satz 2.28. Unter den Voraussetzungen von Satz 2.13 liege die Losung u desRWP (2.11), (2.12) in C4[0, 1]. Ferner sei h hinreichend klein. Dann gilt furden Diskretisierungsfehler der klassischen FDM (2.13), (2.14)

||Rhu − uh||∞,Ωh= max

k|u(xk) − uk| ≤ M h2 ,

d.h. das Verfahren hat die Konvergenzordnung 2.

Beweis. Nach Konstruktion ist Rhu − uh = 0 auf Γh. Nach Lemma 2.21 istferner

||ARhu − RhLu||∞,Ωh≤ CKh2 .

Mittels Korollar 2.26 folgt

C−1S ||Rhu − uh||∞,Ωh

≤ ||ARhu − RhLu||∞,Ωh≤ CKh2 ,

und damit die Konvergenzaussage mit M = CSCK .

2.3 Ritz-Galerkin-Verfahren fur RWP

Im vorliegenden Kapitel schwachen wir den bisher verwendeten ”klassischen”Losungsbegriff fur Zweipunkt-Randwertaufgaben ab. Dies erlaubt zugleicheinen naturlichen Zugang zu der Finite-Elemente Methode (FEM) und ver-einfacht die Konvergenzanalyse.

2.3.1 Variationsgleichungen

Betrachtet wird die Zweipunkt-Randwertaufgabe

− u′′(x) + b(x)u′(x) + c(x)u(x) = f(x), 0 < x < 1, (2.20)

u(0) = u(1) = 0. (2.21)

86

Zunachst streben wir eine Abschwachung des klassischen Losungsbegriffs,d.h. von u ∈ C2(0, 1) ∩ C[0, 1], an. Sei etwa b = c = 0 sowie f /∈ C(0, 1).Dann liegt die Losung nicht in C2(0, 1). Wir wollen aber auch im Fall vonf /∈ C(0, 1) von Losungen sprechen.Multiplikation von Gleichung (2.20) mit einer beliebigen Testfunktion

v ∈ X := w ∈ C1(0, 1) ∩ C[0, 1] : w(0) = w(1) = 0 (2.22)

und Integration uber (0, 1) ergibt

∫ 1

0

(−u′′ + bu′ + cu)vdx =

∫ 1

0

fvdx .

Partielle Integration des Terms −∫ 1

0u”vdx liefert unter Beachtung der Rand-

werte v(0) = v(1) = 0

∫ 1

0

u′v′dx +

∫ 1

0

(bu′ + cu)vdx =

∫ 1

0

fvdx , ∀v ∈ X . (2.23)

Klassische Losungen u ∈ C2(0, 1) ∪ C[0, 1] von (2.20), (2.21) losenoffenbar auch (2.23). Ebenso sind (bei hinreichend glatten Daten)nach Ruckwartsausfuhrung der vorgenommenen Umformungen klassischeLosungen von (2.23) auch Losungen von (2.20), (2.21). Offenbar reicht aberz.B. schon die Forderung u ∈ X fur die Losungen von (2.23) aus. Daherbezeichnet man die Aufgabe

Finde u ∈ X, so dass a(u, v) = f(v), ∀v ∈ X (2.24)

mit

a(u, v) :=

∫ 1

0

u′v′dx +

∫ 1

0

(bu′ + cu)vdx (2.25)

f(v) :=

∫ 1

0

fvdx (2.26)

auch als verallgemeinerte Aufgabenstellung zu (2.20), (2.21) bzw. als zu-gehorige Variationsgleichung.Wir vertiefen diesen Gedanken im folgenden Abschnitt weiter. Zuvor betrach-ten wir noch den Zusammenhang mit Variationsproblemen. Seien vereinfa-chend b(x) = 0 und c(x) ≥ 0. Mit dem Funktional

J(u) :=1

2a(u, u) − f(u) (2.27)

=1

2

∫ 1

0

[(u′)2 + cu2] dx −∫ 1

0

fu dx, u ∈ X

87

betrachten wir das Variationsproblem

Finde u ∈ X, so dass J(u) ≤ J(v), ∀v ∈ X . (2.28)

Dann gilt

Lemma 2.29. Notwendige Losbarkeitsbedingung fur das Variationsproblem(2.28) ist im Fall b(x) = 0, c(x) ≥ 0 die Variationsgleichung (2.24).

Beweis. Wir setzen fur festes u, v ∈ X und t ∈ R

Ψ(t) := J(u + tv) .

Notwendige Minimumbedingung fur die reellwertige Funktion Ψ ist wegen

J(u + tv) =1

2

∫ 1

0

[(u′ + tv′)2 + c (u + tv)2]dx −∫ 1

0

f(u + tv)dx

dann

Ψ′(0) =1

2

∫ 1

0

[2(u′ + tv′)v′ + c (u + tv)v] dx|t=0 −∫ 1

0

fv dx

= a(u, v) − f(v) = 0 .


Bemerkung 2.30. Man kann zeigen, dass unter gewissen Glattheitsforde-rungen an die Daten (z.B. c, f ∈ C[0, 1]) eine Losung u ∈ X der Variations-gleichung (2.24) auch Minimum von (2.28) ist.

Variationsprobleme treten sehr oft in Naturwissenschaften und Technik alsbekannte Grundprinzipien (z.B. Prinzip der minimalen Energie usw.) auf undbilden einen wesentlichen Zugang zur mathematischen Modellierung realerVorgange. Es sei hervorgehoben, dass die Variationsgleichung (2.24) als ver-allgemeinerte Aufgabenstellung zu (2.20), (2.21) auch im allgemeinen Fallsinnvoll bleibt, wenn nicht b(x) = 0 gilt.

2.3.2 Verallgemeinerte Ableitungen

Wir untersuchen jetzt Eigenschaften des Raumes X (vgl. (2.22)) in Verbin-dung mit der SOBOLEV-Norm

||u||H1 := [

∫ 1

0

[u′(x)]2 dx +

∫ 1

0

[u(x)]2 dx]1/2 . (2.29)

88

Der Raum X; || · ||H1 ist offenbar normierter Raum, jedoch keinvollstandiger Raum, d.h. kein BANACH-Raum. Die Norm (2.29) ist auchnoch fur messbare Funktionen u, u′ sinnvoll, die quadratisch uber (0, 1) imLEBESGUE-Sinne integrierbar sind, d.h. fur Funktionen im LEBESGUE-Raum

L2(0, 1) := v : (0, 1) → R messbar :

∫ 1

0

[v(x)]2dx < ∞ . (2.30)

Im Hinblick auf die Naherungslosung von Zweipunkt-Randwertaufgaben mit-tels FEM ist eine weitere Abschwachung des klassischen Losungsbegriffssinnvoll. Wir wollen den entsprechenden Gedankengang hier nur skizzieren:Zunachst benotigen wir einige Begriffe. Es bezeichnet clV (A) die Abschlie-ßung der Teilmenge A von V in der Topologie des Raumes V . Dann heißt

supp v := clRx ∈ (0, 1) : v(x) 6= 0

Trager von v ∈ C[0, 1]. Sei

C∞0 (0, 1) := v ∈ C∞(0, 1) : supp v ⊂ C(0, 1) ,

d.h. Elemente dieser Menge verschwinden von beliebiger Ordnung bei x = 0und x = 1. Ferner sei

L1loc(0, 1) := v : (0, 1) → R; messbar :

∫

A

|v(x)| dx < ∞ ∀A ⊂⊂ (0, 1) .

A ⊂⊂ B bedeutet dabei, dass A abgeschlossene Teilmenge von B ist. PartielleIntegration ergibt fur u ∈ C1[0, 1] und beliebige Testfunktionen v ∈ C∞

0 (O, 1)

∫ 1

0

u′v dx = −∫ 1

0

uv′ dx . (2.31)

Nach der HOLDER’schen Ungleichung

|∫ 1

0

uv′dx| = |∫

supp v

uv′dx| ≤ ||v′||C[0,1]

∫

supp v

|u|dx

bzw.

|∫ 1

0

u′vdx| = |∫

supp v

u′vdx| ≤ ||v||C[0,1]

∫

supp v

|u′|dx

ergeben die Integrale in (2.31) noch Sinn fur u, u′ ∈ L1loc(0, 1).

89

Definition 2.31. w ∈ L1loc(0, 1) heißt verallgemeinerte erste Ableitung

von u ∈ L1loc(0, 1), falls

∫ 1

0

wv dx = −∫ 1

0

uv′ dx, ∀v ∈ C∞0 (0, 1)

gilt. Man schreibt w = u′.

Wir erklaren nun

Definition 2.32. Die Menge

H1(0, 1) := v ∈ L2(0, 1) : ∃v′ ∈ L2(0, 1)

heißt SOBOLEV-Raum der Funktionen mit verallgemeinerten und qua-dratisch auf (0, 1) integrierbaren Ableitungen. Ferner ist

H10 (0, 1) := clH1(0,1)C

∞0 (0, 1) .

Bemerkung 2.33. Man kann zeigen, dass auch gilt

H1(0, 1) := clH1(0,1)C∞(0, 1) .

Ohne Beweis zitieren wir

Satz 2.34. Die Raume H1(0, 1); || · ||H1(0,1) und H10 (0, 1); || · ||H1(0,1)

sind HILBERT-Raume mit dem Skalarprodukt

(u, v)Hl :=

∫ 1

0

uvdx +

∫ 1

0

u′v′dx.

Offenbar ist X := H10 (0, 1) der geeignete Funktionenraum, um eine verallge-

meinerte Aufgabenstellung zu (2.20), (2.21) zu formulieren:

Finde u ∈ H10 (0, 1) : a(u, v) = f(v) ∀v ∈ H1

0 (0, 1) . (2.32)

Vertiefende Kenntnisse uber die hier zum Teil nur heuristisch eingefuhrten In-halte, insbesondere zur Existenz verallgemeinerter Losungen (Satz von LAX-MILGRAM) kann man in einer Vorlesung uber partielle Differentialgleichun-gen oder uber Funktionalanalysis erwerben.

90

2.3.3 Ritz-Galerkin-Verfahren

Im vorliegenden Kapitel fuhren wir Naherungsverfahren zur approxima-tiven Losung von Variationsgleichungen ein. Die Darstellung ist dabeizunachst moglichst allgemein gehalten. Erst im abschließenden Teil be-trachten wir speziell eine Finite-Elemente-Methode (FEM) fur Zweipunkt-Randwertaufgaben. Ausgangspunkt ist die Variationsgleichung

Finde u ∈ X : a(u, v) = f(v) ∀v ∈ X . (2.33)

im HILBERT-Raum X. Dabei verwenden wir die im Kapitel vorne ein-gefuhrten Bezeichnungen und Voraussetzungen an die Bilinearform a(·, ·) so-wie die Linearform f(·). Gesucht ist nun eine Naherung un an die Losung uvon (2.33) im endlich-dimensionalen Teilraum Xn ⊂ X mit dim Xn = n < ∞.Offenbar ist dann Xn; || · ||X BANACH-Raum.

Definition 2.35. Die Aufgabe

Finde un ∈ Xn : a(un, v) = f(v) ∀v ∈ Xn . (2.34)

heißt RITZ-GALERKIN-Verfahren zur Variationsgleichung (2.33).

Wir zeigen nun, dass das RITZ-GALERKIN-Verfahren stets einem linearenGleichungssystem entspricht. Sei φin

i=1 Basis von Xn. Es bezeichne P :R

n → Xn ⊂ X die durch

Pv =n∑

i=1

viφi, v = (v1, . . . , vn)T

erklarte Abbildung. Offensichtlich ist P ein Isomorphismus zwischen Rn und

Xn. Unter Beachtung der Basisdarstellung in Xn = spanφ1, ..., φn erhaltman das

Lemma 2.36. Das RITZ-GALERKIN- Verfahren (2.34) ist aquivalent zudem System der Gleichungen

Finde un ∈ Xn : a(un, φi) = f(φi) i = 1, . . . , n . (2.35)

Mit den Bezeichnungen

u = (u1, ..., un)T ∈ Rn, un := Pu ,

A = (aij) ∈ Rn×n , aij := a(φi, φj) ,

f = (f1, ..., fn)T ∈ Rn , fi := f(φi)

formulieren wir

91

Satz 2.37. Das RITZ-GALERKIN-Verfahren (2.34) ist aquivalent zu demlinearen Gleichungssystem

Au = f. (2.36)

Beweis. Nach Lemma 2.36 sind (2.34) und (2.35) aquivalent. Die Behauptungfolgt nun mit un = Pu =

∑nj=1 ujφj aus

a(un, φi) =n∑

j=1

uja(φj, φi) =n∑

j=1

aijuj = f(φi) , i = 1, ..., n .

Bemerkung 2.38. (i) Mit dem Skalarprodukt

〈u, v〉 :=n∑

j=1

ujvj

im Rn sowie u = Pu, v = Pv gilt

a(u, v) = 〈Au, v〉, f(v) = 〈f, v〉 .

(ii) Das lineare Gleichungssystem (2.36) besitzt genau dann eine eindeutigbestimmte Losung un ∈ Xn, wenn die Matrix A nicht singular ist.

Folgende Aufgaben sind nun zu losen:

• Konstruktion geeigneter Unterraume Xn

• Generierung und Losung des linearen Gleichungssytems

• Fehlerabschatzung.

Nachfolgend geben wir hinreichende Losbarkeitsbedingungen fur das RITZ-GALERKIN-Verfahren sowie eine a-priori Abschatzung der Losung an.

Satz 2.39. Seien Xn ⊂ X, dim Xn = n < ∞ und X HILBERT-Raum.Ferner sei a(·, ·) : X × X → R X-elliptische, stetige Bilinearform, d.h. gelte

∃γ > 0 : a(v, v) ≥ γ||v||2X ∀v ∈ X (2.37)

sowie∃M > 0 : |a(u, v)| ≤ M ||u||X ||v||X ∀u, v ∈ X (2.38)

und f : X → R sei linear und stetig, d.h.

∃K > 0 : |f(v)| ≤ K||v||X ∀v ∈ X . (2.39)

Dann gilt

92

(i) Die Matrix A = (a(φj, φi)) ∈ Rn×n ist nicht singular. (Daraus folgt die

eindeutige Losbarkeit von (2.36).)

(ii) Fur die Losung un ∈ Xn des RITZ-GALERKIN- Verfahrens gilt diea-priori Abschatzung

||un||X ≤ K

γ. (2.40)

Beweis. (i) Mit u 6= 0 folgt Pu 6= 0 sowie wegen der X-Elliptizitat von a(·, ·)die Aussage

〈Au, u〉 = a(Pu, Pu) ≥ γ||Pu||2X > 0 ,

d.h. Au 6= 0.(ii) Wegen (2.38) und (2.39) gilt

γ||Pu||2X ≤ a(Pu, Pu) = f(Pu) ≤ K||Pu||X ,

also (2.40).

Eine Abschatzung zwischen den Losungen u ∈ X der Variationsgleichung(2.33) und un ∈ Xn des RITZ-GALERKIN-Verfahrens (2.34) liefert der

Satz 2.40. Seien Xn ⊂ X, dim Xn = n < ∞, X HILBERT-Raum unda(·, ·) : X ×X → R X-elliptische, stetige Bilinearform, d.h. gelte (2.37) und(2.38). Dann folgt

||u − un||X ≤ M

γinf

v∈Xn

||u − v||X . (2.41)

Beweis. Aus (2.33) und (2.34) folgern wir zunachst die sogenannte Fehler-gleichung

a(u − un, w) = a(u,w) − a(un, w) = 0 ∀w ∈ Xn . (2.42)

Man nennt (2.42) auch GALERKIN-Orthogonalitat. Unter Beachtung von(2.33),(2.34) und (2.38) ergibt sich

γ||u − un||2X ≤ a(u − un, u − un) = a(u − un, u − w)

≤ M ||u − un||X ||u − w||X , ∀w ∈ Xn .

Daraus folgt durch Bildung des Infimums in Xn die Behauptung (2.41).

Mit dem Satz 2.40 ist die Fehlerabschatzung auf eine Abschatzung des In-terpolationsfehlers zuruckgefuhrt. Auf Details dieser Interpolationstheorie inSOBOLEV-Raumen konnen wir hier nicht eingehen. Es gilt zumindest

93

Lemma 2.41. Seien

X1 ⊂ ... ⊂ Xn−1 ⊂ ... ⊂ X

sowie X = ∪∞n=1Xn.

Dann istlim

n→∞inf

w∈Xn

||u − w||X = 0 . (2.43)

Beweis. Die Aussage ergibt sich aus der Dichtheit von ∪∞n=1Xn in X.

2.3.4 Finite-Element-Methode fur Zweipunkt-RWP

Wir betrachten jetzt speziell die zum Zweipunkt-RWP

− u′′(x) = f(x), x ∈ (0, 1); u(0) = u(1) = 0 (2.44)

gehorige Variationsgleichung

Finde u ∈ X = H10 (0, 1) : a(u, v) = f(v) ∀v ∈ X . (2.45)

mit

a(u, v) :=

∫ 1

0

u′(x)v′(x) dx, f(v) :=

∫ 1

0

f(x)v(x)dx . (2.46)

Man kann einfach zeigen, dass durch die Halbnorm

||v||X := (a(v, v))1/2 = (

∫ 1

0

u′(x)v′(x)dx)1/2

sogar eine Norm auf dem Raum X = H10 (0, 1) erklart wird. Hierbei sind

die (verallgemeinerten) homogenen Randbedingungen wesentlich. Dann istdie Bilinearform a offenbar X-elliptisch mit der Konstanten γ = 1 und stetigmit der Konstanten M = 1. Beide Konstanten sind optimal. Wir konstruierennun passende Unterraume Xn ⊂ X. Unter Zerlegung des Intervalls

[0, 1] = ∪n+1i=1 Mi , Mi := [xi−1, xi]

mit der Gitterweite hi := xi−xi−1 betrachten wir den endlich-dimensionalenRaum

Xn := v ∈ C[0, 1] : v(0) = v(1) = 0, v|Mi∈ Π1(Mi), i = 1, ..., n + 1.

(2.47)

94

Mittels stuckweise linearer LAGRANGE’scher Basisfunktionen (finite Ele-mente)

φi(x) :=

x−xi−1

xi−xi−1, x ∈ Mi

xi+1−xxi+1−xi

, x ∈ Mi+1 , i = 1, . . . , n

0 , sonst

ergibt sichXn = spanφ1(x), . . . , φn(x) ⊂ X . (2.48)

Man beachte hierbei, dass die Funktionen aus Xn per Konstruktion die ho-mogenen DIRICHLET-Randbedingungen erfullen.

Lemma 2.42. Jede Funktion vn ∈ Xn ist durch die Knotenwerte vi = v(xi)eindeutig festgelegt und besitzt die Darstellung

vn =n∑

j=1

vjφj(x) .

Wir kommen nun zur Generierung des linearen Gleichungssystems: Wegensupp φi = [xi−1, xi+1] ist

aij =

∫ 1

0

φ′iφ

′j dx = 0, |i − j| ≥ 2 .

Fur die Nichtnullelemente der Matrix A erhalten wir nach kurzer Rechnung

ai,i−1 =−1

xi − xi−1

, ai,i−1 =1

xi − xi−1

+1

xi+1 − xi

, ai,i+1 =−1

xi+1 − xi

,

d.h.

A = tridiag− 1

hi

;1

hi

+1

hi+1

;− 1

hi+1

. (2.49)

Fur die rechte Seite des Gleichungssystems folgt

fi =

∫ 1

0

fφi dx =

∫ xi

xi−1

fφi dx +

∫ xi+1

xi

fφi dx . (2.50)

Die Koeffizienten aij sind in diesem Spezialfall exakt integrierbar. 15.Vorle-sungam1.12.2009

Im allgemeinen Fall interpoliert man die Daten durch Splines und/oder inte-griert mit passenden Quadraturformeln. Dadurch entsteht dann in der Regelein kleiner Konsistenzfehler. Die bei der klassischen Finite-Differenzen Me-thode entstehende Matrix A fur Problem (2.44) stimmt mit der bei stuckweiselinearen finiten Elementen entstehenden Matrix A im aquidistanten Fall

95

h = hi, i = 1, ..., n + 1 bis auf den Skalierungsfaktor 1h

uberein. Unter-schiede entstehen jedoch ggf. bei der rechten Seite. Zur Losung des linearenGleichungssystems fur die FEM konnen damit der Thomas-Algorithmus oderStandard-Iterationsverfahren herangezogen werden.

Es verbleibt die Ableitung einer Fehlerabschatzung.

Satz 2.43. Unter der Voraussetzung u′ ∈ H1(0, 1) gilt

||u − un||L2(0,1) ≤1

2√

2h||u′||H1(0,1) . (2.51)

Beweis.Sei v := Πhu die lineare LAGRANGE-Interpolierende. Fur e := u−Πhu mite(xi) = 0, i = 0, ..., n + 1 gilt dann unter Verwendung der SCHWARZ’schenUngleichung

|e(x)|2 = |∫ x

xj

e′(ξ) dξ|2 ≤∫ x

xj

12 dξ ·∫ x

xj

|e′(ξ)|2 dξ

≤ |x − xj|∫ xj+hj+1/2

xj

|e′(ξ)|2 dξ ,

falls x ∈ [xj, xj + hj+1/2]. Integration liefert

∫ xj+hj+1/2

xj

|e(x)|2 dx ≤∫ xj+hj+1/2

xj

|e′(x)|2 dx

∫ xj+hj+1/2

xj

|x − xj| dx

=

∫ xj+hj+1/2

xj

|e′(x)|2 dx · 1

8h2

j+1 .

und sinngemaß

∫ xj

xj−hj/2

|e(x)|2 dx ≤∫ xj

xj−hj/2

|e′(x)|2 dx · 1

8h2

j .

Aufsummation uber j = 1, . . . , n + 1 ergibt mit h := maxj hj

||e||2L2(0,1) ≤n+1∑

j=1

1

8h2

j

∫ xj

xj−1

(e′(x))2 dx ≤ 1

8h2

j ||e′||2L2(0,1) ,

also

||e||L2(0,1) ≤1

2√

2h||e′||L2(0,1) . (2.52)

96

Weiterhin gilt fur den Interpolationsfehler mittels partieller Integration daher

||(u − Πhu)′||2L2(0,1) − ||u′||2L2(0,1) + ||(Πhu)′||2L2(0,1)

= 2

∫ 1

0

(Πhu)′[(Πhu)′ − u′] dx

= 2n+1∑

j=1

∫ xj

xj−1

(Πhu)′[(Πhu)′ − u′] dx

= 2n+1∑

j=1

(Πhu)′(Πhu − u)|xjxj−1

−∫ xj

xj−1

(Πhu)′′[(Πhu) − u] dx = 0 ,

daher

||e′||L2(0,1) = ||(u − Πhu)′||2L2(0,1) = ||u′||2L2(0,1) − ||(Πhu)′||2L2(0,1) ≤ ||u′||2L2(0,1) .

Unter Beachtung von (2.52) ergibt sich daraus

||e||L2(0,1) ≤1

2√

2h||u′||L2(0,1) . (2.53)

Eine weitere Nebenrechnung (mit mehrfacher partieller Integration und derBerucksichtigung von (Πhu)′′ = 0) liefert unter Beachtung der vorherigenBerechnung und von (2.52)

||e′||2L2(0,1) = ||(u − Πhu)′||2L2(0,1) =

∫ 1

0

(u − Πhu)′(u − Πhu)′ dx

=

∫ 1

0

u′(u − Πhu)′ dx

= −∫ 1

0

u′′(u − Πhu) dx

≤ ||u′′||L2(0,1)||u − Πhu||L2(0,1)

≤ 1

2√

2h||(u − Πhu)′||L2(0,1)||u′′||L2(0,1) .

Damit hat man

||e||L2(0,1) ≤1

2√

2h||u′||L2(0,1) und ||e′||L2(0,1) ≤

1

2√

2h||u′′||L2(0,1) (2.54)

Es gilt bekanntlich

||u − un||L2(0,1) ≤ ||u − un||H1(0,1)

97

und unter Nutzung des Satzes 2.40 folgt

||u − un||2L2(0,1) ≤ ||e||2H1(0,1) = ||e||2L2(0,1) + ||e′||2L2(0,1) ,

und mit (2.54) folgt mit

||u − un||L2(0,1) ≤1

2√

2h||u′||H1(0,1)

die Behauptung.

Bemerkung 2.44. Die Forderung der Existenz der verallgemeinerten zwei-ten Ableitung u′′ ∈ L2(0, 1) ist recht stark. Man vergleiche jedoch die hierverwendeten Regularitatsannahmen an die Losung des RWP mit denen, diefur die Konvergenzanalyse bei der schon behandelten klassischen Finite-Differenzen-Methode gestellt wurden.

Die Darlegungen in diesem Abschnitt konnen in mehrfacher Hinsicht verall-gemeinert werden:

• Zunachst kann die Methode auf den Fall des RWP (2.20), (2.21) sowiefur gemischte Randbedingungen erweitert werden. Die Voraussetzungender Existenz- und Konvergenzsatze gelten zum Beispiel beim 1. RWPunter der Voraussetzung c(x) − 1

2b′(x) ≥ 0.

• Bei der Generierung des entsprechenden linearen Gleichungssystemsmuss man bei variablen Daten b, c, f aber numerisch integrieren.

• Schließlich kann man allgemeiner global stetige und stuckweise polyno-miale Basisfunktionen hoheren Grades verwenden.

FEM-Programmpakete erlauben in der Regel alle hier beschriebenen Verall-gemeinerungen.

2.3.5 Weitere mogliche Basisfunktionen

Aus der Fourier-Analysis wissen wir, dass eine stetige, ungerade 1-periodischeFunktion f : R → R auf dem Intervall [0, 1] beliebig gut durch Fourier-Polynome

n∑

k=1

bk sin(kπx) ,

also mit den Basisfunktionen

φk(x) = sin(kπx) (2.55)

98

annahern kann, d.h. der Raum

Xn = spansin(πx), sin(2πx), . . . , sin(nπx)

hat die Eigenschaft X = ∪∞n=1Xn. Mit den hier angegebenen Basisfunktionen

erhalt man fur RWP −y′′ + c(x)y = f(x), y(0) = y(1) = 0, aufgrund derOrthogonalitat der Funktionen φk(x) = sin(kπx) Diagonalmatrizen A.

Neben einer trigonometrischen Basis kann man z.B. mit der polynomialenBasis

φk(x) = xk(1 − x), k = 1, 2, . . . (2.56)

arbeiten. Die Unterraume Xn = spanx(1−x), x2(1−x), . . . , xn(1−x) habenauch die Eigenschaft X = ∪∞

n=1Xn. Hier erhalt man allerdings aufgrundfehlender Ortogonalitat keine schwach besetzte Matrix A des zugehorigenRitz-Galerkin-Verfahrens.

2.4 Kollokationsverfahren

Neben den bisher besprochenen klassischen Finite-Differenzen-Verfahrenund den Ritz-Galerkin-Verfahren, die auf der Basis von Variationsgleichun-gen gewonnen werden, kann man Naherungslosungen von RWP auch mitdem Kollokationsverfahren bestimmen, das zumindest hinsichtlich desLosungsansatzes dem Ritz-Galerkin-Verfahren ahnelt.Betrachten wir das RWP −y′′ + q(x)y = f(x), y(0) = y(1) = 0. Wie beimRitz-Galerkin-Verfahren geht man von Basis- oder Ansatz-Funktionen φk(x)aus, die mindestens 2-mal differenzierbar sein sollen und die Randbedingun-gen φk(0) = φk(1) = 0 erfullen sollen. Nun macht man den Ansatz

u(x) =n∑

k=1

ckφk(x) (2.57)

fur die Naherungslosung und fordert fur die zu wahlenden Kollokationspunktex1, . . . , xn ∈]0, 1[, dass Naherungslosung u(x) die Differentialgleichung in denKollokationspunkten exakt erfullt. Das bedeutet

− d2

dx2[

n∑

k=1

ckφk(x)]|xj+ q(xj)

n∑

k=1

ckφk(xj) = f(xj) , j = 1, . . . , n, bzw.

n∑

k=1

ck[−φ′′k(xj) + q(xj)φk(xj)] = f(xj) .

99

Mit A = (ajk) = (−φ′′k(xj) + q(xj)φk(xj)) und c = (c1, . . . , cn)T bzw. f =

(f1, . . . , fn)T erhalt man das lineare Gleichungssystem

Ac = f

zur Bestimmung von c und damit schließlich auch die Naherungslosung u(x).Betrachtet man als Ansatzfunktionen z.B. (2.55), dann ergibt sich mit

A = (ajk) , ajk = (kπ)2 sin(kπxj) + q(xj) sin(kπxj)

eine vollbesetzte bzw. zumindest nicht schwach besetzte Koeffizienten-Matrix. Fur die Ansatzfunktionen (2.56) erhalt man mit

φ′k(x) = xk−1[k − (k + 1)x] , φ′′

k(x) = kxk−2[k − 1 − (k + 1)x]

die Matrix

A = (ajk) , ajk = −kxk−2j [k − 1 − (k + 1)xj] + q(xj)(1 − xj) ,

also ebenfalls eine nicht schwach besetzte Koeffizienten-Matrix.Der Grund fur starke Besetzung der Koeffizienten-Matrizen A liegt anden Tragern supp φk der gewahlten Basisfunktionen (2.55) bzw. (2.56),die nicht h-lokal sind. Eine Moglichkeit der Erzeugung schwach besetzterKoeffizienten-Matrizen A von Kollokationsverfahren besteht in der Wahl so-genannter h-lokaler Ansatz- bzw. Basisfunktionen. In Frage kommen dabeikubische B-Splines, die bei gleichabstandigen Knoten x1 = 0, x2, . . . , xn = 1und h = xi+1 − xi durch

Bi(x) =

14h3 (x − xi−2)

3 xi−2 ≤ x ≤ xi−114

+ 34h

(x − xi−1) + 34h2 (x − xi−1)

2 − 34h3 (x − xi−1)

3 xi−1 ≤ x ≤ xi14

+ 34h

(xi+1 − x) + 34h2 (xi+1 − x)2 − 3

4h3 (xi+1 − x)3 xi ≤ x ≤ xi+11

4h3 (xi+2 − x)3 xi+1 ≤ x ≤ xi+2

0 x ≤ xi−2, xi+2 ≤ x

erklart sind. Man rechnet nach, dass Bi(xi) = 1, Bi(x±i) = 14

und Bi(xj) =0 fur |i − j| > 1 gilt. Mit den ”Hilfs”-Gitterpunkten x−2, x−1, x0 undxn+1, xn+2, xn+3, die man geeignet vor x1 = 0 und nach xn = 1 platziert,kann man nun Bi(x) fur i = 0, . . . , n + 1 bestimmen. Ausgehend von denBi(x) erhalt man mit

φ1(x) = B1(x) − 4B0(x)

φ2(x) = 4B2(x) − B1(x)

φi(x) = Bi(x) , i = 3, . . . , n − 2,

φn−1(x) = 4Bn−1(x) − Bn(x)

φn(x) = Bn(x) − 4Bn+1(x)

100

Ansatzfunktionen (Basis), die ebenso wie deren Linearkombinationen dieRandbedingung φi(0) = φi(1) = 0, i = 1, . . . , n, erfullen. Außerdem habendiese Ansatzfunktionen einen sogenannten h-lokalen Trager, denn es gilt

supp φi ⊂ [xi−2, xi+2] ,

was zu einer schwach besetzten Koeffizienten-Matrix eines Kollokationsver-fahrens fuhrt. Die Matrix ist in unserem Beispiel tridiagonal. Allerdingserhalt man in unserem Beispiel-RWP wie auch im Allgemeinen beim Kol-lokationsverfahren keine symmetrische Koeffizienten-Matrix.Die eben eingefuhrten Ansatzfunktionen kann man selbstverstandlich auchals Grundlage fur ein Finite-Element-Verfahren ausgehend von einer Varia-tionsgleichung verwenden.

2.5 Schießverfahren16.Vorle-sungam2.12.2009

Ziel soll es im Folgenden sein, RWP der Art

y′′ = f(x, y, y′) , y(a) = ηa , y(b) = ηb (2.58)

fur eine skalare Funktion y : [a, b] → R, oder allgemeiner

y′ = f(x, y) , r(y(a), y(b)) = 0 (2.59)

fur y = (y1, . . . , yn)T , yk : [a, b] → R zu losen. Beim Problem (2.59) be-schreibt r eine moglicherweise nichtlineare Randbedingung.

2.5.1 Das einfache Schießverfahren fur skalare Glei-chungen

Das Grundprinzip des Schießverfahrens soll fur das spezielle erste RWP

y′′ = f(x, y) , y(a) = ηa , y(b) = ηb (2.60)

erlautert werden. Schießverfahren zur Losung von Zweipunkt-Randwertproblemen basieren auf Methoden zur Losung von Anfangs-wertproblemen. Beim ersten Randwertproblem (2.60) nutzt man dabei z.B.die Randbedingung y(a) = ηa als Anfangsbedingung und versucht durcheine geeignete Wahl von sa = y′(a) als Anfangsbedingung fur die Ableitungmit einer Losung des Anfangswertproblems

y′′ = f(x, y) , y(a) = ηa , y′(a) = s (2.61)

101

die Randbedingung y(b) = ηb zu treffen. Fur vorgegebenes s sei y(x, s) dieLosung von (2.61). y(x, s) ist dann Losung des Zweipunkt-Randwertproblems(2.60), wenn s Nullstelle der Funktion

g(s) = y(b, s) − ηb (2.62)

ist. Fur eine Funktionswertberechnung von g ist ein Anfangswertproblem(2.60) zu losen. Eine Moglichkeit zur Bestimmung der Nullstelle von g ist mitdem Bisektionsverfahren gegeben. Allerdings ist es durchaus moglich, dassdurch Fehler bei der Losung des Anfangswertproblems das Vorzeichen von gnicht immer korrekt berechnet werden kann, so dass das Bisektionsverfahrenunbrauchbar wird.Eine andere Moglichkeit zur Bestimmung der Nullstelle von g bietet dasNewton-Verfahren. Die Differentiation von g nach s ergibt

g′(s) = ys(b, s) , (2.63)

wobei ys(b, s) die partielle Ableitung von y(x, s) nach s ausgewertet an derStelle x = b ist. Die Differentiation der Gleichung y′′(x, s) = f(x, y(x, s))nach s ergibt

∂

∂s[y′′(x, s)] = fy(x, y(x, s))ys(x, s) . (2.64)

fy bedeutet dabei die partielle Ableitung von f(x, y) nach y. Mit der Vor-aussetzung der Vertauschbarkeit der Ableitungen nach s und x erhalt manaus (2.64) die Differentialgleichung 2. Ordnung

y′′s (x, s) = fy(x, y(x, s))ys(x, s) (2.65)

fur ys(x, s). Durch Differentiation der Anfangsbedingungen der Aufgabe(2.61) nach s erhalt man die Anfangsbedingungen

ys(a, s) = 0 , y′s(a, s) = 1 . (2.66)

Mit (2.65), (2.66) liegt ein Anfangswertproblem zur Berechnung von ys(x, s),also auch zur Berechnung der Ableitung von g vor (gemaß (2.63)). Da-mit kann man durch Losung der Anfangswertprobleme (2.61) und (2.65),(2.66) Funktionswert und Ableitung von g(s) berechnen und kann somit einNewton-Verfahren zur Nullstellenberechnung von g durchfuhren. Hierzu istanzumerken, dass man zur Losung von (2.65), (2.66) die Funktion y(x, s) alsLosung des Anfangswertproblems (2.61) benotigt, um die Funktionswerte vonfy(x, y(x, s)) berechnen zu konnen. Da man die exakte Losung y(x, s) nichtzur Verfugung hat, verwendet man die Naherungswerte yk an den Stutzstellenxk des Intervalls [a, b] zur Berechnung von fy an den Stutzstellen xk. Beim

102

Schießverfahren ist es in jedem Fall sinnvoll, ein recht genaues Verfahren zurerforderlichen Losung der Anfangswertprobleme (2.61) und (2.65), (2.66) zuverwenden, da speziell bei wachsenden Losungen die Sensibilitat der Losungy(x, s) von s sehr groß sein kann und somit kleine Anderungen von s großeAuswirkungen auf y(b, s) haben konnen.Beim Schießverfahren fur das RWP mit der Differentialgleichung y′′ =f(x, y, y′) erhalt man statt dem AWP (2.65) durch Differentiation der Dgl.y′′(x, s) = f(x, y(x, s), y′(x, s)) und Vertauschung der Ableitungsreihenfolge

y′′s (x, s) = fy(x, y(x, s), y′(x, s))ys(x, s) + fy′(x, y(x, s), y′(x, s))y′

s (2.67)

und nach Differentiation der Randbedingungen

ys(a, s) = 0 , y′s(a, s) = 1 . (2.68)

Mit der Losung der AWP (2.65),(2.66) bzw. (2.67),(2.68) hat man g′(s) =ys(b, s) zur Verfugung und wenn man mit dem Newtonverfahren

s(i+1) = s(i) − g(s)

g′(s)

erfolgreich eine Nullstelle von g bestimmen kann auch die Losung des ur-sprunglichen RWPs bestimmt.Das erfordert aber in jedem Fall eine recht genaue Losung der AWP (2.61)und (2.67),(2.68), deren Losung man ja zur Berechnung von g(s) und g′(s)braucht.Mogliche Grunde fur das Scheitern des Schießverfahrens sollen am folgendenBeispiel dargestellt werden.

Beispiel 2.45. Man betrachte das Problem

y′′ − 100y = 0 , y(0) = 1 , y(1) = 0 . (2.69)

Die exakte Losung dieses Randwertproblems lasst sich aus der allgemeinenLosung y(x) = c1e

−10x + c2e10x unter der Beachtung der Randbedingungen

zu

y(x) =1

1 − e−20e−10x − e−20

1 − e−20e10x

bestimmen. Beim Schießverfahren arbeitet man statt der Randbedingungy(1) = 0 mit der Anfangsbedingung y′(0) = s und findet fur das entspre-chende AWP die exakte Losung

y(x; s) =10 − s

20e−10x +

10 + s

20e10x .

103

Am zweiten Summanden erkennt man, dass am Intervallendpunkt x = 1 derWert y(1; s) sehr empfindlich auf Anderungen von s reagiert. Man findet mit

se = −101 + e−20

1 − e−20≈ −10

den s-Wert, der zur exakten Losung des RWPs (2.69) gehort. Selbst einegeringfugige Abweichung von se, z.B. mit s = se+0.001 ergibt statt y(1; se) =0 den Wert y(1; se + 0.001) = 1, 1014, und mit s = se + 0.01 den Werty(1; se + 0.01) = 11.013. Der Grund fur dieses Verhalten liegt in der Großeder Lipschitzkonstanten fur die rechte Seite der Differentialgleichung.

2.5.2 Schießverfahren fur Dgl.-Systeme

Es werden nun Randwertprobleme der Form (2.59) betrachtet. Man versuchtwieder einen Startvektor s ∈ R

n so zu bestimmen, dass die Losung des RWPs

y′ = f(x, y) , y(a) = s (2.70)

y(x) = y(x, s) den Randbedingungen

r(y(a, s), y(b, s)) ≡ r(s, y(b, s)) = 0

genugt. Dazu ist eine Losung s = (σ1, σ2, . . . , σn)T der Gleichung

G(s) = 0 (2.71)

mit G(s) := r(s, y(b, s)) zu finden. Ein Newton-Verfahren zur Losung von(2.71) lautet

s(i+1) = s(i) − [G′(s(i))]−1G(s(i)) ,

wobei in jedem Schritt G(s(i)) mittels der Losung des AWPs (2.70) zu be-stimmen ist, und die Ableitungsmatrix

G′(s(i)) = [∂Gj

∂σk

]s=s(i)

zu berechnen ist. Zur Berechnung von G′ findet man durch Differentiation

G′(s) = Dur(s, y(b)) + Dvr(s, y(b, s))Z(b, s)

mit den Matrizen

Dur(u, v) = [∂ri(u, v)

∂uj

] ,

Dvr(u, v) = [∂ri(u, v)

∂vj

] ,

Z(b, s) = Dsy(b, s) = [∂yi(b, s)

∂σj

] .

104

Sowohl beim Schießverfahren fur skalare Probleme, als auch beim eben darge-stellten Schießverfahren fur Systeme kann man statt des Newton-Verfahrensauch mit Sekanten-Verfahren arbeiten, d.h. die Ableitung g′ oder die Ablei-tungsmatrix G′ durch Differenzenquotienten ersetzen und damit die aufwen-dige Losung des AWPs (2.67),(2.68) bzw. die aufwendige Berechnung vonDu, Dv und Z vermeiden um den Preis der mehrfachen Losung der AWP(2.61) bzw. (2.70).

2.5.3 Schießverfahren fur lineare Randwertaufgaben17.Vorle-sungam8.12.2009

Satz 2.46. (Losungsdarstellung)Mit der Fundamentalmatrix Y : I → R

n x n und der speziellen (partikularen)Losung y0 : I → R

n als Losungen der AWP

y′0(x) − A(x)y0(x) = f(x), x ≥ a, y0(a) = 0,

Y ′(x) − A(x)Y (x) = 0, x ≥ a, Y (a) = E (2.72)

kann man die Losung des RWPs

y′(x) − A(x)y(x) = f(x) , x ∈ I = [a, b],

Bay(a) + Bby(b) = g,

durchy(x) = y0(x) + Y (x)s (2.73)

mit der Losung s ∈ Rn des linearen Gleichungssystems

[Ba + BbY (b)]︸︷︷︸

=Q

s = g − Bby0(b) , (2.74)

darstellen, vorausgesetzt, die Matrix Q ist regular.Mit anderen Worten, die Funktion y(x) = y(x; s) lost das AWP

y′(x; s) − A(x)y(x; s) = f(x), y(a; s) = s,

wobei gerade die Randbedingung

Bay(a; s) + Bby(b; s) = g

erfullt ist.

105

Beweis. Fur y(x) = y(x; s) und s = y(a) ist die Randbedingung genau dannerfullt, wenn

g = Bay(a) + Bby(b)

= Ba(Y (a)s + y0(a)) + Bb(Y (b)s + y0(b))

= [BaY (a) + BbY (b)]s + Bby0(b)

gilt, also (2.74). Dass (2.73) eine Losung des AWPs ist, bestatigt man durchDifferenzieren und Einsetzen.

Fur das ”Einfache Schießverfahren” ergibt sich i.d.Regel der folgende Algo-rithmus:

1. Zur Schrittweite h = (b − a)/N werden mit einem konsistenten Ein-schrittverfahren die n + 1 Naherungen (yh

i,k)0≤k≤N , 0 ≤ i ≤ n, zu denLosungen yi(x) der AWP (2.72) bestimmt (Stutzstellen xk = a + kh).

2. Mit der MatrixQh := Ba + BbY

hN (2.75)

wird, falls sie regular ist, das Gleichungssystem

Qhsh = g − Bbyh0,N (2.76)

gelost.

3. Die eindeutige Losung sh des Gleichungssystems (2.76) ergibt dieLosung

yhk := yh

0,k + Y hk sh, k = 0, 1, 2, . . . , N.

Bemerkung 2.47. Naturlich kann ebenfalls mit variabler Schrittwei-te operiert werden. Dann bietet es sich an, anstelle von Schritt 3 dieNaherungslosung als Losung des AWP

y′(x; sh) − A(x)y(x; sh) = f(x), y(a; sh) = sh,

erneut mit variabler Schrittweite zu berechnen. Bei diesem Vorgehen kannauf das Speichern aller Zwischenwerte yh

i,k, k < N , verzichtet werden.

Zur Frage der Invertierbarkeit der Matrix Qh in (2.75) und der Konvergenzfur h → 0 dient der folgende Satz.

106

Satz 2.48. (Konvergenz des einfachen Schiessverfahrens)A(x) und f(x) seien stetig differenzierbar und die Matrix Q = Ba + BbY (b)sei regular. Zur Berechnung der yh

i,k, 0 ≤ i ≤ n,werde jeweils ein Verfahren

der Ordnung m eingesetzt. Dann ist fur hinreichend kleines h die Matrix Qh

ebenfalls regular und das Verfahren konvergiert mit der Ordnung m, also

max0≤k≤N

|yhk − y(xk)| = O(hm), h → 0.

Beweis. Die Lipschitzkonstante der (homogenen und inhomogenen) Differen-tialgleichungen in (2.72) ist

L := maxx∈I

||A(x)||.

Fur die Naherungslosungen an der Stelle x = b gilt also

||yhi,N − yi(b)|| ≤ KeL(b−a)hm,

wobei die Konstante K im Wesentlichen nur von den gegebenen Daten A(t)und f(t) abhangt. Hieraus ergibt sich sofort

||Q − Qh|| = ||Bb(Y (b) − Y hN)|| ≤ ||Bb|| max

1≤i≤n||yi(b) − yh

i,N || = O(hm).

Fur hinreichend kleines h ist also Qh regular und

||Q − Qh|| < 1/||Q−1|| =⇒ ||Q−1(Qh − Q)|| < 1,

und dies impliziert die Regularitat von Qh = Q(E + Q−1(Qh −Q)) sowie dieAbschatzung

||(Qh)−1|| ≤ ||Q−1||1 − ||Q−1|| · ||Qh − Q|| .

Wegen

Q−1 − (Qh)−1 = Q−1(Qh −Q)(Qh)−1, (Qh)−1 = (E + Q−1(Qh −Q))−1Q−1

folgt weiter

||Q−1 − (Qh)−1|| ≤ ||Q−1||21 − ||Q−1|| · ||Qh − Q|| ||Q

h − Q|| = O(hm).

Daraus konnen wir nun folgern, dass

||s − sh|| = ||Q−1[g − Bby0(b)] − (Qh)−1[g − Bbyh0,N ]||

≤ ||Q−1 − (Qh)−1|| · ||g|| ++||Q−1 − (Qh)−1|| · ||Bb|| · ||y0(b)|| ++||(Qh)−1|| · ||Bb|| · ||y0(b) − yh

0,N ||= O(hm)

107

gilt. Mit den Bezeichnungen

ek = yhk − y(xk) , e

(1)k = yh

0,k − y0(xk) , e(2)k = Y h

k − Y (xk)

und den Konsistenzeigenschaften der Verfahren zur Losung der AWP

||e(ν)|| = O(hm) , ν = 1, 2,

folgt

||ek|| = ||yhk − y(xk)|| = ||yh

0,k − y0(xk) + Y hk sh − Y (xk)s||

= ||[e(1)k + e

(2)k s] + Y h

k (sh − s)||≤ ||e(1)

k || + ||e(2)k || · ||s|| + ||Y h

k || · ||sh − s||= O(hm) ,

also die Behauptung.

2.5.4 Mehrzielverfahren (linearer Fall)

Entscheidend fur eine Fehlerverstarkung bei Losungsverfahren von AWP istdie Konstante

M = eL(b−a) ,

wobei L eine Lipschitzkonstante ist, z.B.

L = maxx∈[a,b]

||A(x)||

fur ein AWP y′ = A(x)y+f(x), y(a) = s. Wenn L groß ist, dann (siehe obigesBeispiel 2.45), dann kann das einfache Schießverfahren scheitern. Zur Abhilfedieser Probleme fuhrt man die Mehrfachschießmethode (Mehrzielverfahren)ein, das im Folgenden fur lineare RWP

y′ = A(x)y + f(x), Bay(a) + Bby(b) = g ,

beschrieben werden soll. Dazu diskretisiert man das Intervall I = [a, b] durch

a = x1 < x2 < · · · < xr+1 = b .

Fur gegebene Vektoren sj ∈ Rn, 1 ≤ j ≤ r, seien

y(x; xj, sj) , 1 ≤ j ≤ r ,

die Losungen der AWP

y′ = A(x) + f(x) , x ∈ [xj, xj+1], y(xj) = sj .

108

Im Unterschied zum einfachen Schießverfahren hat man es bei der Losung derlokalen AWP nicht mehr mit der Fehlerverstarkungskonstante M , sondernmit der kleineren Konstante M1/r zu tun, so dass die begrundete Hoffnungbesteht, dass das Mehrzielverfahren stabiler als das einfache Schießverfahrenist.Das Problem besteht darin, die r Vektoren sj so zu bestimmen, dass diezusammengesetzte Funktion

y : [a, b] → Rn , y(x) = y(x; xj, sj) fur x ∈ [xj, xj+1], 1 ≤ j ≤ r, (2.77)

stetig auf I = [a, b] ist und die Randbedingung Bay(a) + Bby(b) = g erfullt.Man kann zeigen, dass aus der Stetigkeit von y gemaß (2.77) und derErfullung der Randbedingung die Differenzierbarkeit folgt.Die Forderung nach Stetigkeit von y und die Erfullung der (globalen) Randb-dingung bedeuten die Bedingungen

y(xj+1; xj, sj) = sj+1 , j = 1, 2, . . . , r − 1 (2.78)

Bas1 + Bby(b; xr, sr) = g .

Wie beim einfachen Schießverfahren werden auf jedem Teilintervall (1 ≤ j ≤r) die partikulare Losung yj und die Fundamentalmatrix Yj als Losungen derAWP

y′j = A(x)yj + f(x) , x ∈ [xj, xj+1], yj(xj) = 0, (2.79)

Y ′j = A(x)Yj , x ∈ [xj, xj+1], Yj(xj) = E (2.80)

bestimmt. Die lokale Losung hat dann wie beim einfachen Schießverfahrendie Form

y(x; xj, sj) = yj(x) + Yj(x)sj , j = 1, . . . , r . (2.81)

Die Bedingungen (2.78) erhalten so die Form eines linearen Gleichungssys-tems fur die Parametervektoren s1, . . . , sr:

Bas1 + BbYr(b)sr = g − Bbyr(b)−Y1(x2)s1 + s2 = y1(x2)

− Y2(x3)s2 + = y2(x3)...

−Yr−1(xr)sr−1 + sr = yr−1(xr)

Dies ist ein lineares Gleichungssystem mit der (r n × r n)-Matrix Ar, die die

109

Faktorisierung

Ar =

Q1 Q2 . . . Qr

E. . .

E

︸︷︷︸

R

·

E . . .−Y1(x2) E

. . . . . .

−Yr−1(xr) E

︸︷︷︸

L

besitzt, wobei die Matrizen Q1, . . . , Qr−1 die Rekursion

Qr = BbYr(b) ,

Qj = Qj−1Yj(xj+1) , j = r − 1, r − 2, . . . , 2 ,

Q1 = Ba + Q2Y1(x2)

erfullen. Insbesondere ist

Q1 = Ba + BbYr(b) · · ·Y2(x3)Y1(x2) . (2.82)

Offensichtlich ist die Matrix Ar genau dann regular, wenn die Matrix Q1 re-gular ist. Man kann nun zeigen, dass Q1 dann regular ist, wenn die MatrixQ = Ba+BbY (b) des einfachen Schießverfahrens regular ist, also ist die Mehr-fachschießmethode immer durchfuhrbar, wenn es die einfache Schießmethodeist.

2.5.5 Mehrzielverfahren (allgemeiner Fall)18.Vorle-sungam9.12.2009

Statt dem oben betrachteten linearen Randwertproblem soll das Mehrziel-verfahren fur nichtlineare RWP, also

y′ = f(x, y) , r(y(a), y(b)) = 0 (2.83)

fur y = (y1, . . . , yn)T , yk : [a, b] → R. Wie beim Mehrzielverfahren fur lineareRWP betrachtet man AWP auf den Teilintervallen [xj, xj+1], und zwar

y′ = f(x, y) , y(xj) = sj, j = 1, . . . , r ,

und fordert, dass

y : [a, b] → Rn , y(x) = y(x; xj, sj) fur x ∈ [xj, xj+1], 1 ≤ j ≤ r, (2.84)

110

stetig auf I = [a, b] ist und die Randbedingung r(y(a), y(b)) =r(s1, y(b; xr, sr)) = 0 erfullt ist. Das bedeutet ein i.Allg. nichtlineares Glei-chungssystem fur s = (s1, . . . , sr)

T der Form

F (s) :=

F1(s1, s2)F2(s2, s3)

...Fr−1(sr−1, sr)

Fr(s1, sr)

:=

y(x2; x1, s1) − s2

y(x3; x2, s2) − s3...

y(xr−1; xr−2, sr−2) − sr−1

r(s1, y(b; xr, sr))

= 0 , (2.85)

wobei die Bedingung y(xr+1; xr, sr) = y(b; xr, sr) = y(b) undr(s1, y(b; xr, sr)) = 0 zusammengefasst wurden. Eine Nullstelle von F bzw.die Losung von (2.85) wird i.d.Regel mit einem Sekantenverfahren (regulafalsi) durchgefuhrt, d.h. man muss fur das Verfahren Differenzenquotientenbestimmen, also F an den Stellen

s(j)1...

s(j)k...

s(j)n

und

s(j)1...

s(j)k + ∆s

(j)k

...

s(j)n

k = 1, . . . , n

berechnen, dann die Differenzenquotienten berechnen, eine ApproximationF∆(s(j)) der Funktionalmatrix F ′(s(j)) berechnen, und schließlich das System

F∆(s(j))∆s = −F (s(j)) mit ∆s = s(j+1) − s(j)

losen. Aufgrund der konkreten Form der Komponenten Fk von F ist dieMatrix F∆(s(j)) schwach besetzt und hat eine ahnliche Blockdiagonalstrukturwie die Matrix Ar im linearen Fall. Mit s(j+1) = s(j) + ∆s erhalt man danndie neue Iterierte. Auf die wichtige Wahl geeigneter Startiterationen sei hiernur hingewiesen.

111

Kapitel 3

PartielleDifferentialgleichungen undderen numerische Losung

3.1 Beispiele partieller Differentialgleichun-

gen der math. Physik

Im Ergebnis der mathematischen Modellierung bzw. Beschreibung von tech-nischen Prozessen oder physikalischen Phanomenen entstehen partielle Diffe-rentialgleichungen. Als Beispiel seien hier die Kontinuitatsgleichung als Re-sultat einer Massenbilanz

∂ρ

∂t+ div(ρ v) = 0 (3.1)

und die Navier-Stokes-Gleichung

∂v

∂t+ (v · ∇)v = −1

ρ∇p + ν[

4

3∆v −∇× (∇× v)] + F (3.2)

als Ergebnis der Bilanzierung des Impulses genannt. Die Differentiationen inder Gleichung sind dabei auf alle Komponenten des Vektorfeldes v anzuwen-den und (3.2) besteht aus 3 skalaren Gleichungen fur die 3 Geschwindigkeits-komponenten. Die Funktionen bzw. Vektorfelder

ρ : [0, T ] × Ω → R, p : [0, T ] × Ω → R, v : [0, T ] × Ω → R3

bezeichnen die Dichte, den Druck und das Geschwindigkeitsfeld. Ω ⊂ R3 ist

das raumliche Gebiet, in dem der jeweilige Prozess betrachtet wird, und [0, T ]

112

ist das interessierende Zeitintervall. ν bezeichnet die kinematische Viskositatund F steht fur ein außeres Kraftfeld.Im Fall eines inkompressiblen Fluids gilt ρ = const. und die Konti-nuitatsgleichung (3.1) vereinfacht sich zu

div v = 0 . (3.3)

Unter Nutzung von (3.3) vereinfacht sich die Navier-Stokes-Gleichung (3.2)zu

∂v

∂t+ (v · ∇)v = −1

ρ∇p + ν∆v + F . (3.4)

Als Ergebnis der Energiebilanz erhalt man fur ein inkompressiblesMedium als Spezialfall die parabolische Warmeleitungsgleichung mitBerucksichtigung des konvektiven Transports

∂θ

∂t+ (v · ∇)θ = a∆θ + Q (3.5)

fur das Temperaturfeld θ : [0, T ] × Ω → R (a ist die Temperaturleitzahl undQ beschreibt Warmequellen oder -senken in Ω).In der Navier-Stokes-Gleichung (3.2) beschreiben der Term

ρ[∂v

∂t+ (v · ∇)v]

die Beschleunigungskrafte,∇p

die Druckkraft und

νρ[4

3∆v −∇× (∇× v)]

die Reibungskrafte. Z.B. bei der Modellierung der Umstromung eines Trag-flugels spielen die Reibungskrafte nur eine untergeordnete Rolle, so dass beidiesem Stromungsproblem die Impulsbilanz als Spezialfall der Navier-Stokes-Gleichung (ohne Reibungsterme) durch die hyperbolische Euler-Gleichung

∂v

∂t+ (v · ∇)v = −1

ρ∇p + F (3.6)

beschrieben wird.Bei den zeitabhangigen Problemen sind Anfangsbedingungen fur die zu be-rechnenden Felder, z.B. fur die Temperatur etwa

θ(0, x) = θ0(x) , x ∈ Ω, (3.7)

113

vorzugeben. Handelt es sich bei den beschreibenden Differentialgleichungenum Gleichungen mit raumlichen zweiten Ableitungen, sind Randbdingungen,als Beispiel

θ(t, x) = θr(t, x) , x ∈ Γ = ∂Ω, (3.8)

zum Abschluss des jeweiligen Modells vorzugeben. Bei Vorgabe einesGeschwindigkeitsfeldes v sowie von a und Q ist durch (3.5), (3.7), (3.8)ein Anfangs-Randwert-Problem zur Bestimmung des zeitlich veranderlichenTemperaturfeldes θ(t, x) in [0, T ] × Ω gegeben, dessen Losung i.d.Regelnumerische erfolgen muss.


Im Folgenden sollen noch 2 Randwertprobleme im Rahmen der Bestimmungdes Minimums eines Funktionals bzw. der thermischen Kontrolle eines tech-nologischen Prozesses angegeben werden.Es soll das sogenannte Mumford-Shah-Funktional

E(f) =

∫

Ω

[(f − d)2 + α2(R − I)2] dF (3.9)

minimiert werden. Dabei ist d ein gegebenes, i.d.Regel verrauschtes Daten-feld einer raumlichen Kontur (Flache S im Raum), dass durch irgendwelcheSensoren generiert wurde. I beschreibt ein Intensitatsfeld R ist der Reflekti-onsgrad. Die gesuchte glatte Funktion f beschreibt die entrauschte geglatteteFlache S. Wenn l den Einheitsvektor in Richtung der Lichtquelle, die das zuerfassende Objekt mit der Oberflache S beleuchtet, bezeichnet, und n denaußeren Normalvektor, ergibt sich fur R

R = n · l =(−fx,−fy, 1)√

1 + |∇f |2· (l1, l2, l3) , (3.10)

wobei fx, fy die partiellen Ableitunge von f bedeuten. Mit den Setzungen

∇fx,fyR = − (l1, l2)√

1 + |∇f |2− n · l

√

1 + |∇f |2∇f , (3.11)

V = α2(R − I)∇fx,fyR (3.12)

erhalt man aus der notwendigen Extremalbedingung fur die VariationδE(f ; v) = 0 fur alle Richtungen v die Euler-Lagrange-Differentialgleichung

∇ · V + (d − f) = 0 auf Ω (3.13)

mit der Randbedingung

n · V = 0 ,∂2f

∂n2= 0 auf Γ = ∂Ω . (3.14)

114

Bei genauerem Hinsehen erkennt man in (3.13) eine biharmonische Differen-tialgleichung mit Ableitungen von f bis zur Ordnung 4.

Im zweiten Beispiel zur Optimierung mit partiellen Differentialgleichungensoll in einem Bereich Ω durch eine bestimmte Heiz- bzw. Kuhlstrategie (reali-siert durch eine vorzugebenden Warmestromdichte am Rand) eine bestimm-te vorgegebene Temperaturverteilung T eingestellt oder sehr gut angenahertwerden. Denkbar ware hier die Bearbeitung eines Stahlblockes oder das Auf-schmelzen von Ausgangsstoffen zur Erzeugung eines homogenen Gemischs.Auf einem Teil des Randes Γd von Ω sei eine fixierte Temperatur vorgegebenund auf dem verbleibenden Rand Γc wird geheizt.

Ω

ΓΓ C

Abbildung 3.1: Bereich Ω und Heizungsrand Γc

Bemerkung 3.1. Fur die nun folgenden Betrachtungen verabreden wir, dasswir von den beteiligten Funktionen soviel Regularitat fordern, dass die vor-kommenden Integrale existieren!

Es ist eine vorzugebende Warmestromdichte (Heizstrategie) gesucht, die inΩ eine Temperaturverteilung zur Folge hat, die den um ein Kostenglied er-weiterten quadratischen Abstand

J(T, q) =1

2

∫

Ω

(T − T )2 dV +α

2

∫

Γc

q2 dF (3.15)

minimiert. Im Ergebnis der mathematischen Modellierung erhalt man zurBerechnung der Temperaturverteilung T in Ω das elliptische Randwertpro-blem

− ∆T = f in Ω, T = 0 auf Γd,∂T

∂n= q auf Γc , (3.16)

wobei f vorgegeben ist und q die gesuchte optimale Warmestromdichte ist.Die Randbedingung T = 0 auf Γc stellt keine Einschrankung der Allgemein-heit dar, da man von Null verschiedene Randtemperaturen Td auf Γd auf Ω

115

zu T0 fortsetzen kann, und fur die Differenz T − T0 auf Γd eine homogeneRandbedingung erhalt. Statt der Warmeleitungsgleichung −∆T = g wurdeman dann fur die Differenz die Gleichung −∆(T − T0) = g + ∆T0 =: f er-halten.Wir definieren das Lagrange-Funktional

L(T, κ, q, χ) =1

2

∫

Ω

(T − T )2 dV +α

2

∫

Γc

q2 dF (3.17)

−∫

Ω

(∆T + f)κ dV +

∫

Γc

(∂T

∂n− q)χdF

und man erkennt, dass fur eine Losung T von (3.16)

L(T, κ, q, χ) =1

2

∫

Ω

(T − T )2 dV +α

2

∫

Γc

q2 dF = J(T, q)

gilt. Wir suchen das Minimum von L fur auf Ω definierten Funktionen T undκ.Fur die Frechet-Ableitung von L findet man an der Stelle w = (T, κ, q, χ)T

in Richtung h = (T , κ, q, χ)T

L′[w](h) =

∫

Ω(T − T )T dV −

∫

Ω∆T κ dV +

∫

Γc

∂T∂n

χdF

−∫

Ω(∆T + f)κ dV

∫

Γcαqq dF −

∫

Γcqχ dF

∫

Γc(∂T

∂n− q)χ dF

. (3.18)

Beachtet man, dass∫

Ω

∆T κ dV =

∫

Ω

∆κ T dV +

∫

Γ

∂T

∂nκ dF −

∫

Γ

∂κ

∂nT dF ,

aufgrund der zweiten Greenschen Integralformel gilt, und variiert die Test-funktionen T , κ, q, χ, dann ergibt sich mit der speziellen Wahl χ = κ auf Γc,aus (3.18)

L′[w](h) =

∫

Ω[(T − T ) − ∆κ]T dV +

∫

Γc

∂κ∂n

T dF

−∫

Ω(∆T + f)κ dV

∫

Γc[αq − κ]q dF

∫

Γc(∂T

∂n− q)χ dF

. (3.19)

Aus (3.19) wird deutlich, dass man mit der Losung T des Randwertproblems(3.16) und der Losung κ des dazu adjungierten Problems

− ∆κ = −(T − T ) in Ω, κ = 0 auf Γd,∂κ

∂n= 0 auf Γc , (3.20)

116

sowie der Warmestromdichte

q =1

ακ auf Γc (3.21)

einen stationaren Punkt des Funktionals L gefunden hat, denn dann gilt

L′[w](h) = L′[T, κ, q, χ](T , κ, q, χ) = 0 .

Fur die Berechnung eines stationaren Punktes sind damit zwei gekoppelte el-liptische Randwertprobleme (3.16) und (3.20) zu losen, und mit den Wertenvon κ auf Γc hat man letztendlich durch die Beziehung (3.21) eine optima-le Heizstrategie gefunden. Die Diskussion der Existenz und Einzigkeit einerLosung dieser Optimierungsaufgabe wurde den Rahmen dieser Darstellungdeutlich sprengen, da dazu umfassende funktionalanalytische Untersuchun-gen erforderlich werden. Deshalb wird darauf nicht eingegangen.

Abschließend sei mit der Wellengleichungen zweiter Ordnung

∂2u

∂t2= a2∆u (3.22)

bzw. Wellengleichunger erster Ordnung

∂u

∂t+ a

∂u

∂x= 0 , (3.23)

aus der die Gleichung (3.22) im raumlich eindimensionalen Fall folgt, aufdie Klasse der hyperbolischen Differentialgleichungen hingewiesen. Die Glei-chung (3.23) ist ein Spezialfall der Erhaltungsgleichung

∂~u

∂t+ ∇ · f(~u) = 0 , (3.24)

die fur

~u =

ρρuρv

, f(~u) =

(f1(~uf2(~u)

)

mit

f1 =

ρuρu2 + p

ρuv

und f2 =

ρvρuv

ρv2 + p

.

auch die Eulergleichungen umfasst.Mit hyperbolischen Differentialgleichungen werden Wellenphanomene ausdem Gebiet der Akustik, der Elektromagnetik, der Seismik, der Optik bzw.der Stromungsmechanik beschrieben.

117

3.2 Numerische Losungsmethoden fur part.

Dgln.

Im Folgenden wird eine Ubersicht uber numerische Losungsmethoden furpartielle Differentialgleichungen gegeben. Dabei werden klassische Finite-Differenzen-Methoden (FDM), Finite-Element-Methoden (FEM) und Finite-Volumen-Methoden (FVM) behandelt.

3.2.1 Finite-Differenzen-Methoden

Die FDM soll am Beispiel eines elliptischen RWPs

− ∆u + cu = f in Ω ∈ R2, u = 0 auf Γ = ∂Ω , (3.25)

erlautert werden. Es handelt sich hierbei um eine Verallgemeinerung derLosung eines Zweipunktrandwertproblems −u′′ + cu = f , u(0) = u(1) = 0,das ein eindimensionales elliptisches Problem ist.Mit den Differenzenquotienten

D+x u =

u(x + h, y) − u(x, y)

h, D−

x u =u(x, y) − u(x − h, y)

h

und

D+y u =

u(x, y + k) − u(x, y)

k, D−

y u =u(x, y) − u(x, y − k)

k

wird durch∆hu = D+

x D−x u + D+

y D−y u

der Laplace-Operator diskretisiert. Fur den Fall eines Rechteckgebietes Ω =]0, b[×]0, d[ wird mit h = b/(N + 1), k = d/(M + 1) , N,M ∈ N, und

R2h = (ih, jk) | i ∈ Z, j ∈ Z

durchΩh = Ω ∩ R

2h , Γh = Γ ∩ R

2h , Ωh = Ωh ∪ Γh

Differenzengitter eingefuhrt und die numerische Losung von (3.25) wird alsGitterfunktion

uh : Ωh → R

gesucht, und zwar als Losung von

− ∆huh + cuh = fh in Ωh, u = 0 auf Γh . (3.26)

118

Zur vereinfachenden Darstellung verabreden wir

ui,j = uh(xi, yj) und fi,j = f(xi, yj) .

(3.26) entspricht dann mit

Uh = (u1,1, . . . , uN,1, u1,2, . . . , uN,2, . . . , u1,M , . . . , uN,M )T

undFh = (f1,1, . . . , fN,1, f1,2, . . . , fN,2, . . . , f1,M , . . . , fN,M )T

dem linearen Gleichungssystem

AhUh = Fh (3.27)

mit der (N M × N M)-Block-tridiagonalen Koeffizientenmatrix

Ah =

D BB D B

. . . . . . . . .

B D BB D

und der (N × N)-Tridiagonalmatrix

D =

α −β−β α −β

. . . . . . . . .

−β α −β−β α

sowie der (N × N)-Diagonalmatrix

B =

−γ−γ

. . .

−γ

mit

β =1

h2, γ =

1

k2, α = 2β + 2γ + c .

Man erkennt, dass Ah zumindest eine schwach diagonal dominante irreversi-ble Matrix ist, die außerdem symmetrisch und positiv definit ist. Damit ist

119

(3.27) eindeutig losbar und damit die Existenz und Eindeutigkeit der nume-rischen Losung Uh gezeigt.Konsistenz und Stabilitat im obigen Sinn konnen sowohl in der Maximum-Norm als auch in der diskreten L2-Norm gezeigt werden, woraus die Konver-genz von Uh gegen die Losung u von (3.25) (deren Existenz und erforderlicheRegularitat wir voraussetzen) folgt.

Numerische Losung von hyperbolischen Differentialgleichungen

Als Modellproblem betrachten wir das Cauchy-Problem

∂u

∂t+ a

∂u

∂x= 0 , t > 0 , u(x, 0) = u0(x) , (3.28)

fur x ∈ R.Man uberpruft schnell, dass bei entsprechender Glattheit von u0

u(x, t) = u0(x − a t)

eine Losung ist. Das Problem (3.28) wird oft als Referenzproblem fur dieBewertung numerischer Losungverfahren betrachtet.Betrachtet man die Gleichung ∂u

∂t+ a∂u

∂x= 0 fur x aus einem endlichen oder

halbendlichen Intervall, z.B. auf ]0, b], dann ist in Abhangigkeit vom Vorzei-chen von a eine Randbedingung vorzugeben, und zwar im Fall a > 0 etwa

u(0, t) = g0(t) . (3.29)

Wir wollen das Anfangs-Randwert-Problem (3.28), (3.29) fur den Fall g0(t) =0 numerisch losen und betrachten dazu das Raum-Gitter

Ωh = xj = j h , h = b/N, j = 1, . . . , N − 1 , Ωh = Ωh ∪ x0, xN

und bezeichnen durch

uh : Ωh × R≥0 → R uj(t) = uh(xj, t)

eine zeitabhangige Gitterfunktion.Die raumliche Diskretisierung von (3.28) ergibt mit denVorwartsdifferenzenquotienten D+ das semi-diskrete Verfahren

duj

dt(t) = −a

h(uj+1(t) − uj(t)) , j = 1, . . . , N − 1 , (3.30)

mit dem Ruckwartsdifferenzenquotienten D− das Verfahren

duj

dt(t) = −a

h(uj(t) − uj−1(t)) , j = 1, . . . , N − 1 , (3.31)

120

und mit dem Zentraldifferenzenquotienten (D+ + D−)/2 das Verfahren

duj

dt(t) = − a

2h(uj+1(t) − uj−1(t)) , j = 1, . . . , N − 1 . (3.32)

Beim Vorwartsdifferenzenquotienten und beim Zentraldifferenzenquotienten,also bei den Verfahren (3.30) und (3.32) erkennt man Probleme mit derRandbedingung, denn man benotigt uN(t) = uh(b, t). Beim Verfahren (3.31)hat man u0 = 0 aufgrund der Randbedingung (3.29) gegeben und kann dasAnfangswertproblem

du1

dt(t) = −a

hu1(t) , u1(0) = u0(x1)

losen und findet die Losung

u1(t) = ae−t/hu0(x1) .

Die weiteren Gleichungen lassen sich auch explizit losen und man erhalt in-duktiv

uj(t) = ae−t/h

j∑

i=1

u0(xi)1

(j − i)!(t

h)j−i .

Es gilt nun

|uj(t)| ≤ ae−t/h

j∑

i=1

|u0(xi)|1

(j − i)!(t

h)j−i

≤ a maxi

|u0(xi)|e−t/h

j∑

i=1

1

(j − i)!(t

h)j−i ≤ a max

i|u0(xi)| ≤ a||u0||∞ ,

und das bedeutet die Stabilitat des Verfahrens in der Supremum-Norm.Man uberpruft, das durch

uj(t) = a1

het/h

j∑

i=1

u0(xi)1

i!(− t

h)j−i −

∫ t

0

(s − t)n−jet−sh uN(s) ds (3.33)

eine Losung des semi-diskreten Problems

duj

dt(t) = −a

h(uj+1(t) − uj(t)) , uj(0) = u0(x1)

mit dem Vorwartsdifferenzenquotienten gegeben ist. Allerdings erkennt man,dass die Losung (3.33) durch den Faktor et/h instabil wird und uj(t) nichtgleichmaßig beschrankt werden kann.

121

Die eben durchgefuhrte Diskussion zeigt, dass man immer in Richtung bzw.entlang der Charakteristiken

x = t + a ,

die man als Losung der charakteristischen Gleichungen

dt

ds= 1 ,

dx

ds= a

erhalt, auf denen die Losung der hyperbolischen Differentialgleichung kon-stant ist, rechnen muss. Fur den Fall a < 0 wurde man mit t < 0, alsodurch eine Rechnung ruckwarts in der Zeit, fur (3.33) die Stabilitat in derSupremum-Norm zeigen konnen, wobei man dann den Randwert fur x = b,also uN+1(t) = uh(b, t) vorzugeben hatte.

Im Folgenden sollen nun Losungsverfahren auf dem Raum-Zeit-Gitter 20.Vorle-sungam16.12.2009

Σh,τ = (xj, tn) | xj = jh, tn = nτ, n = 0, 1, . . .

betrachten werden, wobei τ die Zeitschrittweite bedeutet. Als numerischeLosung betrachten wir Gitterfunktionen uh : Σh,τ → R und fuhren die Be-zeichnung

unj = uh(xj, tn)

ein. Bevor wir auf konkrete Verfahren eingehen, soll der Begriff der Stabilitateines Differenzenverfahrens zur Losung eines zeitabhangigen (hyperbolisch,parabolisch) Problems definiert werden.

Definition 3.2. (Lax/Richtmyer)Sei durch

Bun+1 = Cun + fn ⇐⇒ un+1 = Aun + dn , n = 0, 1, . . . , N,

A := B−1C, dn := B−1fn, ein Anfangsrandwertproblem durch ein FD-Verfahren diskretisiert, wobei die Invertierbarkeit der Matrix B, also dieExistenz der Differenzenlosung vorausgesetzt wird. Dann ist das Verfahren imSinne von Lax/Richtmyer stabil in der Norm || ||, wenn eine von den Dis-kretisierungsparametern n, h, k, τ etc. unabhangige Konstante M existiert, sodass

||An|| ≤ M , n = 1, 2, . . . , N,

gilt.

122

Wegen||An|| = ||AAn−1|| ≤ ||A|| ||An−1|| ≤ · · · ≤ ||A||n

ist dann die Stabilitat immer gegeben, wenn

||A|| ≤ 1

gilt.

Im Folgenden sollen nun konkrete FD-Verfahren diskutiert werden. Auf derBasis der Approximation von Ableitungen durch Differenzenquotienten erge-ben sich die folgenden Verfahren.

• Upwind-Verfahren (Forward Time Backward Space, FTBS), a > 0

un+1j − un

j

τ+ a

unj − un

j−1

h= 0 ,

bzw.un+1

j = unj − σ(un

j − unj−1) (3.34)

mit der CFL-Zahl (Courant-Friedrichs-Levy-Zahl)

σ = aτ

h, (3.35)

die fur die Stabilitat der Verfahren von Bedeutung ist.

• Downwind-Verfahren (Forward Time Forward Space, FTFS), a > 0

un+1j − un

j

τ+ a

unj+1 − un

j

h= 0 ,

bzw.un+1

j = unj − σ(un

j+1 − unj ) (3.36)

• Centered-Verfahren (Forward Time Centered Space, FTCS)

Die Nutzung des zentralen Differenzenquotienten zur Approximationder raumlichen Ableitung ergibt

un+1j = un

j − σ

2(un

j+1 − unj−1) (3.37)

• Leapfrog-Verfahren

un+1j − un−1

j

2τ+ a

unj+1 − un

j−1

2h= 0 ,

bzw.un+1

j = un−1j − σ(un

j+1 − unj−1) (3.38)

123

• Lax-Wendroff-Schema

Hier wird die Cauchy-Kowalewski-Technik angewandt. Man betrachtetdie zeitliche Taylor-Entwicklung von u

u(x, t + τ) = u(x, t) + τ∂u

∂t(x, t) +

τ 2

2

∂2u

∂t2(x, t) + O(τ 3) . (3.39)

Aus der Gultigkeit der Differentialgleichung

∂u

∂t= −a

∂u

∂x

folgt fur genugend glattes u durch die iterative Nutzung der Differen-tialgleichung die Wellengleichung

∂2u

∂t2= a2∂2u

∂x2. (3.40)

Aus (3.39) und (3.40) folgt

u(x, t + τ) = u(x, t) − τ a∂u

∂x(x, t) +

τ 2

2a2∂2u

∂x2(x, t) + O(τ 3) . (3.41)

Die Approximation der raumlichen Ableitungen durch zentrale Diffe-renzenquotienten und durch forward differencing in der Zeit folgt mit

un+1j = un

j − σ

2(un

j+1 − unj−1) +

σ2

2(un

j+1 − 2unj + un

j−1) (3.42)

das Lax-Wendroff-Schema.

Wir werden spater feststellen, dass keines der eben dargestellten explizi-ten Verfahren unbedingt stabil in dem Sinne ist, dass die Werte von un

j

gleichmaßig beschrankt werden konnen. In jedem Fall sind hierfur Bedin-gungen fur die CFL-Zahl σ und damit Einschrankungen fur die Wahl derDiskretisierungsparameter τ und h erforderlich.Um diese Einschrankungen zu uberwinden, sind implizite Verfahren zu be-tracheten. Wir wollen 2 implizite Verfahren angeben.

• Backward-Centered (Backward Time Centered Space, BTCS)

Wie bei der expliziten FTCS-Methode verwendet man die Approxima-tion der raumlichen Ableitung durch zentrale Differenzen, betrachtetdiese allerdings zum Zeitpunkt tn+1 und erhalt implizite Verfahren

un+1j = un

j − σ

2(un+1

j+1 − un+1j−1 ) . (3.43)

124

• Crank-Nicolson-Verfahren

Ausgangspunkt ist die Mittelung der raumlichen Ableitung in der Zeit,d.h.

∂u

∂x≈ 1

2[un

j+1 − unj−1

2h+

un+1j+1 − un+1

j−1

2h] .

Das Crank-Nicolson-Verfahren lautet dann

un+1j = un

j − σ

4[un

j+1 − unj−1 + un+1

j+1 − un+1j−1 ] . (3.44)

Der folgende Satz sollte als Ubung durch entsprechende Taylor-Entwicklungen nachgewiesen werden.

Satz 3.3. (Konsistenz)Alle aufgefuhrten Verfahren (3.34)-(3.38) bzw. (3.42), (3.44) sind konsistent,d.h. bei Einsetzen der hinreichend glatten exakten Losung u betrachtet anden relevanten Gitterpunkten des Raum-Zeit-Gitters ergibt sich eine lokalerDiskretisierungsfehler der Form

O(τα + hβ)

mit α ≥ 1, β ≥ 1.21.Vorle-sungam5.1.2010

von Neumann-Stabilitatsanalyse von FDM

Im Folgenden wird eine Stabilitatsanalyse vorgestellt, die zur Untersu-chung der Stabilitat von Losungsverfahren fur zeitabhangige Probleme, alsoLosungsverfahren fur hyperbolische oder parabolische Aufgabenstellungen,benutzt werden kann.Die Methode wird am Beispiel der oben dargestellten Verfahren zur Losunghyperbolischer Aufgaben erlautert.

Ausgangspunkt fur die von Neumann-Stabilitatsanalyse ist die Uberlegung,dass instabile Losungen oszillieren. Deshalb entwickelt man numerischeLosungen in eine Fourier-Reihe und untersucht Stabilitat, indem man diezeitliche Entwicklung der Koeffizienten untersucht.Ohne die Allgemeinheit der Stabilitatsuntersuchung einzuschranken, nehmenwir der Einfachheit halber die Periodizitat der Losung mit der Periode b an,gehen also von periodischen Randbedingungen u(0, t) = u(b, t) aus, so dassun

0 = unN fur alle n ∈ N gelten soll.

Die Methode soll am Beispiel des expliziten FTCS-Schemas dargestellt wer-den. Die Entwicklung der Werte un

j in eine Fourier-Reihe ergibt

unj =

N/2∑

k=−N/2

Cnk e2πk i j/N (3.45)

125

mit i2 = −1. k bezeichnet die Wellenzahl der entsprechenden Mode. Formelnfur un+1

j und unj±1 ergeben sich analog zur Formel (3.45). Das Einsetzen der

Entwicklungen (3.45) in das FTCS-Schema (3.37) ergibt nach Ausklammernvon e2πkij/N

∑

k

[Cn+1k − Cn

k +σ

2(Cn

k e2πi/N − Cnk e−2πi/N)]e2πkij/N = 0 .

Mit eix = cos x + i sin x und θk = 2πk/N erhalt man fur Cnk 6= 0 fur das

FTCS-Schema∑

k

Cnk [

Cn+1k

Cnk

− 1 + iσ sin θj]eiθkj = 0 ,

also eine Linearkombination von linear unabhangigen trigonometrischenFunktionen, d.h. es muss

Cn+1k

Cnk

= 1 − iσ sin θk (3.46)

fur alle k gelten. Fur das Quadrat des Verhaltnis der Amplituden zu denbeiden Zeitschichten tn und tn+1 folgt

|Cn+1k

Cnk

|2 = 1 + σ2 sin2 θk > 1 , (3.47)

so dass|Cn+1

k | > |Cnk |

fur alle k mit −π < θk < π folgt, und damit ist das Verfahren generell instabilfur beliebige Zeitschrittweiten τ .Die eben beschriebene Methode kann man auch vereinfachen. Anstatt immerdas ganze Fourier-Polynom einzusetzen, kann man aufgrund des Superposi-tionsprinzips auch nur einen Term der Summe verwenden, also

unj = Cn

k eiθkj . (3.48)

Fur lineare Gleichungen kann man zeigen, dass das Verhaltnis Cn+1k /Cn

k furalle n gleich ist, so dass man durch

Vk =Cn+1

k

Cnk

(3.49)

einen von n unabhangigen Verstarkungsfaktor definieren kann. Man findetnun

unj =

Cnk

Cn−1k

. . .C2

k

C1k

C1k

C0k

C0ke

iθkj

126

bzw.un

j = V nk C0

keiθkj ,

wobei der obere Index von V hier die n-te Potenz bedeutet. C0k kann man

der Einfachheit halber gleich 1 setzen, so dass man Stabilitatsuntersuchungenmit der Darstellung

unj = V n

k eiθkj (3.50)

durchfuhren kann. Als Beziehung zwischen k und θk gilt

θk =2πk

N=

2πkh

b, (3.51)

wobei b die raumliche Periode ist. Aus (3.51) erkennt man, dass Stabilitatdurch |Vk| ≤ 1 fur alle θk ∈ [−π, π] gesichert ist. Statt (3.50) kann man mitdem von der Wellenlange θ abhangigen Verstarkungsfaktor V auch

unj = V neiθj (3.52)

schreiben und Stabilitat liegt vor, wenn |V | ≤ 1 gilt fur alle θ ∈ [−π, π].Nach diesen Uberlegungen soll nun die Stabilitat der Upwind-Methode un-tersucht werden. Mit der Losungsdarstellung (3.52) folgt fur die Upwind-Methode

un+1j = un

j − σ(unj − un

j−1)

nach Einsetzen

V n+1eiθj = V neiθj + σV n[eiθ(j−1) − eiθj] .

Division durch V n und eiθj ergibt

V n+1

V n= 1 + σ(e−iθ − 1) .

Fur das Betragsquadrat erhalt man nach kurzer Rechnung

λ(θ) := |Vn+1

V n|2 = (1 + σ(e−iθ − 1))(1 + σ(eiθ − 1))

= 1 + σ(e−iθ + eiθ − 2) − σ2(e−iθ + eiθ − 2)

= 1 − 4σ(1 − σ) sin2(θ

2) .

Der Faktor σ(1 − σ) wird auf dem Intervall ]0, 1[ fur σ = 12

mit 14

maximalund wegen −π ≤ θ ≤ π bzw. sin2( θ

2) ≤ 1 folgt mit |λ(θ)| ≤ 1 die Stabilitat

des Upwind-Verfahrens, wobei daran erinnert sei, dass wir hier a > 0 voraus-gesetzt hatten.

127

Die Stabilitatsanalyse der anderen oben angegebenen Verfahren wird alsUbung empfohlen. Die von Neumann-Stabilitatsanalyse ist nicht auf denraumlich eindimensionalen Fall beschrankt. Hat man es mit 2 oder 3 Raumdi-mensionen zu tun, dann muss man z.B. im zweidimensionalen Fall von einerEntwicklung der numerischen Losung un

j,k = uh(xj, yk, tn) in der Form

unj,k = V neiθjeiκk (3.53)

ausgehen, wobei θ und κ die Wellenlangen in x- bzw. y-Richtung sind, undV ein von θ und κ abhangiger Verstarkungsfaktor ist.

Bemerkung 3.4. Obwohl die von Neumann-Stabilitatsanalyse nur furlineare Probleme gultig ist, wird sie auch oft auf nichtlineare Probleme ange-wandt. Das gleiche gilt fur nicht-periodische Randbedingunen und oft reichtdie lokale Analyse im Innern aus, um notwendige Bedingungen fur die Sta-bilitat zu erhalten oder Instabilitat zu zeigen.Probleme treten bei sehr kleinen und sehr großen Wellenlangen b

k(θ ≈ π, θ ≈

0) auf. Bei kleinen Wellenlangen ”hilft” eine Dampfung durch die Einfuhrungeiner kunstlichen Viskositat, um Verfahren zu stabilisieren.

Numerische Losung von parabolischen Differentialgleichungen

Wir betrachten ein Anfangs-Randwertproblem (Warmeleitung/Diffusion)der Form

∂u

∂t= a∆ u + f , in Ω×]0, T ], Ω ⊂ R

2, (3.54)

u(x, t) = ur(x, t) , auf Γ = ∂Ω, u(x, 0) = u0(x) , x ∈ Ω , (3.55)

wobei u(x, t) als orts- und zeitveranderliche Temperatur gesucht ist. a ist Ma-terialparameter (z.B. die Warmeleitzahl) und f beschreibt Warmequellenoder -senken. Statt der Dirichlet-Randbedingung sind auch Neumann-Randbedingungen oder Robin-Randbedingungen (gemischte RB) denkbar.Es gibt nun unterschiedliche Moglichkeiten der numerischen Losung von(3.54),(3.55) mit FD-Methoden. Diskretisiert man in der Zeit, d.h. man dis-kretisiert das Zeitintervall [0, T ] durch

t0 < t1 < · · · < tM , tn = nτ, τ = T/M, M ∈ N ,

und approximiert die Zeitableitung etwa durch

uτ (x, tn) − uτ (x, tn − τ)

τ≈ ∂u

∂t(tn, x)

128

dann hat man in jeder Zeitschicht ein elliptisches Problem der Form

− τa∆ uτ + uτ = uτ (x, tn−1) + τf(x, tn), x ∈ Ω, (3.56)

uτ (x, tn) = ur(x, tn) , auf Γ , (3.57)

fur n = 1, . . . ,M zu losen. Die Gleichung (3.56) ist von der Form −a∆u +c u = f , fur die zu Beginn des Abschnitts 3.2.1 ein FD-Verfahren besprochenwurde.Im Ergebnis erhalt man dann eine implizite Methode, bei der man pro Zeit-schritt ein lineares Gleichungssystem zu losen hat.

Approximiert man die Zeitableitung durch

uτ (x, tn + τ) − uτ (x, tn)

τ≈ ∂u

∂t(tn, x) ,

dann erhalt man bei einer geeigneten Ortsdiskretisierung von Ω bzw. Γ durchΩh bzw. Γh sowie des Laplace-Operators

Lhu := D+x D−

x u + D+y D−

y u

=u(x + h, y, t) − 2u(x, y, t) + u(x − h, y, t)

h2+

+u(x, y + k, t) − 2u(x, y, t) + u(x, y − k, t)

k2≈ ∆u

und die Betrachtung einer Gitterfunktion unj,i = uh,τ (xj, yi, tn) und fn

j,i =f(xj, yi, tn) durch

un+1j,i = un

j,i + τaLhunj,i + τfn

j,i fur (xj, yi) ∈ Ωh (3.58)

unter Berucksichtigung der diskretisierten Randbedingungen fur n =0, 1, . . . ,M −1 ein explizites Verfahren zur Berechnung von un

j,i. Als Ubungsollte mit der von Neumann-Stabilitatsanlyse die Stabilitat des Verfahrensuntersucht werden.

3.2.2 Finite-Volumen-Methode

Im Folgenden wird eine Bilanzmethode zur Losung von Gleichungen der Form

− div (λ(~x)grad u) = f(~x) (~x ∈ Ω ⊂ Rn) . (3.59)

mit den Randbedingungen

u(~x) = ud(~x), ~x ∈ Γd, λ∂u

∂~n(~x) + µu(~x) = qn(~x), ~x ∈ Γn (3.60)

129

betrachet. Fur den Rand von Ω soll Γd ∪Γn = Γ gelten, wobei Γd ∩Γn gleichder leeren Menge oder einer Menge vom Maß Null (im R

1 konnen das endlichviele einzelne Punkte sein, im R

2 endlich viele Kurven usw.) ist.

Der Gauß’sche Integralsatz (auch Divergenz-Theorem oder Satz von Gauß-Ostrogradski genannt) fur die Bereiche Ων ⊂ R

ν , ν gleich 2 oder 3, mitstuckweise glatter Berandung ∂Ων und ein stetig differenzierbares Vektorfeld~v : D → R

ν , D offene Menge und Ων ⊂ D,

∫

Ων

div~v dV =

∫

∂Ων

~v · ~n dF , (3.61)

ist das wesentliche Hilfsmittel bei der Konstruktion von Finite-Volumen-Diskretisierungen. ~n ist dabei der außere Normalenvektor auf dem Rand ∂Ων .Im zweidimensionalen Fall (ν = 2) ist das Integral auf der rechten Seite von(3.61) ein Linienintegral und im dreidimensionalen Fall ein Flussintegral.Die Beziehung (3.61) bedeutet eine Flussbilanz uber den Rand von Ω unterBerucksichtigung der Quelldichte div~v in Ω.Aus Grunden der besseren Anschauung betrachten wir den zweidimensiona-len Fall Ω ⊂ R

2. Der Bereich Ω wird mit einem Gitter uberzogen und damitin quadrilaterale Elemente ωij unterteilt (im R

3 finite Volumen, daher derName Finite-Volumen-Methode). In der Abb. 3.2 ist die Unterteilungnebst Position der diskreten Stutzwerte skizziert. Die Begriffe Stutzwerte,Gitterfunktion, diskrete Losung (FV-Losung) oder Differenzenlosung werdensynonym verwendet und bezeichnen an Stutzstellen (Gitterpunkten) zu be-rechnende oder vorgegebene Werte.

i ju

i j -1u

i+1 j-1ui-1 jujy

i-1x

j-1y

ix

ωωωωij

i+1x

j+1y i j+1u

j∆∆∆∆y

i∆∆∆∆x

Abbildung 3.2: Diskretisierung des Bereichs Ω mit dem Element ωij

Die Integration des (−1)-fachen der linken Seite der Gleichung (3.59) uberdas Element ωij und die Anwendung des Gauß’schen Satzes in der Ebene

130

ergibt∫

ωij

[div (λgrad u)] dF =

∫

∂ωij

λgrad u · ~n ds =

∫

∂ωo

λgrad u · ~n ds

+

∫

∂ωw

λgrad u · ~n ds +

∫

∂ωn

λgrad u · ~n ds +

∫

∂ωs

λgrad u · ~n ds

=

∫

∂ωo

λ∂u

∂xdy −

∫

∂ωw

λ∂u

∂xdy +

∫

∂ωn

λ∂u

∂ydx −

∫

∂ωs

λ∂u

∂ydx , (3.62)

wobei ~n der außere Normalenvektor ist und ∂ωw, ∂ωo, ∂ωn, ∂ωs westlicher,ostlicher, nordlicher und sudlicher Rand von ωij sind. Z.B. ist ~n auf ∂ωo gleich(−1

0

), so dass grad u · ~n = −∂u

∂xist. Gemaß der Abb. 3.2 werden ausgehend

von den Stutzpunkten (xi, yj) die Vereinbarungen

xi+1/2j = (xi+1 + xi)/2, yij+1/2 = (yj+1 + yj)/2, ∆xi = (xi+1 − xi−1)/2,

∆yj = (yj+1 − yj−1)/2, ∆xi+1/2 = xi+1 − xi, ∆yj+1/2 = yj+1 − yj,

λi+1/2j = λ(xi+1/2j, yj), λij+1/2 = λ(xi, yj+1/2), fij = f(xi, yj)

getroffen. Unter Nutzung der Stutzwerte uij approximiert man die Linienin-tegrale (3.62) in kanonischer Weise durch

∫

∂ωo

λ∂u

∂xdy ≈ λi+1/2j

ui+1j − uij

∆xi+1/2

∆yj ,

∫

∂ωw

λ∂u

∂xdy ≈ λi−1/2j

uij − ui−1j

∆xi−1/2

∆yj ,

∫

∂ωn

λ∂u

∂ydx ≈ λij+1/2

uij+1 − uij

∆yj+1/2

∆xi ,

∫

∂ωs

λ∂u

∂ydx ≈ λij−1/2

uij − uij−1

∆yj−1/2

∆xi ,

bzw. im Fall eines Randstucks ∂ω als Teil eines Neumann-Randes durch∫

∂ω

λ∂u

∂~nds ≈ L(∂ω)q

mit L(∂ω) als Lange des Randstucks ∂ω. Die Integration der rechten Seiteder Gleichung (3.59) ergibt

∫

ωij

f dF ≈ ∆xi∆yjfij ,

so dass die Bilanz der Gleichung (3.59) uber das Element ωij insgesamt

(λi+1/2jui+1j − uij

∆xi+1/2− λi−1/2j

uij − ui−1j

∆xi−1/2)∆yj

+(λij+1/2uij+1 − uij

∆yj+1/2− λij−1/2

uij − uij−1

∆yj−1/2)∆xi = ∆xi∆yjfij ,

131

bzw. nach Division mit ∆xi∆yj die Gleichung

(λi+1/2jui+1j − uij

∆xi+1/2− λi−1/2j

uij − ui−1j

∆xi−1/2)/∆xi


∆yj+1/2− λij−1/2

uij − uij−1

∆yj−1/2)/∆yj = fij (3.63)

fur alle Elemente, die keine Kanten als Teile eines Neumann-Randes besitzen,liefert. Fur Elemente, deren rechte Kante ∂ωo Teil eines Neumann-Randes ist,erhalt man statt (3.63) die Gleichung

qi+1/2j − λi−1/2juij − ui−1j

∆xi−1/2)/∆xi


∆yj+1/2− λij−1/2

uij − uij−1

∆yj−1/2)/∆yj = fij . (3.64)

In den Gleichungen (3.63), (3.64) fur Elemente ωij, die an einen Dirichlet- 22.Vorle-sungam12.1.2010

Rand grenzen, wird auf Stutzwerte ui+1j, ui−1j, uij+1 oder uij−1 zuruck ge-griffen, die außerhalb von Ω liegen (s. dazu die Abb. 3.3). Diese Stutzwertebezeichnet man als Ghost-Werte. Nimmt man Linearitat von u in Richtungder außeren Normalen ~n von Γd an, dann kann man mit Bedingungen derArt

(ui+1j + uij)/2 = ud(xi+1/2, yj), (xi+1/2, yj) ∈ Γd,

(ui−1j + uij)/2 = ud(xi−1/2, yj), (xi−1/2, yj) ∈ Γd,

(uij+1 + uij)/2 = ud(xi, yj+1/2), (xi, yj+1/2) ∈ Γd, (3.65)

(uij−1 + uij)/2 = ud(xi, yj−1/2), (xi, yj−1/2) ∈ Γd

die Dirichlet-Randbedingungen (3.60) approximieren und das Gleichungssys-tem zur Berechnung der unbekannten Stutzwerte uij abschließen. In der Abb.3.3 sind die Orte mit unbekannten Stutzwerten durch •-Punkte gekennzeich-net. -Punkte bezeichnen Orte, an denen die Randwerte von u oder q-Wertevorgegeben sind.Die Ghost-Werte kann man mit Hilfe der Randgleichungen (3.65) eliminie-ren. Damit liegt mit (3.63) bzw. (3.64) unter Berucksichtigung von (3.65)ein Gleichungssystem zur Bestimmung der uij fur (xi, yj) ∈ Ω ∪ Γ vor. Ver-wendet man die in der Abb. 3.3 vorgenommene aquidistante Diskretisierungvon Ω (h = ∆x = ∆xi+1/2 = ∆xi, h = ∆y = ∆yj+1/2 = ∆yj) und gibtauf Γj, j = 2, 3, 4, Dirichlet-Randbedingungen vor, und auf Γ1 Neumann-Randbedingungen, dann erhalt man bei konstantem λ fur die gesuchten

132

j=0

ΓΓΓΓ4

i=0

ΓΓΓΓ2

ΓΓΓΓ3 ΓΓΓΓ1

i=4

j=4

h

h

24u

13u

22u 42u

01u 21u 31u

30u

42ωωωω

21ωωωω

13ωωωω ΩΩΩΩ

Abbildung 3.3: Rechteck Ω als Integrationsbereich mit den RandstuckenΓ1, . . . Γ4

Stutzwerte uij das Gleichungssystem

6−1 0 0−1 0 0 0 0 0 0 0−1 5−1 0 0−1 0 0 0 0 0 0

0−1 5−1 0 0−1 0 0 0 0 00 0−1 6 0 0 0−1 0 0 0 0

−1 0 0 0 5−1 0 0−1 0 0 00−1 0 0−1 4−1 0 0−1 0 00 0−1 0 0−1 4−1 0 0−1 00 0 0−1 0 0−1 5 0 0 0−1

0 0 0 0−1 0 0 0 6−1 0 00 0 0 0 0−1 0 0−1 5−1 00 0 0 0 0 0−1 0 0−1 5−10 0 0 0 0 0 0−1 0 0−1 6

u11

u21

u31

u41

u12

u22

u32

u42

u13

u23

u33

u43

=

f11 + 2u1 1/2 + 2u1/2 1

f21 + 2u2 1/2

f31 + 2u3 1/2

f41 + 2u4 1/2 +hq4+1/2 1

λ

f12 + 2u1/2 2

f22

f32

f42 +hq4+1/2 2

λ

f13 + 2u1/2 3 + u1 3+1/2

f23 + 2u2 3+1/2

f33 + 2u3 3+1/2

f43 + 2u4 3+1/2 +hq4+1/2 3

λ

(3.66)

mit fij = h2

λfij. Dabei wurden die Randgleichungen (3.65) eliminiert, so

dass ein Gleichungssystem zur Berechnung von uij, i = 1, . . . , 4, j = 1, 2, 3entsteht. Man erkennt die Symmetrie der Koeffizientenmatrix und die Diago-naldominanz, so dass das Gleichungssystem eindeutig losbar ist. Die Matrix(3.66) hat eine Blockstruktur und 5 Nichtnull-Diagonalen.Aus der Abb. 3.3 und den durchgefuhrten Bilanzierungen uber die Elementeωij, i = 1, . . . , 4, j = 1, 2, 3 ist zu ersehen, dass die Finite-Volumen-Methodesamtliche lokalen Bilanzen uber alle ωij ⊂ Ω im Diskreten erfullt, d.h.,−

∫

ωijdiv (λgrad u) dF =

∫

ωijf dF und die Summation uber alle Elemente

133

ergibt mit

−∑

ωij∈Ω

∫

ωij

div (λgradu) dF =∑

ωij∈Ω

∫

ωij

f dF ⇐⇒ −∫

Ωdiv (λgradu) dF =

∫

Ωf dF

die globale Bilanz, wobei allerdings ∪ijωij = Ω gesichert sein muss. Dieselokale und globale Erhaltungseigenschaft ist der Hauptgrund, weshalb dieFinite-Volumen-Methode in den Ingenieurwissenschaften und der Physik oftanderen Diskretisierungsmethoden vorgezogen wird.Die Finite-Volumen-Methode ergibt fur Rechteckgebiete Ω klar strukturierteGleichungssysteme der Form (3.66). Fur FV-Diskretisierungen auf krummli-nig berandeten Bereichen sei auf die Ausfuhrungen in den Numerik-Buchernvon Dahmen/Reusken und Barwolff verwiesen.

Konsistenz, Stabilitat und Konvergenz von FV-Verfahren

Die Konsistenz der FV-Methoden lasst sich unter der Voraussetzung ausrei-chender Glattheit der Losung und der Daten vollig analog zur Konsistenzvon FD-Methoden durch Taylor-Approximationen zeigen.Z.B. wird bei elliptischen Randwert-Problemen die Stabilitat in derMaximum-Norm unter Nutzung von Maximum-Prizipien gezeigt und Sta-bilitat in der Spektralnorm durch Abschatzung der Eigenwerte derKoeffizienten-Matrix des im Ergebnis der Diskretisierung zu losenden linea-ren Gleichungssystems wie bei den FD-Methoden gezeigt.Aus Konsistenz und Stabilitat folgt dann die Konvergenz der FV-Methodenbezugl. der entsprechenden Norm.

FV-Diskretisierung des Stokes-Problems

Zum Abschluss der FV-Thematik soll mit der Diskretisierung des Stokes-Problems (o.B.d.A. hier als 2d-Problem), d.h. den Gleichungen

− ν∆ ~u = −∇p + ~f (3.67)

∇ · ~u = 0 (3.68)

im Gebiet Ω, wobei mit~u = ~φ (3.69)

Dirichlet-Randbedingungen auf Γ = ∂Ω vorgegeben sein sollen. ~u = (u, v)T

und p seien Geschwindigkeits- und Druckfeld einer Stromung eines Mediumsmit sehr hoher Viskositat, ν = const. > 0, ~f und ~φ seien vorgegebene Daten.

134

Die Gleichungen (3.67) und (3.68) ergeben sich aus der Impuls- bzw. Masse-nerhaltung. Grundlage der FV-Diskretisierung ist die Zerlegung von Ω durch

Ω = ∪ijωij , ωij ∩ ωi′j′ = N ,

fur i 6= i′ oder j 6= j′ und N Menge vom Maß Null. Aus Darstellungsgrundenverwenden wir Ω und ωij als Rechteckgebiete, wobei die ωij alle die Breite hund die Hohe k haben sollen. In der Abb. 3.4 ist ein finites Kontrollelementωij dargestellt.

u

v

v

x x

o

o

i−1/2ju i+1/2j

ij+1/2

ij−1/2

xPij

ωij

Abbildung 3.4: Rechteck ωij und die Stutzstellen fur numerische Losung derGeschwindigkeit u und des Drucks p

Die lokale Bilanzierung der Gleichung (3.68) uber ωij ergibt mit dem Gaus-sschen Satz ∫

ωij

∇ · ~u dF =

∫

∂ωij

~u · ~n dγ ,

und mit γo, γw, γn, γs als ostlichen, westlichen, nordlichen und sudlichen Randvon ωij erhalt man weiter

∫

∂ωij

~u · ~n dγ =

∫

γo

u dy −∫

γw

u dy +

∫

γn

v dx −∫

γs

v dx .

Die Approximation der Linienintegrale durch∫

γo

u dy ≈ ui+1/2jk,

∫

γw

u dy ≈ ui−1/2jk,

∫

γn

v dx ≈ vij+1/2h,

∫

γs

v dx ≈ vij−1/2h

ergibt mit

(ui+1/2j − ui−1/2j)k + (vij+1/2 − vij−1/2)h = 0 ⇐⇒ui+1/2j − ui−1/2j

h+

vij+1/2 − vij−1/2

k= 0 (3.70)

135

die diskretisierte Massenbilanz.Zur FV-Diskretierung der Impulsbilanz betrachten wir exemplarisch die ersteKomponente der Gleichung (3.67)

−ν∆ u = −∇p + fu .

Im Unterschied zur Diskretisierung der Massenbilanz betrachten wir die lo-kalen Kontrollelemente ωi+1/2j, d.h. Elemente mit dem Stutzwert ui+1/2j imZentrum und den Druckwerten pi bzw. pi+1j am westlichen und ostlichenRand (s.a. Abb. 3.4). Man erhalt

∫

ωi+1/2j

−ν∆ u dF = −∫

ωi+1/2j

∇p dF +

∫

ωi+1/2j

fu dF

= −∫

ωi+1/2j

∇ · (p, 0)T dF +

∫

ωi+1/2j

fu dF ,

und die Anwendung des Gaussschen Integralsatzes ergibt (γo etc. bezeichnenwieder die entsprechenden Rander von ωi+1/2j)

−ν

∫

∂ωi+1/2j

∇u · ~n dγ = −∫

∂ωi+1/2j

(p, 0)T · ~n dγ +

∫

ωi+1/2j

fu dF .

Approximiert man die beispielsweise die Flussintegrale∫

γo

∇u · ~n dγ =

∫

γo

∂u

∂xdy durch

ui+3/2j − ui+1/2j

hk

und die anderen Integrale entsprechend, sowie∫

∂ωi+1/2j

(p, 0)T · ~n dγ =

∫

γo

p dy −∫

γw

p dy durch (pi+1j − pij)k

und ∫

ωi+1/2j

fu dF durch fu,i+1/2jh k

dann erhalt man nach Division durch h k die FV-Diskretisierung

− ui+3/2j − 2ui+1/2j + ui−1/2j

h2− ui+1/2j+1 − 2ui+1/2j + ui+1/2j−1

k2

= −pi+1j − pij

h+ fu,i+1/2j (3.71)

der u-Gleichung. Fur die v-Gleichung erhalt man auf analoge Weise

− vij+3/2 − 2vij+1/2 + vij−1/2

k2− vi+1j+1/2 − 2vij+1/2 + vi−1j+1/2

h2

= −pij+1 − pij

k+ fv,ij+1/2 , (3.72)

136

wobei man uber das Kontrollelement ωij+1/2 bilanziert, d.h. das Elementmit dem Stutzwert vij+1/2 im Zentrum und pij bzw. pij+1 am sudlichen undnordlichen Rand (s.a. Abb. 3.4).Zu den Gleichungen (3.71) und (3.72) ist anzumerken, dass nur

∫

Ω

dF =∑

∫

ωi+1/2j

dF + O(h) =∑

∫

ωij+1/2

dF + O(k)

gilt, wahrend ∫

Ω

dF =∑

∫

ωij

dF

erfullt wird. D.h. beim Impuls wird nicht uber ganz Ω sondern nur uberΩh ≈ Ω bilanziert.Da zur Konstruktion der FV-Diskretisierungen (3.70), (3.71), (3.72) mitωij, ωi+1/2j und ωij+1/2 jeweils unterschiedliche Kontrollelemente verwendetwerden, die ausgehend von ωij jeweils um h/2 bzw. k/2 verschoben sind,spricht man bei der dargelegten Diskretisierung auch von der staggered-Grid-Methode.Mit der Berucksichtigung der Geschwindigkeitsrandbedingungen erhalt manausgehend von (3.70), (3.71), (3.72) ein Gleichungssystem der Form

Lu 0 Gu

0 Lv Gv

GTu GT

v 0

uvp

=

ru

rv

rp

. (3.73)

Lu und Lv sind Ergebnis des Diskretiserungen der viskosen Glieder, Gu, Gv

sind Ergebnis der Diskretisierung des Druckgradienten und GTu , GT

v ergebensich aus der Diskretisierung der Geschwindigkeitsdivergenz.An dieser Stelle sei darauf hingewiesen, dass das Gleichungsystem (3.73)losbar ist, allerdings nicht eindeutig. Die (N × N)-Koeffizienten-Matrix Avon (3.73) hat den Rang N − 1. Das liegt daran, dass beim Stokes-Problemzwar die Geschwindigkeit eindeutig bestimmt ist, allerdings der Druck nurbis auf eine Konstante (der Druckgradient ist eindeutig bestimmt).Ausgehend von (3.73) kann man durch Linksmultiplikation der ersten bei-den Block-Gleichungen mit GT

u L−1u bzw. GT

v L−1v und die Kombination des

Ergebnisses mit der dritten Blockgleichung das Gleichungssystem

(GTu L−1

u Gu + GTv L−1

v Gv)p = GTu L−1

u ru + GTv L−1

v rv − rp ⇐⇒ Sp = r (3.74)

erhalten. Dabei bezeichnet S die sogenannte Schur-Komplement-Matrix.Statt der Losung des Systems (3.73) kann man auch mit der Gleichung (3.74)zuerst den Druck bestimmen, und damit dann durch die seperate Losung der

137

ersten beiden Blockgleichungen von (3.73) die Geschwindigkeiten. Man lostalso statt eines sehr großen linearen Gleichungssystems mit etwa N Gleichun-gen drei lineare Gleichungssysteme mit je ca. N/3 Gleichungen.

Die eben dargelegte FV-Diskretisierung des Stokes-Problems kann auch aufdas Navier-Stokes-Problem mit den Gleichungen

(~u · ∇)~u − ν∆ ~u = −∇p + ~f (3.75)

∇ · ~u = 0 (3.76)

angewandt werden. Allerdings erfordert die Diskretisierung der konvektivenGlieder

(~u · ∇)~u =

∇ · (u2, uv)T

∇ · (uv, v2)T

im Fall der versetzten Gitter (staggered grids) zusatzlich Interpolationen undman erhalt letztendlich im Ergebnis der Diskretisierung ein nichtlineares al-gebraisches Gleichungssystem.

138

Kapitel 4

Matrix-Eigenwertprobleme


In vielen natur- und ingenieurwissenschaftlichen Disziplinen sind Eigenwert-wertprobleme zu losen. Zur Bestimmung von Eigenschwingungen von Bau-werken oder zur Ermittlung von stabilen statischen Konstruktionen sind Ei-genwerte zu berechnen. Aber auch bei der Berechnung des Spektralradiusbzw. der Norm einer Matrix sind Eigenwerte erforderlich.Sowohl bei der Losung von Differentialgleichungssystemen als auch bei Ex-tremwertproblemen sind Eigenwerte von Matrizen Grundlage fur die Kon-struktion von Losungen von Differentialgleichungen oder entscheiden uberdie Eigenschaften von stationaren Punkten.Bei der Berechnung von Eigenwerten und Eigenvektoren werden wir Ergeb-nisse aus vorangegangenen Semestern, speziell die QR-Zerlegung einer Ma-trix, als wichtiges Hilfsmittel nutzen konnen.

4.1 Problembeschreibung und algebraische

Grundlagen

Gegeben ist eine reelle Matrix A vom Typ n × n, zum Beispiel die Koeffizi-entenmatrix eines linearen Differentialgleichungssystems

x′ = 2x +y −zy′ = x +2y +3zz′ = −x +3y +2z

⇐⇒ ~x′ = A~x, A =

2 1 −11 2 3

−1 3 2

. (4.1)

Wir werden sehen, dass man mit den Eigenwerten und Eigenvektoren derMatrix A die Losung des Differentialgleichungssystems (4.1) sehr schnell er-mitteln kann.Das Matrix-Eigenwertproblem ist wie folgt definiert.

139

Definition 4.1. (Matrix-Eigenwertproblem)Sei A eine Matrix vom Typ n × n. Der Vektor ~x 6= ~0 und die Zahl λ heißenEigenvektor bzw. Eigenwert der Matrix A, falls

A~x = λ~x (4.2)

gilt. ~x bezeichnet man als Eigenvektor zum Eigenwert λ. Die Menge allerEigenwerte eine Matrix A heißt Spektrum von A und wird durch σ(A) be-zeichnet. Die Gleichung (4.2) heißt Eigengleichung.

Zur Definition 4.1 ist anzumerken, dass auch im Fall einer reellen MatrixA die Eigenwerte und Eigenvektoren durchaus komplex sein konnen. Wirwerden das spater bei der Behandlung von Beispielen noch sehen.Aus der Eigengleichung (4.2) folgt mit der Einheitsmatrix E

A~x − λ~x = A~x − λE~x = (A − λE)~x = ~0 (4.3)

ein homogenes lineares Gleichungssystem, das nur dann eine Losung ~x 6= ~0hat, wenn die Matrix A − λE singular ist. Damit gilt zur Bestimmung derEigenwerte einer Matrix der

Satz 4.2. (Eigenwertkriterium)Fur die Eigenwerte λ einer Matrix A gilt

χA(λ) := det(A − λE) = 0 . (4.4)

χA heißt charakteristisches Polynom der Matrix A. Die Nullstellen vonχA sind die Eigenwerte der Matrix A.Die Eigenvektoren zu den Eigenwerten λ ergeben sich dann als Losung deshomogenen linearen Gleichungssystems (A − λE)~x = ~0.

Beispiel 4.3. Fur Matrix A aus (4.1) erhalt man das charakteristische Po-lynom

det(A − λE) =

∣∣∣∣∣∣

2 − λ 1 −11 2 − λ 3

−1 3 2 − λ

∣∣∣∣∣∣

= (2 − λ)(2 − λ)(2 − λ) − 3 − 3 − 9(2 − λ) − (2 − λ) − (2 − λ)

= −λ3 + 6λ2 − λ − 20

und mit etwas Gluck durch Probieren die Nullstelle λ1 = 5 sowie nach Po-lynomdivision die weiteren Nullstellen λ2,3 = 1

2±

√172

. In der Regel hat mannicht immer solches Gluck bei der Eigenwertbestimmung, sondern man mussdie Nullstellen numerisch berechnen.

140

Dabei stellt man bei dem Weg uber die Nullstellen des charakteristischenPolynoms sehr schnell fest, dass die Berechnung nicht stabil ist, sondern dasskleine Fehler in den Polynomkoeffizienten mitunter zu gestorten Nullstellen,die sich wesentlich von den exakten unterscheiden, fuhren konnen. Im Fol-genden werden iterative Methoden zur Bestimmung von Eigenwerten undEigenvektoren behandelt, ohne das Kriterium 4.2 zu verwenden.Bevor wir zu den konkreten Berechnungsmethoden von Eigenwerten und Ei-genvektoren kommen, fassen wir an dieser Stelle einige wichtige und nutzlicheGrundlagen der linearen Algebra zum Spektralverhalten von Matrizen zu-sammen. Eine wichtige Rolle spielen die im Folgenden definierten Begriffe.

Definition 4.4. (ahnliche Matrizen)Die (n×n)-Matrix A ist der Matrix A ahnlich, wenn eine regulare (n×n)-Matrix C existiert, so dass

A = C−1AC

gilt. Man sagt dann, dass A aus A durch eine regulare Transformation mit Chervorgegangen ist. Ist die Matrix C eine orthogonale Matrix, dann bezeichnetman A auch als Orthogonaltransformation von A und mit C−1 = CT

gilt dannA = CT AC .

Gibt es eine regulare Matrix C, so dass die Transformation von A

D = C−1AC

mit D eine Diagonalmatrix ergibt, dann heißt A diagonalisierbar.

Fur das Spektrum bzw. die Eigenwerte spezieller Matrizen kann man aus derDefinition 4.1 folgende Eigenschaften zeigen.

Satz 4.5. (Eigenwerte spezieller Matrizen)Sei A eine (n × n)-Matrix uber C. Dann gilt:

a) Ist A eine Dreiecksmatrix, dann sind die Diagonalelemente gerade dieEigenwerte.

b) Ist A eine regulare Transformation der Matrix A mit der regularenMatrix C, dann haben A und A die gleichen Eigenwerte.

c) Sind λ1, . . . , λr die Eigenwerte von A, so besitzt die Matrix Aǫ = A+ǫEdie Eigenwerte µj = λj + ǫ (j = 1, . . . , r).

d) Ist A regular mit den Eigenwerten λ1, . . . , λr, dann sind die Eigenwerteverschieden von null und die Inverse A−1 hat die Eigenwerte 1

λ1, . . . , 1

λr.

141

e) Die transponierte Matrix AT hat die gleichen Eigenwerte wie die MatrixA.

Die Aussagen des Satzes 4.5 sind einfach zu zeigen und der Nachweis wirdzur Ubung empfohlen. Oben wurde schon darauf hingewiesen, dass auch beiMatrizen mit ausschließlich reellen Elementen komplexe Eigenwerte auftretenkonnen. Als Beispiel betrachten wir die Matrix

A =

(1 5

−1 3

)

und finden als Nullstellen des charakteristischen Polynoms χA(λ) = λ2−4λ+8 die Eigenwerte λ1,2 = 2± 2i. An dieser Stelle sei daran erinnert, dass Poly-nome mit ausschließlich reellen Koeffizienten, was bei den charakteristischenPolynomen reeller Matrizen der Fall ist, immer eine gerade Zahl (0, 2, 4, . . . )von komplexen Nullstellen haben. Denn wenn uberhaupt komplexe Nullstel-len auftreten, dann immer als Paar der komplexen Zahl λ mit der konjugiertkomplexen Zahl λ.Allerdings gibt es eine große Klasse von reellen Matrizen, die ausschließlichreelle Eigenwerte besitzen. Es gilt der

Satz 4.6. (Eigenschaften symmetrischer reeller Matrizen)Fur jede reelle symmetrische (n × n)-Matrix S gilt:

a) Alle Eigenwerte von S sind reell.

b) Eigenvektoren ~qk, ~qj, die zu verschiedenen Eigenwerten λk 6= λj von Sgehoren, stehen senkrecht aufeinander, d.h., ~qT

k ~qj = 〈~qk, ~qj〉 = 0.

c) Es gibt n Eigenvektoren ~q1, . . . , ~qn von S, die eine Orthonormalbasisdes R

n bilden.

d) Die Matrix S ist diagonalisierbar.

e) Die spezielle symmetrische Matrix S = AT A, wobei A eine beliebigereelle (n × n)-Matrix ist, hat nur nichtnegative Eigenwerte.

Zum Nachweis von a). Wir bezeichnen mit x∗ den Vektor xT , wobei x derkonjugiert komplexe Vektor zu x ist. Sei nun λ ein Eigenwert von S und xein zugehoriger Eigenvektor. Damit ist x∗x = |x|2 =: r > 0 reell und es folgt

x∗Sx = x∗λx = λx∗x = λr .

Fur jede komplexe Zahl z, aufgefasst als (1 × 1)-Matrix gilt z = zT . Damitund aus der Symmetrie von S folgt fur die komplexe Zahl x∗Sx

x∗Sx = (x∗Sx)T = xT Sx∗T = x∗Sx = x∗Sx = λr = λr

142

Es ergibt sich schließlich λr = λr, d.h., λ ist reell.Wegen der Voraussetzung λk 6= λj fur die Aussage b) muss einer dieserEigenwerte von null verschieden sein, z.B. λk 6= 0. Aus S~qk = λk~qk folgt

~qk =1

λk

S~qk sowie ~qTk =

1

λk

~qTk ST =

1

λk

~qTk S .

Daraus folgt

~qTk ~qj =

1

λk

~qTk S~qj =

1

λk

~qTk λj~qj =

λj

λk

~qTk ~qj

und aus dieser Gleichung folgt

(1 − λj

λk

)~qTk ~qj = 0 ⇐⇒ ~qT

k ~qj = 〈~qk, ~qj〉 = 0 .

Zu c) sei nur angemerkt, dass man im Fall eines Eigenwerts λk, der ins-gesamt σk-mal auftritt (algebraische Vielfachheit gleich σk), als Losung deshomogenen linearen Gleichungssystems (S−λkE)~q = ~0 immer σk orthogonaleEigenvektoren ~qk1, . . . , ~qkσk

finden kann, so dass man auch im Fall mehrfacherEigenwerte der symmetrischen (n×n)-Matrix S immer n orthogonale bzw.nach Normierung orthonormierte Eigenvektoren ~q1, . . . , ~qn finden kann.Die mit den orthonormierten Eigenvektoren gebildete Matrix

Q =

| | |~q1 ~q2 . . . ~qn

| | |

ist wegen 〈~qk, ~qj〉 = δkj orthogonal und es gilt fur k = 1, . . . , n

S~qk = λk~qk (k = 1, . . . , n) ⇐⇒ SQ = QD ⇐⇒ D = QT SQ ,

wobei die Diagonalmatrix D = diag(λ1, . . . , λn) genau die Eigenwerteλ1, . . . , λn als Hauptdiagonalelemente hat, also ist S diagonalisierbar.e) ergibt sich durch die einfache Rechnung mit dem Eigenvektor ~q von S zumEigenwert λ

λ||~q||2 = 〈λ~q, ~q〉 = 〈S~q, ~q〉 = 〈AT A~q, ~q〉 = 〈A~q,A~q〉 = ||A~q||2 ≥ 0 .

4.2 Abschatzungen und Lokalisierung von Ei-

genwerten

Zur Lokalisierung der Eigenwerte einer (n × n)-Matrix A = (aij) dient derfolgende

143

Satz 4.7. (Lokalisierung von Eigenwerten in Gerschgorin-Kreisen)Sei A = (aij) eine (n × n)-Matrix mit den Gerschgorin-Kreisen

Kj = z ∈ C | |z − ajj| ≤n∑

k=1k 6=j

|ajk| .

a) Dann gilt fur das Spektrum σ(A) von A

σ(A) ⊂n⋃

j=1

Kj ,

d.h., samtliche Eigenwerte von A liegen in der Vereinigung der Gerschgorin-Kreise.b) Es sei i1, . . . , ik ∪ ik+1, . . . , in =: I1 ∪ I2 = 1, 2, . . . , n. Sind dieGerschgorin-Kreise Ka = ∪i∈I1Ki und Kb = ∪i∈I2Ki disjunkt, dann liegen inKa genau k und in Kb genau n − k Eigenwerte von A.

Beweis. Zum Nachweis von a) betrachten wir einen zum Eigenwert λgehorenden Eigenvektor ~u. uj sei eine Koordinate von ~u mit

|uj| = ||~u||∞ = maxk=1,...,n

|uk| .

Die j-te Gleichung der Eigengleichung A~u = λ~u ist

n∑

k=1

ajkuk = λuj

und es ergibt sich

|ajj − λ| |uj| = |n∑

k=1k 6=j

ajkuk| ≤ ||~u||∞n∑

k=1k 6=j

|ajk| = |uj|n∑

k=1k 6=j

|ajk| .

Daraus folgt |ajj − λ| ≤ ∑nk=1k 6=j

|ajk|, d.h., λ liegt in Kj.

Zum Nachweis von b) betrachten wir mit D die Diagonale von A und N =A − D. Sei A(ǫ) = D + ǫN mit den Eigenwerten λ(ǫ). Fur ǫ = 0 bestehendie Kreise Ki(ǫ) aus den durch die Diagonalelemente gegebenen Punkten,die beim steigen Vergroßern von ǫ = 0 zu ǫ = 1 zu den Gerschgorin-KreisenKi = Ki(1) von A anwachsen (die Radien sind proportional zu ǫ und esgilt Ki(ǫ1) ⊂ Ki(ǫ2) fur ǫ1 ≤ ǫ2). Die Eigenwerte hangen stetig von denMatrixelementen und damit von ǫ ab und konnen aufgrund der Aussage a)wegen der Disjunktheit nicht zwischen Ka und Kb wechseln.

144

Beispiel 4.8. 1) Die Matrix A =(

1 5−1 3

)hat die Gerschgorin-Kreise

K1 = z ∈ C | |z − 1| ≤ 5 und K2 = z ∈ C | |z − 3| ≤ 1 .

Die oben berechneten Eigenwerte λ1,2 = 2 ± 2i liegen in K1 ∪ K2 = K1, wiein der Abb. 4.1 zu erkennen ist.

2) Die Matrix B =

4 1 01 2 11 0, 5 7

hat die Gerschgorin-Kreise

K1 = z ∈ C | |z−4| ≤ 1, K2 = z ∈ C | |z−2| ≤ 2, K3 = z ∈ C | |z−7| ≤ 1, 5,

die in der Abb. 4.2 dargestellt sind (Eigenwerte λ1 = 4, 26, λ2 = 7, 1681, λ3 =1, 5791).

1

K 1

K 2

6

λλλλ 2

λλλλ 1

Abbildung 4.1: Gerschgorin-Kreiseund Eigenwerte von A

2

2 2

1 3

4 7

KK

K

Abbildung 4.2: Gerschgorin-Kreisevon B

Definition 4.9. Der Rayleigh-Quotient von ~x 6= 0 bezugl. der Matrix Aist durch

rA(~x) =〈~x,A~x〉〈~x, ~x〉

definiert.

Der Rayleigh-Quotient ist ein wichtiges Hilfsmittel zur Eigenwert-abschatzung. Es gilt der

Satz 4.10. Sei A reell und symmetrisch, ~x ∈ Rn \ 0 beliebig.

a) Mit dem kleinsten bzw. großten Eigenwert λmin bzw. λmax von A gilt

λmin ≤ rA(~x) ≤ λmax .

Die Extremwerte werden fur die entsprechenden Eigenvektoren ~x angenom-men.

145

b) Eigenwertabschatzung durch den Rayleigh-Quotienten eines Testvektors:es existiert ein Eigenwert λ von A mit

|λ − rA(~x)|2 ≤ rA2(~x) − [rA(~x)]2︸︷︷︸

Ausloschungsgefahr

=||(A − rA(~x)E)~x||22

〈~x, ~x〉︸︷︷︸

numerisch stabil

.

Beweis.a) Sei ~x1, . . . , ~xn eine Orthonormalbasis von Eigenvektoren (A~xi = λi~xi). Mit~x =

∑

i xi~xi folgt

rA(~x) =〈∑

i xi~xi,∑

i λixi~xi〉〈∑i xi~xi,

∑

i xi~xi〉=

∑

i λix2i

∑

i x2i

≤ λmax

≥ λmin.

b) Sei µ nicht Eigenwert von A, dann gilt

1 =||(A − µE)−1(A − µE)~x||22

||~x||22≤ ||(A − µE)−1||22

||(A − µE)~x||22||~x||22

,

und damit

||(A − µE)~x||22||~x||22

≥ 1

||(A − µE)−1||22=

1

ρ((A − µE)−1)2

=1

maxi |λi − µ|−2= min

i=1,...,n|λi − µ|2 .

Außerdem folgt fur beliebiges µ auch

〈(A − µE)~x, (A − µE)~x〉〈~x, ~x〉 =

||(A − µE)~x||22||~x||22

≥ mini=1,...,n

|λi − µ|2 .

Aufgrund von

〈(A − µE)~x, (A − µE)~x〉〈~x, ~x〉 =

〈A~x,A~x〉〈~x, ~x〉

︸︷︷︸

rA2 (~x)

−[〈~x,A~x〉〈~x, ~x〉

︸︷︷︸

rA(~x)

]2 + [µ − 〈~x,A~x〉〈~x, ~x〉 ]2

wird die Abschatzung optimal fur µ = rA(~x) und b) gilt.

Bemerkung 4.11. Wenn ~x ein Eigenvektor ist, dann ergibt der Rayleigh-Quotient rA(~x) den entsprechenden Eigenwert. Rayleigh-Quotienten werdenals Hilfsmittel benutzt, um aus einer Approximation eines Eigenvektors eineApproximation eines Eigenwerts abzuleiten.

146

Bemerkung 4.12. Es stellt sich die Frage, wann ~x ∈ Rn (bzw. C

n) Approxi-mation eines Eigenvektors ist. Es sei E der Eigenraum zum Eigenwert λ undF der von der restlichen Eigen- bzw. Hauptvektoren aufgespannte Raum, sodass R

n = E ⊕ F (bzw. Cn = E ⊕ F ) gilt. Mit der Zerlegung ~x = ~xE + ~xF

mit ~xE ∈ E, ~xF ∈ F vereinbart man:

~x ist approximativer Eigenvektor zum Eigenwert λ

⇐⇒ ~x ≈ ~xE ⇐⇒ ||~xF || << ||~xE|| .

Fur symmetrische Matrizen ist F das orthogonale Komplement von E(〈~xE, ~xF 〉 = 0). Der Winkel φ zwischen ~x und seiner orthogonalen Projektion~xE auf den Eigenraum E, definiert durch

cos2 φ =〈~xE, ~xE〉〈~x, ~x〉 bzw. sin2 φ =

〈~xF , ~xF 〉〈~x, ~x〉 ,

ist ein Maß fur den Abstand von ~x zum Eigenraum E.

Satz 4.13. Fur eine symmetrische Matrix A mit den Eigenwerten λi gilt

(minλi 6=λ

|λ − λi|) sin2 φ ≤ |λ − rA(~x)| ≤ (maxλi 6=λ

|λ − λi|) sin2 φ .

Beweis.

λ − rA(~x) = λ − 〈~xE + ~xF , A(~xE + ~xF )〉〈~x, ~x〉

= λ − 〈~xE, A~xE〉〈~x, ~x〉 − 2

〈~xF , A~xE〉〈~x, ~x〉 − 〈~xF , A~xF 〉

〈~x, ~x〉

= λ − 〈~xE, A~xE〉〈~x, ~x〉 − 〈~xF , A~xF 〉

〈~x, ~x〉

= λ(1 − 〈~xE, ~xE〉〈~x, ~x〉 ) − 〈~xF , ~xF 〉

〈~x, ~x〉〈~xF , A~xF 〉〈~xF , ~xF 〉

= sin2 φ(λ − 〈~xF , A~xF 〉〈~xF , ~xF 〉

) .

Der auf F eingeschrankte Rayleigh-Quotient nimmt in Analogie zu Satz 4.10a) als Extremwerte einen der von λ verschiedenen Eigenwerte von A an, d.h.

minλi 6=λ

λi ≤〈~xF , A~xF 〉〈~xF , ~xF 〉

≤ maxλi 6=λ

λi ,

und damit folgt die Aussage des Satzes.

147

Bemerkung 4.14. Der Satz 4.13 zeigt aufgrund des Faktors sin2 φ, dass imFalle von symmetrischen Matrizen verhaltnismaßig schlechte Eigenwertap-proximationen durch den Rayleigh-Quotienten trotzdem gute Eigenwertap-proximationen geliefert werden.

Satz 4.15. Sei A = TΛT−1 mit Λ = diag(λ1, . . . , λn) eine diagonalisierbareMatrix mit den Eigenwerten λ1, . . . , λn. Fur einen beliebigen Eigenwert λeiner gestorten Matrix A = A + ∆A gilt

mini=1,...,n

|λi − λ| ≤ condp(T )||∆A||p .

Beweis. λ sei nicht Eigenwert von A (ansonsten wird es trivial). Es folgt

||(A − λE)−1||p = ||T (Λ − λE)−1T−1||p ≤ condp(T )||(Λ − λE)−1||p .

Da die p-Norm einer Diagonalmatrix gleich dem maximalen Betrag der Dia-gonalelemente ist, gilt

||(Λ − λE)−1||p = maxi=1,...,n

1

|λi − λ|=

1

mini=1,...,n |λi − λ|.

Es folgt nun

mini=1,...,n

|λi − λ| ≤ condp(T )

||(A − λE)−1||p. (4.5)

Mit einem Eigenvektor ~y von A zum Eigenwert λ ergibt sich

A~y = λ~y =⇒ (A − A)~y = (A − λ)~y =⇒ (A − λE)−1(A − A)~y = ~y

und weiter

1 ≤ ||(A − λE)−1(A − A)||p ≤ ||(A − λE)−1||p||A − A||p ,

also 1/||(A− λE)−1||p ≤ ||∆A||p. Unter Nutzung von (4.5) folgt die Behaup-tung.

Da man symmetrische Matrizen mit orthogonalen Matrizen (bestehend ausden orthogonalen Eigenwerten) diagonalisieren kann, gilt fur symmetrischeMatrizen A und beliebige Matrizen A = A + ∆A

mini=1,...,n

|λi − λ| ≤ ||∆A||2 ,

da man eine Transformationsmatrix T mit cond2(T ) = 1 findet.Ohne Beweis wird noch ein Vergleichssatz fur Eigenwerte symmetrischer Ma-trizen angegeben.

148

Satz 4.16. Fur symmetrische reelle (n × n)-Matrizen A und A mit denEigenwerten

λ1 ≤ · · · ≤ λn von A bzw. λ1 ≤ . . . λn von A

gilt|λi − λi| ≤ ρ(A − A) ≤ ||A − A||

fur beliebige Matrixnormen.

Einen Beweis dieses Satzes findet man z.B. im Numerik-Buch von W. Oevel.

4.3 Numerische Methoden zur Eigenwertbe-

rechnung

Es geht zuerst darum, die Aufgabe der Eigenwertberechnung zu vereinfachen.Dazu werden ausgehend von A einfachere ahnliche Matrizen konstruiert.Zur Eigenwertberechnung werden dann Newtonverfahren, Jacobi-Verfahrenund die Givensrotation besprochen.Am Ende werden wir die sukzessive Konstruktion von zu A ahnlichen Ma-trizen zur naherungsweisen Eigenwertberechnung mit dem sogenannten QR-Verfahren nutzen.

4.3.1 Transformation auf Hessenberg- bzw. Tridiago-nalform


Das Ziel der nachsten Uberlegungen ist die Konstruktion einer Matrix H, dieder Matrix A, von der wir Eigenwerte suchen, ahnlich sind, allerdings einewesentlich einfachere Gestalt als A haben. Die einfachere Bestimmung derEigenwerte von H ergibt dann die Losung des Eigenwertproblems von A.

Definition 4.17. Unter einer Hessenberg-Matrix versteht man eine MatrixH = (hij), fur die hij = 0 fur i > j + 1 gilt, also eine Matrix der Form

H =

h11 h12 . . . h1 n−1 h1n

h21 h22 . . . h2 n−1 h2n

0 h32 . . . h3 n−1 h3n...

. . . . . ....

...0 . . . 0 hn n−1 hnn

,

die unter der Hauptdiagonale nur ein Band besitzt.

149

Wir werden nun zeigen, dass man jede Matrix A durch eine orthogonaleAhnlichkeitstransformation auf Hessenberg-Form transformieren kann, d.h.,dass es eine orthogonale Matrix Q mit

H = QT AQ

gibt. Betrachten wir dazu mit ~a1 die erste Spalte von A. Wir suchen nun eineHouseholder-Matrix

H1 = E − 2~u1~u

T1

〈~u1, ~u1〉,

so dass sich mit ~a(1)1 = H1~a1 = (a11, ∗ , 0, . . . , 0)T ein Vektor ergibt, der bis

auf die ersten beiden Komponenten nur Null-Komponenten besitzt. Analogzum Vorgehen bei der Erzeugung von QR-Zerlegungen leistet der Vektor

~u1 = (0, c + a21, a31, . . . , an1)T

mit c = sign(a21)√

a221 + · · · + a2

n1 das Geforderte. Es ergibt sich

~a(1)1 = H1~a1 = (a11,−c, 0, . . . , 0)T .

Fur die j-te Spalte ~aj von A erzeugt die Householder-Matrix

Hj = E − 2~uj~u

Tj

〈~uj, ~uj〉(4.6)

mit

~uj = (0, . . . , 0, c + aj+1 j, . . . , anj)T und c = sign(aj+1 j)

√

a2j+1 j + · · · + a2

nj

einen Vektor ~a(j)j = Hj~aj = (a1j, . . . , ajj,−c, 0, . . . , 0)T , der bis auf die ersten

j + 1 Komponenten nur Null-Komponenten besitzt. Die Multiplikation einerMatrix A mit der Householder-Matrix Hj (4.6) lasst alle Spalten der Form

~s = (s1, s2, . . . , sj, 0, . . . , 0)T

invariant, d.h., es gilt Hj~s = ~s. Damit bleiben durch die Multiplikation von Amit Householder-Matrizen H1, . . . , Hj−1 erzeugte Nullen im unteren Dreieckerhalten, d.h., mit den Householder-Matrizen H1, . . . , Hn−2 erhalt man mit

G = Hn−2Hn−3 . . . H1A =

a11 a12 . . . a1 n−1 a1n

g21 g22 . . . g2 n−1 g2n

0 g32 . . . g3 n−1 g3n...

. . . . . ....

...0 . . . 0 gn n−1 gnn

150

eine Hessenberg-Matrix. Man uberpruft durch Nachrechnen, dass dieMultiplikation der Matrix G von rechts mit den Householder-MatrizenH1, . . . , Hn−2 die Hessenberg-Form nicht zerstort. Man erkennt nun, dassdie Matrix H1AH1 wieder eine Hessenberg-Matrix ist. Insgesamt erhalt manmit

H = Hn−2Hn−3 . . . H1AH1H2 . . . Hn−2 =

a11 h12 . . . h1 n−1 h1n

h21 h22 . . . h2 n−1 h2n

0 h32 . . . h3 n−1 h3n...

. . . . . ....

...0 . . . 0 hn n−1 hnn

die gewunschte Hessenberg-Matrix, die aufgrund der Orthogonalitat derHouseholder-Matrizen Hi eine orthogonale Transformation von A ist. Es gilt

H = QT AQ mit Q = H1H2 . . . Hn−2, QT = Hn−2Hn−3 . . . H1 .

H ist ahnlich zu A und deshalb haben H und A die gleichen Eigenwerte.

Beispiel 4.18. Fur die Transformation der Matrix

A =

2 3 43 2 34 1 6

ergibt sich mit ~u1 = (0, 3 + 5, 4)T die Householder-Matrix

H1 = E − 2~u1~u

T1

〈~u1, ~u1〉=

1 0 00 −3

5−4

5

0 −45

35

.

Weiter gilt

G = H1A =

2 3 4−5 −2 −33

5

0 −1 65

und H = H1AH1 =

2 −5 0−5 162

25−59

25

0 − 925

3825

.

H = H1AH1 = HT1 AH1 ist offensichtlich eine Hessenberg-Matrix und eine

orthogonale Transformation von A.

Fordert man von der zu transformierenden Matrix A die Symmetrie, dannfuhrt der eben dargelegte Algorithmus zur Transformation auf eine symme-trische Hessenberg-Matrix, die folglich eine symmetrische Tridiagonal-Matrixist.

151

4.3.2 Newton-Verfahren zur Berechnung von Eigen-werten von Hessenberg-Matrizen

Das charakteristische Polynom χ(µ) einer Hessenbergmatrix und die zu-gehorige Ableitung χ′(µ) lassen sich jeweils uber die Auflosung speziellergestaffelter linearer Gleichungssysteme berechnen. Dazu betrachten wir den

Satz 4.19. Sei H = (hij) ∈ RN×N eine Hessenbergmatrix mit hi i+1 6= 0 fur

i = 1 . . . , N−1 und charakteristischem Polynom χ(µ) = det (H−µE), µ ∈ R.Im Folgenden sei µ ∈ R fest gewahlt und kein Eigenwert von H, und esbezeichne ~x = ~x(µ) = (xj(µ)) ∈ R

N den eindeutig bestimmten Vektor mit

(H − µE)~x = ~e1 , (4.7)

mit ~e1 = (1, 0, . . . , 0)T ∈ RN . Dann gelten die folgenden Darstellungen

χ(µ) =(−1)N−1h21h32 · · ·hN N−1

xN(µ),

χ(µ)

χ′(µ)=

1

xn(µ)

d

dµ(

1

xn(µ)) . (4.8)

Beweis. Die Anwendung der Cramerschen Regel auf die Gleichung (4.7) er-gibt die erste Aussage in (4.8),

xN = det

h11 − µ h12 · · · h1 N−1 1

h21 h22 − µ... 0

h32. . .

......

. . . hN−1 N−1 − µ...

hN N−1 0

/χ(µ)

= (−1)N−1 det

h21 h22 − µ...

h32. . .

.... . . hN−1 N−1 − µ

hN N−1

︸︷︷︸

=h21h32···hN N−1

/χ(µ) ,

wobei die Determinate durch die Entwicklung nach der letzten Spalte be-rechnet wurde. Damit wurde die erste Aussage von (4.8) gezeigt. Eine an-schließende Differentiation ergibt die zweite Aussage.

Bemerkung 4.20. Die Forderung hi i+1 6= 0 im letzten Satz ist keine wirk-liche Einschrankung, da anderenfalls die Hessenbergmatrix in Teilmatrizenzerfallt, die ebenfalls Hessenbergmatrizen sind und dann ebenso behandeltwerden konnen wie die Matrix H im Satz.

152

Satz 4.21. Mit den Bezeichnungen aus Satz 4.19 erhalt man die Werte1/xN(µ) und d

dµ( 1

xN (µ)) aus den folgenden (durch Umformung und Differen-

tiation von (4.7) entstandenen) gestaffelten linearen Gleichungssystemen

(h11 − µ)v1 + h12v2 + · · · + h1 N−1vN−1 + h1N = 1xN (µ)

h21v1 + (h22 − µ)v2 + · · · + h2 N−1vN−1 + h2N = 0

.

.

.

.

.

.

.

.

.

.

.

.

hN−1 N−2vN−2 − (hN−1 N−1 − µ)vN−1 + hN−1 N = 0hN N−1vN−1 + hNN − µ = 0

9

>

>

>

>

>

>

=

>

>

>

>

>

>

;

(4.9)

beziehungsweise

(h11 − µ)z1 + h12z2 + · · · + h1 N−1zN−1 − v1 = ddµ

1xN (µ)

h21z1 + (h22 − µ)z2 + · · · + h2 N−1zN−1 − v2 = 0

.

.

.

.

.

.

.

.

.

.

.

.

hN−1 N−2zN−2 − (hN−1 N−1 − µ)zN−1 − vN−1 = 0hN N−1zN−1 − 1 = 0

9

>

>

>

>

>

>

=

>

>

>

>

>

>

;

(4.10)

die man rekursiv nach den Unbekannten vN−1, . . . , v1, 1/xN(µ) beziehungs-weise zN−1, . . . , z1,

ddµ

1xN (µ)

auflost.

Beweis. Die Aussage (4.9) erhalt man (fur vj = xj(µ)/xN(µ)), indem mandie einzelnen Zeilen des Gleichungssystems (4.7) durch xN(µ) dividiert. Die

Differentiation der Gleichungen in (4.9) nach µ liefert fur zj = (dvj

dµ)(µ) un-

mittelbar (4.10).

4.3.3 Das Newtonverfahren fur tridiagonale Matrizen

Die Transformation einer symmetrischen Matrix auf Hessenbergform ergibteine tridiagonale Matrix. Deshalb ist es sinnvoll, das Newtonverfahren furtridiagonale Matrizen betrachten, denn χ(µ) = det (H−µE) und χ′(µ) lassensich dann auf einfache Weise rekursiv berechnen.

Lemma 4.22. Zu gegebenen Zahlen δ1, . . . , δN ∈ R und γ2, . . . , γN ∈ R

gelten fur die charakteristischen Polynome

χk(µ) = det (Jk − µE) , Jk =

δ1 γ2

γ2. . . . . .. . . . . . γk

γk δk

, k = 1, . . . , N,

die folgenden Rekursionsformeln

χ1(µ) = δ1 − µ ,χk(µ) = (δk − µ)χk−1(µ) − γ2

kχk−2(µ) , k = 2, . . . , N,

(4.11)

153

mit der Notation χ0(µ) := 1. Fur die Ableitungen gelten

χ′1(µ) = −1 ,

χ′k(µ) = −χk−1 + (δk − µ)χ′

k−1(µ) − γ2kχ

′k−2(µ) , k = 2, . . . , N .

Beweis. Die Darstellung fur χ1 ergibt sich unmittelbar, und fur χ2 ist

χ2(µ) = det

([δ1 − µ γ2

γ2 δ2 − µ

])

= (δ1 − µ)︸︷︷︸

=χ1(µ)

(δ2 − µ) − γ22 ,

was die behauptete Darstellung von χ2 ist. Fur k ≥ 3 erhalt man durchEntwicklung der Determinate nach der letzten Spalte

χk(µ) = det

0

B

B

B

B

B

B

B

@

2

6

6

6

6

6

6

6

4

δ1 − µ γ2

γ2

. . .. . .

. . . δk−2 − µ γk−1

γk−1 δk−1 − µ γk

γk δk − µ

3

7

7

7

7

7

7

7

5

1

C

C

C

C

C

C

C

A

(4.12)

= (δk − µ)χk−1(µ) − γk det

0

B

B

B

B

B

B

B

@

2

6

6

6

6

6

6

6

4

δ1 − µ γ2

γ2

. . .. . .

. . . δk−3 − µ γk−2

γk−2 δk−2 − µ γk−1

0 γk

3

7

7

7

7

7

7

7

5

1

C

C

C

C

C

C

C

A

| z

=γkχk−2(µ)

, (4.13)

womit das Lemma bewiesen ware.

Mit den Ergebnissen zur Bestimmung des charakteristischen Polynoms χ(µ)

und des Quotienten χ(µ)χ′(µ)

und Informationen zur Lage von Eigenwerten (z.B.

nach dem Satz von Gerschgorin), kann man mit dem Newtonverfahren Ei-genwerte berechnen.

4.3.4 Jacobi-Verfahren zur Eigenwertberechnung

Im Unterschied zum Newtonverfahren geht es beim Jacobi-Verfahren darum,durch die sukzessive Konstruktion von zu A ahnlichen Matrizen A(k) mitReduktion der Nichtdiagonalelemente die Eigenwerte durch die Diagonalein-trage von A(k) zu approximieren.

Approximation der Eigenwerte durch Diagonaleintrage

Um zu verabreden, was unter Konvergenz eines solchen Verfahrens zu verste-hen ist, braucht man ein Maß zur Große des Nichtdiagonalteils einer Matrix.

154

Definition 4.23. Fur eine Matrix B = (bij) ∈ RN×N ist die Zahl S(B) ∈ R+

folgendermaßen erklart,

S(B) :=N∑

i,j=1,i6=j

b2ij . (4.14)

Offensichtlich gilt fur S(B) mit der Frobeniusnorm || · ||F

S(B) := ||B||2F −N∑

j=1

b2jj = ||B − D||2F , mit D := diag (b11, . . . , bNN) .

(4.15)Ist S(B) klein, dann stellen die Diagonalelemente Approximationen fur dieEigenwerte dar. Es gilt der

Satz 4.24. Seien λ1 ≥ λ2 ≥ · · · ≥ λN die Eigenwerte der symmetrischenMatrix B = (bij) ∈ R

N×N , und seien bk1k1 ≥ bk2k2 ≥ · · · ≥ bkNkNdie der

Große nach geordneten Diagonalelemente von B. Dann gilt

|bkjkj− λj| ≤

√

S(B) , j = 1, . . . , N .

Beweis. Mit D := diag (b11, . . . , bNN) erhalt man

maxj=1,...,N

|bkjkj− λj| ≤ ||B − D||2 ≤ ||B − D||F =

√

S(B) ,

wobei erstens ein Storungsresultat aus Satz 4.16 benutzt wurde, und zweitens|| · ||2 ≤ || · ||F verwendet wurde.

Givensrotation zur Reduktion der Nichtdiagonaleintrage

Das Verfahren von Jacobi zur approximativen Bestimmung der Eigenwertesymmetrischer Matrizen A ∈ R

N×N durch die Konstruktion von A(k) mitS(A) = S(A(1)) > S(A(2)) > . . . beruht auf der sogenannten Givensrotation.Es werden zu A ahnliche Matrizen

A(k+1) = S−1k A(k)Sk , k = 1, 2, . . . mit A = A(1)

155

konstruiert, wobei die einzelnen Ahnlichkeitstransformationen von der allge-meinen Form

B := Ω−1pq BΩpq , Ωpq =

1. . .

1c −s

1. . .

1s c

1. . .

1

∈ RN×N

(4.16)sind mit einer symmetrischen Matrix B ∈ R

N×N und mit speziell zuwahlenden Indizes p 6= q und reellen Zahlen

c, s ∈ R , c2 + s2 = 1 . (4.17)

Die Spalte mit den Zahlen c und s ist die p-te Spalte, die Spalte mit denZahlen −s und c ist die q-te Spalte, woraus die entsprechenden Zeilen folgen.Ausgehend von B = (bij) erhalt man durch die Transformation

bpp = c2bpp + 2csbpq + s2bqq , (4.18)

bqq = s2bpp − 2csbpq + c2bqq , (4.19)

bpq = bqp = cs(bqq − bpp) + (c2 − s2)bpq , (4.20)

bij = bij , i, j /∈ p, q . (4.21)

Weiter gilt fur die Eintrage der p-ten und q-ten Spalten und Zeilen

bkp = bpk = cbkp+sbkq , bkq = bqk = −sbkp+cbkq , fur k /∈ p, q . (4.22)

Bevor der Zusammenhang zwischen S(B) und S(B) hergestellt wird, soll einHilfsresultat hergeleitet werden.

Lemma 4.25. Fur jede Matrix B ∈ RN×N und jede orthogonale Matrix

Q ∈ RN×N gilt

||Q−1BQ||F = ||B||F .

156

Beweis. Unter der Spur einer Matrix A verstehen wir spur (A) =∑N

j=1 ajj.Es gelten nun die elementaren Identitaten

||A||F = spur (AT A) , spur (ST ) = spur (TS) fur alle A, S, T ∈ RN×N ,

woraus die Aussage des Lemmas folgt.

Fur den Zusammenhang zwischen S(B) und S(B) gilt der

Satz 4.26. Fur eine symmetrische Matrix B = (bij) ∈ RN×N gilt mit den

Beziehungen aus (4.16)

S(B) = S(B) − 2(b2pq − b2

pq) .

Beweis. Man rechnet

S(B) = ||B||2F −N∑

j=1

b2jj = (||B||2F −

N∑

j=1

b2jj)

︸︷︷︸

=S(B)

+b2pp + b2

qq − b2pp − b2

qq (4.23)

aus. Die letzten 4 Summanden in (4.23) kann man in der Form

[bpp bpq

bpq bqq

]

︸︷︷︸

=:b

=

[c s−s c

] [bpp bpq

bpq bqq

]

︸︷︷︸

=:b

[c −ss c

]

darstellen. Die Matrizen b und b ∈ R2×2 sind orthogonal ahnlich zueinander,

und damit folgt aus Lemma 4.25

b2pp + b2

qq + 2b2pq

︸︷︷︸

=||b||2F

= b2pp + b2

qq + 2b2pq

︸︷︷︸

=||b||2F

, (4.24)

und die Identitaten (4.23) und (4.24) ergeben die Behauptung.

Mit Satz 4.26 wird offensichtlich, dass bei festem Index (p, q) im Fall bpq = 0

die Zahl S(B) die großtmogliche Verringerung gegenuber S(B) erfahrt.

Korollar 4.27. Wahlt man in (4.16) die Zahlen c und s so, dass bpq = 0erfullt ist, dann gilt

S(B) = S(B) − 2b2pq .


157

Satz 4.28. In (4.16) erhalt man den Eintrag bpq = bqp = 0 durch die Wahlder Zahlen c und s (o.B.d.A. sei bpq 6= 0)

c =

√

1 + C

2, s = sign (bpq)

√

1 − C

2mit C =

bpp − bqq√

(bpp − bqq)2 + 4b2pq

.

(4.25)

Beweis. Mit den Beziehungen (4.20) folgt

bpq = sign (bpq)

√

1 − C2

4(bqq − bpp) + Cbpq

=sign (bpq)|bpq|(bqq − bpp)√


+bpp − bqq

√


bpq = 0 ,

wobei der Schritt von der ersten zur zweiten Zeile aus

√

1 − C2

4=

1

2

√

(bpp − bqq)2 + 4b2pq − (bpp − bqq)2


=|bpq|

√


folgt.

Das Korollar 4.27 und der folgende Satz liefern einen Hinweis zur jeweiligenWahl der Indizes p und q.

Satz 4.29. Fur Indizes (p, q) mit p 6= q sei

|bpq| ≥ |bij| fur i, j = 1, . . . , N, i 6= j , (4.26)

erfullt. Mit den Bezeichnungen aus (4.16) und c und s aus Satz 4.28 gilt dieAbschatzung

S(B) ≤ (1 − η)S(B) , mit η :=2

N(N − 1).

Beweis. Wegen (4.26) gilt die Abschatzung

S(B) =N∑

i,j=1,...,N,i 6=j

b2ij ≤ N(N − 1)b2

pq ,

da die Anzahl der Nichtdiagonalelemente gleich N(N − 1) ist. Die Aussagedes Satzes folgt unter Nutzung des Korollars 4.27.

158

Bemerkung 4.30. Nach Satz 4.29 gilt fur die Messgroßen S(A(k)) des Ja-cobiverfahrens

S(A(k)) ≤ (1 − η)kS(A) , fur k = 1, 2, . . . (η =2

N(N − 1), A = A(1)) .

Bei Vorgabe einer Genauigkeit ǫ > 0 fur S(A(k)) ergibt sich

S(A(k)) ≤ (1 − η)kS(A) < ǫ ⇐⇒ k ≥ 2log(

√

S(A)/ǫ)

− log(1 − η)≈ N2 log((

√

S(A)/ǫ)

fur die durchzufuhrenden Givensrotationen bei jeweiliger Wahl des betrags-großten Nichtdiagonalelements zur Ermittlung vom Indexpaar (p, q).

4.3.5 Von-Mises-Vektoriteration

Bei vielen angewandten Aufgabenstellungen ist der betragsgroßte Eigenwertvon besonderer Bedeutung. Bei Schwingungsproblemen ist oft die Grund-schwingung von Interesse und fur deren Berechnung benotigt man den be-tragsgroßten Eigenwert. Fur den Fall, dass die Matrix A Eigenwerte mit derEigenschaft

|λ1| > |λ2| ≥ · · · ≥ |λN | (4.27)

besitzt, kann man ausgehend von einem geeigneten Startvektor ~u0 mit derIteration

~u1 = A~u0, ~u2 = A~u1, . . . , ~uk+1 = A~uk, . . . (4.28)

den betragsgroßten Eigenwert und den dazugehorigen Eigenvektor berech-nen. Betrachten wir als Startvektor

~u0 = ~q1 + ~q2 + · · · + ~qN ,

wobei ~q1, . . . , ~qN die Eigenvektorbasis einer als diagonalisierbar vorausgesetz-ten Matrix A sind. Mit A~qk = λk~qk erhalt man mit der Iteration (4.28)

~uk = A~uk−1 = Ak~u0 = λk1~q1 + · · · + λk

N~qn (4.29)

und bei der Iteration setzt sich die Vektorkomponente mit dem betragsgoßtenEigenwert durch, so dass die Iteration in gewisser Weise gegen den Eigen-vektor ~q1 strebt. Multipliziert man (4.29) mit einem Testvektor ~z, von dem〈~z, ~q1〉 6= 0 gefordert wird, dann erhalt man

〈~uk, ~z〉 ≈ λ1〈~uk−1, ~z〉

159

fur genugend große k und es gilt

λ1 = limk→∞

〈~uk, ~z〉〈~uk−1, ~z〉

,

wobei wir die gesicherte Existenz des Grenzwerts nicht zeigen. Ist ~q1 alsEigenvektor mit einer positiven ersten von null verschiedenen Komponentezum betragsgroßten Eigenwert λ1 normiert, dann konvergiert die Folge

~vk := ζk~uk

||~uk||(4.30)

gegen ~q1, wobei ζk ∈ +1,−1 so zu wahlen ist, dass die erste von null ver-schiedene Komponente von ~vk positiv ist. Die durchgefuhrten Betrachtungenkonnen wir zusammenfassen.

Satz 4.31. (Von-Mises-Vektoriteration)Sei A eine diagonalisierbare (N×N)-Matrix, deren Eigenwerte die Bedingung(4.27) erfullen. ~qj seien die Eigenvektoren zu λj. Seien ~uk und ~vk durch (4.29)bzw. (4.30) erklart und gelte 〈~u0, ~q1〉 6= 0, 〈~z, ~q1〉 6= 0 fur die Vektoren ~z, ~u0.Dann konvergiert die Folge ~vk gegen den Eigenvektor ~q1 und der betragsgroßteEigenwert λ1 ergibt sich als Grenzwert

λ1 = limk→∞

〈~uk, ~z〉〈~uk−1, ~z〉

= limk→∞

〈~vk, ~z〉〈~vk−1, ~z〉

. (4.31)

Fur die Konvergenzgeschwindigkeit gilt

|〈~uk+1, ~z〉〈~uk, ~z〉

− λ1| ≤ K|λ2

λ1

|k , (4.32)

wobei die Konstante K von der Wahl von ~z, ~u0 abhangt.

Zum Satz 4.31 ist anzumerken, dass man auch im Fall

λ1 = · · · = λr, |λ1| = · · · = |λr| > |λr+1| ≥ · · · ≥ |λN |, r > 1

mit der Von-Mises-Iteration (4.29), (4.30), (4.31) den mehrfachen Eigenwertλ1 bestimmen kann. Allerdings konvergiert die Folge (4.30) nur gegen irgend-einen Eigenvektor aus dem Unterraum der Losungen des linearen Gleichungs-systems (A − λ1E)~v = ~0. Eventuelle weitere Eigenvektoren zum mehrfachenEigenwert λ1 muss man dann auf anderem Weg, z.B. durch die Bestimmungweiterer Losungen von (A − λ1E)~v = ~0, berechnen.Nach der Bestimmung von λ1 weiß man, dass fur eine symmetrische MatrixA alle Eigenwerte auf jeden Fall im Intervall [a, b] := [−|λ1|, |λ1|] liegen, da

160

sie reell sind. Evtl. kann man das Intervall [a, b] durch die Betrachtung derGerschgorin-Kreise noch verkleinern.Mit der folgenden Uberlegung kann man unter Umstanden Eigenwerte vonA schneller bestimmen als mit der Von-Mises-Iteration nach Satz 4.31. Ist λein Eigenwert von A und ~u ein zu λ gehorender Eigenvektor von A, dann istfur µ 6= λ wegen

A~u = λ~u ⇐⇒ (A − µE)~u = (λ − µ)~u ⇐⇒ (A − µE)−1~u =1

λ − µ~u

die Zahl 1λ−µ

ein Eigenwert von (A − µE)−1. Wendet man den Satz 4.31 auf

das Eigenwertproblem der Matrix (A − µE)−1 an, dann ergibt sich mit demfolgenden Satz eine effiziente Methode zur Eigenwert- und Eigenvektorbe-stimmung.

Satz 4.32. (inverse Von-Mises-Vektoriteration)Sei A eine Matrix vom Typ N × N mit den Eigenwerten λ1, . . . , λN undsei µ ∈ C eine komplexe Zahl ungleich allen Eigenwerten von A, so dassdie Matrix A einen Eigenwert hat, der naher bei µ als bei allen anderenEigenwerten liegt, d.h.

0 < |λ1 − µ| < |λ2 − µ| ≤ · · · ≤ |λN − µ|

gilt (λ1 ist der Eigenwert, der µ am nachsten liegt). Mit der Iterationsfolge

~uk := (A − µE)−1~uk−1 (k = 1, 2, . . . ) (4.33)

gilt

limk→∞

〈~uk, ~z〉〈~uk−1, ~z〉

=1

λ1 − µ⇐⇒ λ1 = lim

k→∞

〈~uk−1, ~z〉〈~uk, ~z〉

+ µ ,

wobei 〈~u0, ~qµ〉 6= 0, 〈~z, ~qµ〉 6= 0 fur den Startvektor ~u0 und den Testvektor~z mit ~qµ als dem zu 1

λ1−µgehorenden Eigenvektor der Matrix (A − µE)−1

gelten muss. Die normalisierten Vektoren ~vk = ~uk

||~uk|| konvergieren gegen den

Eigenvektor ~qµ. Die Iteration (4.33) heißt inverse Von-Mises-Iteration. Furdie Konvergenzgeschwindigkeit gilt

|〈~uk+1, ~z〉〈~uk, ~z〉

− 1

λ1 − µ| ≤ K|1/(λ2 − µ)

1/(λ1 − µ)|k = K|λ1 − µ

λ2 − µ|k .

Der Satz 4.32 ist in zweierlei Hinsicht von Bedeutung. Zum einen kann mandurch eine gunstige Wahl von µ in der Nahe eines Eigenwertes λ1 die Kon-vergenzgeschwindigkeit der inversen Von-Mises-Iteration groß machen undschnell zu diesem Eigenwert gelangen. Zweitens kann man bei Kenntnis des

161

Intervalls [λmin, λmax] durch die Wahl von µ =λmin+λmax

2und die Berech-

nung des Eigenwertes λµ von A, der µ am nachsten liegt, mit

µ1 =λmin + λµ

2, µ2 =

λµ + λmax

2

die Iteration (4.33) fur µ1 und µ2 durchfuhren. Die sukzessive Fortsetzung die-ses Algorithmus liefert nach evtl. Aussortierung von Punkten, fur die (4.33)nicht konvergiert, alle Eigenwerte von A. Bei der Wahl der Parameter µ kannman naturlich auch Informationen zur Lage der Eigenwerte aus dem Satz 4.7nutzen.Ein weiterer Weg, samtliche von null verschiedenen Eigenwerte einer MatrixA durch Von-Mises-Vektoriterations-Methoden zu bestimmen, ist mit Hilfeder Deflation moglich. Kennt man einen Eigenwert λ1 6= 0 der symmetri-schen Matrix A und mit ~x1 den dazugehorenden Eigenvektor und bezeichnetdie restlichen Eigenwerte von A mit λ2, . . . , λN , dann hat die Matrix

A = (E − ~x1~xT1

〈~x1, ~x1〉)A = A − λ1

〈~x1, ~x1〉~x1~x

T1

die Eigenwerte 0, λ2, . . . , λN . Außerdem ist jeder Eigenvektor von A auchEigenvektor von A und umgekehrt. Mit der Deflation transformiert man denEigenwert λ1 auf 0.

Beispiel 4.33. Fur die Matrix

A =

2 −1 0−1 2 −1

0 −1 2

findet man die Eigenwerte λ1 = 2, λ2 = 2 −√

2, λ3 = 2 +√

2 mit denEigenvektoren

~x1 =

− 1√2

01√2

, ~x2 =

12

1√212

, ~x3 =

−12

1√2

−12

.

Fur A ergibt sich

A = A − λ1

〈~x1, ~x1〉~x1~x

T1 =

1 −1 1−1 2 −1

1 −1 1

mit den Eigenwerten 0, λ2 = 2 −√

2, λ3 = 2 +√

2 und den Eigenvektoren

~x1 =

− 1√2

01√2

, ~x2 =

12

1√212

, ~x3 =

−12

1√2

−12

.

162

Fur den allgemeineren Fall der nicht notwendigerweise symmetrischen MatrixA gilt der folgende

Satz 4.34. (Deflation)Sei ~z 6= ~0 ein beliebiger Vektor und es sei ~x1 mit 〈~x1, ~z〉 6= 0 ein Eigenvektorder Matrix A zum Eigenwert λ1. Dann liefert jeder weitere von ~x1 linearunabhangige Eigenvektor ~x von A zum Eigenwert λ mit

~y = ~x − 〈~x, ~z〉〈~x1, ~z〉

~x1 (4.34)

einen Eigenvektor der Matrix

A = (E − ~x1~zT

〈~x1, ~z〉)A

zum gleichen Eigenwert λ. Der Eigenvektor ~x1 ist ebenfalls Eigenvektor derMatrix A zum Eigenwert 0. Umgekehrt liefert jeder Eigenvektor ~y von A zumEigenwert λ einen Eigenvektor

~x′ = (A − λ1E)~y = (λ − λ1)~y +〈A~y, ~z〉〈~x1, ~z〉

~x1 (4.35)

von A zum selben Eigenwert. Alle Eigenvektoren von A zu nichtverschwin-denden Eigenwerten stehen senkrecht auf ~z.

A~y = λ~y und A~x′ = λ~x′ rechnet man durch Einsetzen nach. Die Multiplika-tion von ~zT A mit (4.34) ergibt

~zT A~y = 〈A~y, ~z〉 = 〈A~x, ~z〉 − λ1〈~x, ~z〉 ⇐⇒ 〈A~y, ~z〉 = (λ − λ1)〈~x, ~z〉

und Einsetzen von 〈~x, ~z〉 = 1λ−λ1

〈A~y, ~z〉 in (4.34) liefert (4.35) mit dem Ei-

genvektor ~x′ = (λ − λ1)~x. Die skalare Multiplikation von A~y mit ~z ergibtunter Nutzung von A~y = λ~y

〈A~y, ~z〉 = 〈A~y, ~z〉 − 〈A~y, ~z〉〈~x1, ~z〉

〈~x1, ~z〉 = 〈A~y, ~z〉 − 〈A~y, ~z〉 = λ〈~y, ~z〉 ,

woraus 〈~y, ~z〉 fur λ 6= 0 folgt. Damit ist der Satz 4.34 bewiesen.Mit dem Satz 4.34, d.h., der sukzessiven Deflation, kann man also mit Von-Mises-Iterationen samtliche Eigenwerte einer Matrix, beginnend mit dem be-tragsgroßten, und die dazugehorenden Eigenvektoren berechnen.

163

4.3.6 QR-Verfahren26.Vorle-sungam26.01.2010

Das QR-Verfahren zur Berechnung der Eigenwerte der Matrix A basiertauf der sukzessiven Konstruktion von QR-Zerlegungen. Bevor das Verfah-ren erlautert und Konvergenzbetrachtungen angestellt werden, sind einigeAussagen zu QR-Zerlegungen bereitzustellen.

Lemma 4.35. (Eindeutigkeit der QR-Zerlegung)Fur Orthogonalmatrizen Q1, Q2 ∈ R

N×N und regulare rechte Dreiecksmatri-zen R1, R2 ∈ R

N×N seiQ1R1 = Q2R2

erfullt. Dann existiert eine Vorzeichenmatrix S = diag (σ1, . . . , σN) ∈ RN×N

mit σj ∈ −1, 1, so dass

Q2 = Q1S , R2 = SR1

gilt.

Beweis. Nach Voraussetzung gilt

Q−11 Q2 = R1R

−12 =: S .

Produkte und Inverse von orthogonalen Matrizen sind wieder orthogonal,und Gleiches gilt fur Dreiecksmatrizen. Folglich ist S sowohl rechte Dreiecks-matrix als auch orthogonal, d.h.

S−1 = ST , S =

∗ ∗ · · · ∗∗ · · · ∗

. . ....∗

∈ R

N×N . (4.36)

Damit kann S nur eine Diagonalmatrix sein, also eine Matrix S =diag (σ1, . . . , σN) ∈ R

N×N . Aus

S−1 = ST ⇐⇒ ST S = E

folgt σj = 1/σj fur j = 1, . . . , N , also σj ∈ −1, 1.

Definition 4.36. Fur Matrizen Ak = (a(k)ij ) ∈ R

N×N und A = (aij) ∈ RN×N

schreibt man

Ak → A fur k → ∞ :⇐⇒ a(k)ij → aij fur k → ∞ (i, j = 1, . . . , N)

(Ak → A fur k → ∞ gilt genau dann, wenn ||Ak − A|| → 0 fur k → ∞,wobei || · || irgendeine Matrixnorm ist).

164

Fur die folgenden Konvergenzbetrachtungen des noch zu erklarenden QR-Verfahren soll unter O(∆k) fur eine Matrix ∆k als O(||∆k||2) fur die Matri-xeintrage verstanden werden.

Lemma 4.37. (Stetigkeit der QR-Zerlegung)Fur Orthogonalmatrizen Qk, Q ∈ R

N×N und rechte DreiecksmatrizenRk, R ∈ R

N×N sei

=:∆k︷︸︸︷

QkRk − QR → 0 fur k → ∞ (4.37)

erfullt, und die Matrix QR ∈ RN×N sei regular. Dann existieren Vorzeichen-

matrizen

Sk = diag (σ(k)1 , . . . , σ

(k)N ) ∈ R

N×N mit σ(k)j ∈ −1, 1 , (4.38)

mit

QkSk = Q + O(∆k) , SkRk = R + O(∆k) fur k → ∞ . (4.39)

Beweis. Der Beweis dieses Lemmas zur Stetigkeit der QR-Faktorisierung istrecht aufwendig und soll in den wesentlichen Beweisschritten dargestellt wer-den.Da R, Q und QR regulare Matrizen sind, existiert

Rk := RkR−1 .

Mit

RTk Rk = (R−1)T RT

k RkR−1 = (RT )−1(QkRk)

T (QkRk)R−1

= (RT )−1[(QR)T + O(∆k)](QR + O(∆k))R−1

= (RT )−1RT RR−1

︸︷︷︸

=E

+O(∆k) fur k → ∞

wurdeRT

k Rk = E + O(∆k) fur k → ∞ , (4.40)

gezeigt. Nun wird mit Hilfe von (4.40) gezeigt, dass fur gewisse Vorzeichen-matrizen Sk ∈ R

N×N der Form (4.38)

SkRk = E + O(∆k) fur k → ∞ , (4.41)

165

gilt. Zum Nachweis der Konvergenzaussage (4.41) betrachtet man die Zerle-gung von Rk

Rk =

r(k)11 ∗ . . . ∗

r(k)22

. . ....

. . . ∗r(k)NN

=: diag (r(k)11 , . . . , r

(k)NN)

︸︷︷︸

=:Dk

+

0 ∗ . . . ∗...

. . . . . ....

.... . . ∗

0 . . . . . . 0

︸︷︷︸

=:Uk

,

(4.42)die dadurch begrundet ist, dass Inverse und Produkte von oberen Dreiecks-matrizen wieder Dreicksmatrizen sind. Mit Dk und Uk aus (4.42) wird nun

D2k = E + O(∆k) , Uk = O(∆k) fur k → ∞ (4.43)

gezeigt. Dazu stellt man als erstes

Rk = (RTk )−1 + Bk mit Bk := (RT

k )−1(RTk Rk − E)

fest. Aus (4.40) folgtBk = O(∆k)

wobei außerdem anzumerken ist, dass (4.40) die Beschranktheit der Matrix-

folge R−10 , R−1

1 , . . . impliziert (||R−1k ||2 = ||(RT

k Rk)−1||1/2

2 → 1 fur k → ∞).

Da RTk eine untere Dreiecksmatrix ist, ist auch (RT

k )−1 eine untere Dreiecks-matrix. Damit stimmt notwendigerweise das strikte obere Dreieck (ohne dieHauptdiagonale) von Bk mit dem strikten oberen Dreieck von Uk uberein.Insgesamt erhalt man damit die Darstellung

Bk =

∗∗ ∗...

. . .

∗ · · · · · · ∗

+ Uk = O(∆k) ,

also gilt der zweite Teil von (4.43). Zum Nachweis des ersten Teils von (4.43)findet man

D2k = DT

k Dk = (RTk − UT

k )(Rk − Uk)

= RTk Rk

︸︷︷︸

=E+O(∆k)

− RTk Uk

︸︷︷︸

=O(∆k)

− UTk Rk

︸︷︷︸

=O(∆k)

+ UTk Uk

︸︷︷︸

O(∆k)

= E + O(∆k)

fur k → ∞. Aus (4.43) folgt nun mit den Vorzeichenmatrizen

Sk = diag (sign(r(k)11 ), . . . , sign(r

(k)NN))

166

(4.41) unmittelbar.

Mit (4.41) folgt nun mit

SkRk = SkRkR = R + O(∆k) ,

QkSk(∗)= (QkRk)(SkRk)

−1 (∗∗)= (QR + O(∆k))(R

−1 + O(∆k))

= Q + O(∆k) fur k → ∞ ,

der Nachweis des Aussage (4.39) des Lemmas, wobei man bei (*)berucksichtigt, dass nach Voraussetzung S2

k = E gilt, und dass fur hinrei-chend große k die Matrix Rk regular ist (ergibt sich aus (4.37), der Regula-ritat von QR und aus ||Q−1

k ||2 = 1). (**) folgt aus dem Storungsresultat furMatrizen

||(A + ∆A)−1 − A−1|| ≤ c||∆A|| fur ||∆A|| ≤ 1

2||A−1|| , mit c = 2||A−1||2 .

Nun soll das QR-Verfahren erklart werden. Fur eine beliebige Matrix A ∈R

N×N wird durch

QR-Algorithmus

A(1) := A ,

bestimme Qk, Rk durch die Faktorisierung A(k) = QkRk ,(4.44)

A(k+1) := RkQk = RkA(k)R−1

k

eine Folge A(1), A(2), . . . erklart, die, wie spater gezeigt wird, fur k → ∞gegen eine Diagonalmatrix konvergiert, die aufgrund der Ahnlichkeit von Aund A(k) die Eigenwerte von A enthalt (oder fur wachsendes k approximierendie Diagonaleintrage von A(k) die Eigenwerte von A).

Fur die weitere Untersuchung des QR-Verfahrens werden einige spezielle Dar-stellungen fur A(k) und Ak benotigt.

Lemma 4.38. Mit den Bezeichnungen aus (4.44) sowie den Festlegungen

Q1...k := Q1Q2 · · ·Qk , Rk...1 := RkRk−1 · · ·R1 , (4.45)

gilt

A(k+1) = Q−1k A(k)Qk ,

A(k+1) = Q−11...kAQ1...k ,

Ak = Q1...kRk...1 ,

fur k = 1, 2, . . . .

167

Der (einfache) Beweis sei als Ubung empfohlen. Zum Konvergenzverhaltendes QR-Verfahrens betrachten wir den

Satz 4.39. Die Matrix A ∈ RN×N sei regular und diagonalisierbar mit be-

tragsmaßig einfachen Eigenwerten λ1, . . . , λN ∈ R, die o.B.d.A. betragsmaßigfallend angeordnet seien,

|λ1| > |λ2| > · · · > |λN | > 0 , (4.46)

und die Inverse der Matrix T = [v1| . . . |vN ] ∈ RN×N der Eigenvektoren

vj ∈ RN zu λj besitze ohne Zeilenvertauschung eine LR-Faktorisierung.

Dann gilt fur den QR-Algorithmus (4.44)

A(k) = SkUSk + O(qk) fur k → ∞, mit q := maxj=1,...,N−1

|λj+1

λj

| ,

mit geeigneten Matrizen von der Form

Sk = diag (σ(k)1 , . . . , σ

(k)N ) ∈ R

N×N , U =

λ1 ∗ . . . ∗λ2

. . ....

. . . ∗λN

∈ R

N×N ,

(4.47)

mit σ(k)j ∈ −1, 1. Insbesondere approximieren die Diagonalelemente von

A(k) = (a(k)ij ) die betragsmaßig fallend sortierten Eigenwerte von A,

maxj=1,...,N

|a(k)jj − λj| = O(qk) fur k → ∞ .

Beweis. Fur die Eigenvektormatrix T wird eine QR-Zerlegung wie folgt be-trachtet

T = QR , Q orthogonal, R =

∗ ∗ · · · ∗∗ · · · ∗

. . ....∗

∈ R

N×N . (4.48)

Nun wirdA(k) = Sk(RDR−1)Sk + O(qk) fur k → ∞ (4.49)

mit einer Matrix Sk ∈ RN×N der Form (4.38) und der Diagonalmatrix

D := diag (λ1, . . . , λN) ∈ RN×N (4.50)

168

gezeigt. Die Aussage des Satzes erhalt man schließlich mit der Matrix U :=RDR−1. Fur den Nachweis von (4.49) wird die vorausgesetzte Faktorisierung

T−1 = LR , L =

1

∗ . . ....

. . . . . .

∗ . . . ∗ 1

∈ R

N×N , R =

∗ ∗ · · · ∗∗ · · · ∗

. . ....∗

∈ R

N×N ,

(4.51)benotigt. Nun gilt

Lk := DkLD−k = E + O(qk) fur k → ∞ , (4.52)

denn mit L = (lij) ergibt sich Lk = ((λi/λj)klij), und dann folgt (4.52)

aus der Ungleichung |λi/λj| ≤ q fur i ≥ j + 1. Weiterhin braucht man eine

QR-Zerlegung von RLk ∈ RN×N , etwa

RLk =: QkRk , Qk ∈ RN×N orthogonal, Rk =

∗ ∗ · · · ∗∗ · · · ∗

. . ....∗

∈ R

N×N .

Aus (4.52) erhalt man die Konvergenz

QkRk = R + O(qk) = E R + O(qk) fur k → ∞ ,

und Lemma 4.37 uber die Stetigkeit der QR-Zerlegung liefert mit einer ent-sprechenden Vorzeichenwahl in den Spalten der Matrix Qk bzw. in den Zeilender Matrix Rk

Qk = E + O(qk) , Rk = R + O(qk) fur k → ∞ . (4.53)

Die Aussage (4.53) ist der erste Schritt zum Nachweis von (4.49). Im zweitenSchritt erhalt man fur die Potenzen Ak, k ≥ 1, die beiden folgenden QR-Zerlegungen,

Ak = TDkT−1 (∗)= QRDkLR

(∗∗)= Q RLk

︸︷︷︸

QkRk

DkR = QQk︸︷︷︸

orthog.

RkDkR

︸︷︷︸

Dreieck

, (4.54)

Ak = Q1...kRk...1 , (4.55)

wobei (*) aus (4.48), (4.51) folgt, und (**) aus (4.52). Die Eindeutigkeit derQR-Zerlegung (Lemma 4.35) liefert nun

Q1...k = QQkSk+1 ,

Rk...1 = Sk+1RkDkR , mit Sk+1 = diag (σ

(k+1)1 , . . . , σ

(k+1)N ) ∈ R

N×N ,

169

mit geeigneten σ(k+1)j ∈ −1, 1. Daraus folgt

Qk = Q−11...k−1Q1...k = SkQ

−1k−1

=E︷︸︸︷

Q−1Q QkSk+1 ,

Rk = Rk...1R−1k−1...1 = Sk+1Rk DkRR−1(D−1)k−1

︸︷︷︸

=D

R−1k−1Sk ,

und daraus schließlich

A(k) = QkRk = Sk Q−1k−1

︸︷︷︸

→E

Qk︸︷︷︸

→E

S2k+1

︸︷︷︸

=E

Rk︸︷︷︸

→R

D R−1k−1

︸︷︷︸

→R−1

Sk ,

wobei man aus (4.53) erkennt, dass die angegebenen Konvergenzeigenschaf-ten mit der Rate O(qk) gelten. Die letzten Betrachtungen ergeben nun dieBehauptung (4.49), also

SkA(k)Sk = RDR−1 + O(qk) fur k → ∞ ,

was den Beweis des Satzes abschließt.

Analog zur Uberlegung, die zur inversen Von-Mises-Vektoriteration gefuhrthat, kann man auch bei der QR-Iteration die Konvergenz verbessern, indemman das QR-Verfahren zur Bestimmung der Eigenwerte einer geshiftetenMatrix A − κE mit geeignet zu wahlenden spektralen Shifts κ anwendet.Bei der Berechnung der Folge A(k+1) = Q(k)T

A(k)Q(k) waren Q(k), R(k) dieFaktoren der QR-Zerlegung von A(k), wobei mit A(1) = A gestartet wurde.Fur geeignet zu wahlende Shifts κk ∈ C (Verschiebungen) wird die Folge A(k)

(k = 1, 2, . . . ) durchA(k+1) = R(k)Q(k) + κkE , (4.56)

wobei Q(k), R(k) die Faktoren der QR-Zerlegung von (A(k) − κkE) sind, unddie Wahl von A(1) = A, konstruiert. Eine kurze Rechnung zeigt, dass diedurch (4.56) definierten Matrizen A(k+1) ahnlich zu A sind, denn es gilt

A(k) − κkE = Q(k)R(k) ⇐⇒ R(k) = Q(k)T

(A(k) − κkE) =⇒A(k+1) = R(k)Q(k) + κkE = Q(k)H

(A(k) − κkE)Q(k) + κkE

= Q(k)H

A(k)Q(k) − κkQ(k)H

Q(k) + κkE = Q(k)H

A(k)Q(k) .

Fur die Orthogonalmatrix P (k) = Q(1)Q(2) . . . Q(k) ergibt sich dann dieMatrixaquivalenz A(k) = P (k)H

AP k. Der obere Index H kennzeichnet hierdie Hermite’sche Matrix PH , die durch

PH = P T

mit P = (pij) (pij konjugiert komplex zu pij) definiert ist. Fur reelle Shiftsist PH = P T . Es gilt nun fur das QR-Verfahren mit Shifts der

170

Satz 4.40. (QR-Verfahren mit Shifts)Sei A eine reelle Matrix vom Typ (N × N) mit Eigenwerten λ1, . . . , λN , furdie |λ1| > |λ2| > · · · > |λN | gilt. Dann konvergiert die durch (4.56) definierteFolge A(k) gegen eine obere Dreiecksmatrix Λ, die als Diagonalelemente dieEigenwerte von A(1) = A besitzt. Fur die orthogonalen Matrizen P (k) =Q(1)Q(2) . . . Q(k) gilt P = limk→∞ P (k) und Λ = P T AP .Ist A symmetrisch, dann ist die Matrix Λ eine Diagonalmatrix.Die Geschwindigkeit der Konvergenz gegen die obere Dreiecksmatrix bzw. ge-gen die Diagonalmatrix Λ ist exponentiell und fur ein Element des unterenDreiecks durch

a(k)ij = O(|λi − κk

λj − κk

|k) fur i > j (4.57)

gegeben.

Aus der Beziehung (4.57) wird deutlich, dass man die Geschwindigkeit derKonvergenz gegen die obere Dreiecksmatrix bzw. gegen die DiagonalmatrixΛ durch eine gute Wahl der Shifts κk erhohen kann.Zu den beiden Satzen 4.39 und 4.40 ist anzumerken, dass die QR-Verfahrenauch fur den Fall von mehrfachen Eigenwerten λ1 = · · · = λr (r > 1) von Aim Grenzprozess eine obere Dreiecksmatrix bzw. eine Diagonalmatrix Λ mitden geschilderten Eigenschaften erzeugen.Durch eine geschickte Wahl der Shifts κk kann man |λN −κk| ≪ |λj−κk| undsomit die Konvergenzgeschwindigkeit betrachtlich erhohen. Als gute Wahlhat sich fur den Fall reeller Eigenwerte

κk = a(k)NN

erwiesen. Fur den Fall komplexer Eigenwerte wahlt man als Shift κk denEigenwert λ der (2 × 2)-Matrix

(

a(k)N−1 N−1 a

(k)N−1 N

a(k)N N−1 a

(k)N N

)

,

fur den |a(k)N N − λ| kleiner ist. Diesen Shift bezeichnet man auch als

Wilkinson-Shift (s. dazu weitere Ausfuhrungen in den Buchern vonSchwarz und Barwolff).

Zum Abschluss sei noch darauf hingewiesen, dass es fur das QR-Verfahrenzur Berechnung der Eigenwerte von A offensichtlich von Vorteil ist, wenn dieMatrix wenig Nichtnull-Eintrage im unteren Dreieck hat, so dass ein vorge-schaltete Transformation von A auf eine ahnliche Hessenbergmatrix sinnvollist.

171

Documents

Numerische Mathematik II - TU Berlin · Numerische Mathematik II Günter B ärwolff 15. März 2010 Skript, geschrieben parallel zur Vorlesung Numerische Mathematik im WS2009/10