290
Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April 2013 Zusammenfassung Grundziel des Kurses ist, die Teilnehmer in die Lage zu versetzen, große nichtlinea- re Gleichungssysteme unter MATLAB effizient behandeln zu können. Dies beinhaltet - im Gegensatz zur reinen Anwendung von Programmen in der Vorlesung „Numerische Software“ - auch ein Verstehen der mathematischen Grundlagen der Algorithmen. Zugleich wird eine Mindestkenntnis von MATLAB angestrebt, wie sie etwa auf den ersten 70 Seiten der „Einführung in MATLAB“ von Peter Arbenz [Arb] vermittelt wird. Schließlich sollen auch Grundkenntnisse über das Auftreten von großen Syste- men vermittelt werden, weil sich wesentliche Eigenschaften der Systeme (und damit die Art ihrer numerischen Behandlung) aus ihrer Herkunft erklären. Inhaltsverzeichnis 1 MATLAB 9 2 Einführung: Entstehung „großer Systeme“ 10 2.1 Entstehung durch Diskretisierung ....................... 11 2.1.1 Galerkin-Approximationen ....................... 12 2.1.2 Gewöhnliche Randwertaufgaben .................... 17 2.1.3 Partielle Randwertaufgaben ...................... 26 2.1.4 Integralgleichungen ........................... 33 2.2 Entstehen von Größe aus Nichtlinearität ................... 34 2.3 Größe durch Parameterabhängigkeit ...................... 36 2.4 Größe durch Zeitentwicklung .......................... 37 2.4.1 Raum-Diskretisierung .......................... 37 2.4.2 Zeitdiskretisierung ........................... 38 1

Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

  • Upload
    others

  • View
    21

  • Download
    5

Embed Size (px)

Citation preview

Page 1: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Numerische Methoden für grosse nichtlineareGleichungssysteme

SoSe 2013

Wolfgang MackensInstitut für Mathematik, TUHH

1. April 2013

Zusammenfassung

Grundziel des Kurses ist, die Teilnehmer in die Lage zu versetzen, große nichtlinea-re Gleichungssysteme unter MATLAB effizient behandeln zu können. Dies beinhaltet -im Gegensatz zur reinen Anwendung von Programmen in der Vorlesung „NumerischeSoftware“ - auch ein Verstehen der mathematischen Grundlagen der Algorithmen.Zugleich wird eine Mindestkenntnis von MATLAB angestrebt, wie sie etwa auf denersten 70 Seiten der „Einführung in MATLAB“ von Peter Arbenz [Arb] vermitteltwird. Schließlich sollen auch Grundkenntnisse über das Auftreten von großen Syste-men vermittelt werden, weil sich wesentliche Eigenschaften der Systeme (und damitdie Art ihrer numerischen Behandlung) aus ihrer Herkunft erklären.

Inhaltsverzeichnis

1 MATLAB 9

2 Einführung: Entstehung „großer Systeme“ 10

2.1 Entstehung durch Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . 11

2.1.1 Galerkin-Approximationen . . . . . . . . . . . . . . . . . . . . . . . 12

2.1.2 Gewöhnliche Randwertaufgaben . . . . . . . . . . . . . . . . . . . . 17

2.1.3 Partielle Randwertaufgaben . . . . . . . . . . . . . . . . . . . . . . 26

2.1.4 Integralgleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2.2 Entstehen von Größe aus Nichtlinearität . . . . . . . . . . . . . . . . . . . 34

2.3 Größe durch Parameterabhängigkeit . . . . . . . . . . . . . . . . . . . . . . 36

2.4 Größe durch Zeitentwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.1 Raum-Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.2 Zeitdiskretisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1

Page 2: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3 Lösung linearer und nichtlinearer Gleichungssysteme kleiner bis mode-rater Dimension 40

3.1 Vorbereitung: Banachs Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . 40

3.1.1 Banach-Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.1.2 Der Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3.1.3 Splitting-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

3.1.4 Iteration und Neumannsche Reihen . . . . . . . . . . . . . . . . . . 56

3.1.5 Störungslemmata . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.1.6 Bestimmung einer Lipschitz-Konstante im nichtlinearen Fall . . . . 60

3.1.7 Der Satz von Ostrowski . . . . . . . . . . . . . . . . . . . . . . . . 61

3.1.8 Drei Anwendungen des Satzes von Ostrowski: . . . . . . . . . . . . 63

3.1.9 Wichtige Anwendungen des Banachschen Fixpunktsatzes:Picard-Lindelöf, Implizite Funktionen, Lokale Umkehrbarkeit . . . . 63

3.1.10 Andere Fixpunktsätze . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.2 Verfahren vom Newton-Typ . . . . . . . . . . . . . . . . . . . . . . . . . . 79

3.2.1 Lokale Konvergenz des Newton-Verfahrens . . . . . . . . . . . . . . 81

3.2.2 Affin-Invarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

3.2.3 Globales Verhalten des Newtonverfahrens . . . . . . . . . . . . . . . 86

3.2.4 Globalisierungsstrategien: Dämpfung, Homotopie, Trust-Region . . 88

3.2.5 „Halbglobale Konvergenz“ der Newton-Iteration . . . . . . . . . . . 104

3.2.6 Noch einmal Dämpfung . . . . . . . . . . . . . . . . . . . . . . . . 111

3.3 Behandlung parameterabhängiger Systeme moderater Größe . . . . . . . . 114

3.3.1 Prädiktor-Korrektor-Astverfolgungsprobleme. . . . . . . . . . . . . 116

3.3.2 Differentialgleichungsberechnung von Lösungsästen . . . . . . . . . 121

3.3.3 Berechnung von Umkehrpunkten: . . . . . . . . . . . . . . . . . . . 125

3.3.4 Berandete lineare Systeme . . . . . . . . . . . . . . . . . . . . . . . 133

3.3.5 Block-System . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

3.4 Newton-Verfahren für nicht quadratische Systeme . . . . . . . . . . . . . . 136

3.4.1 Lösungsmannigfaltigkeiten . . . . . . . . . . . . . . . . . . . . . . . 136

3.4.2 Gauß-Newton-Iterationen . . . . . . . . . . . . . . . . . . . . . . . 137

3.5 Differenzen Newton-Verfahren. . . . . . . . . . . . . . . . . . . . . . . . . . 144

3.5.1 Differenzen-Approximation von Ableitungen . . . . . . . . . . . . . 144

3.5.2 Wahl der Differenzenschrittweite . . . . . . . . . . . . . . . . . . . . 145

3.5.3 Ergänzungen zu Ableitungsapproximationen der ersten Ableitung . 148

3.5.4 Strukturen in der Jacobimatrix . . . . . . . . . . . . . . . . . . . . 152

2

Page 3: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

4 Direkte Lösung „großer linearer Systeme“ 155

4.1 Bandreduktion bei SPD-Systemen . . . . . . . . . . . . . . . . . . . . . . . 160

4.2 Bandstruktur-Erzwingung . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

4.3 Sherman-Morrison-Woodbury Ansätze . . . . . . . . . . . . . . . . . . . . 173

5 Iterative Verfahren zur Lösung großer Linearer Systeme 175

5.1 Stationäre Verfahren: Konvergenzaussagen für Matrixklassen . . . . . . . . 179

5.1.1 Diagonaldominanz und schwache Diagonaldominanz . . . . . . . . . 181

5.1.2 SPD-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

5.1.3 Konsistente Ordnung . . . . . . . . . . . . . . . . . . . . . . . . . . 195

5.2 Nichtstationäre Verfahren 1: Konvergenzverbesserung . . . . . . . . . . . . 196

5.2.1 Polynomiale Beschleunigung . . . . . . . . . . . . . . . . . . . . . . 197

5.2.2 Unterraum-Minimierung . . . . . . . . . . . . . . . . . . . . . . . . 202

5.3 Nichtstationäre Verfahren 2: CG-Typ-Verfahren . . . . . . . . . . . . . . . 203

5.3.1 Herleitung des Verfahrens als Ritz-Galerkin-Verfahren . . . . . . . . 203

5.3.2 Skizze einer Fehleranalyse für den CG-Algorithmus . . . . . . . . . 205

5.4 Nichtstationäre Verfahren 3: CG-artige Verfahren für nicht-symmetrischeProbleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

5.5 Nichtstationäre Verfahren 4: Kazcmarz-Typ-Verfahren . . . . . . . . . . . . 210

5.5.1 Zugang 1: Zeilenorientierte Lösung riesiger Systeme . . . . . . . . . 211

5.5.2 Zugang 2: Fehler-Minimierung durch Liniensuche . . . . . . . . . . 212

5.5.3 Zugang 3: Allgemeine projektive Fehlerreduktion . . . . . . . . . . 218

5.5.4 Konvergenz allgemeiner Projektionsverfahren . . . . . . . . . . . . 218

5.5.5 Verallgemeinerungen . . . . . . . . . . . . . . . . . . . . . . . . . . 223

5.6 Weitere Beispiele für Projektionsverfahren . . . . . . . . . . . . . . . . . . 227

5.7 Substrukturen und Iterationsverfahren . . . . . . . . . . . . . . . . . . . . 234

5.7.1 Die Schwarzsche Alternierende Iteration . . . . . . . . . . . . . . . 234

5.7.2 CG im Schur-Komplement . . . . . . . . . . . . . . . . . . . . . . 241

5.8 Neuere Konvergenzanalysen für Kazcmarz-Typ Iterationen . . . . . . . . . 246

6 Direkte Iterationsvarianten für große nichtlineare Systeme 246

6.1 Linearisierungs„freie“ Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 247

6.1.1 Nichtlineares Jacobischrittverfahren . . . . . . . . . . . . . . . . . . 247

6.2 Newton-Mix Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

6.2.1 XN-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 249

6.2.2 NX-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

6.2.3 Inexakte Newton-Methoden . . . . . . . . . . . . . . . . . . . . . . 253

6.3 Update-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 256

3

Page 4: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

7 Reduktionsansätze 257

7.1 Reduktion durch Teillösung . . . . . . . . . . . . . . . . . . . . . . . . . . 257

7.1.1 Shooting-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 257

7.1.2 Master-Slave-Einteilungen . . . . . . . . . . . . . . . . . . . . . . . 259

7.2 Verbindung von Diskretisierungen verschiedener Feinheiten . . . . . . . . . 259

7.2.1 Aufsteigende Gitter . . . . . . . . . . . . . . . . . . . . . . . . . . . 259

7.2.2 Extrapolationsverbesserung . . . . . . . . . . . . . . . . . . . . . . 261

7.2.3 Mehrgitterverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 264

7.3 Informations-Wiederverwendung . . . . . . . . . . . . . . . . . . . . . . . . 264

7.3.1 Verwendung bestehender Löser . . . . . . . . . . . . . . . . . . . . 264

7.3.2 Verwendung bestehender Lösungen . . . . . . . . . . . . . . . . . . 265

7.3.3 Verwendung ähnlicher Probleme . . . . . . . . . . . . . . . . . . . . 265

7.4 Zerlegungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

7.4.1 Multiple Shooting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

7.4.2 Gebietszerlegungsverfahren . . . . . . . . . . . . . . . . . . . . . . . 265

7.4.3 Newton-Kopplung von Unterproblemen . . . . . . . . . . . . . . . . 266

7.4.4 Weitere Block-Newton-Verfahren . . . . . . . . . . . . . . . . . . . 270

7.4.5 Master-Slave-Zerlegung . . . . . . . . . . . . . . . . . . . . . . . . . 270

7.4.6 ABS-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271

7.4.7 Spektral-Zerlegungsmethoden . . . . . . . . . . . . . . . . . . . . . 272

7.4.8 Mehrgitter-Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . 272

8 Rekursive Projektion 272

8.1 CNSP: Condensed Newton/Supported Picard . . . . . . . . . . . . . . . . 272

8.2 CNSP für parameterabhängige Gleichungen . . . . . . . . . . . . . . . . . 277

8.3 Recursive Projektion nach Shroff und Keller . . . . . . . . . . . . . . . . . 278

9 Methoden der Reduzierten Basen. 279

9.1 Generelle Idee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

9.2 Tangenten-orientierte Reduzierte Basen . . . . . . . . . . . . . . . . . . . . 279

9.2.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279

9.2.2 Zulässige Testmatrizen . . . . . . . . . . . . . . . . . . . . . . . . . 281

9.2.3 Berechnung geeigneter Basen . . . . . . . . . . . . . . . . . . . . . 283

9.3 POD-Ansätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285

10 Grundprinzipien bei der Lösung großer Gleichungssysteme 286

11 Software 286

4

Page 5: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

12 Literatur 286

Abbildungsverzeichnis

1 Brücke bei Hochdonn mit Last . . . . . . . . . . . . . . . . . . . . . . . . . 10

2 Verformung durch eine inkrementell aufgebrachte Last . . . . . . . . . . . . 11

3 Diskrete „Lösung“ einer Randwertaufgabe . . . . . . . . . . . . . . . . . . . 18

4 Stückweise lineare Funktion . . . . . . . . . . . . . . . . . . . . . . . . . . 23

5 Finite Volumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6 Gitterfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

7 Numerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

8 Lösungsapproximation zu Aufgabe (48) . . . . . . . . . . . . . . . . . . . . 30

9 Finite-Element Gitter und Basisfunktion . . . . . . . . . . . . . . . . . . . 31

10 Finite Volumen Diskretisierung . . . . . . . . . . . . . . . . . . . . . . . . 32

11 Zwei Lösungen des Bratuproblems (11). . . . . . . . . . . . . . . . . . . . . 35

12 Kontinuum von Bratu-Lösungen . . . . . . . . . . . . . . . . . . . . . . . . 36

13 Schrittweitenvergleich impliziter vers. expliziter Löser . . . . . . . . . . . . 39

14 ρ abhängig von ω für SOR und SSOR . . . . . . . . . . . . . . . . . . . . 56

15 Zwei Lösungsäste . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

16 Auflösbarkeit in verschiedenen Punkten . . . . . . . . . . . . . . . . . . . . 69

17 Abbildungsgrade −1, 0 und 1 . . . . . . . . . . . . . . . . . . . . . . . . . 74

18 Veranschaulichung des Satzes von Sard . . . . . . . . . . . . . . . . . . . . 75

19 Grad für nichtreguläre y-Werte durch nahe gelegene y-Werte . . . . . . . . 76

20 Grad für nichtdifferenzierbare Funktion durch glatte Approximation . . . . 76

21 Homotope Verbindung mit einer Gerade . . . . . . . . . . . . . . . . . . . 77

22 Newton-Iteration für f : R 7−→ R . . . . . . . . . . . . . . . . . . . . . . . 80

23 Gleichungssystem „Zwei Kreise“ . . . . . . . . . . . . . . . . . . . . . . . . 83

24 Äquivalent zu „Zwei Kreise“ . . . . . . . . . . . . . . . . . . . . . . . . . . 84

25 Kreisbüschel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

26 Konvergenzprobleme bei Newton . . . . . . . . . . . . . . . . . . . . . . . 87

27 Julia-Menge der Newton-Iteration für f(x) = x3 − 1. . . . . . . . . . . . . 87

28 Zu großer Newton-Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

29 Armijo klappt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

30 Armijo steuert Nullstelle in Zoom-Viereck an . . . . . . . . . . . . . . . . . 90

31 Zoom: Lokale Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

32 L(f, x0), Z(f, x0) und obere Schranke für Testfunktion f(x)2 . . . . . . . . 91

33 Zusammenhang ist nicht genug . . . . . . . . . . . . . . . . . . . . . . . . 92

5

Page 6: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

34 Fortsetzungsmethode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94

35 Umkehrpunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

36 Vergleich von Newtonfluss und Davidenko . . . . . . . . . . . . . . . . . . 97

37 Disjunkte Branin-Pfade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

38 Trust-Region-Schritt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

39 Dogleg-Schritt, Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

40 Dogleg-Version für Gleichungssystem (165) . . . . . . . . . . . . . . . . . . 103

41 Newton-Fluss liefert keine Nullstelle auf unbeschränkter Level-Menge . . . 105

42 Newton-Fluss liefert keine Nullstelle bei offenem Rand der Levelmenge . . 106

43 Zusammenhangskomponenten der Levelmenge . . . . . . . . . . . . . . . . 106

44 Zusammenhangskomponenten der Levelmenge . . . . . . . . . . . . . . . . 107

45 Newton-Fluss liefert keine Nullstelle . . . . . . . . . . . . . . . . . . . . . . 108

46 Kontinuierliches Newton-Verfahren für z3 − 1 = 0 . . . . . . . . . . . . . . 110

47 Rosenbrock-Level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111

48 Rosennbrock-Level . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

49 Natürliche Testfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

50 Treppe: Escher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

51 Verzweigungsdiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

52 Reine und gestörte „Pitchfork-Verzweigung“ . . . . . . . . . . . . . . . . . 116

53 Prädiktor/Korrektor-Grundstruktur . . . . . . . . . . . . . . . . . . . . . . 116

54 Festlegung der Tangentialrichtung . . . . . . . . . . . . . . . . . . . . . . . 118

55 Tangentialfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

56 Lösung der Linearisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

57 Festlegung der Tangentialrichtung . . . . . . . . . . . . . . . . . . . . . . . 120

58 Schritt senkrecht zur Tangente am aktuellen Ort . . . . . . . . . . . . . . 120

59 Tangentialfeld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121

60 Ganzer - sauberer - Kreis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

61 Low quality integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

62 Ast kehrt in (0,0) nicht um . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

63 Einfacher Umkehrpunkt . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

64 Umkehr- und Verzweigungspunkt . . . . . . . . . . . . . . . . . . . . . . . 128

65 Mannigfaltigkeiten singulärer Jacobischer . . . . . . . . . . . . . . . . . . . 128

66 L-Umkehrpunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131

67 Newton-Fluss in (1,1)-Umkehrpunkte . . . . . . . . . . . . . . . . . . . . . 132

68 Fehlereinfluss bei Kreisberechnung . . . . . . . . . . . . . . . . . . . . . . . 138

69 Kuenstliches Hüftgelenk, Wikimedia . . . . . . . . . . . . . . . . . . . . . . 138

70 Daten und Startkreis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

6

Page 7: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

71 Fluss zum Ausgleichskreis . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

72 Beobachteter Fehler bei einseitiger Approximation der ersten Ableitung . . 145

73 Theoretischer Abbruchfehler und beobachteter Fehler . . . . . . . . . . . . 146

74 Abbruch-, Rundungs- und Gesamtfehler der einsitigen Differenzenapproxi-mation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147

75 Feiner . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

76 Feinstruktur Blow up . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

77 Zusätzlicher Effekt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

78 Verschiedene Approximationsordnungen . . . . . . . . . . . . . . . . . . . . 151

79 Approximation der vierten Ableitung . . . . . . . . . . . . . . . . . . . . . 152

80 Spaltengestörte Diagonalmatrix . . . . . . . . . . . . . . . . . . . . . . . . 154

81 Tridiagonalmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

82 Adjazenzgraph zur Matrix B . . . . . . . . . . . . . . . . . . . . . . . . . . 161

83 Diskretisierungsstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

84 Erste Numerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

85 Matrix zur ersten Numerierung . . . . . . . . . . . . . . . . . . . . . . . . 164

86 Zweite Numerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164

87 Matrix zur zweiten Numerierung . . . . . . . . . . . . . . . . . . . . . . . . 164

88 Zwei CM-Numerierungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

89 Matrizen zu den beiden Numerierungen . . . . . . . . . . . . . . . . . . . . 165

90 Dritte Numerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167

91 Matrix zur dritten Numerierung . . . . . . . . . . . . . . . . . . . . . . . . 168

92 Matrix zur dritten Numerierung,rückwärts . . . . . . . . . . . . . . . . . . 168

93 CM-Matrix mit Fill-In . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169

94 RCM-Matrix mit Fill-In . . . . . . . . . . . . . . . . . . . . . . . . . . . . 170

95 Zyklischer Graph zu periodischen Randwerten . . . . . . . . . . . . . . . . 170

96 Gerichtete Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183

97 Konvergenzrate und Kondition . . . . . . . . . . . . . . . . . . . . . . . . . 189

98 MPE bei glattem und rauem Fehlervektor . . . . . . . . . . . . . . . . . . 198

99 MPE mit Fehleraufschaukelung . . . . . . . . . . . . . . . . . . . . . . . . 199

100 L-förmiges Gebiet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 234

101 Rechteckige Teilgebiete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235

102 Schwarzsche alternierende Iteration für 1D-Beispiel . . . . . . . . . . . . . 237

103 Schwarzsche alternierende Iteration: Konvergenz . . . . . . . . . . . . . . . 237

104 Ungeeignete Aufteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 238

105 Drei Gebiete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239

106 Sechs Teilgebiete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240

7

Page 8: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

107 Schwarzsches Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 240

108 Ω3 als „Interface“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

109 Substruktur-Numerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . 242

110 Graph von Φ(s) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 258

111 Differenzen-Lösungsaproximationen für das Bratu-Problem . . . . . . . . . 260

112 Die Approximationen bei x = 0.5 . . . . . . . . . . . . . . . . . . . . . . . 261

113 Werte bei x = 0.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 261

114 Gauss-Seidel-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267

115 Tangential-Block-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

116 Hierarchische Blockstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . 271

117 CNSP-Grundstruktur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276

118 Parametrisierung durch Tangentialraum . . . . . . . . . . . . . . . . . . . 280

8

Page 9: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

1 MATLAB

Zur Gewährleistung eines qualifizierten Umganges mit MATLAB arbeiten die Studierendenparallel zur Vorlesung und den Übungen (mindestens) die ersten 70 Seiten von [Arb] durch,und zwar nach dem folgenden Plan:

1. Vorlesungswoche: Kapitel 1 und 2

2. und 3. Vorlesungswoche: Kapitel 3

4. Vorlesungswoche: Kapitel 4 und 5

5. Vorlesungswoche: Kapitel 6 und 7

Zusätzlich zu den Übungsaufgaben mit mathematischen Inhalten werden in den erstenWochen verstärkt Aufgaben zum Umgang mit MATLAB gestellt.

9

Page 10: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

2 Einführung: Entstehung „großer Systeme“

Zunächst einmal wollen wir kurz erklären, dass wir uns hier nicht so sehr für Gleichungssy-steme interessieren, die einfach nur furchtbar viele Unbekannte und Gleichungen haben1.

Große (nichtlineare) Gleichungssysteme entstehen in den Anwendungen meistens durchganz bestimmte Prozesse2. Die Kenntnis dieser Prozesse ist hilfreich, denn durch den je-weiligen Prozess erhalten die Systeme bestimmte Strukturen, die sich nicht nur bei derAufstellung der Gleichungen, sondern auch im Lösungsprozess oft arbeitsvermindernd aus-nutzen lassen.

Eine große Klasse großer Systeme entsteht z.B. durch sogenannte Diskretisierung von Pro-blemen mit unendlich vielen3 Freiheitsgraden. Dabei bedeutet „Diskretisierung“ die Appro-ximation der unendlichdimensionalen Probleme durch endlichdimensionale Näherungen,vgl. Abschnitt 2.1. Man kann sich gut vorstellen, dass solche Approximationen in der Re-gel umso besser werden, je mehr Freiheitsgrade in den Diskretisierungen verwendet werden.Damit ist dann auch klar, dass man beliebig große Probleme erzeugen kann.

Andererseits kann ein Problem auch dadurch „größer“ werden, dass es zwar relativ wenigeVariablen enthält, dass dieses Problem aber für mehrere, meist sehr viele „Fälle“ gerechnetwerden muss.

Solche Fälle können durch verschiedene „Lastfälle“ gegeben sein, bei der z.B. ein und das-selbe mechanische System4 durch mehrere verschiedene Sätze einwirkender Kräfte belastetwird5.

Abbildung 1: Brücke bei Hochdonn mit Last

Solche „Fälle“ können andererseits aber auch dadurch erzeugt sein, dass das zu behandelndeSystem von einem oder gleich mehreren Parametern abhängt6, und dass man das Systemin einer Parameterstudie untersuchen will. Dabei vergleicht man entweder die Lösung fürverschiedene Parameter, oder man will die Parameter so anpassen, dass bestimmte weitereBedingungen erfüllt werden. Vgl. hierzu Abschnitt 2.3.

1Zwar werden wir auch zu diesem allgemeinen Fall Aussagen machen, aber die Menge solch allgemeinerAussagen ist ziemlich schnell erschöpft, wenn die Systeme nicht noch zusätzliche Struktur aufweisen.

2Das ist eigentlich einleuchtend, weil kein Mensch Gleichungssysteme mit um eine Million Gleichungenund Unbekannten eingeben könnte. Wenn ihnen aber ein bestimmter Bildungsprozess zugrunde liegt, sowird man diesen auch nutzen, um das System in den Rechner einzubringen.

3i.a. sogar überabzählbar vielen4Etwa eine Brücke, siehe Abbildung 1.5verschiedene Fahrzeugverteilungen auf der Brücke6vgl. den Verformungsversuch in Abbildung 2

10

Page 11: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Abbildung 2: Verformung durch eine inkrementell aufgebrachte Last

Weiterhin kann ein sehr oft wiederholtes Lösen von Gleichungssystemen dadurch nötigwerden, dass man beim Lösen von Evolutionsgleichungen implizite Löser verwendet, diepro Zeitschritt die Lösung eines Systems erfordern, vgl. Abschnitt 2.4.

2.1 Entstehung durch Diskretisierung

Den meisten großen Systemen der Numerik liegen Gleichungen in Funktionenräumen zu-grunde, die zunächst einmal unendlich-dimensional sind. Dabei wird analog zum linearenGleichungssystem

Ay = f

eine gesuchte Lösung y durch eine lineare oder nichtlineare allgemeinere Abbildung A aufeinen Bildpunkt f abgebildet.

Während im endlichdimensionalen Fall A eine Matrix ist und y und f Vektoren sind(meist gleicher Dimension), sind y und f hier Funktionen. Die Abbildung A wird dannmeist „Operator“ genannt, der aus Funktionen andere Funktionen macht.

A kann z.B. ein gewöhnlicher Differentialoperator sein, wie zum Beispiel

(Ay)(x) := y(n)(x) +n−1∑k=0

ak(x) · y(k−1)(x), x ∈ [0, 1]

wobei A Funktionen aus Cn[0, 1] mit vorgegebenen Randbedingungen auf Funktionenaus C0[0, 1] abbildet7.

A kann bei Funktionen y = y(x1, . . . , xn) ein partieller Differentialoperator sein,wie zum Beispiel der Laplace-Operator

(Ay)(x) :=n∑

k=1

∂2y

∂xk2 (x) = f(x), x ∈ [0, 1]n = Ω,

der die auf Ω zweimal stetig differenzierbaren Funktionen mit Null-Randwerten C20 (Ω)

in die auf Ω stetigen Funktionen abbildet.7Die Koeffizientenfunktionen a0(x), . . . , an−1(x) sind hierbei stetig vorgegeben.

11

Page 12: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

A kann ebenso ein Integraloperator sein:

(Ay)(x) :=

∫ 1

0

A(x, s)y(s)ds

der (bei z.B. stetigem A(x, s)) stetige Funktionen auf stetige Funktionen abbildet,

und es kann A - weitaus komplizierter - aus mehreren solchen Abbildungen zusammen-gesetzt sein.

Es kann A aber auch einfach selbst eine Matrix sein, die aber so groß ist, dass mandas zugehörige Gleichungssystem nicht durch die üblichen Methoden lösen kann.

Wir wollen all diese Fälle hier kurz beleuchten. Für eine genauere Analyse der Gleichungenund der Approximationsgüte müssen wir auf entsprechende Vorlesungen verweisen.

Da die Galerkin-Approximation in dieser Vorlesung von großer Bedeutung ist, wollen wirsie für den technisch einfachen Fall sehr großer Gleichungssysteme erklären.

2.1.1 Galerkin-Approximationen

Bei sogenannten Galerkin8-Diskretisierungen von Operatorgleichungen

Ay = f, A : U −→ V (1)

mit einem Operator, der den Vektorraum U in den Vektorraum V abbildet, wird eineLösungsapproximation y in einem endlichdimensionalen Unterraum U von U gesucht.Mit einer Basis Φ1, . . . ,Φn von U macht man dazu den Ansatz

y =n∑

k=1

αkΦk.

Setzt man y für y in (1) ein, so gelangt man im Falle der Linearität von A zur Aufgabe

Ay =n∑

k=1

αk (AΦk) = f,

Hier muss offenbar das Element f ∈ V aus den Bildern AΦ1, . . . , AΦk kombiniert werden.Das wird selten möglich sein9.

Ist dies nicht möglich, so wird die Wunsch-Gleichung

(AΦ1)α1 + (AΦ2)α2 + · · ·+ (AΦn)αn = f (2)

nur näherungsweise gelöst werden können.

8Sprich „Galjorkin“; im Russischen wird der Familienname des Erfinders des hier zu besprechendenVerfahrens, „Boris Grigorjewitsch Galjorkin“, mit einem „e“ mit Doppelpunkten geschrieben, „ë“, das „ jo“gespochen wird: ΓaΛëpκnH.

9Ein Beispiel, in dem so etwas klappen kann, ist die Gewinnung spezieller Lösungen von Differential-gleichungen mit konstanten Koeffizienten (vgl. Mathematik III). Hier kann man häufiger die rechte Seite fals zugehörig zu einem invarianten Unterraum von A identifizieren. In diesem Fall wird man die Φ1, . . . ,Φn

als Basis dieses Unterraumes wählen.Beispiel: Die Bestimmung einer speziellen Lösung der Differentialgleichung y′′ + y′ + y = f mit f ∈ Πm,dem Raum der Polynome von Grad kleiner oder gleich m, ist mit dem Ansatz y(x) =

∑mk=0 αkx

k möglich.

12

Page 13: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Ist auf V ein inneres Produkt

⟨·, ·⟩ :

V × V −→ R(f1, f2) 7−→ ⟨f1, f2⟩

gegeben, so bietet sich an, y als Projektion von f auf spanAΦ1, . . . , AΦn zu realisieren.

Aus der linearen Algebra ist bekannt, dass diese Projektion y eindeutig bestimmt ist unddass jeder Koeffizienten-Vektor α = (α1, . . . , αn)

T von Koeffizienten α1, . . . , αn für eineDarstellung y =

∑nk=1 αk(AΦk) das Gramsche System

Gα = F (3)

erfüllt, wobeiFk = ⟨AΦk, f⟩, k = 1, . . . , n

undGi,j = ⟨AΦi, AΦj⟩, i, j = 1, . . . , n

gelten10.

Im Fall, dass A einfach nur eine große Matrix aus R(N,N) ist, die von U = RN nach V = Uabbildet, die Φk-Ansatzvektoren in eine Matrix

Φ := (Φ1, . . . ,Φn) ∈ R(N,n)

eingeordnet sind und das innere Produkt das normale Euklidische Innere Produkt ist,bekommt das Gramsche System (3) als Normalgleichung für das Ausgleichsproblem

⟨AΦα− f,AΦα− f⟩ = minα

(4)

die Form (ΦTATAΦ

)α = ΦTATf. (5)

Wie in den NormalgleichungenATAx = AT b

zum Ausgleichsproblem∥Ax− b∥2 = min

führt ATA zu einer Quadratur der Kondition von A.Während im Ausgleichsproblem diese Konditionsverschlechterung durch die Verwendungvon Orthogonalisierungsverfahren vermieden wird, ist hier eine einfache Idee zur Vermei-dung eines zweiten As, einfach ein AT auf beiden Seiten fortzulassen.

Man gelangt dann zum System (ΦTAΦ

)α = ΦTf, (6)

welches entsteht, wenn man die Gleichung (2) mit Φ1, . . . ,Φn innerlich multipliziert.Im allgemeinen Fall A : U −→ V ist dabei natürlich Vorbedingung, dass die ElementeΦ1, . . . ,Φn ∈ U auch zu V gehören.

Die so entstehende Diskretisierung (6) heißt Ritz-Galërkin-Diskretisierung.10Dabei ist G bekanntermaßen regulär und die Lösung α eindeutig, wenn die Elemente AΦ1, . . . , AΦn li-

near unabhängig sind. Andernfalls ist die Approximation y wohl existent und eindeutig, die zur Darstellungbenötigten Koeffizienten sind indes nicht eindeutig bestimmt

13

Page 14: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Schon im Rn-Fall sieht man leicht, dass dies Verfahren nicht unbedingt zu einer Lösungführen muss:Will man nämlich z.B. die Lösung des Gleichungssystems(

1 00 −1

)x =

(11

)

im reduzierten Raum span(

11

)lösen, so wird das Gleichungssystem (2.1.1) zu

0 · α1 = 2,

was natürlich nicht hilft.

Problemlos wird das Verfahren (im Endlichdimensionalen) dann, wenn A symmetrisch undpositiv definit ist. Dann ist die Matrix ΦTAΦ ebenfalls symmetrisch und positiv definit.Tatsächlich hat das reduzierte System dann auch noch gleich eine andere schöne undhilfreiche Interpretation. Wir schreiben diese im nächsten Unterparagraphen sowohl für denendlichdimensionalen Fall auf als auch für den Fall der approximativen Lösung gewissergewöhnlicher Randwertaufgaben. Dazu starten wir ganz neu.

a. Ritz-Galërkin-Approximation In der Mathematik III haben Sie gelernt, dass maneine Minimierungsaufgabe

f(x, y) = min, f ∈ C2(R2,R)

dadurch löst, dass man den Gradienten von f gleich Null setzt

∇f(x, y) = 0, (7)

und an den Lösungen dieses 2×2-Gleichungssystems prüft, ob die Hessesche von f positivdefinit ist, um zu sichern, dass es sich bei der Lösung um ein Minimum handelt.

In Vorlesungen zur numerischen Mathematik haben Sie vielleicht schon erfahren, dass dasLösen des Gleichungssystems (7) im Ernstfall durchaus keine Trivialität sein muss, und dasman über die verschiedenen Verfahren hierfür ohne weiteres ein bis zwei Semester sprechenkann.Und Vorlesungen über Optimierung haben Ihnen möglicherweise schon vermittelt, dass eskeineswegs klar ist, dass man bei der Minimierung von f überhaupt den Weg über dasNullstellenproblem (7) gehen muss. Man kann auch andere Verfahren nutzen, die - ausge-hend von einer Start-Näherung für die Lösung - konsekutiv bessere Näherungen erzeugen,wobei in jedem Schritt der Funktionswert geeignet verkleinert wird.

In Vorlesungen über die numerische Lösung großer linearer Gleichungssysteme haben Sieunter Umständen schließlich gehört, dass die modernen Methoden zur Gewinnung einerLösung u ∈ Rn eines Gleichungssystemes

Au = b, (8)

im Falle einer symmetrischen und positiv definiten Systemmatrix A ∈ R(n,n) den Spießsogar umkehren, indem Sie statt (8) das Minimierungsproblem

F (u) :=1

2uTAu− bTu = min (9)

lösen.

14

Page 15: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Dabei gehen verschiedene Verfahren fast immer so vor, dass sukzessive Lösungsapproxima-tionen F (u) über wachsende Unterräume11 minimieren. Wie sich herausstellt, erfüllen dieLösungen dabei Gleichungen der Form (6).

Wenn u eine Lösung von (9) ist, so muss die Richtungableitung von F bei u für alleRichtungen v ∈ Rn verschwinden

d

dtF (u+ tv)|t=0 = 0.

Wegen

F (u+ tv) =1

2(u+ tv)TA(u+ tv)− bT (u+ tv) =

1

2uTAu+ t uTAv+ t2

1

2vTAv− bTu− tbTv

heißt dies, dassuTAv = bTv für alle v ∈ Rn. (10)

Wenn v in dieser Gleichung den ganzen Rn durchläuft, folgt hieraus natürlich sofort wieder,dass u das System (8) lösen muss.

Interessant wird’s, wenn wir F einmal nicht über ganz Rn sondern nur über einen Unter-raum minimieren. Für diese Betrachtung wird die Bedingung (10) noch nützlich werden.

Fehlerabschätzung für eine Ritz-Lösung Die Idee, Minima quadratischer Funktio-nale12 durch Minima dieser Funktionale über niedrigdimensionaler Teilräume zu approxi-mieren, wird allgemein auf Walter Ritz13 zurückgeführt.

Ist Rh ein Teilraum14 des Gesamtraumes Rn und

uh = arg minu∈Rh

(1

2uTAu− bTu

),

so ist völlig analog zu (10) die schwache Gleichung

uThAvh = bTvh für alle vh ∈h (11)

zu gewinnen.

Wegen Rh ⊂ Rn können in (10) natürlich auch die v-Elemente aus Rh eingesetzt werden,so dass das Minimum u im Gesamtraum ebenfalls

uTAvh = bTvh für alle vh ∈ Rh (12)

erfüllt. Subtraktion der Gleichung (11) von der Gleichung (12) führt auf die wichtige Glei-chung

(u− uh)TAvh = 0 für alle vh ∈ Rh. (13)

Da A eine SPD-Matrix ist, ist durch

⟨v, w⟩A := vTAw

11Wenn man nicht bei Null startet, über wachsende affine Räume12Im vorliegenden endlichdimensionalen Fall das Funktional (8), in späteren Anwendungen aber auch

allgemeinere Funktionale, vgl. (33) unten.13http://de.wikipedia.org/wiki/Walter_Ritz14Das tiefgestellte h soll hier schon darauf hinweisen, dass Teilräume von Funktionenräumen, wie wir sie

später zur Minimierung von (33) verwenden werden, stets von einem Längenmaß h abhängen werden,welches - wie die Differenzenschrittweite bei den Differenzenverfahren - durch Verkleinerung zu einerVerbesserung der Approximation führt.

15

Page 16: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

ein inneres Produkt definiert und durch

∥v∥A =√⟨v, v⟩A

eine zugehörige Norm.Die Gleichung (13) besagt mit dieser Interpretation, dass uh die beste Approximation vonu aus Rh bezüglich der durch

da(v, w) := ∥v − w∥Adefinierten Metrik ist:

∥u− uh∥A ≤ ∥u− vh∥A für alle vh ∈ Rh. (14)

Hiermit wird nun vielleicht klar, weshalb in der Linearen Algebra I gleich ganz allgemeineinnere Produkte und nicht nur das euklidische Produkt behandelt wurden. Mit der demA-inneren Produkt zugeordneten Norm berechnet die Methode die beste Approximationan die Lösung aus dem gewählten Unterraum.

Während die Verallgemeinerung der Sichtweise eine schöne und einfache Interpretation derRitz-Approximation ergibt, hätte man aber natürlich trotzdem gern gewusst, wie gut denndiese Approximation in normalen Maßstäben ist, etwa in der euklidischen Norm, ∥ · ∥2.Hierfür nutzen wir die folgenden Abschätzungen

α∥v∥22 ≤ ∥v∥2A = vTAv, für alle v ∈ Rn (15)

und|⟨v, w⟩A| = |vTAw| ≤ ∥A∥2∥v∥2∥w∥2 = C∥v∥2∥w∥2, (16)

wobei α = λmin(A) der kleinste Eigenwert von A und C = ∥A∥2 = λmax(A) der größteEigenwert von A ist.

Mit (15) und (16) sowie (14) können wir jetzt für alle vh ∈ Rh abschätzen.

α∥u− uh∥22 ≤ ∥u− uh∥2A ≤ ∥u− vh∥2A = |⟨u− vh, u− vh⟩A| ≤ C∥u− vh∥22so dass

∥u− uh∥2 ≤√C

α∥u− vh∥2 =

√cond(A)∥u− vh∥ für alle vh ∈ Rh (17)

ist.

Satz 2.1 (Fehlerabschätzung für die Ritz-Galerkin-Approximation)Sei A ∈ R(n,n) eine SPD-Matrix mit Spektralkondition cond(A) und seien für einen Unter-raum Rh ⊂ Rn definiert

u = arg minu∈Rn

(1

2uTAu− bTu

)und uh = arg minu∈Rh

(1

2uTAu− bTu

)so gilt

∥u− uh∥2 ≤√C

α∥u− vh∥2 für alle vh ∈ Rh (18)

Die Abschätzbarkeit (15) von ∥v∥A nach unten wird man im Rahmen der Variationsme-thoden die „Koerzivität“ oder „Elliptizität“ der Bilinearform ⟨u, v⟩A nennen, die Abschätz-barkeit (16) nach oben seine „Stetigkeit“. Die Folgerung (17) aus beiden Eigenschaftenwird später im allgemeinen Rahmen der partiellen Differentialgleichungen als Céa-Lemmagehandelt werden.

16

Page 17: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anmerkungen 2.2 („Projektion eines Gleichungssystems“)Wählt man in der Ritz-Galerkin-Approximation einer Lösung x ∈ Rn von Ax = b aus demlinearen Unterraum Rh ⊂ R(n,n) eine Basis v1, . . . , vm von Rh, bildet mit diesen Vektorendie Matrix V = (v1, . . . , vm) und stellt die Ritz-Lösung in der Form vh = V y mit y ∈ Rm

dar, so werden die schwachen Gleichungen (11) alle zusammen erfasst durch

V T (AV y − b) = 0 (19)

oder (V TAV

)y = V T b. (20)

Die Matrix(V TAV

)wird manchmal als „Projektion der Matrix A auf den Unterraum Rh“

bezeichnet15.

2.1.2 Gewöhnliche Randwertaufgaben

A. Diskretisierung mit finiten Differenzen

Lineare Randwertaufgabe Wir erklären das Verfahren der Finiten Differenzen zu-nächst nur als besonders einfache Version für die lineare Differentialgleichung

−y′′(x) + p(x)y′(x) + q(x)y(x) = f(x) (21)

auf dem endlichen reellen Intervall (a, b) mit auf [a, b] stetigen Funktionen p, q und f sowieden einfachen Dirichletschen Randbedingungen

y(a) = A, y(b) = B. (22)

Wenn wir (der Einfachheit halber) zusätzlich annehmen, dass q(x) ≥ 0, x ∈ [a, b], könnenwir davon ausgehen (vgl. [CL]), dass die Randwertaufgabe (21,22) eine eindeutige Lösungy ∈ C2[a, b] besitzt16.

Bei der Methode der finiten Differenzen verzichtet man auf den Erwerb der Kenntnis vony(x) an allen Punkten des Intervalles [a, b] und bescheidet sich auf die Berechnung vonNäherungen yi, i = 1, . . . , n von Funktionswerten y(xi) in Punkten xi eines Gitters

a = x0 < x1 < . . . < xn < xn+1 = b

in [a, b]. Üblicherweise wählt man die Gitterpunkte äquidistant

xi+1 − xi = h := (b− a)/(n+ 1)

und nennt h die Schrittweite der Diskretisierung.

Um zu Gleichungen für die Näherungen yi ≈ y(xi) zu gelangen, schreibt man zunächsteinmal die Differentialgleichung (21) in den „inneren Punkten“ x1, . . . , xn des Gitters hin

−y′′(xi) + p(x)y′(xi) + q(x)y(xi) = f(xi), i = 1, . . . , n. (23)

Mit Hilfe der per Taylorentwicklung für C4-Funktionen leicht zu bestätigenden Differen-zenapproximationsaussagen

y(x+ h)− y(x− h)2h

= y′(x) +O(h2),

y(x− h)− 2y(x) + y(x+ h)

h2= y′′(x) +O(h2)

15Obwohl man (n, n)-Matrizen natürlich überhaupt nicht auf Teilräume des Rn projizieren kann.16Es ist nützlich, vor dem Versuch einer numerischen Approximation zu wissen, dass eine Lösung exi-

stiert. Andernfalls können einem (vgl. Suche nach dem heiligen Gral, [THW]) wunderliche Dinge geschehen.

17

Page 18: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4Exakte Lösung von −y’’+y=1, y(−1)=y(1)=0 und FD−Approximation

y5

y(x5)

Fehler wurde überzeichnet

Abbildung 3: Exakte Lösung (durchgezogen) + FD-Approximation (∗)

ersetzt man nun die Ableitungen in (23) durch Differenzen mit dem Ergebnis17

−y(xi−1)+2y(xi)−y(xi+1)h2 + p(xi)

−y(xi−1)+y(xi+1)2h

+ q(xi)y(xi) = f(xi) +O(h2),

i = 1, . . . , n.

Die Approximationen yi ≈ y(xi) werden nun dadurch definiert, dass man von ihnen ver-langt, dasjenige Gleichungssystem zu lösen, was sich ergibt, wenn man die (unbekannten)Differenzen-Fehler der Größe O(h2) einfach fortlässt.

−yi−1 + 2yi − yi+1

h2+ p(xi)

−yi−1 + yi+1

2h+ q(xi)yi = f(xi); i = 1, . . . , n. (24)

Setzt man hierin die Randwerte y0 = y(x0) = A und yn+1 = y(xn+1) = B ein, so siehtman, dass es sich um ein lineares Gleichungssystem

Ahyh = fh +Rh (25)

für den Vektor yh := (y1, . . . , yn)T handelt mit der Tridiagonalmatrix

Ah =1

h2

2 + h2q(x1)

12hp(x1)− 1 0 . . . 0

−12hp(x2)− 1 2 + h2q(x2)

12hp(x2)− 1

. . . ...

0. . . . . . . . . 0

... . . . . . . . . . 12hp(xn−1)− 1

0 . . . 0 −12hp(xn)− 1 2 + h2q(xn)

(26)

dem Vektor der „diskretisierten“ rechten Seite

fh = (f(x1), . . . , f(xn))T

17Dabei müssen wir hier y ∈ C4(a, b) annehmen. Dies erfordert zusätzliche Glattheit der Eingangsdatenp, q und f .

18

Page 19: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

und dem Randwertevektor

Rh = (1 + hp(x1))Ah−2, 0, . . . , 0, (1− hp(xn))Bh−2)T .

Wie man sieht, können hier durch hinreichend kleine Wahl des Diskretisierungsparametersh Systeme beliebiger Größe entstehen.

Man sieht aber auch gleich eine durch die Diskretisierung erzeugte spezielle Form des Pro-blems:Die Matrix ist tridiagonal, unter geeigneten Voraussetzungen kann das System durch Gaus-selimination ohne Zeilenvertauschungen gelöst werden, dann spielt sich der ganze Lösungs-prozess im Speicher für die drei Diagonalen ab (vgl. Lineare Algebra I, z.B. [MV]), unddie Lösung benötigt nicht mehr als 5n Operationen und für die Matrixelemente wenigerals 3n Speichervariablen.

Aufgabe 2.3Zeigen Sie, dass unter der Voraussetzung q(x) ≥ m > 0 für alle x ∈ [a, b] ein h0 > 0existiert, so dass die Matrix Ah aus (26) für 0 < h < h0 strikt diagonal dominant unddamit regulär ist(vgl. Satz von Gerschgorin, Lineare Algebra II).

Nichtlineare Randwertaufgaben Randwertaufgaben sind oft auch nichtlinear. Alsmathematisch wohl am einfachsten zu behandelnde Form kann man diejenigen Aufga-ben ansehen, bei denen nur die rechten Seiten nichtlinear in den Unbekannten sind. EinBeispiel-Problem dieser Art, das wir später immer wieder aufgreifen werden ist das soge-nannte Bratu-Problem.

Beispiel 2.4 (Bratu-Problem)Das Bratuproblem ist in der eindimensionalen Form die folgende von einem Parameter λabhängende Randwertaufgabe

−y′′(x) = λ exp(y(x)), x ∈ [0, 1], y(0) = y(1) = 0. (27)

Anmerkungen 2.51. Für λ ∈ [0, λ∗) mit einem sog. kritischen Parameter λ∗ ≈ 33.513890719 hat es jeweils

zwei Lösungen, die bei λ∗ zusammenfallen und wie folgt dargestellt werden können

u(x)m = −2 ln

(cosh

((x− 1

2) θ2

)cosh( θ

4)

).

Dabei sind die beiden Lösungen durch die zwei reellen Lösungen θ1 und θ2 der 1D-Fixpunktgleichung

θ =√2λ cosh

4

)bestimmt.

2. Rechts von λ∗ gibt es keine Lösung. Vgl. dazu die Abbildung 11. (Man beachte aber,dass der Abbildung 11 Randwertaufgabe mit Grundintervall [−1, 1] zugrunde liegt.Das erklärt die Verschiebung des λ-Umkehrwertes.)

19

Page 20: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3. Die Bratu-Aufgabe findet in vielen Bereichen der Natur- und IngenieurwissenschaftAnwendung: Bei der Berechnung der Brennstoffentzündung in der Theorie der Ver-brennung, als Modell für exothermische Reaktionen, im Chandrasekhar Modell derExpansion des Weltalls, in der Theory allgemeiner chemischer Reaktionen, in derTheory der Strahlungswärmeübertragung und in der Nanotechnologie. In allen An-wendungen ist von großer Bedeutung, dass Lösungen recht des kritischen Punktes λ∗nicht existieren.

4. Die Aufgabe (27) ist die Gleichung, die den stationären Zustand der Reaktionsdiffu-sionsgleichung (71) von Seite 37 charakterisiert.

Der Parameter λ wird uns erst später interessieren. Wir nehmen für ihn hier einmal denfesten Wert 0.5 an.Wenden wir das obige Diskretisierungsverfahren von Seite 17 für p = q = 0, A = B = 0 undf(x) := 0.5 exp(y(x)) an, so erhalten wir das nichtlineare endlichdimensionale Problem

F (y) :=

2 −1 0 · · · 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 · · · 0 −1 2

y1.........yn

−h2

2

exp(y1)

...

...

...exp(yn)

= 0. (28)

Im Gegensatz zur Aufgabe (27) ist dieses System - wie die meisten nichtlinearen Systeme- nicht geschlossen lösbar. Wie aus den Vorlesungen Anaylysis I-III bekannt sein sollte,muss man zur (approximativen) Lösung von (28) iterative Verfahren anwenden. Aus dengenannten Vorlesungen sind sogar schon zwei Verfahren bekannt: Fixpunktiterationen nachBanach und das Verfahren sukzessiver Linearisierung nach Newton.Wir werden auf beide in diesem Skript intensiv eingehen. Eine mögliche Fixpunktiterati-on zu Erzeugung einer hoffentlich gegen eine Lösung konvergierenden Folge y0, y1, y2, . . .könnte aus (28) schnell wie folgt entwickelt werden

2 −1 0 · · · 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 · · · 0 −1 2

yk+11.........

yk+1n

=h2

2

exp(yk1)

...

...

...exp(ykn)

, k = 0, 1, 2, . . . .

Im Newtonverfahren berechnet man ausgehend von einem Näherungsvektor y0 für eineLösung sukzessive eine Folge y1, y2, . . . von hoffentlich besseren Näherungen, indem mandas Systeme

F (y) = 0 (29)

bei yk linearisiertF (yk) + F ′(yk)(y − yk) ≈ F (y)

und anstelle der nichtlinearen Gleichung (29) ersatzweise die linearisierte Gleichung

F (yk) + F ′(yk)(y − yk) = 0

löst und yk+1 durch deren Lösung definiert.Formal schreibt man das18 als

yk+1 = yk − F ′(yk)−1F (yk). (30)18Insbesondere in Untersuchungen der Konvergenz des Verfahrens; vgl. Seite 63.

20

Page 21: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Bei der konkreten Rechnung vermeidet man natürlich die Bildung der Inversen von F ′(yk).Man versteht −F ′(yk)−1F (yk) nur als eine Kurzschreibweise für die Lösung δk des linearenGleichungssystems

F ′(yk)δk = −F (yk). (31)

Algorithmus 2.6 (Newton, n-ter Schritt)1. Bilde F ′(yk) und F (yk).2. Löse (31) nach δk3. Setze yk+1 = yk + δk.

Speziell für die Aufgabe (28) bemerkt man, dass die Jacobimatrix des Systems auch wiedereine Tridiagonalmatrix ist, so dass bei der Lösung von (31) wieder die obigen Anmerkungzur Ausnutzung der Tridiagonalität zur Anwendung kommen können. Wenn die Jacobi-Matrix dichter besetzt ist, wird man gegebenenfalls andere Techniken ausnutzen müssen,um den Newton-Schritt auszuführen oder um einen ausführbaren Ersatz für ihn zu finden.

B. Finite Elemente Sehr häufig ergeben sich Differentialgleichungen als Euler-Lagrange-Gleichungen gewisser Funktionale, deren Minima die gesuchten Funktionen sind.

Wenn für x ∈ [0, 1] die Funktion u ∈ C1[0, 1] mit U(0) = a und U(1) = b die Verformungeiner durch eine Streckenlast f ∈ C[0, 1] belasteten Saite ist, so minimiert u das Funktionalder potentiellen Energie

P (u) =1

2

∫ 1

0

(u′)2dx−∫ 1

0

f · u dx, (32)

alsou = arg minu∈C1[0,1] mit u(0)=a und u(1)=bP (u) (33)

(Dabei haben wir - wie man das in der Mathematik gern macht - alle auftretenden Kon-stanten gleich 1 angenommen und gleich noch das Grundintervall zu [0, 1] skaliert.)

Wenn u Minimum von P ist, so muss für alle kleinen v ∈ C1[0, 1] mit v(0) = v(1) = 0 (diessichert, dass u+tv für alle t ∈ R auch die Randbedingungen erfüllt) die Richtungsableitungvon P bei u in Richtung von v gleich Null sein. Wegen

0 = ddtP (u+ tv)|t=0 = d

dt

(12

∫ 1

0(u′ + tv′)2dx−

∫ 1

0f · (u+ tv)dx

)t=0

=(∫ 1

0(u′ + tv′) · v′dx−

∫ 1

0f · vdx

)t=0

=∫ 1

0u′ · v′dx−

∫ 1

0f · vdx

(34)

gilt also ∫ 1

0

u′ · v′dx−∫ 1

0

f · vdx = 0 für alle v ∈ C10 [0, 1], (35)

wobei die tiefgestellte 0 bei C10 [0, 1] signalisiert, dass dies die C1-Funktionen v mit Null-

randwerten v(0) = v(1) = 0 sind.

21

Page 22: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wenn wir annehmen, dass u ein weiteres Mal stetig differenzierbar ist19, können wir imersten Term von (35) partiell integrieren mit dem Resultat20∫ 1

0

−u′′ · vdx−∫ 1

0

f · vdx = 0 für alle v ∈ C10 [0, 1], (36)

also ∫ 1

0

(u′′(x) + f(x)) · vdx = 0 für alle v ∈ C10 [0, 1]. (37)

Für stetige u′′ und f folgt hieraus die sogenannte Euler-Lagrange-Gleichung zum Variati-onsproblem (32):

−u′′(x) = f(x), x ∈ (0, 1). (38)

Wäre nämlich R(x) := u′′(x) + f(x) = 0 für ein x ∈ (0, 1), etwa

R(x) = w > 0,

so gäbe es eine ganze Umgebung [x− ε, x+ ε] von x in (0, 1) mit

R(x) ≥ w/2 für x ∈ [x− ε, x+ ε].

Wählt man nun eine Funktion v in C10 [−1, 1] mit

v ≥ 0 in [x− ε, x+ ε],v = 0 in [0, 1] \ [x− ε, x+ ε],∫ x+ε

x−εv(x)dx = I > 0,

,

so ist offenbar ∫ 1

0

R(x)v(x)dx =

∫ x+ε

x−ε

R(x)v(x)dx ≥ w/2 · I > 0,

was (37) widerspricht.

Zusammen mit den Randbedingungen des Variationsproblems ergibt (38) die Randwert-aufgabe

−u′′(x) = f(x), x ∈ (0, 1), u(0) = a, u(1) = b. (39)

Diese Randwertaufgabe steht im gleichen Verhältnis zum Variationsproblem (33) wie dasGleichungssystem (8) zum Variationsproblem (9), und genau so wie man die Lösung von (8)durch Minimierung von F (u) über einen niederdimensionalen Unterraum approximierenkann, versucht man, das Randwertproblem (39) durch Minimierung von P (u) aus (32)über einen endlichdimensionalen (niederdimensionalen) Unterraum zu approximieren.

Indem man von u zunächst die Funktion R(x) = a ∗ (1− x) + bx abzieht, findet man, dassV = u−R die randhomogene Randwertaufgabe

−V ′′(x) = f(x), x ∈ (0, 1), V (0) = 0, V (1) = 0 (40)

erfüllt.

Eine numerische Approximation einer Lösung dieser Randwertaufgabe kann man nun zufinden versuchen, indem man das Funktional P (V ) aus (32) über einen endlichdimensio-nalen Unterraum von C1

0 [0, 1] minimiert.19Wie sich herausstellen wird, ist diese Annahme in wichtigen Anwendungsfällen - insbesondere im Falle

von Funktionen mehrerer Veränderlicher - unzutreffend20Man beachte, dass die Randterme wegen der Nullwerte von v am Rande fortfallen.

22

Page 23: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wenn uh einmal das als existent angenommene Minimum von P (u) über einen (endlich-dimensionalen) Lösungsansatzraum Lh bezeichnet, so leitet man ganz analog und formaldie schwache Gleichung∫ 1

0

u′h · v′hdx−∫ 1

0

f · vhdx = 0 für alle vh ∈ Lh, (41)

her.

In (14) haben wir gesehen, dass der Approximationsfehler eine Güteabschätzung in einermit dem Problem verwobenen Norm erfüllt.

Dasselbe leitet man hier auf ähnlichem Weg her, wobei die Norm wie oben mit der schwa-chen Gleichung verbunden ist und so aussieht:

∥uh∥a :=∫ 1

0

u′h · u′hdx1/2

Wenn man im Funktionenraum mit dieser Norm minimieren will, sollte der Raum in dieserNorm abgeschlossen sein. Schließt man den C1

0 [0, 1] dazu in dieser Norma ab, gelangt manzum sogenannten „Sobolev-Raum“ W 1

0 [0, 1], der auf [0, 1] „schwach differenzierbaren Funk-tionen mit einer schwachen Ableitung“, deren Quadrat über [0, 1] integrierbar ist21. Wirwerden das Konzept der schwachen Ableitung in dieser Vorlesung nicht erklären können22

Wichtig ist für uns nur, dass die stückweise stetig differenzierbaren Funktionen zu dieserMenge gehören, so dass wir als Unterraum beispielsweise den Raum der bezüglich einesvorgegebenen Gitters

0 = x0 < x1 < · · · < xn+1 = 1

stückweise linearen randhomogenen Funktionen

uh(x) =n∑

k=1

Φk(t)αk

wählen können, worin die kte Hutfunktion

Φk(x) =

x−xk−1

xk−xk−1für x ∈ [xk−1, xk],

x−xk+1

xk−xk+1für x ∈ [xk, xk+1],

0 sonst

einfach mit dem Wert αk der Funktion vh an der Stelle xk gewichtet wird.Die folgende Skizze zeigt eine solche Funktion für

x = [0 0.2 0.4 0.5 0.7 1] und y = [0 0.6 2 1.5 1.8 0].

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2Zusammensetzung einer stückweise linearen Funktion aus Hutfunktionen

Abbildung 4: Stückweise lineare Funktion21genau genommen. Lebesgue-integrierbar, aber dies werden wir in dieser Vorlesung nicht exakt erklären.22Informationen darüber kann man z.B. in der paralleleln Vorlesung „Numerik partieller Differentialglei-

chungen“ erhalten.

23

Page 24: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Geht man nun mit dem Ansatz uh(x) =∑n

k=1 Φk(t)αk

in die Gleichung (41) und lässt dort die vh alle Hutfunktionen Φm, m = 1, . . . , n durch-laufen, so gelangt man zu dem linearen Gleichungssystem

n∑k=1

∫ 1

0

αkΦ′k(x)Φ

′m(x)dx =

∫ 1

0

f(x) · Φm(x)dx, m = 1, . . . , n. (42)

Da das Integral∑n

k=1

∫ 1

0Φ′

k(x)Φ′m(x)dx nur dann von Null verschieden ist, wenn sich die

Indizes k undm höchstens um den Wert 1 unterscheiden23, entsteht wieder ein tridiagonaleslineares Gleichungssystem.

Funktionen wie die Hutfunktionen, die einen kleinen Träger haben24, heißen Finite Ele-mente. Die eben demonstrierte Ritz-Galerkin Approximation mit Hut-Funktionen ist einBeispiel einer Finite Element Methode (FEM).

Genauso wie in (14) ist die FEM-Approximation in einem gewissen25 Sinne eine besteApproximation aus dem gewählten Finite-Element-Unterraum.

Die „Kunst der Finiten Elemente“ liegt deshalb darin, den Unterraum und seine Basis sozu wählen, dass

1. Das entstehende Gleichungssystem (42)gut lösbar ist.

2. Der Unterraum die Lösung gut approximieren kann.

c. Petrov-Galërkin Wenn man in der schwachen Gleichung (41) mit dem Ansatz uh(x) =∑nk=1 Φk(t)αk für die vh anstelle der den Ansatzraum aufspannenden Funktionen Φk(t) an-

dere Funktionen Ψk(x) als sogenannte „Testfunktionen“ wählt, mit dem Ergebnissystem

n∑k=1

∫ 1

0

αkΦ′k(x)Ψ

′m(x)dx =

∫ 1

0

f(x) ·Ψm(x)dx, m = 1, . . . , n. (43)

so spricht man von einem Petrov-Galerkin-Vorgehen anstelle eines Ritz-Galerkin-Verfahrens.Manchmal setzt man die Summe uh(x) =

∑nk=1 Φk(t)αk auch einfach in die Differentialglei-

chung der Randwertaufgabe (40) ein26, multipliziert die ganze Gleichung für m = 1, . . . , nmit den Testfunktionen Ψm,m = 1, . . . , n und integriert von 0 bis 1:

−n∑

k=1

∫ 1

0

αkΦ′′k(x)Ψm(x)dx =

∫ 1

0

f(x) ·Ψm(x)dx, m = 1, . . . , n. (44)

Anmerkungen 2.7 (Petrov-Galerkin für den endlichdimensionalen Fall)Bei der Ritz-Approximation der Lösung eines (n× n)-Gleichungssystems

Ax = b

durch Approximationen aus einem Teilraum Rh mit Basisvektoren v1, . . . , vm wurde manfür die Näherung vh = V y auf das „projizierte Problem“

V T (AV y − b) = 0

23Andernfalls sind sie auf keinem gemeinsamen Teilintervall von Null verschieden.24Der Träger einer Funktion ist die Menge, auf der sie nicht verschwindet.25Hier leider nicht vollständig erklärbaren26das setzt natürlich für die Ansatzfunktionen Φk voraus, dass die zweiten Ableitungen (zumindest

schwach) existieren; stückweise lineare Hutfunktionen sind also weniger geeignet

24

Page 25: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

geführt (vgl. Anmerkung 2.2).Bei Matrizen A, die nicht SPD sind, kann man nicht erwarten, dass die „projizierte Ma-trix“ V TAV weiter SPD ist, ja noch nicht einmal die Regularität kann regelhaft ausgesagtwerden.Beim Petrov-Galerkin-Verfahren wird das überbestimmte Gleichungssystem

AV y − b = 0

durch „Testen der Gleichung“ mit von v1, .., vm verschiedenen Vektoren w1, . . . , wm in derBilddimension auf m reduziert:

(wk)T (AV y − b) = 0, k = 1, . . . ,m

oder - mit W = (w1, . . . , wm) -W TAV y = W T b. (45)

Durch geeignete Wahl von W kann die Systemmatrix W TAV manchmal angenehme Ei-genschaften erhalten.

d. Kollokationsverfahren Wählt man in (44) für die Ψm(x) Delta-Distributionen

Ψm(x) = δzm(x)

so dass „das Integral einer mit Ψm(x) multiplizierten Funktion f deren Wert bei zm ergibt“,so erhält man.

−n∑

k=1

αkΦ′′k(zm) = f(zm), m = 1, . . . , n. (46)

Dies bezeichnet man als „Kollokationsverfahren“.

0 5 10 15 20−2

−1

0

1

2

3

4

5

6

ui

ui−1 u

i+1

x1 x

2x

i−1x

i+1xi

bi

bi+1

Vi

Finite−Volumen−Diskretisierung

Abbildung 5: Finite Volumen

25

Page 26: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

C. Finite Volumen Bei der Finite-Volumen-Diskretisierung der Randwertaufgabe (39),die wir hier27 noch einmal (mit anderem Grundbereich) wiederholen

−u′′(x) = f(x), x ∈ (0, 1), u(0) = a, u(20) = b, (47)

werden zu einem nicht notwendig äquidistanten Gitter 0 = x1 < x2 < · · · < xi−1 <

xi < xi+1 <. . . < xN = 2 sogenannte Kontroll-Volumina Vi = [bi, bi+1], i = 2, . . . , N − 1

eingeführt, mit xi−1 < bi < xi. Zur Bestimmung von Approximationen ui der Lösungswerteu(xi), i = 2, . . . , N − 1 werden N − 2 Gleichungen wie folgt erzeugt:

1. Es wird die Differentialgleichung über das Kontrollvolumen Vi integriert:

−∫ bi+1

bi

u′′(x)dx = −∫ bi+1

bi

f(x)dx

2. Die rechte Seite dieser Gleichung wird entweder exakt ausgerechnet oder durch Qua-dratur approximiert mit dem Ergebnis Fi.

3. Auf der linken Seite wird einmal integriert, so dass sich

u′(bi)− u′(bi+1) = Fi, i = 2, . . . , N − 1

ergibt.

4. Die Ableitungen in den letzten Gleichungen werden nun durch Approximationen er-setzt, die man mit den ui-Werten ausdrückt. Da die Punkte bi in der Abbildunggerade den Mitten des einschließenden Intervalle [xi−1, xi] liegen, bieten sich die Nä-herungen

u′(bi) ≈ui − ui−1

xi − xi−1

, i = 2, . . . , N − 2

an.

Dies führt wieder auf ein lineares Gleichungssystem für die ui-Werte, wobei für die Rand-punkte natürlich keine Gleichungen aufgestellt zu werden brauchen.

Es können auch ganz andere Approximationen für die u′(xi)-Werte verwendet werden. Fürdas Verfahren wichtig ist, dass an der Grenze zweier aneinanderstoßender Kontrollvolu-mina dieselbe Approximation verwendet wird. Die Ableitung am Rand entspricht einemFluss von einem Volumen in das andere. Was aus dem einen herausfließt, sollte aus Erhal-tungsgründen in das anschließende hineinfließen.

Im Falle partieller Differentialgleichungen wird dies noch klarer werden.

2.1.3 Partielle Randwertaufgaben

Partielle Differentialgleichungen werden auf ganz analoge Weise wie die gewöhnlichen dis-kretisiert.

27um das Blättern zu ersparen

26

Page 27: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

A. Finite Differenzen Als einfaches Beispiel der FD-Diskretisierung einer elliptischenRandwertaufgabe28 betrachten wir die Diskretisierung des Poisson-Problems

−(∆u)(x, y) = 1, (x, y) ∈ Ω = [0, 1]2, u|∂Ω = 0. (48)

In Absatz A. von Abschnitt 2.1.2 wurde erklärt, wie aus einer gewöhnlichen Randwertauf-gabe

−y′′ = f(x, y); y(a) = A, y(b) = B

mit Hilfe der Differenzenapproximation

y(x− h)− 2y(x) + y(x+ h)

h2= y′′(x) +O(h2) (49)

ein Gleichungssystem für Näherungen

yi ≈ y(a+ ih), i = 1, . . . , n;h = (b− a)/(n+ 1)

der Lösung y(x) eingeschränkt auf ein äquidistantes Gitter

a = x0 < x1 < . . . < xn < xn+1 = b

erhalten werden kann.Zur numerischen Behandlung der Aufgabe (48) ersetzen wir die partiellen Ableitungen desLaplace-Operators

∆u(x, y) =∂2u(x, y)

∂x2+∂2u(x, y)

∂y2

auf einem zweidimensionalen Gitter (vergleiche Abbildung 6) ganz analog zu (49) durchDifferenzen

u(x− h, y)− 2u(x, y) + u(x+ h, y)

h2=

∂2u(x, y)

∂x2+O(h2)

undu(x, y − h)− 2u(x, y) + u(x, y + h)

h2=

∂2u(x, y)

∂y2+O(h2)

und schreiben für jeden der inneren Punkte (xi, yj) = (ih, jh), i, j = 1, . . . , 4;h = 0.2mit Approximationen ui,j ≈ u(xi, yj), i, j = 1, . . . , 4 eine Ersatzgleichung für die Differen-tialgleichung aus (48) hin29:

−ui−1,j − ui+1,j + 4ui,j − ui,j−1 − ui,j+1

h2= 1, i, j = 1, 2, 3, 4, (50)

Mit dem „diskreten Laplaceoperator“ wird üblicherweise ein sogenannter Differenzensternassoziert.

1

h2

−1−1 4 −1

−1

(51)

Seine Anwendung an der Stelle (xi, yj) führt auf die linke Seite von (50).Dabei werden die Randwerte eingesetzt, wenn Punkte auf dem Rand ∂Ω von Ω liegen.

28Der Unterschied zwischen elliptischen, parabolischen und hyperbolischen Differentialgleichungen sollteschon in den einführenden Mathematik-Vorlesungen des Bachelor-Studiums erklärt worden sein. Sollte diesnicht der Fall sein, konsultuiere man z.B. das Skript [Urb]

29Achtung! Auf der linken Seite steht der diskrete Ersatz für −∆u und nicht für ∆u.

27

Page 28: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Für den Punkt (x3, y2) liegen alle zu berücksichtigenden Nachbarn in Ω, so dass die Glei-chung

−u2,2 − u4,2 + 4u3,2 − u3,1 − u3,3 = h2

lautet. Für (x2, y1) liegt der Nachbarpunkt (x2, y0) auf dem Rand, so dass die Gleichunghier die folgende Form hat:

−u1,1 − u3,1 + 4u2,1 − u2,2 = h2

Abbildung 6: Gitterfunktion

Nun handelt es sich bei den 4 × 4 Gleichungen für die 16 Unbekannten ui,j, i, j = 1, .., 4sicher um ein lineares Gleichungssystem. Um dies in der Form

Matrix mal Vektor = Vektor ⇐⇒ Au = f

aufschreiben zu können, muss die Matrix aus Unbekannten (ui,j)i,j=1,...,4 in einen Vektor(uk)k=1,...,16 verpackt werden. Da die rechten Seiten alle gleich h2 sind, macht das Aufstellendes Vektors f keine Probleme.

Das Einordnen der ui,j in den Vektor u ∈ R16 ist nichts anderes als ein Numerieren derui,j. Wählt man die Numerierung von Abbildung 7

28

Page 29: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 2 4 6 8 10

0

2

4

6

8

10

u1 u

2 u

3 u

4

u5 u

6 u

7 u

8

u12

u

11u10

u9

u13

u14

u15

u16

Abbildung 7: Numerierung

so bekommt die Matrix A die folgende Gestalt:

A =

4 −1 0 0 −1 0 0 0 0 0 0 0 0 0 0 0−1 4 −1 0 0 −1 0 0 0 0 0 0 0 0 0 00 −1 4 −1 0 0 −1 0 0 0 0 0 0 0 0 00 0 −1 4 0 0 0 −1 0 0 0 0 0 0 0 0−1 0 0 0 4 −1 0 0 −1 0 0 0 0 0 0 00 −1 0 0 −1 4 −1 0 0 −1 0 0 0 0 0 00 0 −1 0 0 −1 4 −1 0 0 −1 0 0 0 0 00 0 0 −1 0 0 −1 4 0 0 0 −1 0 0 0 00 0 0 0 −1 0 0 0 4 −1 0 0 −1 0 0 00 0 0 0 0 −1 0 0 −1 4 −1 0 0 −1 0 00 0 0 0 0 0 −1 0 0 −1 4 −1 0 0 −1 00 0 0 0 0 0 0 −1 0 0 −1 4 0 0 0 −10 0 0 0 0 0 0 0 −1 0 0 0 4 −1 0 00 0 0 0 0 0 0 0 0 −1 0 0 −1 4 −1 00 0 0 0 0 0 0 0 0 0 −1 0 0 −1 4 −10 0 0 0 0 0 0 0 0 0 0 −1 0 0 −1 4

.

Die Linien wurden dabei eingezogen, um die Block-Struktur der Matrix deutlich zu machen.Die Diagonalblöcke

B =

4 −1 0 0−1 4 −1 00 −1 4 −10 0 −1 4

verbinden die Unbekannten in jeweils derselben Reihe des ui,j-Gitters. Der in A ganzoben links stehende B-Block regelt die Differenzenbeziehung zwischen der untersten Reiheder ui,j. Die negativen Einheitsmatrizen links von den Diagonalblöcken B greifen auf dievorhergehende Schicht zu. In der ersten Blockzeile gibt es die noch nicht. Hier würde diesenegative Einheitsmatrix auf die Randwerte zugreifen, und wenn diese nicht Null wären,würden sie als bekannte Werte mit auf die rechte Seite zum f -Vektor kommen.Genauso greift die negative Einheitsmatrix rechts der Diagonalblöcke auf die Folgeschichtzu.

29

Page 30: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wenn wir die Matrix SO aufstellten, könnten wir die Approximationen in MATLAB einfachdurch

u = A\ferhalten30

Wenn man die Lösungskomponenten wieder in eine Gitterform gebracht hat (in die manauch noch die Randwerte geeignet einbringt) kann man die Lösung im MATLAB leichtplotten mit dem Ergebnis:

00.2

0.40.6

0.81

0

0.2

0.4

0.6

0.8

10

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

Lösung von −∆ u = 1, u∂Ω

=0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

Abbildung 8: Lösungsapproximation zu Aufgabe (48)

B. Finite Elemente Wie zur Differentialgleichung (38) die schwache Gleichung (35)und die Variationaufgabe (33) zum Funktional (32) gehörten, gehört zur partiellen Rand-wertaufgabe

−(∆u)(x, y) = f(x, y), (x, y) ∈ Ω = [0, 1]2, u|∂Ω = 0. (52)die schwache Gleichung∫

Ω

∇u · ∇v =

∫Ω

fvd(x, y), für alle v ∈ H10 (Ω) (53)

und das Variationsproblem

u = arg minu∈H10 (Ω)P (u) (54)

mitP (U) :=

∫Ω

(1

2∥∇u(x, y)∥22 − f(x, y) · u(x, y)

)d(x, y). (55)

Der Übergang zwischen der Differentialgleichung und der schwachen Form, die sich imWesentlichen durch Anwendung der partiellen Integration auf den ersten Summanden imIntegral ∫ 1

0

(−u′′(x)− f(x)) v(x)dx = 0

30Der Backslash-Operator löst das Gleichungssystem mit einem für die Matrix gut geeigneten Verfahren.Er nutzt dabei schon allerhand Struktur von A aus und ist also nicht notwendig ein einfaches Gauss-Eliminationsverfahren.

30

Page 31: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

ergab, erhält man hier aus dem Gaussschen Integralsatz:∫Ω

fvd(x, y) = −∫Ω

div(∇u)vd(x, y) (56)

= −∫Ω

div(v∇u)d(x, y) +∫Ω

∇u · ∇vd(x, y) (57)

=

∫Ω

∇u · ∇vd(x, y). (58)

Analog zum oben diskutierten eindimensionale Fall sucht man wieder ein Minimum vonP (u) in einem endlichdimensionalen Unterraum.Die sich dabei aus der schwachen Gleichung (53) für eine Ansatzfunktion uh(x, y) =∑n

k=1 Φk(x, y)αk ergebenden Gleichungen sehen strukturell genau wie (42) aus:

n∑k=1

∫Ω

αk∇Φk(x, y) · ∇Φm(x, y)d(x, y) =

∫Ω

f(x, y) · Φm(x, y)dx, m = 1, . . . , n. (59)

Um zu den Hutfunktionen bei eindimensionalem Grundgebiet analoge Funktionen definie-ren zu können, teilt man das Gebiet Ω möglichst gut in Dreiecke ein, von denen je zweihöchstens eine Seite oder eine Ecke gemeinsam haben. Zu gegebenen Funktionswerten inden Ecken wird als Ansatzfunktion die auf den Dreiecken bilinearen Funktionen gewählt,die an den Dreiecksecken die gegebenen Werte haben. Eine Hutfunktion zu einem innerenDreieckspunkt erhält man dann, indem man diese Funktion in diesem Punkt gleich einsund in allen anderen Punkte gleich Null wählt.

Noch stärker als im eindimensionale Fall haben die Finiten Elemente gegenüber den FinitenDifferenzen den Vorteil, dass sie - durch nichtgleichmäßige Gitter von Funktionswerten -besser möglichen lokalen schnellen Änderungen der Lösungen anpassen können.In Figur 9 ist ein Finite-Element-Gitter dargestellt sowie die Hutfunktion, welche in allenGitterpunktem den Wert 0, im Gitterpunkt Nr 1 jedoch den Wert 1 hat.

0 1 2 3 4 5 6 7 8 9 10−1

0

1

2

3

4

5Trinangulierung mit vier inneren Punkten

1

2 3

4

02

46

810

0

2

4

−0.2

0

0.2

0.4

0.6

0.8

1

Basisfunktion P1

Abbildung 9: Finite-Elemente-Gitter und Basisfunktion P1

31

Page 32: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

C. Finite Volumen Die Gleichung ∆u = f diskretisiert man mit der Finite VolumenMethode nach der folgenden an Figur 10 orientierten Vorgehensweise:

Man teilt das Gebiet in Kontrollvolumina Si ein, wovon jedes einen Punkt mit Funktions-wert ui enthält31. Nützlich ist es, wenn - wie in der Skizze - die Ränder der Kontrollvoluminaauf den Verbindungslinien der Punkte senkrecht stehen32.

−1 0 1 2 3 4 5 6−1

0

1

2

3

4

5

6Finite Volumen im R2

S3

S4

S6

u1

u2

u3

u4

S5u

5

u6

S2

L12

L14 L

16

L13

L15

S1

Abbildung 10: Finite Volumen Diskretisierung, Erkl. siehe Text

Nun gewinnt man eine Gleichung, die die über Ihre zusammanstoßenden Volumina benach-barten Werte u1 bis u6 verbindet, wie folgt: Man integriert die Differentialgleichung überS1: ∫

S1

div(grad u)dx =

∫S1

f dx.

Dann wendet man den Gaussschen Integralsatz an und erhält∫∂S1

(grad u) · ν dx =

∫S1

f dx,

wobei ν die äußere Normale des Rands ∂S1 (an den glatten Stellen des Randes) bezeichnet.Das Randintegral wird aufgeteilt in die Teilrandbereiche ∂S1,i, die die Bereiche S1 und Si

trennen für i = 2, . . . , 6.

6∑i=2

∫∂S1,i

grad u · νi dx =

∫S1

f dx.

Nun wird auf den Rändern die Werte gradu · νi mit Hilfe der gegebenen Funktionswertegenähert, etwa durch

(gradu · νi)|S1,i≈ ui − u1∥xi − x1∥2

,

31Tatsächlich kann der Wert ui auch noch andere Bedeutungen als „Wert an einer Stelle“ haben, etwasMittelwert über Si.

32Hierfür gibt es ausgefeilte Algorithmen. Interessenten suchen unter dem Stichwort „Voronoi-Diagramme“.

32

Page 33: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

wobei die Vektoren xi die Positionen der Funktionsauswertungen ui bezeichnen. Damitergibt sich dann die Ersatzgleichung

6∑i=2

ui − u1∥xi − x1∥2

· L1i = QuadS1f,

wobei QuadS1eine Kubatur-Formel bezeichnet, die das Integral von f über S1 nähert.

Die Approximationen für die Randwerte können natürlich auch noch genauer gemachtwerden. Wichtig (und charakteristisch für FV-Ansätze) ist, dass in den Gleichungen fürverschiedene aneinanderstoßende Kontrollvolumina für die Berührungskanten stets diesel-ben Näherungen genommen werden.

2.1.4 Integralgleichungen

Eine „lineare Integralgleichung“ für eine Funktion u : R ⊃ [a, b] −→ R hat die Gestalt

λ(x)u(x) +

∫ b

a

k(x, y)u(y) dy = f(x), x ∈ [a, b]. (60)

Dabei heißt die Funktion k : [a, b]2 −→ R „Kern“ der Integralgleichung. Für festes x istk(x, y) bezüglich y hinreichend „nett“, so dass das Integral für - sagen wir - stetige Funktio-nen u existiert und möglichst wieder auf eine stetige Funktion K(u)(x) :=

∫ b

ak(x, y)u(y) dy

führt33.

Definition 2.8 (Integralgleichungs-Typen)Je nach dem Aussehen der Funktion λ(x) erhält die Gleichung (60) Zusatznamen. Sie heißt

Integralgleichung 1. Art wenn λ(x) = 0 für alle x

Integralgleichung 2. Art wenn λ(x) = λ ∈ R (oder in C)

Integralgleichung 3. Art sonst

In Abhängigkeit von den Integrationsgrenzen wird weiter aufgeteilt in

Fredholmsche Gleichungen für x-unabhängige Grenzen und

Volterrasche Gleichungen bei x-Abhängigkeitmindestens einer Integrationsgrenze.

Wir werden als Beispiele nur Fredholmsche Gleichungen 2. Art betrachten. Solche Aufgaben

λu(x) +

∫ b

a

k(x, y)u(y) dy = f(x), x ∈ [a, b].

führt man durch Anwendung einer Quadraturformel∫ b

a

g(x)dx ≈n∑

j=1

Wjg(xj)

33dafür braucht k(x, y) nicht notwending stetig in (x, y) zu sein, dies wäre aber eine gute Voraussetzung.

33

Page 34: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

mit den Quadraturknoten a ≤ x1 < x2 <. . . < xn ≤ b und den Gewichten Wj ∈ R über in

λu(x) +n∑

j=1

Wjk(x, xj)u(xj) dy = f(x), x ∈ [a, b]. (61)

Setzt man für x hierin die xi-Werte ein, gelangt man zu einem linearen Gleichungssystemzur Bestimmung von Näherungen ui von u(xi) für i = 1, . . . , n über:

λui +n∑

j=1

Wjk(xi, xj)uj = f(xi), i = 1, . . . , n. (62)

Nystrøm (vgl. [Atk], Seite 88ff) hat bemerkt, dass man nach Berechnung der Werte ui, i =1, . . . , n die Gleichung (61) als systemangepasste Interpolationsformel benutzen kann, umeine kontinuierliche Näherung uh(x) für die Lösung u(x) zu erhalten:

uh(x) = −λ−1

n∑j=1

Wjk(x, xj)uj + f(x), x ∈ [a, b].

Da die Integralkerne k(x, y) normalerweise an fast allen Punkten von Null verschieden sind,ist für die Diskretisierung (62) im Gegensatz zu Diskretisierungen von Differentialgleichun-gen typisch, dass die Systemmatrizen voll besetzt sind.

2.2 Entstehen von Größe aus Nichtlinearität

Abgesehen vom Problem (27) waren alle bisherigen Beispielprobleme lineare Aufgaben unddamit nach der Diskretisierung dem Aufgabengebiet der numerischen linearen Algebrazugehörig. Das Problem (28) zeigt eine strukturell relativ harmlose Nichtlinearität. Dieeinzelnen Gleichungen hängen nichtlinear jeweils nur von einer einzigen Komponente ab.Wenn man die Jakobimatrix von

F (y) :=

2 −1 0 · · · 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 · · · 0 −1 2

y1.........yn

−h2

2

exp(y1)

...

...

...exp(yn)

(= 0) (63)

bildet, trägt der nichtlineare Term mit den Exponentialfunktionen nur zur Diagonale derMatrix bei34, so dass die Struktur der Matrix nicht zerstört wird.Aber auch dieses einfache nichtlineare Diagonalfeld weist35 ein typisches Phänomen beinichtlinearen Problemen auf: Die Aufgabe hat mehr als eine Lösung, von der aber oft nureine von Interesse ist. In Figure 11 ist nur die untere Lösung von praktischem Interesse,weil die obere Lösung in Bezug auf die der Aufgabe zugrunde liegende Zeitentwicklungsauf-gabe36 instabil und daher in der Wirklichkeit nicht beobachtbar ist37. Hat man die letzte

34Man nennt dies dann auch ein Diagonalfeld.35Wie das approximierte kontinuierliche Bratu-Problem36Vgl. Seite 37).37Bitte wiederholen Sie: Wann werden stationäre Punkte von Differentialgleichungssystemen als stabil,

wann als unstabil bezeichnent?

34

Page 35: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−1 −0.5 0 0.5 1−0.5

0

0.5

1

1.5

2

2.5

3Zwei Lösungen der Bratu−Gleichung für λ = 1/2.

Obere, instabile Lösung

Untere, stabile Lösung

Abbildung 11: Zwei Lösungen des Bratuproblems (11).

Information nicht, so wird man die richtige Lösung durch eine geeignete Wahl einer Start-näherung anzusteuern versuchen38 Die iterativen Löser, um die wir uns bemühen werden,müssen daher nach Möglichkeit von einer Startnäherung aus die nächstgelegene Lösungansteuern. Dass dies keine triviale Aufgabe ist, wird bald klarer werden.

Sowohl durch die Möglichkeit mehrere Lösungen als auch dadurch, dass man sich derLösung durch einen iterativen Prozess nähern muss, bekommt die Aufgabe hier Größe,die Rechenleistung verbraucht. Ohne Ausnutzung der spezifischen Strukturen, kann dieBerechnung leicht langwierig werden.

Auch wenn das Bratu-Problem mehrere Lösungen hat, ist es doch noch relativ gutartig.Dass nichtlineare Terme einfache Randwertaufgaben sehr viel hässlicher machen können,und dass dann eine Menge mehr unternommen werden muss, zeigt das nächste Beispiel:

Man rechnet die Biegelinie y(x) eines durch eine Kraftverteilung f(x) quer und eine einzelneDruckkraft entlang des Balkenrichtung belasteten Balkens der Länge L gern vermittels der„Balkengleichungen“

α · y(4)(x)− β · y′′(x) = f(x) (64)

aus. Hier modelliert α grob die Elastizität in Hinblick auf eine Verformung quer zur Bal-kenrichtung, während β die Reaktionen auf Längsbelastung beschreibt.Bei Vorgabe von α, β und f(x) sowie geeigneter Randbedingungen, etwa der Bedingungen

y(0) = 0, y(L) = 0, y′′(0) = 0, y′′(L) = 0 (65)

der freien Lagerung an den Rändern sollte der Leser nun schon in der Lage sein, Diskreti-sierungen vorzunehmen und die Biegelinie zu approximieren.

38Das ist tatsächlich noch schwieriger als man zunächst denken mag, weil die dikretisierten Gleichungennoch mehr als nur zwei Lösungen haben. Die zusätzlichen sogenannten „Geisterlösungen“ verschwinden mitkleiner werdender Dikretisierungsschrittweite, indem sie (in der Maximum-Norm) immer größer werden,vgl. [BL].

35

Page 36: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Schaut man in eine etwas involviertere Literatur über die Biegelinie, so findet man, dassanstelle der Gleichung (64) mit der Gleichung

αy(4)(x)−[β + κ

∫ L

0

(y′(ζ))2dζ

]· y′′(x) = f(x) (66)

gearbeitet wird. Man liest dort, dass das Integral die Beeinflussung der Längselastizitätdurch eine Balkenverlängerung modelliere. Der unangenehme Integralterm ist sicher klein,wenn die Ableitungen im Mittel klein sind, wenn z.B. die Gesamtdurchbiegung klein ist.Dann macht es wohl Sinn, diesen Term zu vernachlässigen.Man sieht aber auch, dass die Berücksichtigung dieses Termes das Problem erheblich ver-kompliziert. Das Problem wird nicht nur nichtlinear. Durch den Integralterm wird auchdie Dünnbesetztheit des Problems zerstört, wenn man naiv diskretisiert.Es gibt allerdings einen Ansatz, der die spezielle Struktur ausnutzt und schnell zum Zielführt. Wir werden uns mit dem Problem in den Aufgaben auseinandersetzen.

2.3 Größe durch Parameterabhängigkeit

Das Bratu-Problem (27) ist in der Literatur tatsächlich nicht für einzelne Parameterwertevon Interesse, sondern gerade die Abhängigkeit der Lösung von einem variablen λ-Wert istein Hauptproblem:

−y′′(x) = λ exp(y(x)), x ∈ [−1, 1], y(−1) = y(1) = 0. (67)

Auch in (64) und (66) treten Parameter auf, und ganz allgemein sind Ingenieure undIngenieurinnen sehr an der Veränderungen vonLösungen mit sich ändernden Parameterninteressiert39.Man ist dann also nicht mehr an einer einzigen Lösung eines Problems interessiert, son-dern an einem Kontinuum von Lösungen für ein Kontinuum von Parametern. Dasbeschert uns für jeden der unendlich vielen Parameter ein Problem der vorher behandeltenArt. In Abbildung (12) sieht man den Mittelpunkt y(0) der Lösungen des Bratuproblemsfür verschiedene λ-Werte aufgetragen.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.90

1

2

3

4

5

6

7

8

9y(0) über λ für das Bratu−Problem

Obere, instabile Lösung

Untere, stabile Lösung

Umkehrpunkt

Abbildung 12: Kontinuum von Bratu-Lösungen

Wir werden später sehen, wie man die Parameterabhängigkeit ausnutzt, um dadurch solchezusammenhängenden Lösungskontinua effizienter berechnen zu können als dies bei derBerechnung jedes einzelnen Falles getrennt möglich wäre.

39Bei der Erfüllung einer Aufgabe hat man meist einige Freiheiten, und man wird diese sicher dahinge-hend ausnützen wollen, dass das Produkt einerseits qualitativ hochwertig ist andererseits aber auch günstigim Preis.

36

Page 37: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

2.4 Größe durch Zeitentwicklung

Gleichungen, die die zeitliche Evolution eines Zustandsvektor u ∈ Rn eines technischenSystems beschreiben, haben oft die Form einer Evolutionsgleichung erster Ordnung

u′(t) = F1(u(t)) mit F1 : Rn −→ Rn (68)

oder einer Gleichung zweiter Ordnung40

u′′(t) = F2(u(t)) mit F1 : Rn −→ Rn. (69)

Dabei werden letztere gern durch Einführung zweier Vektorfunktionen

u1(t) := u, u2(t) = u′(t)

in ein System erster Ordnung tranferiert(u1

u2

)′

(t) =

(u2(t)

F2(u1(t))

). (70)

2.4.1 Raum-Diskretisierung

Einen typischen Vertreter der Form (68) erhält man z.B., wenn man eine Reaktions-Diffusionsgleichungen

∂U

∂t(x, t) = c

∂2U

∂x2(x, t) + f(U), t > 0, x ∈ [0, 1], (71)

mit Diffusionskonstante c und Reaktionsterm f(U) sowie vorgegebenem Anfangswert

u(x, 0) = u0(x), x ∈ [0, 1]

und vorgegebenen Randbedingungen

u(0, t) = ϕ(t), u(1, t) = ψ(t)

mit der sogenannten Linienmethode diskretisiert.

Hierzu zerlegt man das Raumintervall [0, 1] äquidistant

0 = x0 < x1 < . . . < xn < xn+1 = 1

mit xk+1 − xk = h und betrachtet die Differentialgleichung nur auf den „Linien“

(xi, t), t ≥ o, i = 1, . . . , n

In diesen Gleichungen

∂U

∂t(xi, t) = c

∂2U

∂x2(xi, t) + f(U(xi, t)), t > 0, i = 1, . . . , n (72)

ersetzt man die zweite Raumableitung ∂2U∂x2 (xi, t) durch nur auf den Linienwerten operie-

rende zweite Differenzenquotienten und galangt so zu

∂U

∂t(xi, t) = c

U(xi−1, t)− 2U(xi, t) + U(xi+1, t)

h2+f(U(xi, t))+O(h

2), t > 0, i = 1, . . . , n

(73)40Während die Gleichungen erster Ordnung gern bei Reaktionsdiffusionsprozessen auftreten, sind die

Gleichungen zweiter Ordnung typischer Weise Bewegungsgleichungen.

37

Page 38: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Als Näherungen für U(xi, t), i = 1, . . . , n wählt man die Werte ui(t), i = 1, . . . , n, die dasSystem (73) anstelle der U(xi, t) erfüllen, wenn man dort den Fehlerterm O(h2) fortlässt:

u′i(t) = cui−1(t)− 2ui(t) + ui+1(t)

h2+ f(ui(t)) t > 0, i = 1, . . . , n. (74)

Bei f(U) = λ exp(U) und c = 1 ergäbe sich so die Gleichung (68), wobei

F 1(u) := F (u)

mit F aus (63).

Wenn man die Wirkung des Diffusionsoperators ∂2

∂x2 diskret gut modellieren will, wird mandie Schrittweite h klein wählen müssen. Das gibt dem Differentialgleichungssystem einegroße Dimension.

2.4.2 Zeitdiskretisierung

Ist u(0) zusammen mit (68) gegeben41, so werden in (meistens adaptiv angepassten) Zeit-schritten h0, h1, ... an Zeitstellen

t0 = 0, t1 = t0 + h0, t2 = t1 + h1, ...tn =n−1∑k=0

hk

sukzessiv Approximationen Yj von u(tj) durch Rekursionen

tj+1 := tj + hj; Yj+1 = Yj + hjΦ(tj, hj, Yj, Yj+1) (75)

mit einer sogenannten „Verfahrensfunktion“ Φ. Diese Funktion wird natürlich Wissen überdie Funktion F verwenden müssen, wenn die Folge u(0) ≈ Y0, Y1, Y2, . . . die Werte der Folgeu(0), u(h), u(2h), . . . gut wiederspiegeln soll.Es gibt heute eine für den – nicht auf Anfangswertaufgaben spezialisierten – Anwenderfast unüberblickbare Vielfalt verschiedener Verfahren42. Eine gute Einführung bietet dasBuch von D. David Francis Griffiths und D. Desmond J. Higham: „Numerical Methods forOrdinary Differential Equations: Initial Value Problems“.Eine breite Diskussion der verschiedenen Methoden findet man in „Solving Ordinary Dif-ferential Equations I“ von Hairer, Nørset und Wanner sowie „Solving Ordinary DifferentialEquations II“ von Hairer und Wanner. Wir wollen hier nur auf den unser Thema „großenichtlineare Systeme“ berührende Aspekte der Verwendung sogenannten impliziter Metho-den eingehen.

Hängt Φ nicht von Yj+1 ab, wie beim sogenannten expliziten Eulerverfahren

Yj+1 = Yj + hjF1(Yj), (76)

so kann Yj+1 durch einfaches Auswerten von F1 berechnet werden43. Die Verfahren heißen„explizite Verfahren“.

41respektive u1(0), u2(0) zu (69)42Tatsächlich haben wir uns mit der Form (75) schon auf sogenannte Einschrittverfahrebn eingeschränkt,

bei denen der Schritt nur durch den aktuellen Zustand und den gewünschten Zustand bestimmt sind. DieMehrschrittverfahren, bei denen in die Berechnung des Schrittes von tj nach tj+1 auch die ZuständeYj−k, Yj+k+1, . . . , Yj−1 für ein k > 0 mit eingehen, haben wir hier schon von vorneherein außer Achtgelassen.

43Wenn die rechte Seite der Evolutionsgleichung von t abhängt, wie in y′ = f(t, y), ist diese natürlichauch in der Rekursion zu berücksichtigen: yj+1 := yj + hjf(tj , yj). Im vorliegenden Fall ist die Gleichungzeitunabhängig oder autonom.

38

Page 39: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Hängt dagegen die Verfahrensfunktion von Yj+1 ab, wie zum Beispiel beim einfachstensolchen Verfahren, dem "ìmpliziten Eulerverfahren“

Yj+1 = Yj + hjF1(Yj+1), (77)

so nennt man die Methoden implizit, weil Yj+1 durch die Schrittgleichung „implizit be-stimmt“ ist. Es muss erst ein (zumeist nichtlineares) Gleichungssystem gelöst werden, bevorYj+1 zur Verfügung steht.Diese impliziten Verfahren werden bei sogenannten „steifen Differentialgleichungen“ einge-setzt. Dies sind Differentialgleichungen, deren Linearisierungen schnell abklingende Lösun-gen enthalten, die bei zu großen Schrittweiten zu künstlichen Oszillationen der numerischenLösung führen. Auch wenn diese schnell abklingenden Lösungsanteile schon nicht mehr Ein-fluss auf das (eingeschwungene) Lösungsverhalten haben, zwingen diese „steifen Anteile“bei expliziten Verfahren zu sehr kleinen Schrittweiten. In impliziten Verfahren, werden die-se „Steifheiten“ dagegen ausgedämpft, so dass hier viel größere Schritte gemacht werdenkönnen. Der Preis dafür ist die Lösung eines nichtslinearen Gleichungssystems in jedemSchritt. Wenn man dabei keine auf dies bei diesem Vorgehend auftretenden Sonderformender nichtlineare Systeme zugeschnittenen Löser verwendet, kann man den Schrittweiten-Vorteil sehr schnell wieder verlieren.

Das System (68) ist steif. Im Schrittweitenwahl-Vergleich zwischen einem expliziten undimpliziten Verfahren in Anwendung auf eine Reaktionsdiffusionsgleichung mit 19 Diskreti-sierungspunkten und der Bratu-Nichtlinearität in Figure 13 benötigt das implizite Verfah-ren 17 Schritte, um von 0 bis 0.04 zu integrieren, während das explizite 81 benötigt.

0 10 20 30 40 50 60 70 80 900

0.005

0.01

0.015

0.02

0.025

0.03

0.035

0.04Schrittentwicklung bei explizitem und impliziten Integrator

Impliziter Integrator 17 Schritte bis 0.04

Expliziter Integrator81 Schritte bis 0.04

Abbildung 13: Schrittweitenvergleich impliziter vers. expliziter Löser

Weil das implizite die anfängliche ganz vorsichtig gewählte kleine Schrittweite nach demErreichen von 0.04 weiter erhöht, während das explizite Verfahren die Schrittweite bei-behalten muss, wird der Vergleich bei Integration bis T = 1 noch ausgeprägter. Hierverbraucht das explizite Verfahren insgesamt 1921 Zeitschritte, während das implizite nur31 Schritte benötigt.Man darf allerdings nicht den Anfängerfehlermachen, die Güte eines Verfahrens einfach nuran der Schrittzahl zu messen. Das impizite Verfahren muss ja pro Schritt ein nichtline3aresGleichungssystem lösen. Das kostet nicht wenig Zeit, so dass das implizite Verfahren nichtgemäß dem Quotienten 1921/31 der Zeitschritte 62-mal so schnell ist, sondern nur etwa3.3 mal so schnell. Tatsächlich ist das implizite Verfahren in der Anfangsphase sogar lang-samer. Erst bei Ausnutzung der Ähnlichkeit der Gleichungssysteme in den nichtlinearenLösern kann das implizite Verfahren seine Vorzüge ausspielen und gewinnt nach längererIntegration zunehmend.

39

Page 40: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Eine ausführliche Diskussion der Lösung der bei impliziten Verfahrebn auftretenden Glei-chungssysteme findet man bei [HWN].

3 Lösung linearer und nichtlinearer Gleichungssystemekleiner bis moderater Dimension

In diesem Abschnitt wiederholen wir zunächst einmal schon bekannte Aussagen überdie numerische Lösung (nicht) linearer Gleichungssysteme, wobei wir noch nicht auf denAspekt einer besonderen Größe eingehen.Als das Arbeitspferd der Analyse nichtlineare Gleichungssystem führen wir zunächst denBanachschen Fixpunktsatz an. Als Anwendungen bieten sich an die Beweise verschiedenerStörungslemmata, die Untersuchung von Splitting-Verfahren für die iterative Behandlunglinearer Gleichungssysteme und den Beweis des Satzes von Ostrowski für allgemeine Fix-punktiterationen.Für Interessierte erwähnen wir im Anhang zu Abschnitt 3.1 noch ein paar weitere bekannteFixpunktsätze.

Sodann gehen wir ausführlicher auf Newton-ähnliche Verfahren ein, untersuchen lokaleKonvergenz, diskutieren verschiedene Methoden der Globalisierung und dehnen schließlichalles auf den Parameterabhängigen Fall aus, wobei wir uns aus Zeitgründen auf den Falleines Parameters beschränken.

Aspekte großer Systeme bleiben hier mehr oder weniger Nebensache. Diese Aspekte werdenin den nachfolgenden Sektionen angegangen.

3.1 Vorbereitung: Banachs Fixpunktsatz

3.1.1 Banach-Räume

Der Banachsche Fixpunktsatz liefert für Abbildungen Φ einer Menge M in sich selbst Aus-sagen über die Existenz und iterative Berechenbarkeit von Fixpunkten, d.h. von Elementenx∗, die von Φ auf sich selbst abgebildet werden.

x∗ = Φ(x∗), (78)

Die Fixpunkt-Iteration zur Berechnung lautet entsprechend

xn+1 = Φ(xn), n ∈ N. (79)

Der Satz über die Konvergenz der so generierten Folge gegen den Fixpunkt wird übli-cherweise für den Fall aufgeschrieben, dass M ein vollständiger metrischer Raum ist. Weilwir den Satz in normierten Vektorräumen (V, ∥ · ∥) anwenden wollen, in dem der Abstandzwischen zwei Vektoren x und y durch eine Norm der Differenz gemessen wird

d(x, y) := ∥x− y∥, (80)

formulieren wir den Satz gleich für abgeschlossene Teilmengen eines vollständigen normier-ten Raumes. Solche Räume heißen bekanntlich Banach-Räume.Halten wir fest:

40

Page 41: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Definition 3.1 (Banach-Raum)Ein linearer Vektorraum V mit einer Norm ∥ · ∥ heißt Banachraum, wenn jede Cauchy-Folge eine in diesem Raum konvergente Folge ist, was heißt, dass sie in diesem Raum eineindeutiges Grenzelement besitzt. Abgeschlossene Teilmengen M eines solchen Banachrau-mes bilden mit der Metrik (80) einen vollständigen metrischen Raum.

Bekannte Beispiele für Banachräume sind:

• Der Raum der reellen Zahlen R mit dem Betrag | · | als Norm.

• Der Raum der komplexen Zahlen C mit dem Betrag | · | als Norm.

• Der Raum der reellen oder komplexen n-Tupel Rn mit irgendeiner Norm44.

• Der Raum der stetigen Funktionen auf einem kompakten Intervall [a, b] mit der Norm

∥f∥∞ := maxt∈[a,b]

|f(t)|.

• Der Raum der im Inneren eines kompakten Intervalles [a, b] stetig differenzierbarenFunktionen mit in die Ränder stetig fortsetzbarer nullter und erster Ableitung sowieder Norm

∥f∥1,∞ := maxt∈[a,b]

|f(t)|+ maxt∈[a,b]

|f ′(t)|

• ...

3.1.2 Der Fixpunktsatz

Satz 3.2 (Banachs Fixpunktsatz:)Sei M eine abgeschlossene Menge eines Banachraumes (V, ∥ · ∥) und Φ :M −→ M einekontraktive Selbstabbildung vonM, d.h. es gelte

∥Φ(x)− Φ(y)∥ ≤ L · ∥x− y∥ (81)

für alle x, y ∈M mit einer Lipschitzkonstante L ∈ [0, 1).Dann gibt es einen eindeutigen Fixpunkt x∗ ∈M mit (78), die durch (79) generierte Folgexn konvergiert für jeden Startpunkt x0 ∈M gegen x∗ und es gelten die Abschätzungen

∥xn − x∗∥ ≤ 1

1− L∥xn+1 − xn∥ ≤ L

1− L∥xn − xn−1∥ ≤ Ln

1− L∥x1 − x0∥. (82)

Anmerkungen 3.3Die Abschätzung

∥xn − x∗∥ ≤ Ln

1− L∥x1 − x0∥ (83)

44in endlichdimensionalen Räumen sind alle Normen äquivalent. Aufgabe: Was bedeutete diese Aussagenoch einmal?

41

Page 42: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

bezeichnet man als a „priori Abschätzung“, weil sich damit der Fehler eines zukünftig zuberechnenden xn a priori, also vor seiner Berechnung abschätzen lässt.Analog heißen

∥xn − x∗∥ ≤ L1− L

∥xn − xn−1∥ (84)

und∥xn − x∗∥ ≤ 1

1− L∥xn+1 − xn∥ (85)

„a posteriori Fehlerabschätzungen“, weil sich damit der Fehler von xn nach der Berech-nung von xn abschätzen lässt.Dabei ist (84) die übliche Abschätzung. (85) ist eine verbesserte Fehlerabschätzung, dieman um den Preis einer zusätzlichen Auswertung von Φ(xn) bekommt.Eine weitere Ungleichung, die sich sofort aus der Kontraktivität (81) ergibt, ist

∥x∗ − xn+1∥ ≤ L∥x∗ − xn∥. (86)

Sie zeigt dass die Konvergenz der Iteration linear ist, wobei der Fehler in jeden Schritt ummindestens den Faktor L fällt45.

Aus (82) sieht man übrigens, dass die a posteriori Abschätzungen i.a. bessere Schrankenliefern als die a priori Abschätzung.

Beweis des Banachschen Fixpunktsatzes:Wegen Φ :M−→M ist die Iterationsfolge wohldefiniert. Wegen (81) ist auf jeden Fall

∥xn+2 − xn+1∥ = ∥Φ(xn+1)− Φ(xn)∥ ≤ L · ∥xn+1 − xn∥ für alle n ≥ 0. (87)

Daher ist für jedes m > n

∥xm − xn∥ =

∥∥∥∥∥m−n∑k=1

(xn+k − xn+k−1)

∥∥∥∥∥ ≤m−n∑k=1

∥xn+k − xn+k−1∥ ≤m−n∑k=1

Lk−1∥xn+1 − xn∥,

also∥xm − xn∥ ≤

1

1− L∥xn+1 − xn∥. (88)

Indem wir ∥xn+1 − xn∥ noch einmal r mit (87) abschätzen, erhalten wir

∥xm − xn∥ ≤L

1− L∥xn − xn−1∥. (89)

Wiederholen wir den Prozess, ergibt sich

∥xm − xn∥ ≤Ln

1− L∥x1 − x0∥ für alle m > n. (90)

Dies bedeutet aber offenbar, dass xn Cauchy-Folge ist und somit einen Grenzwert x∗hat, der wegen der Abgeschlossenheit von M in M liegt. Wegen (81) ist Φ insbesonderestetig und so folgt aus (79), dass

x∗ = limn→∞

xn+1 = limn→∞

Φ(xn) = Φ(limn→∞

xn

)= Φ(x∗).

45Allerdings ist diese Ungleichung kaum praktisch anwendbar , denn man kennt den tatsächlichen Fehlerja eigentlich nur sehr selten.

42

Page 43: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wegen (81) gibt es nur einen Fixpunkt, denn sonst müssten verschiedene Fixpunkte beiAbbildung mit Φ einander näher kommen. Da sie fix sind, ist das unmöglich.Die verschiedenen Abschätzungen in der Anmerkung ergeben sich durch Grenzübergangm→∞ in (88), (89) und (90). 2

Korollar 3.4Sei

F : Kr(x0) := x ∈ Rn : ∥x− x0∥ ≤ r −→ Rn

Lipschitzstetig auf Kr(x0) mit Lipschitzkonstante L ∈ [0, 1). Sei weiter

∥F (x0)− x0∥ ≤ r(1− L). (91)

Dann erfüllt F auf Kr(x0) die Voraussetzungen des Banachschen Fixpunktsatzes.

Beweis:Für x ∈ Kr(x0) gilt

∥F (x)− x0∥ = ∥F (x)− F (x0) + F (x0)− x0∥ ≤ L∥x− x0∥︸ ︷︷ ︸≤r

+r(1− L) ≤ r.

Also bildet F die Kugel Kr(x0) in sich ab, wo F ja schon L-kontraktiv war.2

3.1.3 Splitting-Verfahren

Konvergenzanalyse von linearen Vektor-Iterationen Als erste Anwendung des Ba-nachschen Fixpunktsatzes betrachten wir Iterationsverfahren zur Lösung linearer Glei-chungssysteme

Ax = b, b ∈ Rn, A ∈ R(n,n) gegeben, x ∈ Rn gesucht. (92)

Solche Iterationen haben die Form

xm+1 = Gxm + c (93)

mit xk, c ∈ Rn und der „Iterationsmatrix“ genannten Matrix G ∈ R(n,n).Wenn diese Iteration konvergiert, ist klar, dass ein Grenzwert x∗ die Gleichung

x∗ = Gx∗ + c (94)

erfüllt, so dass die Gleichungen (94) und (92) vorzugsweise äquivalent sein sollten.Subtrahieren wir (94) von (93), so sehen wir aus

xm+1 − x∗ = Gxm −Gx∗ = G(xm − x∗), (95)

dass für den Fehler e[m] = xm − x∗ die Rekursion

e[m+1] = Ge[m], m = 0, 1, 2, ... (96)

43

Page 44: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

gilt46.

Wir wollen uns zunächst einmal aber nicht darum kümmern, wie (93) und (92) mitein-ander verbunden sein können, sondern nur untersuchen, unter welchen Bedingungen (93)konvergiert.

Mit Φ(x) := Gx + c liegt es nahe, den Banachschen Fixpunktsatz anzuwenden. Die Kon-traktionsbedingung (81) lautet hier

∥Φ(x)− Φ(y)∥ = ∥Gx−Gy∥ = ∥G(x− y)∥ ≤ L∥x− y∥

Aus der Linearen Algebra II (vgl. z.b. [MV]) ist bekannt, dass die kleinste Konstante γ,mit der

∥Gz∥ ≤ γ∥z∥ für alle z ∈ Rn

gilt, gerade die der Norm ∥ · ∥ zugeordnete Matrix-Norm

∥G∥ := maxz =0

∥Gz∥∥z∥

= max∥y∥=1

∥Gy∥

ist.Für einige Normen waren schon in der Linearen Algebra Formeln für ∥G∥ mit G = (gij)angegeben worden. Es waren z.B. für die Vektornormen

∥x∥1 :=n∑

k=1

|xk|, ∥x∥2 :=

(n∑

k=1

|xk|2) 1

2

, ∥x∥∞ := maxk=1,...,n

|xk|

die zugehörigen Normen

∥G∥1 = maxj=1,...,n (∑n

i=1 |gij|) (Spaltensummennorm)∥G∥2 =

√λmax(GTG), (Spektralnorm)

∥G∥∞ = maxi=1,...,n

(∑nj=1 |gij|

)(Zeilensummennorm),

wobei λmax(A) den maximalen Eigenwert einer symmetrischen und positiv semidefinitenMatrix A bezeichnet.

Schon mit diesen wenigen Normen hatten wir in [MV] gesehenen, dass Kontraktivität vonder Normwahl abhängen kann. Für die Matrix

G1 :=

0.5 −0.2 0.10.4 0.2 −0.10.7 −0.1 0

sind ∥G∥1 und ∥G∥∞ leicht zu berechnen:

∥G∥1 = 1.6, ∥G∥∞ = 0.8.

Man sieht, dass der Banachsche Fixpunktsatz für die Iteration (93) Konvergenz liefert,wenn mit der ∞-Norm gearbeitet wird. Mit der 1-Norm (allein) kann man dagegen keineAussage machen47.

46Die Matrix G erhält deshalb mancherorst anstelle von „Iterationsmatrix“ den Namen FF-ehlerfortpflanzungsmatrix“. Dieser Name ist allerdings in Fällen geeigneter, wo nicht das Ziel ist, denFehler so schnell wie möglich gegen Null gehen zu lassen.

47Man beachte, dass die Iterationsfolge wegen der Äquivalenz der Normen im R3 natürlich auch in der1-Norm konvergiert. Nur kann man diese Aussagen eben nicht aus dem Banachschen Fixpunkt ziehen.Man beachte zugleich, dass eine Norm größer als 1 für die Iterationsmatrix G NICHT bedeutet, dass dieIteration etwa definitiv divergierte. Man kann nur nicht schließen, dass sie konvergiert.

44

Page 45: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Die 2-Norm der Matrix ist schwer zu berechnen. Die sogenannte Frobenius- oder Schur-Norm48

∥G∥F :=

√√√√ n∑i=1

n∑j=1

|gij|2

ist eine obere Schranke von ∥G∥2, so dass man manchmal mit ihr schließen kann, dass∥G∥2 < 1.

Im vorliegenden Fall ist allerdings

∥G∥F = 1.0049... > 1

während∥G∥2 = 0.95399.. < 1.

Es stellt sich nach diesen Beispielen sicher die Frage, ob man eine definitive Aussage dar-über machen kann, wann die Iteration (93) für alle c- Werte und alle Startwerte konvergiert.Kann man sagen, wann es eine Vektornorm gibt, bezüglich derer die Matrix-Norm von Gkleiner als 1 wird?Die Antwort ist positiv:

Satz 3.5 (Charakterisierungs-Satz)Die Iteration (93) konvergiert genau dann für jede rechte Seite b ∈ Cn und für jedenStartvektor x0 ∈ Cn gegen die dann eindeutige Lösung x∗ = x∗(b) von (94), wenn

ρ(G) < 1. (97)

Bevor wir diesen Satz im allgemeinen Fall beweisen, machen wir uns seinen Inhalt für denSpezialfall klar, daß G ∈ Rn×n symmetrisch ist.

In diesem Fall gibt es eine Orthonormalbasis v1, . . . , vn ∈ Rn des Rn aus Eigenvektorenvon M mit zugehörigen Eigenwerten λ1, . . . , λn (aus R):

Gvi = λivi, i = 1, . . . , n; vTi vj = δij, i, j = 1, . . . , n.

Wir können dann die Vektoren xm und den Vektor b der Iterationsvorschrift (93) also

xm+1 := Gxm + b (98)

nach diesen neuen Basisvektoren entwickeln:

xm =n∑

i=1

α[m]i vi bzw. c =

n∑i=1

βivi.

Setzen wir diese Entwicklungen in (98) ein, so ergeben sich über

n∑i=1

α[m+1]i vi = xm+1 = Gxm + c =

n∑i=1

(α[m]i λi + βi)vi

48Manche bezeichnen sie wie ihre Verallgemeinerung auf den Operator-Fall als Hilbert-Schmidt-Norm. -Achtung! Diese Matrix-Norm ist im mehr als 1-dimensionalen Raum keiner Vektor-Norm zugeordnet. Esist nämlich ∥I∥F =

√n = 1.

45

Page 46: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

die Rekursionenα[m+1]i = λiα

[m]i + βi, i = 1, . . . , n.

Daraus resultiert

α[m]i =

λmi α

[0]i +

1−λmi 1−λi

β ifür λi = 1

α[0]i +mβ für λi = 1

, i = 1, . . . , n. (99)

Es ist damit unmittelbar klar, dass Konvergenz für alle Startvektoren und alle c-Werte(und das heißt hier : für alle αi- und βi-Werte) genau nur dann vorliegen kann, wenn derbetragsmaximale Eigenwert (und damit alle Eigenwerte) betragsmäßig kleiner als 1 ist.

Wir merken gleich an, dass bei Konvergenz gegen ein x∗ für die Koeffizienten γ[m]i des

Fehlers

e[m] := xm − x∗ =:n∑

i=1

γ[m]i vi

wegen (96) dannγ[m]i = λmi γ

[0]i , i = 1, . . . , n (100)

gilt.

Dementsprechend wird der Fehleranteil γ[0]i des Fehlervektors e[0] in Richtung des i–tenEigenvektors vi von G in jedem Schritt mit einem Faktor des zugehörigen Eigenwertesλi verkleinert. Auf Dauer „überlebt“ damit der Anteil in Richtung des zum betragsmäßiggrößten Eigenwert gehörigen Eigenvektors am längsten, und man erwartet nach dem rela-tiven Abklingen der Anteile zu kleineren Eigenwerten am Ende eine Reduktion des Fehlersum den Faktor max|λi| | i = 1, . . . , n = ρ(G) pro Schritt.

Für den Beweis des Charakterisierungssatzes im allgemeinen Fall benötigen wir das fol-gende

Lemma 3.6Sei C ∈ Cn×n. Dann gibt es für alle ε > 0 eine Norm49 ∥ · ∥, so dass gilt

∥C∥ ≤ ρ(C) + ε.

Wir führen mit diesem Lemma zunächst den

Beweis des Charakterisierungssatzes :

Sei ρ(G) < 1. Dann gibt es nach dem Hilfs-Lemma eine Norm ∥ · ∥, so dass ∥G∥ < 1 ist.Folglich konvergiert (93) nach dem Banachschen Fixpunktsatz.Sei umgekehrt ρ(G) ≥ 1. Seien dann λmax ein Eigenwert von G mit |λmax| = ρ(G) ≥ 1 undy ein zugehöriger Eigenvektor. Setzt man nun

x0 = y, c = 0 für λmax = 1,

x0 = y, c = y für λmax = 1,

so erhält man xm = λmmax y für λmax = 1.

xm = m y für λmax = 1,

46

Page 47: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

was in beiden Fällen nicht konvergent ist.2

Aufgabe 3.7Zeigen Sie, dass die Aussage des Charakterisierungssatzes richtig bleibt, wenn man sichauf reelle Gleichungssysteme und reelle Iterationen beschränkt.

Wir wenden uns nun dem Beweis des Hilfslemmas zu und zeigen dies aus didaktischenGründen zunächst für den Fall einer diagonalisierbaren Matrix C.

Beweis des Hilfslemmas für den diagonalisierbaren Fall50:

Sei die Matrix C diagonalisierbar, so dass mit einer regulären Matrix T die Gleichung

T−1CT = diag(λ1, . . . , λn) (101)

gilt. Dann ist offenbar∥T−1CT∥∞ = ρ(C).

Nun ist ∥T−1CT∥∞ aber gerade die Operatornorm von C zur Vektornorm

∥x∥T := ∥T−1x∥∞,

weil

maxx =0

∥Cx∥T∥x∥T

= maxx =0

∥T−1Cx∥∞∥T−1x∥∞

= maxy =0

∥T−1CTy∥∞∥y∥∞

= ∥T−1CT∥∞

ist.2

Im diagonalisierbaren Fall gilt damit sogar

∥C∥T = ρ(C).

Aufgabe 3.8Zeigen Sie, dass ∥x∥T aus dem letzten Beweis eine Vektornorm ist.

Beweis für den allgemeinen Fall:

Im nicht diagonalisierbaren Fall ersetzt man (101) durch die Transformation von C aufJordan-Normalform

T−1CT = J := diag(J1, J2, . . . , Jk),

mit

Ji =

λi 1 0 . . . 0

0. . . . . . . . . ...

... . . . . . . 0

... . . . 10 . . . . . . 0 λi

∈ Cni×ni ,∑

ni = n.

50Wir könnten den Beweis auch sofort im allgemeinen Fall führen. Erfahrungsgemäß merkt man sich dieBeweis-Struktur so aber leichter.

47

Page 48: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

SeiDε = diag(1, ε, ε2, . . . , εn).

Dann istD−1

ε J Dε = diag(Jε1 , J

ε2 , . . . , J

εk),

mit

Jεi =

λi ε 0 . . . 0

0. . . . . . . . . ...

... . . . . . . 0

... . . . ε0 . . . . . . 0 λi

, i = 1, . . . , k.

Folglich ist ∥∥D−1ε T−1 C TDε

∥∥∞ = ρ(C) + ε.

Der Rest folgt wie im Falle der Diagonalisierbarkeit.

Nach dem Charakterisierungsatz muß es unser Bestreben sein, die Iterationsmatrix G sozu wählen, dass ρ(G) < 1 wird, damit die Iteration (93) überhaupt immer konvergiert.Tatsächlich sollte darüberhinaus ρ(G) möglichst klein werden, da dieser Wert die asym-ptotische Konvergenzrate der Iteration bestimmt. Für den Fall einer symmetrischen Iterati-onsmatrix haben wir dies in (100) demonstriert. Im allgemeinen Fall sagt dies der folgendeSatz.

Satz 3.9 (Satz über die asymptotische Konvergenzrate)Für die Iteration(93) gilt bei ρ(G) < 1 mit e[i] := xi− x∗ und für eine beliebige Norm ∥ · ∥die Aussage

supx0 =x∗

limi→∞

sup i

√∥e[i]∥∥e[0]∥

= ρ(G). (102)

Beweis: Wir kürzen die linke Seite von (102) mit Q ab. Indem wir für e[0] den Eigenvektorvon G zum Eigenwert λmax mit |λmax| = ρ(G) einsetzen, sehen wir sofort

∥e[i]∥∥e[0]∥

= ρ(G)i,

so dass auf jeden FallQ ≥ ρ(G) (103)

ist.Sei nun ein beliebiges δ > 0 vorgegeben. Dann gibt es nach dem letzten Hilfslemma eineNorm ∥ · ∥δ mit

∥G∥δ ≤ ρ(G) + δ.

Nach der Äquivalenz der Normen im Cn gibt es positive Zahlen m1 ≤ m2, so dass

m1∥x∥ ≤ ∥x∥δ ≤ m2∥x∥ ∀x ∈ Cn.

Somit folgt für beliebiges e[0] die Abschätzung

∥e[i]∥ ≤ m−11 ∥e[i]∥δ = m−1

1 ∥Gi e[0]∥δ ≤ m−11 (ρ(G) + δ)i ∥e[0]∥δ ≤

m2

m1

(ρ(G) + δ)i ∥e[0]∥,

48

Page 49: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

alsoi

√∥e[i]]∥∥e[0]∥

≤ (ρ(G) + δ) i

√m2

m1

.

Im Limes i→∞ ergibt diesQ ≤ (ρ(G) + δ) .

Da δ > 0 beliebig war, haben wir also die gewünschte komplementäre Ungleichung

Q ≤ ρ(G)

zu (103). 2

Eine Klasse von Methoden, zu vorgegebenem Gleichungssystem

Ax = b (104)

eine Iterationmatrix G und einen Vektor c so zu konstruiert, so dass

1. die Gleichung (94) äquivalent zu Ax∗ = b und

2. ρ(G) möglichst klein wird,

sind die Splitting-Methoden:Hier wählt man zu Ax = b eine reguläre Matrix B+, die sogenannte „Splitting-Matrix“ so,dass

(i) einerseits Gleichungssysteme der Gestalt Bx = d relativ leicht zu lösen sind51

(ii) andererseits die Matrix B der Matrix A möglichst ähnlich ist52.

Hiermit schreibt man das System Ax = b um in Bx+ (A− B)x = b, wobei (Name!) mandie Matrix A aufteilt (englisch splittet) gemäß A = B + (A−B).Über

Bx = (B − A)x+ b

gelangt man zur Splitting-Iteration

Bxn+1 = (B − A)xn + b (105)

in der man in jedem Iterationsschritt anstelle von A ein Gleichungssystem mit Systemma-trix B löst.Für die Analyse schreibt man (105) um in

xn+1 = B−1(B − A)xn +B−1b (106)

und findet so den Zusammenhang mit (93) über die „Iterationsmatrix“

G = B−1(B − A) = I −B−1A sowie c = B−1b.

Wenn B der Matrix A ähnelt, erwartet man, dass B−1A der Einheitsmatrix ähnlich wird,so dass G = I −B−1A „kleiner“ werden sollte.

51Dabei kann „leicht“ ganz subjektiv interpretiert werden. „leicht“ kann bedeuten, dass das System schnellgelöst werden, „leicht"kann aber auch einfach nur heißen, dass man eine Löser für Bx = d hat.

52Wenn A bei der Lösung Probleme macht, sind die Bedingungen (i) und (ii) natürlich gegenläufig undman muss zwischen beiden Bedingungen den besten Weg finden.

49

Page 50: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Standard-Splittings Wenn die Diagonalmatrix D, welche die Diagonalelemente vonA enthält regulär ist, verwendet man zur Konstruktion der Splitting-Matrix B bzw. derzugehörigen Iterationsmatrix G = I −B−1A gern die additive Zerlegung

A = D − L−R.

wobei −L den linken unteren Teil von A und −R entsprechend den rechten oberen Teilvon A bezeichnen53.

D := diag(a11, . . . , ann)

und

L := −

0 . . . . . . 0

a21. . . ...

... . . . . . . ...an1 . . . an,n−1 0

, R := −

0 a12 . . . a1n... . . . . . . ...... . . . an−1,n

0 . . . . . . 0

,

Die folgende Tabelle enthält die gängigsten Wahlen von B zusammen mit den üblichenBezeichnungen und den Iterationsmatrizen G.

53Man wählt −L und −R als Teilmatrizen von A, weil man damit später einfachere Schreibweisenenthält.

50

Page 51: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Definition 3.10 (Standard-Splitting-Iterationen)

engl. Name deutsch. Name B G

Richardson Richardson τ · I I − τ−1AJacobi Gesamtschritt D D−1(L+R)

Gauss-Seidel Einzelschritt vorw. D − L (D − L)−1RGauss-Seidel Einzelschritt rückw. D −R (D −R)−1L

SOR SOR vorw. D − ωL (D − ωL)−1((1− ω)D + ωR)SOR SOR rückw. D − ωR (D − ωR)−1((1− ω)D + ωL)SSOR SSOR (D−ωR)−1((1−ω)D+ωL)(D−ωL)−1((1−ω)D+ωR)

Anmerkungen 3.111. Es hat sich als zweckmäßig herausgestellt, statt der deutschen Namen Gesamtschritt-

verfahren und Einzelschrittverfahren sowie deren Ankürzungen GSV und ESV die Be-zeichnungen Jacobi- bzw. Gauss-Seidel-Verfahren zu verwenden. Das hat den Vorteil,dass man in englischer Literatur das GS-Verfahren (also das Gauss-Seidel Verfahren)nicht für das Gesamtschrittverfahren hält.Wir folgen diesem allgemeinen Habitus, selbst wenn die deutschen Namen die Vor-gehensweise der Verfahren gleich mit schilden.

2. Beim Jacobi-Iterationsschritt54 xm → xm+1 wird jeweils die i-te Gleichung des Gleichungs-Systems (104) nach der i-ten Variable aufgelöst. Das Ergebnis ist die neue i-te Kom-ponente xm+1

i . In jeder Gleichung werden dabei für die anderen Variablen die altenKomponenten des Vektors xm eingesetzt. Schreiben wir das Verfahren komponenten-weise aus, so lautet die Iterationsvorschrift

xm+1i :=

(bi −

n∑j=1,j =i

aij ∗ xmj

)/aii, i = 1, . . . , n.

Die Berechnungen der neuen Komponenten können in einem großen Gesamtschrittsimultan ausgeführt werden, da die Rechnung für jede Komponente nur auf dieDaten des alten Iterationsvektors zugreift.Eine Schleife für den Schritt in der i-ten Komponente könnte55 etwa wie folgt ausse-hen% Berechnung der i−ten Komponente im Jacobi−Verfahrenxneu ( i )= b( i ) ;for j =1: i−1xneu ( i ) = xneu ( i ) − a ( i , j )∗ xa l t ( j ) ;endfor j= i +1:nxneu ( i )= xneu ( i ) − a ( i , j )∗ xa l t ( j ) ;endxneu ( i )= xneu ( i )/ a ( i , i ) ;

Weil der Fehler in den einzelnen Gleichungen durch das Verfahren gewissermaßen„entspannt“ wird, heißen die Verfahren der hier betrachtenen Klasse auch (aus demAmerikanischen kommend) Relaxations-Iterationen.

54bzw. Gesamtschritt auf Deutsch.55Bei eigener Ausführung aller Operationen

51

Page 52: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3. Eine einfache Klasse linearer Gleichungssysteme

Ax = b

für die das Jacobi- bzw. Gesamtschrittverfahren stets gegen die Lösung konvergiert,ist die mit „streng diagonaldominanten Systemmatrizen“. Hierin stellen dieDiagonaleinträge in jeder Zeile die dominanten Einträge in folgenden Sinne dar:

|aii| >n∑

j=1,j =i

|ai,j|, i = 1, . . . , n. (107)

In jeder Zeile ist also das Diagonalelement betragsmäßig größer56 als die Summe derBeträge aller anderen Elemente derselben Zeile.Dadurch wird die Zeilensummennorm ∥GJ∥∞ der Iterationsmatrix

GJ := −

0 a12

a11. . . a1n

a11

a21a22

. . . . . . ...... . . . . . . an−1,n

an−1,n−1an1

ann. . .

an,n−1

ann0

sicher kleiner als 1, weil (107) nach Division durch |aii| die Ungleichungen

1 >n∑

j=1,j =i

|ai,j||aii|

, i = 1, . . . , n

liefert. Da die Zeilensummennorm gerade das Maximum all dieser Zahlen ist, diesämtlich kleiner als 1 sind, ist die Zeilensummennorn kleiner als 1.

4. Um einzusehen, dass auch die „starke Spaltendiagonaldominanz“ (oder - anderer Na-me - das sogenannte „starke Spaltensummenkriterium“)

|ajj| >n∑

i=1,i =j

|ai,j|, j = 1, . . . , n. (108)

sicherstellt, dass das Jacobi-Verfahren konvergiert, betrachten wir die Jacobi-IterationsmatrixGJ = D−1(LT +RT ) für die transponierte Matrix AT . Für diese gilt nach dem Ergeb-nis des letzten Absatzes ∥GJ∥∞ < 1. Wegen ρ(GJ) ≤ ∥GJ∥∞ ist der Spektralradiuskleiner als 1, und wir können weiterschließen, dass

ρ(GJ) = ρ(D−1(L+R)) = ρ((L+R)D−1) = ρ(D−1(LT +RT )) = ρ(GJ) < 1

ist. Dabei gelten das zweite bzw. das dtritte Gleichheitszeichen wegen der Erhaltungder Eigenwerte unter Ähnlichkeitstransformation bzw. unter Transposition.

5. Beim Gauss-Seidel-Verfahren57 (vorwärts) werden nacheinander in lauter kleinenEinzelschrittchen die erste bis n-te Komponente im Prinzip genauso ausgerechnetwie beim Gesamtschritt-Verfahren. Nur werden bei der Berechnung der k-ten neuenKomponente für die ersten k−1 Komponenten nicht mehr die Werte des alten Vektors

56ECHT GRÖSSER, nicht ≥!57Oder deutsch: Einzelschrittverfahren

52

Page 53: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

eingesetzt, sondern die in den vorangehenden Einzelschrittchen schon gewonnenenneuen Komponenten.

ajj xm+1j = bj −

j−1∑k=1

ajk xm+1k −

n∑k=j+1

ajk xmk , j = 1, . . . , n.

Die Programmierung dieser Iteration ist keinesfalls schwieriger als die des Gesamtschritt-Verfahrens, ganz im Gegenteil. Man unterscheidet einfach nicht zwischen altem undneuem Iterationsvektor. Ein voller Iterationsschritt sieht dann etwa wie folgt aus,wenn man den aktuellen Iterationsvektor etwa im Array x hält:% Berechnung der i−ten Komponente im Gauss−Se ide l−Verfahrenx ( i )= b( i ) ;for j =1: i−1x ( i ) = x ( i ) − a ( i , j )∗x ( j ) ; %<−− Hier i s t d i e Änderungendfor j= i +1:nx ( i )= x( i ) − a ( i , j )∗x ( j ) ;endx ( i )= x( i )/ a ( i , i ) ;

Man beachte aber, dass die Berechnungen der Komponenten des neuen Vektors nunnicht mehr simultan ausgeführt werden können.

Solange man nicht einen Parallel-Rechner benutzen möchte, sondern einen herkömm-lichen Computer, der nur ein Rechenwerk besitzt und sich daher auch nur mit einerarithmetischen Operation zur Zeit befassen kann, ist dies nicht weiter schlimm. In denmeisten Anwendungsfällen wird auf einer Einprozessor-Maschine das Einzelschritt-Verfahren dem Gesamtschritt-Verfahren sogar überlegen sein, da es ja stets die neue-ste Information benutzt. Diese Aussage ist zwar nicht generell richtig, gilt aber füreine große Klasse von Systemen, die wir in Kürze kennenlernen werden.

6. Das SOR-Verfahren58 ergibt sich durch einzelschrittweise Extrapolation des Gauss-Seidel- oder Einzelschritt-Verfahrens. Genauer: Das Gauss-Seidel-Verfahren berech-net im j-ten Einzelschrittchen zunächst einen Aspiranten xj für die neue j–te Kom-ponente nach

ajj xj = bj −j−1∑k=1

ajk xm+1k −

n∑k=j+1

ajk xmk .

Das SOR-Verfahren hält Gauss-Seidel für notorisch schüchtern und verlängert59 des-sen Einzelschrittchen

xmj −→ xj(

oder xj := xmj + 1 · (xj − xmj ))

zuxm+1j := xmj + ω(xj − xmj ).

Setzen wir den Vorschlag des Einzelschrittchens ein, erhalten wir

xm+1j = xmj + ω

[a−1jj

(bj −

j−1∑k=1

ajk xm+1k −

n∑k=j+1

ajk xmk

)− xmj

]58„SOR“ steht hierin für „Sukzessives Over-Relaxationsverfahren“59In den meisten Fällen ist der Relaxations-Parameter ω des SOR größer als 1, weshalb man dann auch

mit Recht von Over-Relaxation spricht.

53

Page 54: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

oderj−1∑k=1

ajk xm+1k + ω−1ajjx

m+1j =

(ω−1 − 1

)ajjx

mj −

n∑k=j+1

ajk xmk + bj.

In Matrix-Schreibweise heißt das

(−E + ω−1D)xm+1 =(ω−1 − 1

)Dxm + Fxm + b

wie behauptet.

Das den SOR-Schritt realisierende Programmstückchen könnte etwa wie folgt aus-sehen, wenn man wie beim Gauss-Seidel-Verfahren denselben Speichervektor für diealten und neuen x-Werte bemüht:% SOR−S c h r i t t f ü r d i e i−t e Komponente

for i= 1 : nz=b( i ) ;for j= 1 : i−1

z= z− a ( i , j )∗ x ( j ) ;endfor j= i +1:n

z= z− a ( i , j )∗ x ( j ) ;end

x ( i )= x( i ) +omega∗( z/a ( i , i )−x ( i ) ) ;end

7. Das SOR wird für ω = 1 zum Gauss-Seidel-Verfahren.

8. SOR und Gauss-Seidel sind etwas einseitig veranlagt60. Dies hat zur Folge, dass beiursprünglich symmetrischen Problemen die Splitting-Matrix diese nützliche Eigen-schaft verlieren61. Zwar ist ein Schritt der so symmetrisierten Verfahren im allgemei-nen langsamer als zwei Schritte der zugehörigen einseitigen Verfahren, jedoch lassensich diese symmetrischen Versionen später einfacher beschleunigen und auch andersweiterverwenden63.

Die Programmschleifen für diese beiden symmetrischen Verfahren bestehen aus je-weils zwei Schleifen der entsprechenden Iterationen, wobei in der zweiten Schleife nurjeweils die erste Zeile

for i= 1:n

ausgetauscht wird gegen

for i=n:-1:1

9. Bei den Implementierungsbeispielchen der Anmerkungen 1., 2., 3. und 5. wurde da-von ausgegangen, dass die Matrix A voll besetzt (oder zumindest fast vollbesetzt)ist.Ist die Matrix dagegen dünnbesetzt (sparse), so wird man davon in der Implemen-tierung dieser Schritte entsprechenden Gebrauch machen. Ja, man wird davon schon

60immer von oben nach unten!!61Das Spektrum dieser Matrizen kann dann etwa die Eigenschaft verlieren, reell zu sein. Das ist bei

vielen „Weiterverarbeitungen“ der Iteration unangenehm . Die symmetrischen Iterationen „SymmetrischesGauss-Seidel“ und SSOR resultieren aus dem Bedürfnis, für symmetrische Systeme auch symmetrischeSplittingmatrizen zu erhalten62 Man überzeuge sich davon, dass dies der Fall ist.

63vgl. z.B. „Präconditionierung der CG-Methode“.

54

Page 55: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

deshalb Gebrauch machen müssen, weil die Matrizen oft nicht mehr als zweidimensio-nale Arrays abgespeichert sein werden. Dann hat man die Schleifen natürlich diesenGegebenheiten anzupassen.

10. Die zitierten Programmstückchen haben vorwiegend den Zweck gehabt, die Verfah-ren weiter zu verdeutlichen. Tatsächlich wird man die Iterationen heute in MATLABdirekt in ihrer oben angegebenen Matrizenform programmieren. MATLAB stellt hier-für z.B. Befehle zur Verfügung, mit denen auf die unteren und oberen Dreiecksanteiledirekt zugegriffen wird. Diese „grobeschrittige Programmierung“ hat den Vorteil, dassMATLAB bei der Lösung Gebrauch von Rechentechniken der „Basic Linear AlgebraSubroutines“ - BLAS machen kann. Dieses sind Routinen, die häufig auftretendeOperationen der Linearen Algebra effizient durchführen können. Zudem wird MAT-LAB bei Vorliegen eines dünnbesetzten Systems sogleich qualifizierten Gebrauch vondessen Dünnbesetztheitsstruktur machen.

Die Parameter τ beim Richardson-Verfahren und ω bei SOR und SSOR müssen noch andie Matrix angepasst werden.

Ist A symmetrisch und positiv definite, so findet man z.B. (Übungsaufgabe), dass

τ ∗ =λmax + λmin

2

den Spektralradius von I − τ−1A minimiert, wobei λmax und λmin den größten und denkleinsten Eigenwert von A bezeichnen.

Für den Parameter ω ist nur der Bereich ω ∈ (0, 2) überhaupt vernünftig64. Für bestimmteMatrix-Typen gibt es eine ausgefeilte Theorie der Bestimmung des besten ω-Wertes.

Trotzdem sind die Ergebnisse dieser Iterationsverfahren nicht immer zufriedenstellend.

Wenn in manchen Büchern davon die Rede ist, dass man bei großen und dünnbesetztenMatrizen auf jeden Fall die iterativen Löser den direkten Lösern vorziehen sollte, so istdies größtenteils zweifelhaft, wenn nicht falsch.

Direkte Löser sind oft um ein Vielfaches schneller und zudem oft zuverlässiger und kalku-lierbarer65 Auch wenn man die Spektralradien der Iterationsmatrizen auf Werte kleiner als1 bringt, liegen sie oft sehr dicht bei der Eins, so dass Iterationen sehr, sehr langsam seinkönnen.

Ist A beispielsweise die (n, n)- Matrix

A =1

h2

2 −1 0 · · · 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 · · · 0 −1 2

y1.........yn

mit h = 1/(n+ 1) und n = 99, so findet man

Methode Jacobi Gauss-Seidel Richardson SOR SSORρ 0.99950... 0.99901... 0.99950... 0.940 0.9689..

64Vgl. Abschnitt 5.165Siehe Abschnitt 4.

55

Page 56: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

wobei die SOR und SSOR-Werte schon ein optimales ω verwenden.

0 0.5 1 1.5 20.94

0.95

0.96

0.97

0.98

0.99

1

1.01ρ(ω) für SOR bei h=1/100

ω

ρ(ω)

Bestwert = 0.94

0 0.5 1 1.5 20.965

0.97

0.975

0.98

0.985

0.99

0.995

1

1.005ρ( ω) für SSOR bei h=1/100

Bestwert bei 0.9689

Abbildung 14: ρ abhängig von ω für SOR und SSOR

3.1.4 Iteration und Neumannsche Reihen

Wenn wir die Iteration (93) mit x0 := c starten, erhalten wir als erste Iterationswerte

x0 = c, x1 = Gx0 + c = Gc+ c, x2 = Gx1 + c = G2c+Gc+ c.

Induktiv folgern wir, dass

xn = Gnc+Gn−1c+ . . .+Gc+ c =

(n∑

k=0

Gk

)c

Wenn der Prozess konvergiert, erfüllt der Grenzwert x∗ einerseits

x∗ =

(∞∑k=0

Gk

)c (109)

und andererseitsx∗ = Gx∗ + c

oder(I −G)x∗ = c. (110)

Ein Vergleich von (109) und (110) legt nahe, dass

(I −G)−1 =∞∑k=0

Gk. (111)

Wenn ∥G∥ < 1 ist für eine einer Vektornorm zugeordnete Matrix-Norm, so konvergiert dieReihe wegen∥∥∥∥∥

m∑k=n

Gk

∥∥∥∥∥ ≤n∑

k=m

∥Gk∥ ≤n∑

k=m

∥G∥k = ∥G∥m · 1− ∥G∥n−m+1

1− ∥G∥für m ≥ n (112)

gewiss. Die Reihendarstellung der Inversen (I − G)−1 aus (111) ist unter dem NamenNeumannsche Reihe bekannt und wird auch für allgemeinere Operatoren als Matrizen,z.B. bei Integraloperatoren genutzt. Sie ist eine direkte Verallgemeinerung der aus denersten Studienwochen bekannten geometrischen Reihe

∞∑k=0

qk =1

1− qfür |q| < 1.

56

Page 57: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Tatsächlich muss ∥G∥ für die Konvergenz der Reihe nicht kleiner als 1 sein. Unsere obigenErgebnisse aus dem Abschnitt über die Konvergenzanalyse der Fixpunktiteration (93) legennahe, dass es ausreichen sollte, dass ρ(G) < 1 ist, weil es dann eine angepasste Norm ∥ · ∥agibt, mit der ∥G∥a < 1 ist.

In der Tat gilt für den Spektralradius ρ(G) die Darstellung

ρ(G) = lim supk→∞

k√∥Gk∥. (113)

Aus ρ(G) < 1 sieht man nun unmittelbar66, dass die Majorante67 ∑∞k=0 ∥Gk∥ von

∑∞k=0G

k

konvergiert.

Aufgabe: Beweisen Sie (113)!

3.1.5 Störungslemmata

Für die spätere Anwendung halten wir hier schnell drei Aussagen über die Lösung gestörterlinearer Gleichungssysteme fest.

Zunächst geht es darum zu untersuchen, wie stark ein invertierbarer linearer Operator voneinem Banachraum (V, ∥ · ∥) in sich selbst gestört werden darf, ohne dass seine Invertier-barkeit verloren geht, und wie sich die Norm der gestörten Inversen in Abhängigkeit vonder Störung ändert. Wir formulieren die Ergebnisse hier spezieller für lineare Abbildungendes Rn in sich selbst.Sei in diesem Abschnitt ∥ · ∥ eine Norm auf Rn und für A ∈ R(n,n)

∥A∥ = max∥x=1∥

∥Ax∥

die zugehörige Operatornorm.

Lemma 3.12 (Störungslemma I)Die Störung der Einheitsmatrix I ∈ R(n,n) zu I + E bleibt invertierbar, wenn die StörungE in der Operatornorm kleiner als 1 ist. Dann existiert (I + E)−1 und es ist

∥(I + E)−1∥ ≤ (1− ∥E∥)−1. (114)

Beweis: Inhalt des Abschnittes 3.1.4. 2

Lemma 3.13 (Störungslemma II)Ein durch S zu A + S gestörte reguläre Matrix A ∈ R(n,n) bleibt invertierbar, wenn dieStörung S gemäß

∥A−1S∥ < 1 (115)

beschränkt ist. Dann ist∥(A+ S)−1∥ ≤ ∥A−1∥

1− ∥A−1S∥. (116)

66Aufgabe: Sehen Sie’s!67vgl. erste Ungleichung in (112)

57

Page 58: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis: Es ist (A+S) = A(I+A−1S), und da A invertierbar ist, gilt dies für A+S genaudann, wenn I + A−1S invertierbar ist. Nach Störungslemma I ist das mit E = A−1S derFall, wenn (115) gilt, und es ist dann durch Anwendung von (114) gerade

∥(A+ E)−1∥ = ∥[A(I + A−1E)]−1∥ = ∥(I + A−1E)−1A−1∥ ≤ ∥A−1∥(1− ∥A−1S∥)−1.

2

Korollar 3.14Die Bedingung (115) wird durch ∥A−1∥ · ∥S∥ < 1 oder

∥S∥ < ∥A−1∥−1 (117)

impliziert. Wenn man diese explizite Schranke für ∥S∥ verwendet, mag man oft auch lieberdie diese Schranke verwendende Abschätzung

∥(A+ E)−1∥ ≤ ∥A−1∥(1− ∥A−1∥ · ∥S∥)

einsetzen.

Lemma 3.15 (Störungslemma III)Zu gegebenem regulären A ∈ R(n,n) und gegebenem Vektor b = 0 löse x ∈ Rn das SystemAx = b. Wird b zu b = b+∆b gestört mit dem relativen Fehler

R(b) :=∥∆b∥∥b∥

und ist Ax = b, so kann man den relativen Fehler

R(x) =∥∆x∥∥x∥

, mit ∆x := x− x

abschätzen durchR(x) ≤

(∥A∥ · ∥A−1∥

)·R(b).

Beweis: Es ist∆x = A−1∆b

und somit∥∆x∥ ≤ ∥A−1∥ · ∥∆b∥. (118)

Aus Ax = b folgt offenbar ∥A∥ · ∥x∥ ≥ ∥b∥ oder

1

∥x∥≤ ∥A∥∥b∥

. (119)

Multiplikation der beiden Ungleichungen (118,119) liefert das Gewünschte. 2

58

Page 59: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anmerkung:Wir erinnern daran, dass die Schranke

cond∥·∥(A) = ∥A∥ · ∥A−1∥

für die Vergrößerung des relativen Fehlers beim Lösen eine Gleichungssystems mit der Sy-stemmatrix A die Kondition von A genannt wird. Wir wollen auch nicht versäumen, daraufhinzuweisen, dass die Kondition normabhängig ist.

Lemma 3.16 (Störungslemma IV)Neben dem System

Ax = b

mit regulärem A ∈ R(n,n) und Vektor b = 0 ∈ Rn betrachte man das gestörte Gleichungs-system

Ax = b (120)

mit gestörter Matrix A = A+∆A sowie gestörter rechter Seite b = b+∆b.Ist

∥∆A∥ ≤ ∥A−1∥−1

so hat das gestörte System (120) eine eindeutige Lösung x, und mit ∆x = x− x lässt sichder relative Fehler abschätzen durch

∥∆x∥∥x∥

≤cond∥·∥(A)

1− cond∥·∥(A)∥∆A∥∥A∥

·(∥∆A∥∥A∥

+∥∆b∥∥b∥

).

Beweis:Die Bedingung an die Störung hat nach Störungslemma II die Invertierbarkeit von A =A+∆A zur Folge mit

∥(A+∆A)−1∥ ≤ ∥A−1∥1− ∥A−1∥ · ∥∆A∥

=∥A−1∥

1− cond∥·∥(A)∥∆A∥∥A∥

. (121)

Nun folgt aus(A+∆A)(x+∆x) = b+∆b

offenbar

∆x = (A+∆A)−1 (b+∆b− (A+∆A)x) = (A+∆A)−1 (∆b−∆Ax) .

In dem wir zu Normen übergehen und durch ∥x∥ = 0 teilen, ergibt sich

∥∆x∥∥x∥

≤ ∥(A+∆A)−1∥ ·(∥∆b∥∥x∥

+ ∥∆A∥)

Wenn wir im ersten Summanden in der Klammer ganz rechts (119) ausnutzen, erhaltenwir

∥∆x∥∥x∥

≤ ∥(A+∆A)−1∥ ·(∥∆b∥∥b∥∥A∥+ ∥∆A∥

)= ∥(A+∆A)−1∥ · ∥A∥ ·

(∥∆b∥∥b∥

+∥∆A∥∥A∥

).

Nun brauchen wir nur noch ∥(A+∆A)−1∥ auf der rechten Seite gemäß (121) abzuschätzen.2

59

Page 60: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.1.6 Bestimmung einer Lipschitz-Konstante im nichtlinearen Fall

Die für die Beurteilung der Güte der Fixpunktiteration benötigten Lipschitzkonstantenhaben wir im Falle einer linearen Iteration als Matrix-Normen der Iterationsmatrizen ge-wonnen. Wie gehen wir aber im nichtlinearen Fall vor?

Im Falle einer eindimensionale Iteration

xn+1 = ϕ(xn)

mit ϕ : [a, b] −→ [a, b] und ϕ ∈ C1([a, b],R) findet man

|ϕ(x)− ϕ(y)| = |ϕ′(ζ)| · |x− y|

mit einem zwischen x und y liegenden Wert ζ. Die beste Lipschitzkonstante ist dannnatürlich

L := maxζ∈[a,b]

|ϕ′(ζ)|,

wobei man in der praktischen Anwendung eine obere Schranke für diesen Wert verwendenwird, solange diese noch kleiner als 1 ist.

Leider ist der Mittelwertsatz für differenzierbare Abbildungen Φ von mehrdimensionalenBereichen in sich falsch.

Stattdessen verwendet man den folgenden

Satz 3.17 („Mittelwertsatz in Integralform“)Sei M ⊂ Rn konvex und abgeschlossen. Sei Φ ∈ C1(M,Rn). Dann gilt für x, y ∈ M dieDarstellung

Φ(y)− Φ(x) =

∫ 1

0

Φ′(x+ t(y − x))(y − x)dt. (122)

Beweis:Man betrachte für x, y ∈M die Funktion

f(t) = Φ(x+ t(y − x)) für t ∈ [0, 1].

Dann istf ′(t) = Φ′(x+ t(y − x))(y − x)

und also

Φ(y)− Φ(x) = f(1)− f(0) =∫ 1

0

f ′(t)dt =

∫ 1

0

Φ′(x+ t(y − x))(y − x)dt.

2

Hieraus schließen wir die

60

Page 61: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Lemma 3.18 („Lipschitz-Abschätzung“)Sei M ⊂ Rn konvex und abgeschlossen. Sei Φ ∈ C1(M,Rn), und gelte mit der der Vek-tornorm ∥ · ∥ zugeordneten Matrixnorm die Abschätzung

∥Φ′(x)∥ ≤ L für alle x ∈M.

Dann ist∥Φ(x)− Φ(y)∥ ≤ L · ∥x− y∥ für alle x, y ∈M.

Beweis:Nach dem „Mittelwertsatz“ ist

∥Φ(y)− Φ(x)∥ =

∥∥∥∥∫ 1

0

Φ′(x+ t(y − x))(y − x)dt∥∥∥∥

≤∫ 1

0

∥Φ′(x+ t(y − x))(y − x)∥ dt

≤∫ 1

0

∥Φ′(x+ t(y − x))∥ · ∥(y − x)∥ dt

≤∫ 1

0

L · ∥(y − x)∥ dt

= L∥y − x∥.

. 2

Anmerkung: Das erste ≤-Zeichen in der letzten Abschätzungskette beweist man durchAnwendung der Dreiecksungleichung auf eine das Intergral approximierende Folge vonRiemannsummen.

3.1.7 Der Satz von Ostrowski

Die Beschreibung des finalen Konvergenzvergenzverhaltens iterativer Löser linearer Syste-me über den Spektralradius der Iterationsmatrix lässt sich auf nichtlineare Iterationen

xn+1 = Φ(xn)

erweitern. Dazu ist als Maß für die finale Konvergenzrate einfach der Spektralradius derJacobi-Matrix von Φ an der Lösung x∗ zu wählen.

Satz 3.19 (Konvergenz-Satz von Ostrowski)Es sei Φ ∈ C1(D,D) mit einer offenen Menge D ∈ Rn. x∗ ∈ D sei Fixpunkt von Φ, so dassalso x∗ = Φ(x∗). Ist dann

ρ(Φ′(x∗)) < 1, (123)

so gibt es eine Umgebung D1 ⊂ D von x∗, so dass für alle x0 ∈ D1 die Iteration

xn+1 = Φ(xn)

in D1 wohldefiniert ist und gegen x∗ konvergiert.

61

Page 62: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis: Sei r = ρ(Φ′(x∗)). Wegen (123) gibt es mit Lemma 3.6 von Seite 46 zu ε ∈(0, (1− r)) eine Norm ∥ · ∥ε, so dass

∥Φ′(x∗)∥ε ≤ r +ε

2.

Wegen der Stetigkeit von Φ′ und der Stetigkeit der Norm68

∥ · ∥ε : R(n,n) −→ R

gibt es eine ∥ · ∥ε-Kugel D1 = x ∈ Rn | ∥x − x∗∥ε < µ ⊂ D vom Radius µ > 0 in der∥ · ∥ε-Norm, auf der

∥Φ′(x)∥ε < r + ε (124)

ist. Diese Kugel wird durch Φ wegen

∥x∗ − Φ(x)∥ε = ∥Φ(x∗)− Φ(x)∥ε ≤ (r + ε)∥x∗ − x∥ε ≤ (r + ε)µ < µ

in sich abgebildet. Da Φ wegen (124) darauf in der ∥ · ∥ε-Norm kontrahiert, liefert derBanachsche Fixpunktsatz die Behauptung. 2

Anmerkungen 3.20 (Zusätze zum Konvergenz-Satz von Ostrowski)Zusatz 1: Zu jedem noch so kleinen ε ∈ (0, (1 − r)) gibt es eine (hinreichend kleine)Umgebung mit einer zugehörigen Norm, so dass die Iteration dort mit einer Kontraktionvon r + ε in dieser Norm gegen x∗ konvergiert.

Zusatz 2: Wenn Φ′(x∗) = 0 und Φ′ in einer konvexen Umgebung U von x∗ Lipschitz-stetigist, so dass

∥Φ′(x)− Φ′(x∗)∥ ≤ L∥x− x∗∥

bezüglich einer Norm ∥ · ∥, so konvergiert die Iteration quadratisch gegen x∗.

Beweis: Zusatz 1 ist klar. Zu Zusatz 2 bemerken wir, dass

∥xn+1 − x∗∥ = ∥Φ(xn)− Φ(x∗)∥ ≤ maxt∈[0,1]

∥Φ′(x∗ + t(xn − x∗))∥ · ∥xn − x∗∥.

Wegen

∥Φ′(x∗ + t(xn − x∗))∥ = ∥Φ′(x∗ + t(xn − x∗))− Φ′(x∗)∥ ≤ L · t∥xn − x∗∥ ≤ L · ∥xn − x∗∥

folgt dann die Behauptung:

∥xn+1 − x∗∥ ≤ L · ∥xn − x∗∥2.

2

68Aufgabe: Beweisen Sie, dass die Norm Lipschitz-stetig ist mit der Lipschitzkonstante 1.

62

Page 63: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.1.8 Drei Anwendungen des Satzes von Ostrowski:

Newton-Verfahren Das Newton-Verfahren

xn+1 := xn − F ′(xn)−1F (xn) (125)

zu Berechnung einer Nullstelle x∗ der Funktion F : Rn −→ Rn mit F ′(x∗) regulärund F zweimal stetig differenzierbar konvergiert lokal quadratisch gegen x∗; denn fürdie Iterationsfunktion

Φ(x) := x− F ′(x)−1F (x)

findet manΦ′(x∗) = I − F ′(x∗)−1F ′(x∗) = 0.

Das vereinfachte Newton-Verfahren Das vereinfachte Newton-Verfahren

xn+1 := xn − F ′(x0)−1F (xn) (126)

verwendet anstelle der Jacobi-Matrix an der aktuellen Iterationsstelle die (nur einmalberechnete) Jakobimatrix am Startpunkt. Der Spektralradius der Jacobi-Matrix derIterationsfunktion

Φ0(x) := x− F ′(x0)−1F (x)

an der LösungΦ′

0(x∗) = I − F ′(x0)−1F ′(x∗)

wird umso kleiner sein, je näher x0 schon bei der Lösung liegt. Für hinreichend guteStartwerte wird das vereinfachte Newton-Verfahren also konvergieren, wobei die Ratemit größerer Annäherung von x0 an x∗ immer besser wird.

Ein „theoretisches“ vereinfachtes Newton-Verfahren Ein Verfahren, das man bei der Ana-lyse anderer Verfahren gern als Vergleichsiteration einsetzt, ist das vereinfachte New-ton-Verfahren

xn+1 := xn − F ′(x∗)−1F (xn),

bei dem man anstelle der aktuellen Jacobi-Matrix F ′(xn) die Jacobi-Matrix an derLösung verwendet69. Hier ist mit der Iterationsfunktion

Φ∗(x) := x− F ′(x∗)−1F (x)

an der Lösung wieder

Φ′∗(x

∗) = I − F ′(x∗)−1F ′(x∗) = 0,

so dass dies Verfahren lokal quadratisch konvergiert.

3.1.9 Wichtige Anwendungen des Banachschen Fixpunktsatzes:Picard-Lindelöf, Implizite Funktionen, Lokale Umkehrbarkeit

Der Banachsche Fixpunktsatz findet vielfach direkte Anwendung. Indirekt wird er ange-wandt, indem er Hauptbeweisargument in den Beweisen wichtiger anderer Sätze ist. Wirnennen hier drei davon,

A. Den Satz von Picard-Lindelöf

B. Den Satz über implizite Funktionen

C. Den Satz über die inverse Funktion70.

69Da die Lösung i.a. erst noch zu finden ist, ist das für die Praxis eher unrealistisch.70oder die lokale Umkehrbarkeit

63

Page 64: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

A. Satz von Picard-Lindelöf Es gibt verschiedene Varianten des Satzes. Wir geben hierdie einfachste davon an, bei der die rechte Seite f(t, y) der zu lösenden Differentialgleichung

y′(t) = f(t, y(t))

in y Lipschitzbeschränkt für alle y, also global Lipschitzbeschränkt ist.Bei einer lokalen Variante muss f(t, y) nur für die (t, y)-Werte nahe bei dem Startpunkt(t0, y0) in y Lipschitz-beschränkt sein. Gegenüber dem globalen Satz erfordert diese Varian-te nur leichte technische Änderungen. Uns geht es hier vorwiegend um die Demonstrationder Anwendung des Banachschen Fixpunktsatzes, weshalb wir mit diesen technischen Ein-zelheiten nicht von seinem Einsatz ablenken wollen.

Satz 3.21 (Der (globale) Satz von Picard-Lindelöf)Sei f : [a, b]×Rn −→ Rn stetig in (t, y) ∈ [a, b]×Rn sowie Lipschitz-beschränkt bezüglichder zweiten Komponente auf ganz71 [a, b]× Rn, so dass

∥f(t, y)− f(t, z)∥ ≤ L∥y − z∥ für alle t ∈ [a, b] und alle y, z ∈ Rn. (127)

Dann hat die Anfangswertaufgabe

y′(t) = f(t, y(t)), y(t0) = y0 (128)

für alle Startdaten (t0, y0) ∈ [a, b]×Rn eine eindeutige Lösung y(t; t0, y0), die auf ganz [a, b]definiert ist.

Beweis: Zuerst schreiben wir die Anfangswertaufgabe (128) für Funktionen y ∈ C1[a, b]äquivalent um72 in die nichtlineare Volterrasche Integralgleichungen

y(t) = y0 +

∫ t

t0

f(s, y(s)) ds

für Funktionen y ∈ C0[a, b].Mit dem nichtlinearen Integraloperator

Kf (y)(t) :=

∫ t

t0

f(s, y(s)) ds (129)

ist dies eine Fixpunktaufgabey = Kf (y) + y0 (130)

im Raume der stetigen Funktionen C([a, b],Rn), denn es ist Kf (y) für jede stetige Funktiony ∈ C([a, b],Rn) wieder eine stetige Funktion73. Die zugehörige Iteration

yn+1 = Kf (yn) + y0 (131)

heißt „Picard-Iteration“.Wenn wir in C([a, b],Rn) die problemangepasste Norm

∥y∥L := maxt∈[a,b]

e−2Lt∥y(t)∥

72Aufgabe: Überzeugen Sie sich davon, dass die Aufgaben äquivalent sind. Beachten Sie dabei, dassdie Aufgaben in den verschiedenen Räumen C1[a, b] bzw. C0[a, b] gestellt werden.

73Einfache Aufgabe: Überzeugen Sie sich davon.

64

Page 65: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

einführen74, so finden wir über

e−2Lt∥Kf (y)(t)−Kf (z)(t)∥ = e−2Lt∥∥∥∫ t

t0f(s, y(s)− f(s, z(s))ds

∥∥∥≤ e−2LtL

∫ t

t0∥y(s)− z(s)∥ds = e−2LtL

∫ t

t0e2Lse−2Ls∥y(s)− z(s)∥ds

≤ e−2LtL∫ t

t0e2Ls

maxr∈[a,b]

e−2Lr∥y(r)− z(r)∥

︸ ︷︷ ︸∥y−z∥L

ds = e−2Lt∥y − z∥LL∫ t

t0e2Lsds

= ∥y − z∥L · e−2LtL∫ t

t0

e2Lsds︸ ︷︷ ︸< 1

2

≤ 12∥y − z∥L

durch Maximum-Bildung über t ∈ [a, b], dass

∥Kf (y)−Kf (z)∥L ≤1

2∥y − z∥L.

Der Operator Kf ist damit auf ganz C[a, b] kontraktiv. Der Banachsche Fixpunktsatz zeigtnun, dass eine eindeutige Lösung der Fixpunktaufgabe existiert. 2

Anmerkungen 3.221. Dass im Satz von Picard-Lindelöf für den nichtlineare Integraloperator Kf bei jeder

noch so großen Lipschitzkonstante für f stets eine Norm gewählt werden kann, mitder Kf schließlich auch noch beliebig kontraktiv wird75, hat seinen Grund darin, dassder Operator Kf aus der Hintereinanderausführung zweier Teiloperatoren besteht,nämlich aus der Anwendung des nichtlinearen sogenannten „Nemytskii“-Operators

F : y −→ f(·, y(·))

und des linearen Volterra-Operators

V (y)(t) =

∫ t

t0

y(s)ds.

Wie in den Aufgaben gezeigt wird, hat der Volterra-Operator einen Spektralradiusvon Null, und „hält damit jede lipschitzbeschränkte Nichtlinearität in Schach“.Für allgemeine nichtlineare Integralgleichungen ist das keinesfalls so.So können wir das oben schon andiskutierte nichtlineare Bratu-Problem (67) mitder Greenschen Funktion

G(t, s) =1

2

(1 + s)(1− t) für t ≥ s,

(1 + t)(1− s) für t ≤ s,

mit der die Lösung der linearen Randwertaufgabe

−z′′ = f, z(−1) = z(1) = 0

in der Form

z(t) =

∫ 1

−1

G(t, s)f(s)ds =: G(f)(t) (132)

74Aufgabe: Die L-Norm ist ein Norm auf dem Raum der stetigen Funktionen auf den Intervall [a, b]mit Werten im Rn, die äquivalent zur normalen Maximum-Norm maxt∈[a,b] ∥y(t)∥ ist. Achtung: ∥ · ∥ isthierbei eine beliebige, aber dann natürlich fest gewählte Norm auf dem Rn.

75Aufgabe: Wenn man den Beweis ein wenig genauer anschaut, wird einem klar, dass man mit derGewichtsfunktion e−DLt bei D > 1 eine Kontraktion von D−1 erreicht.

65

Page 66: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

geschrieben wird, in die nichtlineare Fredholmsche Integralgleichung

y(t) = λ

∫ 1

−1

G(t, s) exp(y(s))ds

umschreiben.Dies ist ebenfalls eine Fixpunktaufgabe in C[−1, 1] mit der zugehörigen Picard-Iteration

yn+1(t) = λ

∫ 1

−1

G(t, s) exp(yn(s))ds. (133)

Da der Integraloperator G in (132) aber einen Spektralradius ρ(G) =(2π

)2> 0 hat,

kann hier der Banachsche Fixpunktsatz keinesfalls für alle Lipschitzkonstanten desNemytskii-Operators76

y −→ λ exp(y(·))eine Lösung garantieren77.Wenn wir einmal die Vorinformation verwenden, dass die stabilen Lösungen in Ab-bildung 12 die Größenordnung 1 haben, hat die Exponentialfunktion eine Lipschitz-konstante von der Größenordnung exp(1). Der ganze Operator sollte daher eine Ge-samtlipschitzkonstante GL von etwa

GL ≈ ρ(G) · λ · exp(1)haben und seine Kontraktivität bei größer werdendem λ verlieren, sobald GL dieEins überschreitet, d.h. bei

λ∗ ≈ 1

ρ(G) · exp(1)≈ 0.9077... (134)

Das passt sehr gut zur Lage des Umkehrpunktes in der Abbildung 12 auf der Seite36.

2. Die Iteration (133) wird man üblicherweise nicht im Raum der stetigen Funktionendurchführen. Stattdessen wird man y diskretisieren und nur Näherungen yi für y-Werte x(xi) zu einem äquidistanten x-Gitter berechnen. Dazu kann (133) einerseitsdurch Quadraturformeln - etwa die (m+1)-fach summierte Trapezregel - diskretisiertwerden78

yn+1i = hmλ

m∑k=1

G(xi, xj) exp(ynj ), i = 1, . . . ,m (135)

mit hm = 2/(m+ 1) und

xk = −1 + k · hm, k = 1, . . . ,m.

Andererseits kann man auch die Differentialgleichung (67) direkt mit Finiten Diffe-renzen diskretisieren. In diesem Fall bekommt die Diskretisierung - wie bei (28) schoneinmal ausgeführt - einfach die Form

h−2m

2 −1 0 · · · 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 · · · 0 −1 2

y1.........ym

− λ

exp(y1).........

exp(ym)

= 0.

76Diese Lipschitzkonstante lässt sich über λ steuern.77Wie wir Anmerkung 2.5 auf Seite 19 ja schon wissen, muss der Fixpunktsatz für größer werdende

λ-Werte irgendwann versagen, da ja für Werte oberhalb des kritischen Wertes keine Lösungen existieren.78Hierbei ist berücksichtigt, dass die Greensche Funktion in den Randpunkten t = −1 und t = 1

verschwindet.

66

Page 67: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Mit

A := h−2m

2 −1 0 · · · 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 · · · 0 −1 2

und F (y) :=

exp(y1)

...

...

...exp(ym)

können wir dies schreiben als

y = λA−1F (y) (136)

und erhalten eine Picard-Iteration in der Form

yn+1 = λA−1F (yn). (137)

Die Picard-Iterationen (135) und (137) sind in diesem einfachen Fall sogar identisch,denn man stellt fest, dass

A−1 = h · (G(xi, xj))mi,j=1.

Beobachtung am Rande: Mit dieser Identität wird die Sprechweise klarer, dassdie Greensche Funktion die Inverse des Differentialoperators − d2

(dt)2unter homogenen

Dirichlet-Randbedingungen ist.

B. Der Satz über implizite Funktionen Der „Satz über implizite Funktionen“ gibteine Bedingung an, unter der sich ein (nichtlineares) Gleichungssystem

F (x, λ) :=

f1(x1, . . . , xn, y1, . . . , ym)f2(x1, . . . , xn, y1, . . . , ym)

...fn(x1, . . . , xn, y1, . . . , ym)

= 0

aus n Gleichungen in n Variablen x1, . . . , xn, das von weiteren m (als Parameter interpre-tierbaren) Variablen y1, . . . , ym abhängt, für eine zusammenhängende Menge von y-Wertenlokal eindeutig nach x auflösen lässt.

Neben der stetigen Differenzierbarkeit von F nach x (und der Stetigkeit in (x, y)) in einerUmgebung eines Punktes (x0, y0) mit F (x0, y0) = 0 ist die Hauptbedingung dafür dieRegularität der Ableitung von F nach x:

∂F

∂x=

∂f1∂x1

∂f1∂x2

. . . ∂f1∂xn

∂f2∂x1

∂f2∂x2

. . . ∂f2∂xn...

......

∂fn∂x1

∂fn∂x2

. . . ∂fn∂xn

Anstatt den Satz sofort allgemein zu formulieren, tasten wir uns durch einfache Beispielezunächst einmal an ein Grundverständnis heran.

Beispiel 1:Die Gleichung

f(x, y) := 2x+ 3y − 6 = 0

kann offenbar für alle y ∈ R global eindeutig79 nach x aufgelöst werden:

x =6− 3y

2.

79D.h. es gibt in ganz R keine andere Lösung

67

Page 68: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Der Satz über implizite Funktionen würde dies daraus voraussagen, dass

∂f

∂x(x0, y0) = 0

an einem Lösungspunkt ist80, etwa bei (x0, y0) = (3, 0).Auf die etwas allgemeinere Frage, wann

g(x, y) := ax− by − c = 0

nach x auflösbar ist, würde man sagen, dass das möglich sei, solange a (also ∂g∂x

) von Nullverschieden ist.

Beispiel 2:Dass der Startpunkt (x0, y0) durchaus eine Rolle spielen kann, sieht man an der einfachenAufgabe

h(x, y) := (x+ y)2 − 1 = 0.

Offenbar lösen sowohl alle Punkte der Gerade

x = 1− y

die Gleichung, als auch alle Punkte der Gerade

x = −1− y.

Für y = 0 gibt es keine eindeutige x-Lösung, sondern zwei. In jedem der Lösungspunkte(x0,1, y0,1) = (−1, 0) bzw. (x0,2, y0,2) = (1, 0) ist die Ableitung von h nach x aber regulär,also von Null verschieden.

−5 −4 −3 −2 −1 0 1 2 3 4 5−3

−2

−1

0

1

2

3

x

y

Lösungen von (x+y)2 =1

(x01,y

01)

(x02,y

02)

U1

U2

Abbildung 15: Zwei Lösungsäste

∂xh(x0,1, y0,2) = 2(x0,1 + y0,1) = −2 = 0,

∂xh(x0,2, y0,2) = 2(x0,2 + y0,2) = 2 = 0.

80Da die Ableitung hier konstant ist, tut der Lösungspunkt nichts zur Sache.

68

Page 69: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

In den Umgebungen Uk von (x0,k, y0,k) für k = 1, 2 besteht für x und y ein eindeutiger„funktionaler Zusammenhang“. Dieser ist jedoch nicht mehr „global“ eindeutig sondern nurnoch „lokal“.

Beispiel 3:Hier betrachten wir

g(x, y) := x2 + y2 − 1 = 0 (138)in den Lösungspunkten

(x0,1, y0,1) = (0, 1), (x0,2, y0,2) = (1, 0) und (x0,3, y0,3) =

(1√2,1√2

).

Wegen

g′(x, y) =

(∂g

∂x,∂g

∂x

)= (2x, 2y) ,

sindg′(x0,1, y0,1) = (0, 2), g′(x0,2, y0,2) = (2, 0) und g′((x0,3, y0.3) =

(√2,√2),

und es ist (138)in (x0,1, y0,1) nach y auflösbar,in (x0,2, y0,2) nach x auflösbar,undin (x0,3, y0,3) nach x und y auflösbar.

−1.5 −1 −0.5 0 0.5 1 1.5

−1

−0.5

0

0.5

1

x

y

y=f(x)

x=f(y)

x=f(y), y=g(x)

Abbildung 16: Auflösbarkeit in verschiedenen Punkten

Man kann sich merken, dass die Lösungsgesamtheit von x2 + y2− 1 = 0 in einem Lösungs-punkt (x0, y0) die Auflösbarkeit der Tangentengleichung

f(x, y) = f(x0, y0) +∂f

∂x(x0, y0) (x− x0) +

∂f

∂y(x0, y0) (y − y0) = 0

69

Page 70: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

erbt.

Beispiel 4:Gegeben ist das Gleichungssystem

x1 − 2x2 + 4x3 − 3 = 0,2x1 + 1x2 − 2x3 − 1 = 0.

(139)

Offenbar kann man es äquivalent umformen in(1 −22 1

)(x1x2

)=

(−42

)x3 +

(31

), (140)

oder (1 42 −2

)(x1x3

)=

(2−1

)x2 +

(31

), (141)

oder (−2 41 −2

)(x2x3

)=

(−1−2

)x1 +

(31

). (142)

Während man (140) und (141) nach(x1x2

)bzw. nach

(x1x3

)in den Formen

(x1x2

)=

(1 −22 1

)−1((−42

)x3 +

(31

))=

(02

)x3 +

(1−1

)(143)

bzw. (x1x3

)=

(1 42 −2

)−1((2−1

)x2 +

(31

))=

(01/2

)x2 +

(11/2

)(144)

auflösen kann, ist (142) nicht nach(x2x3

)auflösbar; denn die Systemmatrizen in den ersten

beiden System sind regulär, wohingegen die Matrix in (142) singulär ist. Die Lösungsgera-de des Systems lässt sich also mit x3 und auch mit x2 aber nicht mit x1 parametrisieren.

Beispiel 5:

Der Punkt (x01, x02, x03)T := (1, 1, 1/2)T ist eine Lösung des nichtlinearen Systems

2x1 − x2 −x3(1 + x21) = 0,−x1 + 2x2 −x3(1 + x22) = 0.

Die Linearisierung des Systems in (x01, x02, x

03)

T lautet

(1 −1 −2−1 1 −2

)x1 − x01x2 − x02x3 − x03

= 0.

Da die Untermatrizen aus der 1. und 3. Spalte sowie aus der zweiten und dritten Spal-te regulär sind, läßt sich die Linearisierung nach (x1, x3)

T oder nach (x2, x3)T auflösen

bzw. nach deren Komplement x2 bzw. x1 parametrisieren.

70

Page 71: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Dasselbe gilt dann auch für die nichtlineare Aufgabe.

x3 =x1

1 + x21, x2 = x1, x1 ∈ R

stellt die Lösung mit x1 als Parameter dar.

x3 =x2

1 + x22, x1 = x2, x2 ∈ R

ist die Parametrisierung nach x2.Wie die Linearisierung ist hier auch das System selbst in einer Umgebung von (x01, x

02, x

03)

T

nicht nach x3 parametrisieren. Diesen Schluss kann man aber nicht verallgemeinern. Eskann das nichtlineare System sehr wohl einen Parameter erlauben, auch wenn dies für dieLinearisierung nicht möglich ist.

Wir formulieren nun den

Satz 3.23 (Satz über implizite Funktionen)Seien U ⊂ Rn und V ⊂ Rm offen,

F :

U × V −→ Rn

(x, y) 7−→ F (x, y)

sei auf U × V stetig und habe dort eine stetige partielle Ableitung ∂F∂x(x, y) ∈ R(n,n).

Weiter sei (x0, y0) ∈ U × V mit

F (x0, y0) = 0 und∂F

∂x(x0, y0) regulär. (145)

Dann gibt es Umgebungen

Kδ(x0) :=

x ∈ Rn | ∥x− x0∥2 ≤ δ

und Kr(y

0) :=y ∈ Rm | ∥y − y0∥2 ≤ r

von x0 bzw. y0 sowie eine eindeutig bestimmte stetige Funktion

g : Kr(y0) −→ Kδ(x

0)

mit g(y0) = x0 und

F−1 (0)∩(

Kδ(x0)×Kr(y

0))=(g(y), y) | y ∈ Kr(y

0).

Anmerkungen:

(a) Lax formuliert man das Ergebnis des Satzes über implizite Funktionen so, dass sichF (x, y) = 0 „nach x auflösen lässt“. Dieser etwas euphemistische Ausdruck suggeriert,dass man durch endlich viele algebraische Umformungen von F (x, y) = 0 die Funktionx = g(y) erhält, wie etwa in der Auflösung von x2 + y2 − 1 = 0 durch x =

√1− y2.

Tatsächlich ist dies aber nicht so einfach. Der Beweis generiert stattdessen für ynahe y0 den „Funktionswert“ x = g(y) als Grenzwert einer Iteration zur Lösung vonF (·, y) = 0.

71

Page 72: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

(b) Es lohnt sich, den folgenden Beweis des Satzes über implizite Funktionen genau zuverstehen und zu behalten; denn er stellt bereits die Grundzüge eines Algorithmuszur Berechnung impliziter Funktionen.

Beweis des Satzes über implizite Funktionen:Grundidee:Betrachte bei (x0, y0) in einer Umgebung von x0 (x also variabel, y = y0 fest) die verein-fachte Newton-Iteration mit Verwendung der festen Jacobimatrix an der Lösung, wie aufSeite 63 diskutiert:

xk+1 = xk −(∂F

∂x(x0, y0)

)−1

F (xk, y0) =: Φ(xk, y0). (146)

Wegen∂Φ

∂x(x0, y0) = I −

(∂F

∂x(x0, y0)

)−1∂F

∂x(x0, y0) = 0 (147)

konvergiert (146) lokal quadratisch gegen x0.Da Φ(x, y) stetig in (x, y) ist, erwartet man, dass die Kontraktivität und damit die iterativeLösbarkeit erhalten bleibt, wenn man „mit y ein wenig wackelt.“.

Eigentlicher Beweis:Wähle L ∈ (0, 1). Wegen (147) gibt es dann ein δ > 0, so dass∥∥∥∥∂Φ∂x (x, y)

∥∥∥∥2

≤ L für alle (x, y) ∈ Kδ(x0)×Kδ(y

0). (148)

Wegenx0 − Φ(x0, y0) = 0

und wegen der Stetigkeit vonw(y) := x0 − Φ(x0, y)

in y können wir nun ein r ∈ (0, δ] wählen, so dass

∥x0 − Φ(x0, y)∥2 ≤ r(1− L)

für alle y ∈ Kr(y0).

Somit bildet Φ(·, y) nach dem Korollar auf Seite 43 für alle solche y-Werte die Kugel Kδ(x0)

L-kontraktiv in sich ab. Deshalb gibt es einen eindeutigen Fixpunkt x∗(y) von Φ(·, y) inKδ(x

0), und dieser erfüllt

x∗ = x∗ −(∂F

∂x(x0, y0)

)−1

F (x∗, y),

alsoF (x∗(y), y) = 0.

Da jede andere Nullstelle von F (·, y) in Kδ(x0) auch Fixpunkt von Φ(·, y) wäre, ist x∗

eindeutig. Wir setzen g(y) := x∗(y).Den Nachweis der Stetigkeit von g überlassen wir dem Leser als Aufgabe.

2

72

Page 73: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Korollar 3.24Ist F in seinem Definitionsbereich eine Ck- Funktion, so ist auch g k-mal stetig diffe-renzierbar. Die Ableitungen von g(y) ergeben sich durch Differentiation der GleichungF (g(y), y) = 0. Die erste Ableitung erhält man z.B. so:

0 =d

dy(F (g(y), y)) =

∂F

∂x(g(y), y))g′(y) +

∂F

∂y(g(y), x)

und daher

g′(y) = −(∂F

∂x(g(y), y)

)−1∂F

∂y(g(y), y).

Aufgabe [Gub]:Betrachten Sie

Ψ :

R3 −→ R(t, x, u) 7−→ ex−tu − u,

und zeigen Sie:Ψ(t, x, u) = 0 ist für beliebiges x0 ∈ R in einer Umgebung von (0, x0, e

x0) in der Form

u = φ(t, x)

mitφ(0, x0) = ex0

auflösbar, und φ erfüllt Burger’s partielle Differentialgleichung

∂φ

∂t(t, x) +

1

2

∂x

(φ(t, x)2

)= 0.

Eine einfache Folgerung aus dem Satz über implizite Funktionen ist der

Satz 3.25 (Satz über die inverse Funktion)Seien U ∈ Rn offen und f : U −→ Rn stetig differenzierbar in U . Seien weiter x0 ∈ U mitf(x0) = y0 und f ′(x0) regulär. Dann gibt es Umgebungen U ⊂ U von x0 und V von y0, sodass

f : U −→ V

bijektiv und stetig.

Satz über die inverse Funktion Beweis:Wende den Satz über implizite Funktionen an auf

F (x, y) := f(x)− y,

und finde so die Existenz der lokalen Inversen von f .2

73

Page 74: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.1.10 Andere Fixpunktsätze

Neben dem Banachschen Fixpunktsatz81 gibt es viele weitere Fixpunktsätze. Eine wich-tige Klasse solcher Sätze, die nur die Existenz eines Fixpunktes zeigen, nicht aber einenAlgorithmus für eine Fixpunktapproximation bereitstellen, sind die auf dem sogenanntenBrouwerschen Abbildungsgrad beruhenden Sätze.

Diese sind Verallgemeinerungen des eindimensionalen Zwischenwertsatzes, der besagt, dasseine auf einem Intervall [a, b] stetige Funktion mit f(a) · f(b) < 0 eine Nullstelle in [a, b]hat.

Ist Ω eine offene und beschränkte Menge des Rn und f : Ω −→ Rn stetig sowie y ∈ Rn

kein Randwert von f , also y ∈ f(∂Ω), so ordnet man dem Tripel (f,Ω, y) wie folgt einenganzzahligen Abbildungsgrad d(f,Ω, y) zu.

Man definiert ihn zunächst für den Spezialfall von Funktionen f , die differenzierbar sindund deren sämtliche endlich viele y-Stellen regulär sind82, durch

d(f,Ω, y) :=∑

x∈f−1(y)

sign(det(f ′(x))).

Im eindimensionalen Fall würde dies allen y-Stellen, in der die Funktion eine positive Stei-gung hat, den Wert 1 und allen solchen Stellen mit negativer Steigung den Wert −1 zuord-nen und diese Werte addieren. Als Endergebnisse kämen hier offenbar nur die d(f, [a, b], y)-Werte −1, 0 und 1 in Frage, und es ist klar, dass für den Fall eines nichtverschwindendenGrades die Funktion eine y-Stelle besitzt.

0 1 2 3 4−3

−2

−1

0

1

2

3

d(f,[0,4], 0) = −1

0 0.5 1 1.5 2 2.5 3 3.5 4−40

−30

−20

−10

0

10

20

−5

d(f,[0,4],0) = 1

d(f,[0,4],−5) =1

Abbildung 17: Abbildungsgrade −1, 0 und 1

Man überträgt nun denselben Abbildungsgrad von (f,Ω, y) auf (g,Ω, y), wenn

(i) (Variation von y) das y stetig zu y veränderbar ist, ohne dass dabei Werte in f(∂Ω)getroffen werden.Hierdurch werden y-Stellen erlaubt, in denen die Jacobi-Matrix singulär ist.

81und zig Varianten hiervon, bei denen nicht die Iterationsfunktion Φ selbst sondern eine Potenz Φn

davon kontraktiv ist oder sukzessive Potenzen mit Kontraktionen, deren unendliche Summe endlich ist,oder, oder oder,...

82In diesem Fall nennt man den Wertevektor y selbst regulär.Aufgabe: Sei f : Ω −→ Rn auf der beschränkten offenen Menge Ω ⊂ Rn differenzierbar und stetig nach Ωfortsetzbar. y ∈ f(∂Ω) sei regulärer Wert von f . Zeigen Sie, dass dann die Menge aller y-Stellen f [−1](y)endlich ist.

74

Page 75: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

(ii) (kleine Variation von f) f(x) irgendwie (aber wenig) durch eine andere stetigeFunktion g ersetzt wird, die

maxx∈∂Ω∥f(x)− g(x)∥ < min

x∈∂Ω∥f(x)− y∥

erfüllt.Hiermit kann man den Abbildungsgrad von differenzierbaren Funktionen auf nahegelegene (nur) stetige Funktionen übertragen.

(iii) (große homotope Veränderungen) f(x) durch eine (in der Max-Norm auch weitentfernte Funktion) g(x) ersetzt wird, solange dies durch stetige Deformation von fgeschieht :Das bedeutet, dass es eine auf Ω× [0, 1] stetige Funktion G(x, t) mit G(x, 0) = f(x)und G(x, 1) = g(x) gibt, wobei y ∈ G(∂Ω, t) für alle t ∈ [0, 1] ist83.Dies macht den Abbildungsgrad praktisch anwendbar, denn man zeigt meist, dassFunktionen y-Stellen besitzen, indem man sie mit Funktionen homotop verbindet,deren Abbildungsgrad von Null verschieden ist.

Erläuterungen:

Zu (i) Wenn y ein singulärer Wert ist, gibt es nahe bei y Werte, die nichtsingulär sind unddie alle die gleichen Abbildungsgrade haben. Nach dem sogenannten „Satz von Sard“(siehe z.B.[BG]) ist die Menge der singulären Werte nämlich eine Nullmenge84. Diefolgende Abbildung 18 veranschaulicht, dass die Nullstellenmenge der Ableitung f ′

einer differenzierbaren Funktion f natürlich ein Maß größer Null haben kann, dassdie Menge der zugehörigen Funktionswerte aber aus „sehr wenigen“ Werten besteht(In Abbildung 18 sind es fünf Stück.).

0.5 1 1.5 2 2.5 3 3.5 4

5 si

ngul

äre

Wer

te

Abbildung 18: Veranschaulichung des Satzes von Sard83so dass also keine y-Stellen über den Rand laufen können.84Eine Nullmenge ist eine Menge, für die sich zu jedem ε > 0 eine Folge von Quadern finden läßt, deren

Vereinigung Mε die Menge enthält und die dabei Volumen(Mε) < ε erfüllt.

75

Page 76: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Die nächste Skizze verdeutlicht nun, wie man den Abbildungsgrad für singuläre Werteerklärt.

0.5 1 1.5 2 2.5 3 3.5 4 4.5

0 ist kein regulärer Wert von f,aber alle Werte zwischen −1 und 1 sind regulär.

Setze d(f, [0,4],0) := d(f,[0,4],a) = 0, a ∈ (−1,1)

sign(df)=1

sign(df)= −1

f(x)

Abbildung 19: Grad für nichtreguläre y-Werte durch nahe gelegene y-Werte

Zu (ii) Der Abbildungsgrad ist bislang für differenzierbare Funktionen erklärt. Für stetigeFunktionen erklärt man den Grad durch Näherung mit differenzierbaren Funktionen.Nach dem „Approximationssatz von Weierstraß“ (siehe z.B. [Alt]) ist das z.B. aufeinem Intervall durch Polynome in der Maximumnorm beliebig gut möglich.

0 0.5 1 1.5 2 2.5 3 3.5 4

g(x)

f(x)

d(g,[0,4],0) = d(f,[0,4],0)

Abbildung 20: Grad für nichtdifferenzierbare Funktion durch glatte Approximation

Zu (iii) Zur Erklärung der homotopen Verbindung zwischen zwei Funktionen zeigt das linkeBild in Abbildung 21 zunächst zwei Funktionen mit gleichen Randwerten. Das rechteBild macht den homotopen Übergang deutlich.

76

Page 77: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 0.5 1 1.5 2 2.5 3 3.5 4−3

−2

−1

0

1

2

3

4

5

6

0

50

100

150 0

10

20

30−4

−2

0

2

4

6

Homotoper Übergang

Abbildung 21: Homotope Verbindung mit einer Gerade

Da der Abbildungsgrad der Gerade für den y-Wert 0 gleich 1, also ungleich Null ist, giltdas auch für die andere Funktion, so dass diese ebenfalls mindestens eine 0-Stelle be-sitzt.(Tatsächlich besitzt sie sogar fünf.)

Wir wollen nun den Brouwerschen Fixpunktsatz durch Anwendung der Homotopie-Invarianzdes Abbildungsgrades zeigen.

Satz 3.26 (Fixpunktsatz von Brouwer)Es sein K ∈ Rn nicht leer, konvex und kompakt. Die Funktion f bilde K stetig in sichselbst ab. Dann hat f einen Fixpunkt in K.

Beweis (nur für den Fall, dass K die euklidische Einheitskugel des Rn ist):

Wir führen den Beweis nur für die Einheitskugel. Die Übertragung der Aussage auf einebeliebige konvexe Menge ist etwas knifflich und würde hier zu viel Zeit in Anspruch nehmen.

Für den Fall K =Einheitskugel betrachten wir die Homotopie

G(t, x) = x− tf(x) für x ∈ K und t ∈ [0, 1]

Für t = 0 hat G(0, x) = x offenbar eine einzige Nullstelle in K nämlich x = 0, und da dortdie Determinante der Ableitung gleich 1 ist, ist auch

d(G(0, ·), K, 0) = 1.

Für t ∈ [0, 1) und x ∈ ∂K gilt

∥G(t, x)∥ = ∥x− tf(x)∥ ≥ ∥x∥ − t∥f(x)∥ ≥ 1− t > 0.

Daher istd(G(t, ·), K, 0) = 1 für alle t ∈ [0, 1),

so dass es für all diese t-Werte mindestens eine Nullstelle ζt von G(t, ·) gibt. Wir wählennun eine Folge tkk∈N aus, die monoton steigend gegen 1 geht. ζtkk∈N bezeichne diezugehörige Folge von Nullstellen von G(tk, ·) = 0, die dann natürlich

ζtk = tkf(ζtk), k ∈ N

77

Page 78: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

erfüllt.Weil K kompakt ist, gibt es eine Teilfolge von ζtkk∈N, die in K gegen einen Wert ζ∗konvergiert. Der Einfachheit halber behalten wir für diese Folge die Bezeichnung ζtkk∈Nbei. Dann ist aber

ζ∗ = limk→∞

ζtk = limk→∞

tk︸ ︷︷ ︸=1

f( limk→∞

ζtk),

Also giltζ∗ = f(ζ∗),

wie angekündigt.2

Korollar 3.27Der Brouwersche Fixpunktsatz bleibt für Mengen M richtig, die homöomorph auf einekonvexe und kompakte Menge K des Rn abgebildet werden kann.

Beweislein: Sei h : K −→ M homöomorph. Dann bildet F := h−1 f h die Menge Kstetig in sich ab. Mit dem Fixpunkt x von F gilt

x = F (x) = h−1(f(h(x)),

alsoh(x) = f(h(x)).

2

Der Vollständigkeit halber schließen wir hier die Variante des Brouwerschen Satzes fürunendlichdimensionale Vektorräume an.

Satz 3.28 (Fixpunktsatz von Schauder)Die nicht leere, beschränkte, abgeschlossene und konvexe Menge K eines Banachraumeswerde durch einen stetigen Operator85 T in sich selbst abgebildet. Wenn T (K) kompaktist, hat T einen Fixpunkt in K.

Anmerkung: Die im Beweis des Satzes von Picard-Lindlöf auf der Seite 40 aufgestellteFixpunktaufgabe

y = Kf (y) + y0 (149)

mit dem Integral-Operator

Kf (y)(t) :=

∫ t

a

f(s, y(s)) ds (150)

78

Page 79: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

bildet im Falle der Stetigkeit der Funktion86 f(t, y) in (t, y) ∈ R×Rn für hinreichend kleinepositive T -Werte die Menge der Funktionen

K :=

g ∈ C[a− T, a+ T ]∥ max

t∈[a−T,a+T ]|g(t)− y0| ≤ 1

in sich ab.Man kann87 zeigen, dass das Bild kompakt ist. Und daher weiß man, dass es einen Fixpunktgibt und also (Dies ist der Existenzsatz von Peano) eine Lösung der Anfangswertaufgabe(128) die zur Fixpunktaufgabe (149) äquivalent war.

3.2 Verfahren vom Newton-Typ

Die Newton-Iteration

xk+1 = xn − f(xk)

f ′(xk), k ∈ N0 (151)

zur Approximation einer Nullstelle der differenzierbaren reellen Funktion f wurde von IsaacNewton um 1670 herum am Beispiel einer kubischen Gleichung entwickelt. Joseph Raphsonbeschrieb das Verfahren allgemein in einer Arbeit über das Lösen von Gleichungen, unddie abstrakte Form (151) erhielt sie gegen 1735 von Thomas Simpson88.

Das Verfahren beruht auf der Linearisierung der Gleichung

f(x) = 0

bei der Approximation xk:

f(x) ≈ f(xk) + f ′(xk)(x− xk)

und der ersatzweisen Lösung von

f(xk) + f ′(xk)(x− xk) = 0 (152)

durch xk+1, was schließlich auf (151) führt.86Wir setzen hier einmal globale Stetigkeit voraus, um nicht zu viele Fälle berücksichtigen zu müssen.87Mit dem Satz von Arzela-Ascoli: Sei (R, d(·, ·)) ein kompakter metrischer Raum und F eine Familie

stetiger Funktionen von R in einen Banachraum (V, ∥ · ∥), die im Raum der stetigen Funktionen von Rnach V abgeschlossen ist. Dann ist F genau kompakt, wenn F beschränkt und gleichmäßig gleichgradigstetig ist.Lezteres bedeutet, dass es zu jedem ε > 0 ein δ > 0 unabhängig von x ∈ R (gleichmäßig!) und unabhängigvon f ∈ F (gleichgradig!) gibt, so dass

∥f(y)− f(x)∥ ≤ ε für alle d(y, x) < δ und für alle f ∈ F .

88Bekannt durch die Simpsonsche Integrationsformel, die wiederum eigentlich auf Kepler (1615) zurück-geht.

79

Page 80: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5

Newton−Iteration zur Bestimmung einer Nullstelle von f(x) = cos(x)+x/2

x1

x3

x2

x0

f(x)=cos(x)+x/2

Abbildung 22: Newton-Iteration für f : R 7−→ R

Die Linearisierung (152) verwendet man auch für Gleichungssysteme

F (x) = 0,

wenn F eine - mindestens - differenzierbare Funktion ist mit

F : Rn −→ Rm (153)

oder auchF : (Ba, ∥ · ∥a) −→ (Bb, ∥ · ∥b, (154)

worin Ba und Bb Banachräume mit zugehörigen Normen sind.

In diesem Fall lautet die Linearisierung

F (x) ≈ F (xk) + F ′(xk)(x− xk), (155)

worin F ′(xk), die Frechet-Ableitung89 oder einfach die Ableitung von F bei xk ist.Im Fall von (153) und

F (x) =

f1(x1, . . . , xn)f2(x1, . . . , xn)

...fm(x1, . . . , xn)

(156)

ist die lineare Abbildung F ′(x) durch die Jacobi-Matrix

F ′(x) = J(x) :=

∂f1∂x1

(x) ∂f1∂x2

(x), . . . , ∂f1∂xn

(x)∂f2∂x1

(x) ∂f2∂x2

(x), . . . , ∂f2∂xn

(x)...

... . . ....

∂fm∂x1

(x) ∂fm∂x2

(x), . . . , ∂fm∂xn

(x)

(157)

89Eine Funktion (154) ist in einem inneren Punkt x ihres Definitionsbereiches D Frechet-ableitbar oderauch einfach nur ableitbar, wenn es eine lineare Abbildung A : (B1, ∥ · ∥a) −→ (B2, ∥ · ∥2) gibt, mit der

F (x+ h) = F (x) +Ah+R(h) für alle h ∈ B1 mit x+ h ∈ D

gilt, wobei die Restfunktion R die Bedingung

limx+h∈D,∥h∥1→0

∥R(h)∥2∥h∥1

= 0

erfüllt.Die Zuordnung der spezifischen linearen Abbildung A zum Differentiationspunkt x macht man durch dieBezeichnung F ′(x) kenntlich.F ′(x) ist also die lineare Abbildung, so dass die affin-lineare Abbildung x 7−→ F (x)+F ′(x)h die Abbildungh 7−→ F (x+ h) besser als linear approximiert.

80

Page 81: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

gegeben90.

Für den FallF (x) = 0, F ∈ C1(Rn,Rn),

also bei einem System mit endlich vielen Unbekannten und ebensovielen Gleichungen habenwir das Newton-Verfahren sowie zwei approximative Varianten hiervon schon kurz aufder Seite 63 kennengelernt und mit dem Satz von Ostrowski sogar schon einer erstenKonvergenzanalyse unterzogen.

Solchen Aufgaben wird zunächst weiter unser Hauptaugenmerk gelten.

Wir weisen aber schon hier darauf hin, dass die Linearisierung (155) und ihre (gegebenen-falls näherungsweise Lösung) auch Grundlage von Verfahren ist, wenn

(i) die Anzahl der Gleichungen die der Unbekannten überwiegt oder

(ii) es weniger Gleichungen als Unbekannte gibt.

Im ersten Fall wird man die Linearisierung als Ausgleichsaufgabe ansehen und dadurch zumsogenannten „Gauss-Newton-Verfahren“ geführt. Im zweiten Fall hat das Gleichungssystem(im Falle maximalen Zeilenranges) eine lineare Mannigfaltigkeit als Lösungsgesamtheit undman wählt durch geeignete Zusatzbedingungen unter diesen Lösungen die Schrittrichtungaus.

Zunächst arbeiten wir aber weiter am Fall n = m.

3.2.1 Lokale Konvergenz des Newton-Verfahrens

Mit dem Satz von Ostrowski wurde oben gezeigt, dass das Newton-Verfahren für Funktio-nen F : Rn ⊃ D −→ Rn, die in einer Umgebung einer regulären Nullstelle91 x∗ zweifachstetig differenzierbar sind, lokal quadratische gegen die Nullstelle konvergiert.

Diese Voraussetzungen sind etwas zu stark. Üblicherweise setzt man voraus die Differen-zierbarkeit in einer Umgebung92 U der regulären Nullstelle x∗ sowie die Annahme, dass sichdie Ableitung F ′(x) in dieser Umgebung mit x „nicht zu schnell ändert“. Eine klassische93

Realisierung dieser Voraussetzung ist die Lipschitzbeschränktheit der Ableitung in dieserUmgebung

∥F ′(x)− F ′(y)∥ ≤ γ∥x− y∥ für alle x, y ∈ U. (158)

Dann können wir wie folgt versuchen, das lokale Fehlerverhalten94 in den Griff zu bekom-men. Aus

xk+1 := xk − F ′(xk)−1F (xk)

90Achtung: Man beachte, dass die Existenz aller partiellen Ableitungen ∂fi∂xj

(x) als Elemente von J(x)

für die Differenzierbarkeit von F in x und also F ′(x) = J(x) nicht reicht. Eine hinreichende Bedingungdafür ist aber schon die Stetigkeit der partiellen Ableitungen in x.

91Das hieß, es war F (x∗) = 0 und detF ′(x∗) = 092Zur Übung wiederholen wir hier, dass man eine Menge U in der Mathematik gewöhnlich als Umgebung

eine Punktes bezeichnet, wenn neben dem Punkt selbst ein ganze Normkugel um den Punkt zu U gehört.93Die Klassik liegt in der Numerischen Mathematik noch gar nicht so weit zurück, nämlich in den Tegen

der ersten (relativ-) Großrechner in der Mitte des letzten Jahrhunderts.94Das bedeutet das Verhalten in einem Bereich, in dem Newton wie gleich gesehen wird, von allen

Startpunkten aus gegen x∗ konvergiert.

81

Page 82: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

schließen wir für die Fehler xk+1 − x∗ und xk − x∗ das Folgende:

xk+1 − x∗ = xk − F ′(xk)−1F (xk)− x∗ = xk − x∗ − F ′(xk)−1(F (xk)− F (x∗))= F ′(xk)−1

(F (x∗)− [F (xk) + F ′(xk)(x∗ − xk)]

)︸ ︷︷ ︸T

. (159)

Wenn wir uns im Eindimensionalen befänden und wenn F zweimal stetig differenzierbarwäre, so wären wir schon fertig, denn der gekennzeichnete Ausdruck T ist nichts andersals der Fehler der Auswertung der Linearisierung von F bei xk an der Stelle x∗, und wirkönnten schließen

T = F (x∗)− [F (xk) + F ′(xk)(x∗ − xk)] = F ′′(ζ)

2(x∗ − xk)2.

Hier gehen wir etwas anders vor, gruppieren die Elemente in T etwas um und finden - wobeiwir U als konvex voraussetzen - mit dem Mittelwertsatz von Seite 122 die Darstellung

xk+1 − x∗ = F ′(xk)−1([F (x∗)− F (xk)]− F ′(xk)(x∗ − xk)]

)= F ′(xk)−1

∫ 1

0

(F ′(xk + t(x∗ − xk))− F ′(xk)

)(x∗ − xk)dt. (160)

Indem wir zu Normen übergehen, (158) verwenden und - gegebenenfalls unter Verkleine-rung der Umgebung U - die Norm der Inversen F ′(xk) über

∥F ′(xk)−1∥ ≤ 2 · ∥F ′(x∗)−1∥ := β

abschätzen95, gelangen wir zu

∥xk+1 − x∗∥ ≤ ∥F ′(xk)−1∥∫ 1

0

∥∥F ′(xk + t(x∗ − xk))− F ′(xk)∥∥ · ∥x∗ − xk∥dt

≤ ∥F ′(xk)−1∥∫ 1

0γt∥x∗ − xk∥dt ∥x∗ − xk∥ ≤ βγ ∥x∗ − xk∥2.

(161)

Aus dieser Abschätzung gewinnen wir erstens einmal überhaupt lokale Konvergenz, indemwir x0 so nahe bei x∗ annehmen, dass βγ · ∥x0 − x∗∥ < 1 ist, so dass die Folge xkk∈N0

im Kreis mit Radius r := ∥x0−x∗∥ bleibt und dort bei jedem Iterationsschritt mindestensum den Faktor r an x∗ heranrückt.Zweitens hat man natürlich auch die quadratische Ordnung der dann als konvergent er-kannten Folge.Fassen wir zusammen:

Satz 3.29 (Lokale quadratische Konvergenz des Newton-Verfahrens)Sei D ⊂ Rn offen und konvex. Sei F ∈ C1,1(D,Rn) mit F (x∗) = 0 für ein x∗ ∈ D. Sei

∥F ′(x∗)−1∥ ≤ β

2

und∥F ′(x)− F ′(y)∥ ≤ γ∥x− y∥ für alle x, y ∈ D. (162)

Dann gibt es ein r > 0, so das für alle x0 in der Kr(x0) := x ∈ Rn | ∥x − x∗∥ ≤ r die

Folgexk+1 := xk − F ′(xk)−1F (xk)

in Kr wohldefiniert ist, und es ist

∥xk+1 − x∗∥ ≤ βγ ∥xk − x∗∥2, k ≥ 0.

95Stetigkeit von F ′ sowie Störungslemma II

82

Page 83: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.2.2 Affin-Invarianz

Wenn wir das nichtlineare System

F (x) = 0, F ∈ C1,1(R,Rn) (163)

mit einer regulären (n, n)-Matrix A multiplizieren, ist das sich ergebende Problem

G(x) = 0, G(x) = AF (x) (164)

sicherlich äquvalent zu (163) in dem Sinne, dass beide dieselben Lösungen haben.Wendet man das Newton-Verfahren auf (164) an, so ergibt sich überdies nach

xk+1 := xk −G′(xk)−1G(xk) = xk − (AF ′(xk))−1AF (xk) = xk − F ′(xk)−1F (xk),

dass es ganz unbeeindruckt vom affinen Übergang von (163) zu (164) ist und dieselbenIterationsvektoren liefert.Man sagt, dass die Lösungsmenge von (163) und das Newton-Verfahren invariant unterder affinen Transformation (164) seien oder auch einfach, sie seien affin-invariant.Die Affininvarianz besagt zum Beispiel, dass wir auf Gleichungssysteme (163) lineare Trans-formationen anwenden können - etwa solche, wie wir sie bei der Gauss-Elimination ver-wendeten, Vielfache einer Gleichung von einer anderen subtrahieren oder Gleichungen ver-tauschen - ohne dass sich die Lösungen änderten und ohne dass das die Newton-Iterationbeeinflusste96.

Fallbeispiel:

Als erstes einfaches Beispiel für die Nützlichkeit der Affininvarianz der Lösungs-menge eines Gleichungssystemes betrachten wir das nichtlineare System

(x+ 1)2 + y2 − 2 = 0,(x− 1)2 + y2 − 2 = 0.

(165)

Hierin hat die erste Gleichung als Lösungsgesamtheit einen Kreis mit Radius√2 um den Punkt (xa, ya) = (−1, 0) und die zweite Gleichung den Kreis um

(xb, yb) = (1, 0) mit demselben Radius.Die Lösungen des Gleichungssystems sind offenbar (vgl. Abbildung 23) diePunkte (x1, y1) := (0, 1) und (x2, y2) = (0,−1).

−3 −2 −1 0 1 2 3

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

(x+1)2+y2=2(x−1)2+y2=2

Abbildung 23: Gleichungssystem „Zwei Kreise“96Dass das Letzte durchaus nicht so selbstverständlich ist, sieht man etwa bei den einfachsten Iterati-

onsverfahren für lineare Systeme. Gesamt- und Einzelschrittverfahren reagieren extrem empfindlich aufÄnderungen des Systems; schon das Vertauschen von Zeilen oder Spalten kann das Verhalten vollständigändern.

83

Page 84: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Führen wir nun einen „Gauss-Eliminationsschritt“ aus, indem wir die erste Glei-chung von der zweiten abziehen97, so entsteht das neue System

(x+ 1)2 + y2 − 2 = 0,−4x = 0.

(166)

Hier ist die zweite nichtlineare Gleichung ersetzt worden durch die lineare Glei-chung

−4x = 0.

−3 −2 −1 0 1 2 3

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2 (x−1)2+y2=2

−4x=0

Abbildung 24: Äquivalent zu „Zwei Kreise“

Aus dem Wissen, dass die Newton-Iteration für beide Systeme (165) und (166)dieselbe Iterationsfolge liefert und mit der Erinnerung, dass Newton lokal dieLinearisierung des Systems löst, folgert man, dass jeder Newtonschritt - egalwoher - sofort auf der Gerade x = 0 landen muss und die Iterationsfolge an-schließend dort verbleibt.

Da jede nichttriviale Linearkombination der zwei Kreisgleichung (165) wiedereine Kreisgleichung ergibt98 und diese Gleichung mit den beiden Grundglei-chungen durch die Punkte (0, 1) und (0,−1) gelöst wird, führt jede reguläreTransformation (164) auf die Gleichung zweier verschiedener Kreise des Kreis-büschels durch die beiden Punkte (0, 1) und (0,−1) (vgl. Abbildung 25).

−3 −2 −1 0 1 2 3

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

Einige Mitglieder des Kreisbüschels durch (0,1) und (0,−1)

Abbildung 25: Kreisbüschel Gleichungssystem: Zwei Kreise

97Das entspricht der Multiplikation des Systems mit der regulären Matrix(

1 0−1 1

).

98Oder die Gleichung der Gerade x = 0, eines Kreises mit Radius ∞.

84

Page 85: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Die Punkte eines jeden der Kreise sind die Lösung einer speziellen zugehörigenLinearkombination

0 =

(ab

)T

F (x, y) = a ·((x+ 1)2 + y2 − 2

)+ b ·

((x− 1)2 + y2 − 2

).

Das heißt, dass F (x, y) überall orthogonal zu(ab

)sein muss. Im vorliegenden

einfachen Fall F : R2 −→ R2 muss äquivalent F (x, y) überall auf dem Kreis

eine Vielfaches von(−ba

)sein:

F (x, y) = µ

(−ba

), µ ∈ R (167)

Ist (x0, y0) ein Punkt dieses Kreises mit F (x0, y0) = 0, so gilt für den durch ihnverlaufenden Kreis sicher

F (x0, y0) = µ

(−ba

)mit einem reellen µ = 0.

Dies zeigt, dass der Vektor(−ba

)ein nichttriviales Vielfaches von F (x0, y0) ist.

Daher können wir das parameterabhängige Gleichungssystem (167) alternativaufschreiben als

F (x, y) = (1− λ)F (x0, y0), λ ∈ R. (168)

Wir werden diese parameterabhängige Gleichung etwas später sehr intensivweiter untersuchen.

Während die Gleichung (163) und das Newton-Verfahren unempfindlich gegenüber demÜbergang nach (164) sind, ist es die Fehleranalyse aus dem letzten Konvergenzlemma nicht.Ersetzt man in (161) F durch AF , so erhält man dort - wenn man die Lipschitzbedingung(158) beibehalten will (und ansonsten naiv weiter abschätzt) das Ergebnis

∥xk+1 − x∗∥ ≤ ∥(AF ′(xk))−1∥∫ 1

0

∥∥AF ′(xk + t(x∗ − xk))− AF ′(xk)∥∥ · ∥x∗ − xk∥dt

≤ ∥F ′(xk)−1A−1∥∫ 1

0∥A∥γt∥x∗ − xk∥dt ∥x∗ − xk∥

≤ ∥A−1∥ · ∥A∥ · βγ ∥x∗ − xk∥2.

Dies Ergebnis hat sich um den Faktor cond∥·∥(A) = ∥A−1∥ · ∥A∥ verschlechtert.

Wenn wir die zu (161) führende Fehlerdarstellung (160) näher anschauen

xk+1 − x∗ = F ′(xk)−1([F (x∗)− F (xk)]− F ′(xk)(x∗ − xk)]

)=

∫ 1

0F ′(xk)−1

(F ′(xk + t(x∗ − xk))− F ′(xk)

)(x∗ − xk)dt, (169)

so sehen wir, dass wir in (161) letztlich eine Abschätzung

∥F ′(xk)−1(F ′(xk + t(x∗ − xk))− F ′(xk)

)(x∗ − xk)∥ ≤ ωt∥x∗ − xk∥2 (170)

gesichert haben. Diese Abschätzung ist offenbar affin-invariant, denn jeder reguläre FaktorA von F hebt sich automatisch wieder heraus.Indem wir (169) direkt mit (170) abschätzen, erhalten wir :

85

Page 86: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Lemma 3.30 (Affin-invariante lokale Konvergenz)Es sei D ∈ Rn offen und konvex. F : D −→ R sei in D stetig differenzierbar. Es seienx∗ ∈ D mit F (x∗) = 0. Es sei F ′(x) regulär in ganz D und erfülle die affin-invarianteLipschitzbedingung

∥F ′(x)−1 (F ′(x+ t(y − x))− F ′(x)) (y−x)∥ ≤ ωt∥y−x∥2, für alle x, y ∈ D und t ∈ [0, 1].(171)

Dann gibt es eine Kugel Kr(x∗) := x ∈ D | ∥x− x∗∥ ≤ r ⊂ D, so dass

Φ(x) := x− F ′(x)−1F (x)

Kr(x∗) in sich abbildet, und es gilt

∥x∗ − Φ(x)∥ ≤ ω

2∥x∗ − x∥2 für alle x ∈ Kr(x

∗).

Anmerkungen 3.31Dem Leser mag die Bemerkung auf der Zunge liegen, dass die Lipschitzbedingung (171)aber um einige komplizierter aussähe als die Bedingung (158). Dem ist zu entgegegnen,dass die Lipschitzkonstanten in beiden Fällen praktisch nie genau gefunden werden können,da hier ja letztendlich Maxima über alle unendlich vielen Elemente in D zu bilden sind.Zugegebenerweise sieht der Ausdruck der in (171) beschränkt werden muss, komplizierteraus als der in(158). Man wird in der Praxis aber für beide Werte nur Approximationendurch die Auswertung an endlich vielen Stellen x, y bilden können, und es stellt sich heraus,dass die komplizierter wirkende Lipschitzbedingung (171) im Verlauf der Iteration nichtschwieriger zu bilden ist als (158).

3.2.3 Globales Verhalten des Newtonverfahrens

Mit den letzten Konvergenzsätzen haben wir die schöne Gewissheit, dass das Newton-Verfahren jede reguläre Nullstelle approximiert, wenn man nur nahe genug bei ihr startetund dass - wenn das Newton-Verfahren gegen eine reguläre Nullstelle konvergiert - diesauch mit befriedigender zunehmender Geschwindigkeit geschieht.

Ob und wann die Newton-Iteration in die Region quadratischer Konvergenz eintritt, istaber leider für weiter von einer Nullstelle entfernte Startwerte ganz unklar.

In der Abbildung 26 ist z.B. dargestellt, wie sich das Newton-Verfahren für die Berechnungvon Nullstellen der Cosinus-Funktion verhalten kann. Man kann sich vorstellen, dass mandurch geeignete Wahl des Anfangswertes beliebig lange Strecken durchmessen kann, bevorsich die Iteration bei einer der unendlich vielen Nullstellen schließlich fängt.

86

Page 87: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−8 −6 −4 −2 0 2 4 6 8 10 12−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

7 Newton−Steps to solve cos(x)=0 starting at x1=0.15303.

x2

x3x

4

x5

x6

x1

x7

x8

Abbildung 26: Konvergenzprobleme bei Newton

Das das auch im Mehrdimensionalen ähnlich ist, zeigt die Abbildung 27 für das Itera-tionsverhalten von Newton in der komplexen Ebene zur Lösung der kubische Gleichungz3 − 1 = 0.

Abbildung 27: Julia-Menge der Newton-Iteration in C für f(z) = z3 − 1.

Die Punkte, von denen aus das Newton-Verfahren in die Lösung z1 := 1 konvergiert,sind blau eingefärbt, die zu z2 = exp(i2π/3) führenden Startpunkte sind rot, und die zuz3 = exp(i4π/3) leitenden sind schließlich grün.Man sieht - konsistent mit den Sätzen über die lokale quadratische Konvergenz - dass esum diese Nullstellen herum Gebiete Kreise gibt, die vollständig die entsprechenden Farbentragen. Diese werden also alle in die nahe gelegene Nullstelle geworfen.

87

Page 88: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Man sieht aber auch, dass die Konvergenzgebiete anders als man vielleicht erwartet, nichteinfach durch die Geraden

r exp(iπ3) | r ∈ R+, −r | r ∈ R+ und r exp(−iπ

3) | r ∈ R+

getrennt werden. Vielmehr sind die Trennungsmengen komplizierte sogenannte „Julia-Mengen“ (vgl. [JUL]). Neben den oft zitierten Selbstähnlichkeiten99 hat die Menge diebemerkenswerte Eigenschaft, dass jeder Punkt, von dem aus selbst keine Konvergenz zueiner der drei Nullstellen stattfindet, Häufungspunkt sowohl der roten, als auch der blau-en als ebanfalls auch der grünen Menge ist. Wenn man nahe eines solchen Punktes denStartwert beliebig wenig stört, kann man in eine jede der drei Nullstellen konvergieren. DieLiteratur über dies Phänomen ist riesig.

Nun mögen diese Sachverhalte vom Standpunkt der reinen Mathematik grundsätzlich in-teressant sein100 und auch gut in Form hübscher Bilder in allen möglichen Zeitschriften ver-öffentlichbar sein101, der professionelle Anwender der Newton-Verfahrens selbst ist durchdiese Hüpferei aber eher gestört und erwartet von mathematischen Iterations-Algorithmen,dass sie möglichst fix in die Nullstelle laufen, die er haben will.

Das ist verständlich, aber für den die Befriedigung der Anwenderwünsche anstrebendenAngewandten Mathematiker macht diese Formulierung nun auch Probleme. Meistens ha-ben nichtlineare Gleichungssysteme nicht nur eine sondern mehrere Lösungen. Wie sollman nun die gewünschte Lösung aussortieren, vor allem dann, wenn man sie alle selbstnoch nicht kennt?

Eine Methode, den Anwender bei der Auswahl mithelfen zu lassen, ist es, ihm eine Start-näherung abzuverlangen102. Mit dieser Näherung an der Hand sollte der Numeriker nunversuchen, die nächstgelegene Näherung anzusteuern.Wie sich herausstellen wird, ist dabei schon gleich völlig unklar, was denn unter der nächst-gelegenen Nullstelle zu verstehen ist,Aber dazu kommen wir später.

3.2.4 Globalisierungsstrategien: Dämpfung, Homotopie, Trust-Region

Ziel der sogenannten „Globalisierung“ ist es, Iterationen103, für die - wie in den letztenbeiden Lemmata für das Newton-Verfahren - nachgewiesen werden kann, dass sie für hin-reichend nahe bei der Lösung gelegene Startnäherungen gegen die Lösung konvergieren,Variationen zu schaffen, die auch für weiter von der Lösung entfernt liegende Startnähe-rungen einsetzbar sind, indem sie sich einen Weg zu den Konvergenzgebieten erarbeitenund die dort dann in die Originaliterationen übergehen.

Die Methoden zur Globalisierung des Newton-Verfahrens sind im Wesentlichen durch diedrei Schlagwörter „Dämpfung“, „Homotopie“ und „Trustregion-Globalisierung“ angerissen.

99Wenn man in diese Bilder hineinzoomt, stößt man immer wieder auf sich wiederholende Strukturen.Vgl. [SAE].

100Die Analyse dieser Mengen spielt eine Rolle in der Chaos-Theorie, die wiederum schon eine Mengepraktischer Anwendungen gefunden hat.

101Mit dem zweifelhaften Nebenerfolg, die Allgemeinheit weiter in ihrem Vorurteil zu bestärken, dassMathematik nur Spielerei sei, mit der man letztlich nicht viel anfangen kann.

102Jeder ernstzunehmende Mathematikanwender, der ein nichtlineares Gleichungssysten lösen will, kennteine vernünftige Näherung seiner Lösung. Ist dies nicht der Fall, hat er sich die Aufgabe nicht richtig über-legt. Den Ingenieur, der nach einem „robusten Iterationsverfahren verlangt“, das unabhängig von weitererInformation immer eine Lösung liefert, würde ich bei keiner Konstruktion sicherheitsrelevanter techni-scher Erzeugnisse wie bei der von Kernkraftwerken, Hochbrücken, Flugzeugen oder Küchen-Mixgerätenmitmachen lassen.

103Und dies müssen nicht notwendig Newton-Iterationen sein.

88

Page 89: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wir werden alle drei Methodenbereiche zunächst kurz skizzieren, bevor wir die erstenbeiden davon etwas tiefer analysieren.

A. Dämpfung Unter Dämpfung der 1D-Newton-Methode

xk+1 = xk − f ′(xk)−1f(xk)

versteht man eine (möglicherweise) wiederholte Verkürzung der Schrittweite, wenn derdurch das Newton-Verfahren vorgeschlagene Schritt keine verbesserte Näherung erbringt,wobei man die Güte durch den Betrag des Funktionswertes misst: Je kleiner desto besser.

−6 −4 −2 0 2 4 6 8 10 12

Newton für f(x)=x*cos(x), x0 =−3.34

x1

f(x0) =3.27

f(x1)= 5.84

x0

Zu groß!

Abbildung 28: Zu großer Newton-Schritt

Die einfachste Strategie, dies zu erzwingen, stammt aus dem Jahre 1966 von einem HerrnL. Armijo (vgl. [ARM]), heißt darum auch Armijo-Strategie und schreibt vor, dass imFalle eines Anwachsens der (absoluten) Größe der Funktion beim vorgeschlagenen Newton-Schritt die aktuelle Schrittweite halbiert wird. Ist also

|f(x0 +N(x0))| > |f(x0)|,

so werden sukzessive |f(x0 + 12N(x0))|, |f(x0 + 1

4N(x0))|, |f(x0 + 1

8N(x0))|, .... getestet, bis

der erste Wert |f(x0)| unterschreitet. Dass diese Rechnung nach endlich viel Halbierungenzum Ziel kommt104, liegt daran, dass die Ableitung von |f(x))|2 bei x0 in Newton-Richtung[

ddtf(x0 + tN(x0))

2]|t=0

= 2f(x0)f′(x0)N(x0)

= −2f(x0)f ′(x0)f′(x0)

−1f(x0) = −2f(x0)2 < 0(172)

negativ ist. |f | fällt also nahe x0 in Newton-Schritt-Richtung, und es gibt deshalb ein δ0,so dass |f(x0 + sN)| < |f(x0)| für alle s ∈ (0, δ).Diese Art der Schrittweitenreduktion zielt einerseits darauf, den Newton-Schritt zu ver-wenden, wenn er möglich ist; denn man möchte natürlich seine lokale quadratische Kon-vergenzrate auskosten.Dennis und Schnabel halten das Primat des Newton-Schrittes für so wichtig, dass sie denLeser ihres Buch „Numerical methods for unconstrained optimization and nonlinear equa-tions“ [DS] mit

„Try Newton first“104Jedenfalls bei theoretisch exakter Rechnung; bei der konkreten Rechnung mit beschränkter Stellenzahl

muss man die Schleife abbrechen, wenn die Schrittweite unter die Rundungsgenauigkeit des Rechners fällt.

89

Page 90: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

darauf einzuschwören versuchen.Andererseits sorgt die sukzessive Verkleinerung dafür, dass ein Mindestanteil des mit Ab-stieg möglichen Weges auch gegangen wird105. Dies stellt sicher, dass dass Verfahren nichteinfach stehenbleibt, weil die Schrittweiten zu schnell gegen Null gefahren werden.

1 2 3 4 5 6 7 8 9 10

Immer noch zu großzu groß

Newton−Schritt

halber Schritt

Viertel−Schritt

GUT

Abbildung 29: Armijo klappt

Allerdings kann dies auch

−6 −4 −2 0 2 4 6 8 10 12

Newton für f(x)=x*cos(x), x0 =−3.34

x1

f(x0) =3.27

f(x1)= 5.84

x0

(x0+x

1)/2

Blow up

Abbildung 30: Armijo steuert Nullstelle in Zoom-Viereck an

zu einer Konvergenz gegen eine entferntere Nullstelle führen:105Viele Implementierungen wählen deshalb bei der Schrittweitenverkleinerung eine Verkleinerungsfaktor,

der zwar kleiner als 1 aber doch größer als 12 ist. Zugleich kann man natürlich bei mehrfacher Verkleinerung

die berechneten Funktionswerte verwenden, um – z.B. durch Interpolation – ein genaueres Bild über dasVerhalten der Funktion in Newton-Richtung zu erhalten, um damit gegebenenfalls einen besseren Schrittzu finden. Vgl. dazu die „backtracking“-Algorithmen in [DS].

90

Page 91: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0.8 1 1.2 1.4 1.6 1.8 2 2.2 2.4 2.6

Blow−Up

(x0+x

1)/2

Konvergenz, aber gegen die falsche Nullstelle

Abbildung 31: Zoom: Lokale Konvergenz

Um diesem unerwünschten Effekt entgegenzuwirken, versucht man, in dem an den Wert x0anschließenden „ersten Tal“ der Betragsfunktion zu f(x) zu bleiben. Damit die Funktion,mit der man dies „testet“ nett glatt wird, wählt man anstelle von |f(x)| die „Testfunktion“

T (x) := f(x)2.

Für die Analyse der Algorithmen definiert man erstens die Level- oder Niveau-MengeL(f, x0) oder kürzer L(x0) als die Menge all der Punkte im Definitionsbereich von D, andenen die Testfunktion nicht größer ist als T (x0),

L(f, x0) := x ∈ D | T (x) ≤ T (x0) , (173)

und zweitens die Zusammenhangskomponente Z(f, x0) von x0 in L(f, x0) über

Z(f, x0) := x ∈ D | [x, x0] ⊂ L(f, x0) oder [x0, x] ⊂ L(f, x0) . (174)

Dies ist die Menge all der Punkte in D, die mit x0 durch einen stetigen Weg in L(f, x0)verbunden werden können106. In Abbildung (32) findet man Skizzen zu diesen Begriffen:

0 0.5 1 1.5 2 2.5

B(s):= f(0)−2f(0)2 x + C* x2

T(x):= f(x)2x

0

f(x)

Levelmenge L(x0)Zusammenhangskomponente von L(x

0), die x

0 enthält

Abbildung 32: L(f, x0), Z(f, x0) und obere Schranke für Testfunktion f(x)2

Steht eine obere Schranke C für die zweite Ableitung von T (x0 + sN) in Z(f, x0) zurVerfügung, so findet man mit T (0) = f(x0)

2 und ddtT ′(x0 + tN) = −2f(x0)2 nach (172)

eine obere Schranke

T (x0 + sN) ≤ B(s) := f(0)2 − 2f(0)2s+C

2s2

106Diese Sprechweise zielt auf die Definition von Zusammenhangskomponenten in allgemeineren Räumenals R. In R sind solche Wege schlicht Intervalle.

91

Page 92: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

die in N -Richtung erst einmal absteigt. Wählt man s = Cf(0)2

, so dass B minimiert wird,so steigt man mit dem Schritt

x0 −→ x1 = x0 + sN(x0)

sicher ab, bleibt aber auch wegen

T (x0 + sN) ≤ B(s) ≤ T (x0) für alle s ∈ [0, s]

sicher in der Zusammenhangskomponente Z(f, x0). Zusätzlich zum Abstieg kann man zei-gen, dass dieser Schritt für den Nachweis der Konvergenz gegen ein Minimum von f(x)2

ausreichend groß ist. Leider ist hierbei (und auch bei anderen Dämpfungsstrategien ) nichtsicherzustellen, dass ein solches angesteuertes Minimum einer Nullstelle von f ist.

Außerdem zeigt die nächste Abbildung 33 für das schon einmal weiter oben behandelteBeispiel f(x) = x cos(x), dass diese Strategie auch nicht garantiert, wirklich die nächstge-legene Nullstelle zu approximieren107. In Abbildung 33 liegen drei Nullstellen in Z(f, x0).

−4 −2 0 2 4 6 8 10

−4 −2 0 2 4 6 8 10

x0

Levelmenge L(x0)

Zusammenhangskomponente von x0

Drei Nullstellen in Zusammenhangskomponente f(x)

[f(x)]2

Abbildung 33: Zusammenhang ist nicht genug

Wir werden im Abschnitt „Halbglobale Konvergenz des Newton Verfahrens“ die Konver-genzaussagen tatsächlich nur ein wenig erweitern können, müssen dafür aber im Wesentli-chen voraussetzen, dass man einer Nullstelle schon so nahe ist, dass die die x0 enthaltendeZusammenhangskomponente der Levelmenge als kritischen Punkt nur die Nullstelle ent-hält.

Zuvor kümmern wir uns allerdings erst einmal um zwei andere Ansätze der Globalisierung.107Zu dieser Unsicherheit kommt hinzu, dass eine Schranke C selten wirklich zur Verfügung steht. Als

Ersatz wird man dann Schätzungen verwenden müssen.

92

Page 93: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

B.1. Homotopie Homotopie-Methoden108 benutzt man in der Numerik zur Globalisie-rung der Newton-Iteration, indem man die zu lösende Aufgabe

F (x) = 0, F : D −→ Rn, D ⊂ Rn offen (175)

mit einer durch ein x0 ∈ D schon gelösten Aufgabe

G(x) = 0, G : D −→ Rn (176)

homotop verbindet, wie wir das ja schon bei der Anwendung des Brouwerschen Fixpunkt-grades kennengelernt haben.

Es wird mit einer auf D× [0, 1] mindestens stetigen Funktion und bezüglich x differenzier-baren Funktion H : D × [0, 1] −→ Rn das Kontinuum von Aufgaben

H(x, t) = 0, t ∈ [0, 1] (177)

betrachtet, wobei mitH(x, 0) = G(x) und H(x, 1) = F (x)

die „fortzusetzende“ Start-Gleichung (176) und die zu erreichende Zielgleichung (175) indas Kontinuum von Gleichungen (177) „eingebettet“ sind.

Gibt es109 für die parameterabhängige Gleichung (177) ein stetiges x : [0, 1] −→ Rn, mit

H(x(t), t) = 0, x(0) = x0

so kann man versuchen, durch sukzessives Lösen mehrerer Aufgaben

H(x, tk) = 0, 0 = t0 < t1 < . . . < tm−1 < tm = 1

am Ende auch die Aufgabe (175) zu lösen.Im Falle eines Newton-Zuganges macht man sich die lokal (quadratische) Konvergenz zu-nutze, indem man den Schritt von tk nach tk+1 jeweils so klein wählt, dass die Lösung x(tk)des Systems H(x, tk) = 0 in den Konvergenzbereich der Iteration

xj+1(tk+1) = xj(tk+1)−Hx(xj(tk+1), tk+1)

−1H(xj(tk+1), tk+1), j ≥ 0, x0(tk+1) := x(tk)

fällt.108auch unter den Namen Fortsetzungs- oder Einbettungsmethoden „gehandelt“109Zu sichern etwa mit dem Satz über implizite Funktionen.

93

Page 94: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 0.2 0.4 0.6 0.8 1 1.2

x(t)

Fortsetzung x(t2) zu Startpunkt der Iteration bei (t

3)

Newton−IterationenG(x(0))=0

F(x(1))=0x(t

2) x(t

3) x(t

4)

Abbildung 34: Fortsetzungsmethode

Wie diese Fortsetzung effizient gestaltet werden kann, wie z.B. die Schrittlängen zwischentk und tk+1 adaptiv gewählt werden, um ein möglichst rechenzeitsparendes Verfahren zuerhalten, werden wir später im Abschnitt 3.3 über die Behandlung parameterabhängigerGleichungen ohnehin noch genauer besprechen. Der/die daran interessierte Leser/in wirdhierfür auf diesen Vorlesungsabschnitt verwiesen.

Um von einer Gleichung F (x) = 0 und einem Startwert x0 zu einer Homotopie H(x, t) miteiner Startaufgabe G(x) = H(x, 0) = 0 zu kommen, die G(x0) = 0 erfüllt, gibt es sehr vieleverschiedene Vorgehensweise.

Die einfachsten der verwendeten Funktionen G sind bei gegebenem Startwert x0 untervielen weiteren die Funktionen

G1(x) := x− x0,G2(x) := F ′(x0)

−1(x− x0),G3(x) := F (x)− F (x0).

(178)

Als Homotopie verwendet man meistens die Konvexkombination

H(x, t) = t · F (x) + (1− t) ·G(x), t ∈ [0, 1], (179)

die man äquivalent auch wie folgt schreibt:

H(x, t) = G(x) + t(F (x)−G(x)), t ∈ [0, 1]. (180)

Für den Fall G(x) = G3(x) = F (x)− F (x0) bekommt die Homotopie (180) die Form

H(x, t) = F (x)− (1− t)F (x0). (181)

94

Page 95: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Dies ist die Homotopie, die wir weiterhin betrachten werden. Sie ist unter verschiedenenNamen bekannt. Schwetlick nennt sie „defektreduzierende Einbettung“ (vgl. [SCHW]), weilSie den Defekt ∥F (x(t))∥ = (1− t)∥F (x(0))∥ in jeder Norm linear in t reduziert. Wir nen-nen Sie aus noch darzulegendem Grund „Newton-Homotopie".

Anmerkungen 3.32(i) Es sei an dieser Stelle darauf hingewiesen, dass wir einen Anwendungsfall der Homo-

topie (181) schon kennen. Im auf der Seite 83 beginnenden Fallbeispiel hatten wirermittelt, dass die Kreise des zur Aufgabe (165) gehörenden Kreisbüschels genau dieLösungen dieser Homotopie sind (vgl. (167)).

(ii) Anders als bei dem Beispiel (165) führen die Lösungskurven x(t) von (181) durchausnicht bei allen Aufgaben zu einer Lösung des Problems F (x) = 0.Dies ist von vornherein klar, wenn das Problem F (x) = 0 überhaupt keine Lösunghat wie zum Beispiel die eindimensionale Aufgabe

f(x) = x2 + 1 = 0.

Mit der Startnäherung x0 = 1 wird die Homotopie (181) zu

H(x, t) = x2 − 1 + 2t. (182)

Für t = 0 ist x0 = 1 offenbar wie gefordert eine Lösung von

H(x, 0) = x2 − 1 = 0.

Die Fortsetzung in Richtung größer werdender t-Werte versagt aber bei t∗ = 12

undzugehörigem x∗ = 0.Da der x-Anteil der Jacobi-„Matrix“

H ′(x∗, t∗) = (2x, 2)|(x,t)=(0, 12) = (0, 2)

verschwindet, ist eine Newton-Iteration zur Anpassung von x in diesem Punkt nichtmöglich.Tatsächlich ist ja für t = 1

2+ δ mit δ > 0 die Gleichung

0 = H(x, t) = x2 − 1 + 2 ·(1

2+ δ

)= x2 + 2δ

nicht reell nach x auflösbar.Da H ′(x∗, t∗) = (0, 2) aber vollen Rang hat, sagt der Satz über implizite Funktionen,dass der Lösungsast im (x, t)-Raum anstandslos fortsetzbar ist. Nur muss jetzt eineandere Richtung als die t-Richtung als Parameter gewählt werden.Das wäre natürlich sofort aus der Gleichung (182) zu sehen gewesen. Während diesenur für t-Werte kleiner oder gleich 1

2lokal nach x auflösbar ist, ist sie offenbar für

alle x-Werte einfach nach t auflösbar.

t =1− x2

2.

95

Page 96: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−0.2 0 0.2 0.4 0.6 0.8 1

x0

t

Startlinie t=0

Keine x−Lösung rechts dieser Linie

Zilinielinie t=1

Umkehrpunkt (x*,t*) =(0,1/2)

Versuch der Fortsetzung bis t=1

Abbildung 35: Umkehrpunkt

Sehen wir t als abhängige Variable an, wird das Problem ganz einfach. Es handeltsich um eine einfache Parabel110. Vom Systemparameter x aus gesehen kommt esdagegen zu einem Zusammenbruch der einfachen Fortsetzung durch Erhöhung dert-Komponente.Der hier beobachtete Effekt, dass der Lösungsast in t-Richtung „aufhört“, wobei ertatsächlich bezüglich der t-Richtung umkehrt111, wird häufig bei Homotopien beob-achtet.Wenn der Parameter t nicht nur ein künstlicher numerischer Parameter ist, son-dern eine mit dem behandelten System verbundene Bedeutung hat (vgl. das Bratu-Problem oben), so sagt uns die Detektion eines solchen Umkehrpunktes, dass es rechtsvon t∗ (lokal) keine Lösung der Problems vorhanden ist. Wenn das Gleichungssystemz.B. den Zustand eines Reaktors beschreibt, sollte man sich vielleicht besser nicht inseiner Nähe befinden, wenn die Mathematik angibt, dass er nicht mehr existiert. Ausdiesem Grund wird der Parameterwert t∗ gern auch kritischer Parameter genannt.

B.1. Kontinuierliche Fortsetzungsmethode Anstatt Werte der impliziten Funktionx(t) aus (181) also

F (x(t)) = (1− t)F (x0), x(0) = x0 (183)

an endlich vielen t-Stellen zu bestimmen und so eine von vornherein t-diskrete Approxi-mation für x(t) zu suchen, kann man durch Differentiation von (183) nach t die Homotopie(181) in eine Differentialgleichung für x(t) überführen.Einfaches Differenzieren ergibt nämlich

F ′(x(t))x′(t) = −F (x0).

Setzen wir voraus, dass F ′(x(t)) regulär ist112, so können wir schreiben

x′ = −F ′(x(t))−1F (x0). (184)

Diese „Davidenko-Differentialgleichung“ genannte Gleichung bildet mit der Anfangsbedin-gung

x(0) = x0

eine Anfangswertaufgabe, welche man mit Integrationsmethoden der numerischen Mathe-matik113 angehen kann, um sie von t = 0 bis t = 1 numerisch zu integrieren.

110Beachten Sie bitte, dass die Auflösung nach t (allein) nicht möglich ist, wenn x ein Vektor (hoherDimension) ist. Das Beispiel wird nur zu Demonstrationszwecken so einfach gehalten.

111um - im vorliegenden Fall - zu einer zweiten Lösung des Ausgangsproblems bei t = 0 zurück zu laufen112Genau das müssen wir ja auch bei der bisherigen Approximation von x(t) voraussetzen.113Siehe [NS]

96

Page 97: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wie wir gleich sehen werden, kann man diese Vorgehensweise als eine kontinuierliche Ver-sion des Newtonverfahrens für F (x) = 0 ansehen.Im Anfangspunkt ist die Tangente

x′(0) = −F ′(x(0)−1F (x0) = −F ′(x(0)−1F (x(0))

nämlich schon einmal gleich der Newtonrichtung.

Wenn man weiter F (x0) in (184) durch F (x0) =1

1−tF (x(t)) aus (183) ersetzt, erhält man

die Differentialgleichung

x′(t) = − 1

1− tF ′(x(t))−1F (x(t), (185)

aus der man sieht, dass die Tangente x′(t) an den Pfad x(t) in jedem Pfad-Punkt dieNewton-Richtung hat. Bei der Integration der Davidenko-Gleichung bewegen wir uns alsokontinuierlich in die jeweils am Ort herrschende Newton-Richtung. Wir können dies somitals Newton-Iteration mit unendlich kleiner Dämpfung ansehen, und bezeichnen die Lö-sungstrajektorie als „Newton-Pfad“. Diese Beobachtung erklärt auch den Namen „Newton-Homotopie“ für (181).

Was an der Gleichung (185) noch stören mag ist der bei t = 1 singuläre Vorfaktor 11−t

.Dieser lässt sich durch die Argumenttransformation

t(s) = 1− e−s, s ∈ [0,∞). (186)

eliminieren. Durch einfaches Differenzieren sieht man nämlich leicht ein114, dass für

y(s) := x(t(s))

die Differentialgleichungy′(s) = −F ′(y(s))−1F (y(s)) (187)

gilt115.Die nötige Integration dieser Gleichung bis s =∞ stellt keine wirkliche Schwierigkeit dar:Die Lösung x∗ von F (x) = 0 ist ein stationärer Punkt dieses sogenannten „Newton-Flusses“,und mit den heutigen adaptiven Lösern werden die Schrittweiten schnell sehr groß, so dassman in kurzer Zeit x∗ bis auf Rechnergenauigkeit erreicht.

Während die Davidenko-Gleichung (wie wir bald sehen werden) für theoretische Beschrei-bungen des Newton-Pfades besser geeignet ist als die Newtonfluss-Gleichung (187), hatletztere Vorteile bei der numerischen Approximation von x∗ über Anfangswertaufgabenlö-ser.

−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1 1.5−2

−1.5

−1

−0.5

0

0.5

1

1.5

2Vergleich diskreter Newtonfluss(blau) und Davidenko (schwarz)

Start bei (−2,1)

Abbildung 36: Vergleich von Newtonfluss und Davidenko114Übungsaufgabe!115Das gedämpfte Newton-Verfahren erhält man offenbar durch Anwendung des Eulerverfahrens auf diese

Gleichung.

97

Page 98: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Um die Unterschiede der beiden Zugänge zum Newton-Pfad zu demonstrieren, wenden wirfür das Gleichungsystem (165) Integratoren mit großen Schrittweiten auf beide Differenti-algleichungen bei Startvektorwahl (x0, y0) = (−2, 1) an. In diesem Punkt ist die erste derGleichungen

(x+ 1)2 + y2 − 2 = 0,(x− 1)2 + y2 − 2 = 0.

erfüllt, so dass der von (x0, y0) nach (0, 1) verlaufende Abschnitt des durch die erste Glei-chung beschriebenen (in der Abbildung 23 linken) Kreises um (−1, 0) mit Radius

√2 der

Newton-Pfad x(t), t ∈ [0, 1] bzw. y(s), s ∈ [0,∞) ist.

Verwenden wir Eulersche Polygonzug-Verfahren116 mit der Schrittweite h = 0.3, so er-halten wir bei jeweils 6 Integrationsschritten das Ergebnis aus Abbildung 36. WegenF (x(0)) = F (x0) ist der erste Integrationsschritt für beide Aufgaben gleich. Währenddie Integration der Davidenko-Gleichung in den Folgeschritten weitere Fehler ansammeltund deshalb weit am Lösungspunkt (0, 1) vorbeischießt, ist die Integration des Newton-Flusses in Hinblick auf die Approximation von (0, 1) selbstkorrigierend. Nach dem erstenIntegrationsschritt, der ja genau so falsch wie der Schritt mit der Davidenko-Gleichungist, folgt die Integration nun dem zu dem berechnenten Punkt gehörigen Newton-Pfad.Dieser verläuft auch wieder durch die Lösung (0, 1), so dass bei allen Fehlern stets eineOrientierung auf die Lösung erhalten bleibt.

Kleine Ergänzung:Eine weitere mit Newton-Fluss und Davidenko-Gleichung verwandte Differentialgleichungist die sogenannte „Branin-Gleichung“. Sie hat die Form der Davidenko-Gleichung, wobeiaber die Inverse der Jacobi-Matrix F ′(x(t))−1 durch die sogenannte Adjunkte der Jacobi-matrix ersetzt wird:

x′ = −Adj(F ′(x(t))F (x0). (188)

Dabei ist die Adjunkte in Punkten, in denen die Jacobimatrix regulär ist gegeben durch

Adj(F ′(x)) = det(F ′(x)) · (F ′(x))−1.

Im Falle der Gleichungen (165) hat die Davidenko-Gleichung die Form(x′

y′

)= − 1

8y︸︷︷︸det(F ′)−1

(2y −2y

−2(x− 1) 2(x+ 1)

)︸ ︷︷ ︸

Adj(F ′)︸ ︷︷ ︸(F ′)−1

·(08

)︸︷︷︸

F (x0,y0)

.

Die Branin-Gleichung sieht daher wie folgt aus:(x′

y′

)= −

(2y −2y

−2(x− 1) 2(x+ 1)

)︸ ︷︷ ︸

Adj(F ′)

·(08

).

116Man erinnert sich , dass dies Verfahren für die Differentialgleichung

y′ = f(t, y)

ausgehend von Startwerten t0 und y0 Folgen tkk≥0 und ykk≥0 über

tk+1 := tk + h; yk+1 = yk + h · f(tk, yk)

erzeugt.

98

Page 99: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Das Richtungsfeld ist im Prinzip dasselbe wie bei Davidenko, nur werden die Einflüsse vonSingularitäten der Jacobi-Matrix entfernt.

Während die Integration des Newton-Flusses sich immer weiter einer Nullstelle nähert,aber sie (theoretisch) nie erreicht, läuft die (exakte) Integration von Davidenko einfachdurch die Nullstelle hindurch, bis sie zu einer Singularität von F ′ gelangt117.Die Branin-Differentialgleichung nimmt von dieser Singularität überhaupt keine Notiz. Ihr-re Lösung läuft einfach weiter und findet in dem Beispiel (165) so den ganzen linken Kreis.Branin hat dieses Vorgehen vorgeschlagen, um möglichst alle Nullstellen einer Funktionzu finden. Im vorliegenden Anschauungsbeispiel klappt dies auch. Es gibt aber Funktio-nen, bei denen verschiedene Nullstellenmengen auf disjunkten „Braninpfaden“ liegen, vgl.Abbildung 37.

−3 −2 −1 0 1 2 3 4x

+2)2 +y2−1) ((x−2)2 +y2−1) = 0 und ( (x+2)2 +(y−1)2−1) ((x−2)2 +(y−1)2−1) = 0

Jeder der Kreise ist Branin−Pfad

Die Schnittpunkte jeweils zweier Kreise sind die NullstellenJeder Branin−Pfad verbindet also nur zwei Lösungen.

Abbildung 37: Disjunkte Branin-Pfade

Aufgabe 3.33 (J.W.Neuberger)Beweisen Sie die folgende Aussage:Sei r > 0 und die Funktion F bilde einen Kreis Kr(x

0) := x ∈ Rn | ∥x− x0∥ ≤ r um x0

zweimal stetig differenzierbar nach Rn ab. Ist dann F ′(y) regulär für alle y ∈ Kr(x0) und

∥F ′(y)−1F (x0)∥ < r für alle y ∈ Kr(x0), so hat F eine Nullstelle in Kr(x

0)

Hinweis: Man nutze die Davidenko-Gleichung und zeige, dass sie bis t = 1 integriertwerden kann.

C. Trustregion-Ansätze Diese Globalisierungsmethoden werden wir nur ganz kurz an-sprechen können. Im allgemeinen formuliert man sie für die Berechnung eines nahegelege-nen Minimums einer Funktion. In unserem speziellen Fall ist dies die Funktion

T (x) =1

2∥F (x)∥22.

117Im Beispiel ist die Jacobi-Matrix auf der x-Achse singulär.

99

Page 100: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Die Trustregion-Methoden benutzen für den Übergang von einem Iterationspunkt xk zueinem Nachfolgepunkt xk+1 ein lokales Modell

mk(x) ≈ T (x),

welches bei xk mit T übereinstimmt und in der Nähe von xk die Funktion T immer besserapproximiert, je näher man xk kommt. Das lokale Modell soll einfacher zu behandeln seinals T selbst, so dass man anstelle von T die Funktion mk als Ersatz minimieren möchte.

In unserem Fall der Berechnung einer Nullstelle von F ist das übliche Modell durch

mk(x) =1

2∥F (xk) + F ′(xk)(x− xk)∥22 (189)

gegeben.Ist F ′(xk) regulär, so gibt es genau einen Minimumpunkt von mk, und dies ist der Newton-Punkt

xN := xk − F ′(xk)−1F (xk)

an dem mk sein absolutes Minimum Null annimmt.

Nun führt man diesen Schritt nicht einfach aus (das ergäbe dann ja das ungedämpfte reineNewton-Verfahren), sondern traut der Modellierung

mk(x) ≈ T (x)

nur in einer KugelK(xk, hk) := x | ∥x− xk∥ ≤ hk,

die man „Trust-Region“ nennt.Der Trust-Region-Radius hk wird im Startpunkt- bei k = 0 - relativ klein gewäählt, weilman nicht weiß, wie gut das Modell m0(x) in der Nähe von x0 das Verhalten der Testfunk-tion T (x) wiedergibt.

Nun ist der Newton-Schritt nach aller Wahrscheinlichkeit nicht mehr ausführbar. Stattdes-sen bildet man das Minimum von mk über K(xk, hk) als Ersatz für die Minimierung vonT (x) über diese Kugel. Wenn hk geeignet gewählt ist, sollte T (x) mit mk(x) fallen.

−6 −4 −2 0 2 4 6 8−6

−4

−2

0

2

4

6

8Trustregion−Schritt

xk+1test

2 hk

f(x)

xk

mk

ZU GROSShalbiere h

k

(mk)2 minimal

Trust−Region

Abbildung 38: Trust-Region-Schritt

Die Stärke der Übereinstimmung beider Funktionen am lokalen Minimum-Punkt xm,k =

100

Page 101: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

argminx∈K(xk,hk)mk(x) wählt man als Kriterium für die Wahlen des nächsten Iterations-punktes118 und der Größe des nächsten Trust-Region-Radius119.

Ein formaler Algorithmus könnte z.B. so aussehen:

Trustregion-Algorithmus:

Ziel: Minimiere T (x) vermittels sukzessiver approximativer Minimierung lokaler Modell-funktionen mk(x).

Schritt 1: Wähle x0 und Startradius h0.Wähle einen Verlängerungsfaktor L > 1, Maßzahlen für die Approximationsgüte

0 < g1 ≤ g2 < 1,

und Reduktionsfaktoren0 < r1 ≤ r2 <

1

L.

Berechne T (x0) und setze k = 0.

Schritt 2: Berechne sk als gute Approximation von

sk := arg mins∈K(0,hk)

mk(xk + s) (190)

Bei sk = 0 : STOPandernfalls gehe zu Schritt 3.

Schritt 3: BerechneRk :=

T (xk)− T (xk + sk)

mk(xk)−mk(xk + sk).

Bei Rk > g1 akzeptierexk+1 := xk + sk.

und speichere T (xk+1).Andernfalls setze

xk+1 = xk.

Schritt 4 Anpassung des Trust-Region-Radius’:

hk+1 ∈

[Lhk,∞) falls Rk ≥ g2,

[r2hk, hk] falls Rk ∈ [g1, g2),

[r1hk, r2hk] falls Rk < g1.

Vergrößere k um 1, und gehe zu Schritt 2.

Hinweise:

(1) geeignete Größen für die Steuerparameter sind etwa

L = 1.5, g1 = 0.01, g2 = 0.75, r1 = 0.2, r2 = 0.5.

118Ist T (xm,k) < T (xk), so wählt man auf jeden Fall xk+1 := xm,k und erhöht den Index, ist dies nichtder Fall, verkleinert man den Radius und wiederholt die lokale Minimierung in einem Bereich, der näheram aktuellen Iterationspunkt liegt.

119Fällt T (x) in guter Übereinstimmung mit mk, so vergrößert man den Radius, fällt T (x) moderat,so behält man den Radius bei, überträgt sich die Größenreduktion von mk(x) sehr schlecht auf T (x), soreduziert man den Radius.

101

Page 102: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Es sollte r2 kleiner als 1/L sein, um einem Oszillieren zwischen Vergrößern undVerkleinern vorzubeugen.Für den Vergrößerungsfaktor L wird oft L = 2 gewählt.Meine Erfahrung ist, dass zu schnelle Vergrößerung oft zu sofortiger wiederholterReduktion führt. Das verbraucht Rechenzeit.

(2) Die exakte Minimierung in (190) ist keine triviale Angelegenheit. Der Entwurf schnel-ler Algorithmen für die exakte oder für eine gute näherungsweise Lösung dieser re-stringierten Minimierungsaufgabe hat auch für den einfachen Fall (189) viele Mathe-matiker beschäftigt (vgl. [CGT]).

Powell hat 1977 festgestellt, dass es genügt, das Minimum mit Hilfe geeigneter Kom-binationen der Richtung des negativen Gradient

−gk := −F ′(xk)TF (xk)

von T (x) bei xk sowie der Newton-Richtung N(xk) := −F ′(xk)−1F (xk) zu approxi-

mieren.

Genauer hat er das sogenannte „Dogleg-Verfahren“ wie folgt definiert.

Approximative Minimierung vom DogLeg-Typ (vgl. Abbildung 39):

(i) Man berechnet den Newton-Punkt xN := xk + N(xk). Liegt xN in der Tru-stregion, wird mg(xN) = 0. Dieser Wert ist nicht zu unterbieten und es wirdsk = N(xk) gewählt.

(ii) Liegt xN außerhalb der Trustregion, berechnet man den Cauchy-Punkt. Diesist mit dem Gradienten gk := F ′(xk)TF (xk) von mk in xk der Punkt auf demStrahl x | x = xk − λgk, λ ∈ R+ , in dem mk minimal wird: in der Punkt

xc := xk −∥gk∥22

∥F ′(xk)gk∥22gk.

Man setzt xd := xc. Liegt dieser Punkt außerhalb der Trustregion, so wird erdurch den Durchstoßpunkt mit der Sphäre ersetzt:

xd := xk −hk∥gk∥2

gk.

(iii) Der Streckenzug von xk über xe zu xN bildet nun das „Hundebein“. DesssenSchnitt mit der Trustregion-Sphäre ist der Aspirant xk+1 für den neuen Iterati-onspunkt (dessen Güte jetzt natürlich geprüft werden muss).

102

Page 103: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

4

Cauchy−Point

xk

Dog−Leg Trust−Region−Rand

Definition des Dog−Leg−Schrittes

Newton−Point

sk

−3 −2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3

4

Trust−Region−Rand

Newton−Point

sk

Dog−Leg

Definition des Dog−Leg−Schrittes 2

Cauchy−Point

xk

Liegt der Cauchy−Punkt außerhalb der Trustregion, wird der Durchstoßpunkt als s

k gewählt.

Abbildung 39: Dogleg-Schritt, Definition

(3) Einen ganzen Satz verschiedener Trustregion-Implementierungen in MATLAB findetman bei [Ulb].

Abbildung 40 zeigt das Verhalten des normalen Dogleg-Verfahren. Gestartet wirdbei x0 := (3, 0.1)T . Für den Iterations-Punkt x4 sind im linken Bild der Cauchy-Punkt, der Newton-Punkt und der neue Iterationswert als Schnittpunkt des Dog-Legund der Dogleg-Sphäre gezeigt. Im rechten Bild kommen zusätzlich Höhenlinien derFunktion mk(x) hinzu. Man sieht, dass der Gradient senkrecht dazu verläuft unddass der Cauchypunkt der Minimumpunkt von mk auf dem Strahl in Richtung −ggdurch xk ist.

−3 −2 −1 0 1 2 3−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

3.5

Dog−Leg−Schritt bei x4

aktueller Iterationspunkt

Trust−Region

neuer Iterationspunkt

Dog−LegNewton−Schritt

Cauchy−Punkt

−3 −2 −1 0 1 2 3−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

3

3.5

Dogleg−Schritt mit Höhenlinien von || f+ J*(x−x4)||2

Abbildung 40: Dogleg-Version für Gleichungssystem (165)

(4) In seiner Implementierung des Dogleg-Trustregion-Verfahrens bezieht Ulbricht (vgl.[Ulb]) den auf Trustregion-Radius-Länge skalierten Newton-Schritt in die Berechnungdes neuen xk+1-Aspiranten mit ein. Wenn dieser Wert einen kleineren mk-Wert liefertals mk(xk+1) ersetzt er xk+1 durch ihn.Eigene erste Testrechnungen haben keine großen Vorteile für dieses Vorgehen gezeigt.

103

Page 104: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.2.5 „Halbglobale Konvergenz“ der Newton-Iteration

Level-Sets und lokale Konvergenz Sei D ∈ Rn der offene Definitionsbereich der aufD stetig differenzierbaren Funktion

F : D −→ Rn (191)

mit lokal Lipschitz-stetiger Ableitung. Der Beweis des lokalen Konvergenzlemmas120 für dasNewton-Verfahren gegen eine reguläre Lösung x∗ ∈ D zeigte, dass eine ganze Kugel umdie Nullstelle durch die Newton-Iteration in sich abgebildet wird. Die Newton-Richtungenweisen auf der Oberfläche der Kugel in die Kugel hinein. Es ist dann auch der Newton-Fluss

y′(t) = −F ′(y(t))−1F (y(t)) (192)

auf dem Kugelrand in das Innere orientiert, und es ist klar, dass diese Kugel unter demNewton-Fluss eine invariante Menge ist121. Wenn eine Menge invariant unter einem Flussist, heißt das noch nicht notwendig, dass der Fluss einen stationären Punkt in der Mengehaben muss, der vom Fluss angesteuert wird122. Das lokale Konvergenzlemma sagt im Falledes Newton-Flusses aber natürlich, dass hier in der Kugel genau ein stationärer Punkt desFlusses existiert, weil auf jeder kleineren Kugel um x∗ die Flussorientierung (mit denNewton-Richtungen) transversal zur Kugeloberfläche in die Kugel hineinführt123.

Um zu Verallgemeinerungen dieses Sachverhaltes zu kommen, liegt es nahe, nach anderen,größeren, unter dem Newton-Fluss invarianten Mengen V zu suchen und nach Bedingungenan V und an F auf V , welche die Existenz einer Nullstelle in V implizieren. Aus der Newton-Homotopie-Gleichung F (x(t)) = (1− t)F (x0), sieht man, dass die Größe von F gemessenin einer beliebigen Norm ∥ · ∥ wegen

∥F (x(t)∥ = |1− t|∥F (x0)∥ (193)

mit wachsendem t abnimmt, solange man x(t) weiter fortsetzen kann. Kann man bis t = 1fortsetzen, so hat man eine Nullstelle erreicht.

Wir untersuchen hier das Verhalten von F (x(t)) nur für Normen, die zu schön glattenTestfunktionen führen. Normen, die über ein inneres Produkt vermittels ∥F∥ =

√< F,F >

erklärt sind, lassen sich bekanntlich mit einer regulären Matrix A stets in der Form

∥F∥A := ∥AF∥2

schreiben. Wir betrachten daher als Testfunktionen

T (x,A) :=1

2∥AF (x)∥22 (194)

mit regulärem A.Die Beobachtung des Fallens des Funktionswertes F in diesen Normen lässt sich auchdurch Bilden der Richtungsableitung dieser Testfunktuion in Newton-Richtung N(x) :=−F ′(x)−1F (x) bestätigen:(

ddtT (x+ tN,A)

)|t=0

=(

ddt

12∥AF (x+ tN(x))∥22

)|t=0

= F (x)TATAF ′(x)N(x)= −F (x)TATAF ′(x)(F ′(x))−1F (x)= −F (x)TATAF (x) = −∥AF (x)∥22 = −2T (x,A).

(195)

120Vgl. S. 82121Es ist nämlich die Jacobimatrix auf der Kugel regulär, so dass der Fluss dort auch überall definiert

ist.122Im zweidimensionale Fall können z.B. periodische Orbits entstehen, die von außen und von innen

approximiert werden. Im Mehrdimensionalen können ganz scheußliche Dinge geschehen.123Die Abstandsfunktion ∥x− x∗∥2 ist hier Lyapunov-Funktion zum Newton-Fluss.

104

Page 105: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Für den eindimensionalen Fall hatten wir das bereits in (172) gesehen. Das Ergebnis (195)ist übrigens bemerkenswert dadurch, dass F in Newton-Richtung für jede Testfunktionunabhängig von der Wahl von A fällt124.

Wegen dieser Abstiegseigenschaft sind demnach alle „Level“- oder „Niveaumengen“

L(x0, A) := x ∈ D∥T (x,A) ≤ T (x0, A) (196)

invariante Mengen für den Newton-Fluss, wenn dieser auf ganz L(x0, A) existiert. Da derNewton-Fluss für eine stetige Variation von x(t) sorgt, brauchen wir natürlich nicht aufganz L(x0, A) zu achten. Es reicht, wenn wir die Zusammenhangskomponente Z(x0, A) vonL(x0, A) ins Auge fassen, welche x0 enthält.

Um auf Z(x0, A) den Newton-Fluss definieren zu können, reicht es sicher aus, dort dieRegularität von F ′(x) zu fordern.

Unsere Hoffnung, dass dies die Fortsetzbarkeit von x(t) bis t = 1 nach sich zieht, wird durchdas folgende einfache eindimensionale Beispiel F (x) = exp(x) mit x0 = 0.5 enttäuscht:

−3 −2.5 −2 −1.5 −1 −0.5 0 0.5 1−0.5

0

0.5

1

1.5

2

2.5

3Keine Nullstelle wegen unbeschränkter Levelmengen−Zusammenhangskomponente

L(x0) unbeschränkt

x0

Newton−"Fluss"

F(x)=exp(x)

T(x)

Abbildung 41: Newton-Fluss liefert keine Nullstelle auf unbeschränkter Level-Menge

Man kann hier die Funktion x(t) über die Homotopie F (x(t)) = (1 − t)F (0.5) für allet ∈ [0, 1) definieren, kommt jedoch nicht zu t = 1 und damit nicht zu einer Nullstelle125.Die unendliche Ausdehnung von Z(x0, a) macht hier Probleme, und man sieht sich somitgezwungen, die Beschränktheit von Z(x0, A) zu fordern.

124Aufgabe: Zeigen Sie, dass für jede von N verschiedene Richtung eine Matrix A existiert, so dass diezugehörige Testfuktion T (x, A) in dieser Richtung wächst.

125Aufgabe: Rechnen Sie dies nach.

105

Page 106: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 0.5 1 1.5 2 2.5 3−0.5

0

0.5

1

1.5

2

2.5

L(x0,1) rechts offen: Keine Nullstelle

x0

L(x0,1)

T(x,1)

Newton−"Fluss"

f(x)

Abbildung 42: Newton-Fluss liefert keine Nullstelle wegen offenem Rand

Die Skizze in Abbildung 42 zeigt, dass die Beschränktheit auch noch nicht reicht. Derschwarz eingekreiste Bereich soll andeuten, dass Z(x0, A) auf der rechten Seite durch dasEnde des offenen Definitionsbereiches D gewissermaßen abgebrochen wird. Dies kann manunterbinden, indem man fordert, dass die Zusammenhangskomponente kompakt sei.

In der nächsten Skizze findet man die Skizze einer Testfunktion mit der Levelmenge zueinem x0, welches T (x0, A) = 0.45 erfüllt.

−10 −5 0 5 10x

4 kompakte Zusammenhangskomponenten der Levelmeng zu h=0.45

Abbildung 43: Zusammenhangskomponenten der Levelmenge

Die Definitionsmenge ist das abgebildete als offen anzusehende rote Rechteck. Die Level-menge besteht aus vier blauen kompakten Komponenten. Wie wir aus dem linken Bildsehen, liegt nur in einer Komponente eine Nullstelle. Die Minima in den anderen Kom-ponenten sind größer als Null. Die Existenz einer Nullstelle in einer kompakten Zusam-menhangskomponente können wir offenbar sichern, wenn wir voraussetzen, dass F ′(x) dortregulär ist. Da T (x,A) in der kompakten Levelmenge offenbar ein Minimum in einem Punktx∗ annimmt, ist darin der Gradient ∇T (x∗, A) von T (x,A) gleich null. Es ist aber

∇T (x∗, A) = F ′(x∗)TATAF (x∗)

und da F ′(x∗) regulär ist, muss F (x∗) = 0 sein.

106

Page 107: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Umgekehrt sehen wir, dass in Minima von T (x,A), in denen die Funktion F nicht Nullwird, die Jacobimatrix zwangsläufig singulär sein muss.

Ist die Zusammenhangskomponente Z(x0, A) nicht abgeschlossen wie die in hellem rotgehaltene Komponente der durch eine Erhöhung des Levelwertes vergrößerte Level-Menge

−10 −5 0 5 10x

Levelmenge zu h=0.5

Komponente nicht abgeschlossen

Jacobi−Matrix nicht durchgehend regulär

Abbildung 44: Zusammenhangskomponenten der Levelmenge

so lässt sich nur mit der Kenntnis dieser Levelmengen nicht die Existenz einer Nullstellebehaupten. Der Newtonfluss könnte ja - wie in Abbildung ?? - an den offenen Rändernabbrechen, ohne eine stationären Punkt erreicht zu haben.

Aus den letzten zwei Graphiken und dem nächsten Bild wird deutlich, dass der Newton-Fluss (und mit ihm auch das gedämpfte Newton-Verfahren) durchaus planmäßig in Punktemit singulärer Jacobimatrix hineinlaufen kann, wenn man in entsprechenden Levelmengenstartet.

Man rechnet z.B. leicht nach, dass die Lösung der Newton-Fluss-Gleichung

x′(t) = −x2 + 1

2x, x(0) = 1

für das unlösbare Nullstellenproblem

x2 + 1 = 0

gegeben ist durchx(t) =

√2e−t − 1.

Wir sehen, dass der Fluss mit zunehmender Geschwindigkeit schon bei t = ln(2) unge-bremst126 mit unendlich werdender Geschwindigkeit in den singulären Punkt x = 0 hin-einrast.Bei approximativer Lösung mit von Null weg beschränkter Schrittweite kommt es dadurchleicht zu einem oszillativen Verhalten.

126Einer reguläre Nullstelle nähert sich der Fluss ja „ganz vorsichtig“.

107

Page 108: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 0.5 1 1.5 2 2.5 3−0.5

0

0.5

1

1.5

2

2.5

L(x0) kompakt, trotzdem keine Nullstelle

L(x0),schön kompakt

x0

T(x)

F(x)

Newton−"Fluss"

Abbildung 45: Newton-Fluss liefert keine Nullstelle

Nach diesen Beobachtungen liegt die Vermutung des folgenden Lemmas nahe:

Satz 3.34 (Satz über den Newton-Pfad )Sei D ⊂ Rn offen, sei F ∈ C1,1(D,Rn). Sei x0 ∈ D mit F (x0) = 0. Für reguläre MatrizenA ∈ R(n,n) sei

Z(x0, A) ⊂ L(x0, A) := x ∈ D | ∥AF (x)∥2 ≤ ∥AF (x0)∥2

die Zusammenhangskomponente der Levelmenge L(x0, A), die x0 enthält.

Ist dann für ein reguläresB die Menge Z(x0, B) kompakt, und ist F ′(x) regulär auf Z(x0, B)und Lipschitzbeschränkt, so ist die Davidenko-Gleichung

x′(t) = −F ′(x(t))F (x0) (197)

von t = 0 bis t = 2 integrierbar.Die Funktion ∥F∥ nimmt für jeder Norm von t = 0 bis t = 1 wegen

∥F (x(t))∥ = |1− t| · ∥F (x0)∥

bis auf Null ab, um bis t = 2 wieder auf ∥F (x0)∥ zu steigen.Eine Lösung der Differentialgleichung des Newton-Flusses

y′(s) = −F ′(y(s))−1F (y(s)) (198)

existiert bei y(0) ∈ Z(x0, B) für alle t ∈ R+, die eindeutige Nullstelle x∗ = x(1) ist asym-ptotisch stabiler stationärer Punkt von (198) und jede Testfunktion T (x,A) := 1

2∥AF (x)∥22

ist (hinreichend nahe bei x∗) Lyapunov-Funktion von (198).Für A = B ist T (x,B) natürlich Lyapunov-Funktion auf ganz Z(x0, B).

108

Page 109: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweisskizze: Wir führen hier keinen sauberen Beweis, sondern machen das Resultat nureinsichtig. An Vorbildung ziehen wir hier die sogenannte lokale Version des Satzes vonPicard-Lindelöf aus der Mathematik III für die Existenz einer Lösung z(t) ∈ Rn einerAnfangwertaufgabe

z′ = f(t, z), z(t0) = z0

heran. Anders als beim globalen Satz von Seite 64 wird keine globale Lipschitzbedingung(127)gefordert, also die

∥f(t, z1)− f(t, z2)∥ ≤ L∥z1 − z2∥ (199)

für alle z1, z2 ∈ Rn (sowie t in einem Intervall, für das f(t, z) definiert ist.

Vielmehr fordert man, dass eine Lipschitzbedingung (199) nur lokal gelten soll. Ist f aufeiner Menge I × U definiert, so besagt dies, dass zu jedem z ∈ U und jedem t ∈ I dieBedingung (199) für alle z aus einer Umgebung von z gilt, wobei die Lipschitzkonstantenoch von dieser Umgebung abhängen darf.

In der Vorlesungsversion des dritten Semesters war U eine Normkugel KR(z0) := z ∈ Rn |∥z − z0∥ < R. Sie hatten im driiten Semester bewiesen, dass bei eine Lipschitzbeschrän-kung auf KR(z0) mit Konstante L und bei einer Beschränkung der stetigen Funktion f(,also der Steigung der Lösung der Differentialgleichung ) auf I×KR(z0) durch M > 0 sowieI = [0, a] eine eindeutige Lösung auf dem Intervall [0,mina, R

M]. Ich erinnere daran, dass

die Grenze RM

dadurch zustande kommt, dass die Lösung der Anfangswertaufgabe bei Ma-ximalsteigung M die Kugel KR(z0) nicht voirher verlassen kann. In [0,mina, R

M]×KR(z0)

kann dann genau so argumentiert werden wie beim globalen Picard-Lindelöf. Die Schrankea ist nur von Bedeutung, wenn der Definitionsbereich von f in t begrenzt ist.

Unsere Newton-Fluss-Gleichung ist autonom, hängt also nicht explizit von t ab und wirddeshalb nicht ungültig, wenn t eine Grenze überschreitet.

Man kann sich daher vielleicht vorstellen, dass man bei einer autonomen lokal-Lipschitz-beschränkten Anfangswertaufgabe die Lösung so lange fortsetzen kann, bis man den Randdes z-Definitionsbereiches U erreicht.

Da F ′ auf der kompaktem Levelmenge regulär ist und Lipschitzstetig, ist die rechte Seite derautonomen Davidenko-Gleichung dort sicher lokal Lipschitz. Die Lösung der Davidenko-Gleichung ist daher fortsetzbar, bis der Rand der Level-Menge erreicht wird. Da die Lösungder Davidenko-Aufgabe für alle t-Werte für die sie definiert ist, die HomotopiegleichungF (x(t)) = (1−t)F (x0) erfüllt, erreicht x(t) diesen Rang genau wieder zum Zeitpunkt t = 2.

Da die rechte Seite der Newton-Flußgleichung in der kompakten Levelmenge Lipschitz-beschränkt ist, und das Richtungsfeld in allen Punkten in die aktuelle Levelmenge hin-einweist, muss die Lösung für alle t > 0 definiert sein. Dass die Nullstelle von F durchdie Lösungen von (198) als Limespunkt angesteuert wird, kann man in diesem Fall wiedereinfach durch die Transformation

y(s) := x(t(s))

mitt(s) = 1− e−s, s ∈ [0,∞).

einsehen.Die Aussagen über die Lyapunov-Natur der Testfunktionen sind mit den Aussagen derdritten Studiensemesters einsehbar. 2

109

Page 110: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anmerkungen 3.35Obwohl das letzte Lemma für das kontinuierliche Newton-Verfahren den Konvergenzbe-reich von der kleinen Kugel lokaler Konvergenz auf das „Tal einer Levelfunktion um einereguläre Nullstelle herum“ erweitert hat127, ist das Ergebnis in vielerlei Hinsicht noch un-befriedigend.Einerseits wird man nicht immer in „Tälern“ starten können, die außer der gesuchten Null-stelle keine weiteren Minima der Testfunktion enthalten, seien es nun Nullstellen oderkeine. Wie man andererseits an der Abbildung 33 sieht, wird das kontinuierliche Newton-Verfahren sehr oft wohl auch dann gegen eine nahe Nullstelle konvergieren, wenn mehrerestationäre Punkte der Testfunktion in der Levelmenge liegen.Man würde sich wünschen, dass auch im Mehr- und Hochdimensionalen die Welt so ein-fach wäre wie im eindimensionalen Fall oder im Fall etwa von Polynomen p : C −→ C.Hier hat man das Verhalten des kontinuierlichen Newton-Verhaltens grundsätzlich geklärt.C ist in glattberandete Regionen aufgeteilt, aus denen Konvergenz gegen die Nullstellenglatt vonstatten geht (vgl. Abbildung 46 aus [Saupe], die das kontinuierliche Gegenstückzu Abbildung 27 ist ).

Abbildung 46: Kontinuierliches Newton-Verfahren für z3 − 1 = 0

Indem man sich bemüht, dem Newton-Fluss gut (aber effizient) zu folgen, erwartet mandeshalb mehr als nur die oben genannte Annäherung aus Tälern, in denen x∗ das Allein-vertretungsrecht als kritische Stelle hat.

Dafür, dass es gut ist, dem Newton-Pfad als „Weg zum Licht“ auch weiter entfernt von derLösung zu folgen, spricht auch die folgende Bemerkung, die wie vieles aus diesem Abschnittauf Deuflhard (cf [PeDe]) zurückgeht:

Lemma 3.36Unter den Voraussetzungen des letzten Lemmas sei NP (x0) := x(t) | t ∈ [0, 2] die Mengeder Punkte, die die Newton-Kurve x(t) zwischen t = 0 und t = 2 durchläuft.Dann ist

NP (x0) =∩

Aregulär

Z(x0, A).

Der Newton-Pfad ist also der Schnitt der x0 enthaltenden Zusammenhangskomponentenaller Levelmengen zu x0.

Beweis: Siehe Übungsaufgabe.127Wobei die Form des Tals, wie sich gezeigt hat, allerdings sehr von der Levelfunktion abhängen kann.

110

Page 111: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Aufgabe 3.37 (Anwendung der Davidenko-Gleichung (197))Zeigen Sie: Ist für alle x in der abgeschlossenen Kugel Kr(x0) um x0 mit Radius r > 0 dieUngleichung

F ′(x)−1F (x0) < r

erfüllt, so hat F eine Nullstelle in Kr(x0).

3.2.6 Noch einmal Dämpfung

Nach dem letzten Abschnitt muss es das Ziel sein, bei der Ausführung gedämpfter Newton-Schritte xk −→ xk+1 zur Lösung von (191) in der aktuellen ZusammenhangskomponenteZ(xk, A) der Level-Menge zu einer Testfunktion T (x,A) zu bleiben. Durch Verfolgung deskontinuierlichen Newton-Pfades mit der bei der Lösung von Differentialgleichung üblichenGenauigkeit wird dies sicher möglich sein. Indes sind viele nichtlineare Systeme so großund so komplex, dass man mit der Anzahl der Auswertungen von Funktion und ihrerJacobimatrix sehr haushalten muss. Man wird dann doch Strategien entwickeln müssen, mitwenigen Funktionsauswertungen möglichst große aber dennoch in Z(xk, A) verbleibendeSchritte zu machen.

In Bezug auf diese Aufgabe wollen wir noch zwei Aspekte ansprechen: Einerseits die Bestim-mung geeigneter Schittweiten und andererseits die Wahl geeigneter metrischer Matrizen A.

In der folgenden Abbildung 47 sieht man zum Startvektor x0 :=(−11

)und der sogenann-

ten Rosenbrock-FunktionF (x) =

(10(x2 − x21)

1− x1

)sowie der metrischen Matrix A = I den Rand der Levelmenge L(x0, I) = Z(x0, I) (blau) ,den Newtonpfad (rot) und einen Abschnitt des Newton-Schritts (schwarz) eingetragen.

−0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1x

Newton und Levelmenge zu Rosenbrock−Funktion (x0,y

0)= (−1,1)

Newton−Pfad

Grenze der Levelmenge

Newtonschritt verlässt Levelmengeund wird gebremst

Newton Schritt

Abbildung 47: Rosenbrock-Level

Es wird deutlich, dass die Bedingung, in Z(x0, I) zu bleiben, den Schritt erheblich herun-terkürzt. Der Nachteil wird noch klarer, dass zur Lösung des Rosenbrocksystems von jedem

111

Page 112: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

von der Lösung x∗ =(11

)verschiedenen Startpunkt im R2 aus genau zwei Newton-Schritte

benötigt werden. Der erste Schritt führt durch Lösung der zweiten, linearen, Gleichung aufdie Gerade x1 = 0. Dort wird die erste Gleichung ebenfalls linear in x2 und der zweiteIterationsschritt führt in die Lösung.

Durch Restriktion der Schrittweiten auf Verbleib in den Levelmengen (zu A = I)128 folgtdie Iteration zwar sehr schön dem Newton-Pfad, braucht aber auch sehr viele Schritte.

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Armijo−gesteuerte Newton−Iteration, Standard Testfunktionen

Lösung

Level−Linie zu Startpunkt (blau)

Level−Linie zu x6 (rot)

x2

x9Newton−Pfad

Abbildung 48: Rosenbrock-Level

Deuflhardt hat 1972 angeregt, nach geeigneteren metrischen Matrizen A zu suchen, welchegrößere Levelmengen und damit längere mögliche Schritte versprechen, und dabei vorge-schlagen, die metrische Matrix in jedem Schritt xk −→ xk+1 neu als Ak := F ′(xk)

−1 zuwählen. Die damals von ihm für die Schrittweitenwahl beim Übergang von xk auf xk+1

vorgeschlagene Testfunktion

Tn(x) :=1

2∥F ′(xk)

−1F (x)∥22

nannte er natürliche Testfunktion. Sie hat den Vorteil, dass sich ihre Höhenlinien in derNähe der Lösung immer mehr Kreisen annähern mit der Lösung immer näher am Mittel-punkt und dass die Höhenlinie durch xk auf der Newton-Richtung N(xk) senkrecht steht.Letzteres weckt die Hoffnung auf große mögliche Schrittweiten, weil Situationen, wie amsechsten Iterationspunkt in der letzten Abbildung zu sehen, nicht auftreten. Dort verläuftdie Höhenlinie der Testfunktion durch x6 nahezu parallel zum Newton-Schritt, der deshalbschon bald die Levelmenge verlässt.

128In Abbildung 48 wurde diese durch die Armijo-Strategie implementiert.

112

Page 113: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−4 −3 −2 −1 0 1 2 3 4

−3

−2

−1

0

1

2

3

x

y

Rosenbrock−Funktion, Newton−Schritt + Testfunktionen im Punkt (−1,1)

"Natürliche" Testfunktion

Newton−Schritt

Newton−Pfad

||F(x)||22

−2 −1.5 −1 −0.5 0 0.5 1 1.5 2

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

1

x

y

Armijo−Dämpfung des Newton−Schrittes

Armijo−Schritte

akzeptiert durch ||F||

22

akzeptiert durch "natürliche" Testfunktion

Abbildung 49: Natürliche Testfunktion

Die Abbildung 49 zeigt auf der linken Seite zusätzlich zum Rand der Levelmenge ausAbbildung 47 noch den Rand der Levelmenge der natürlichen Testfunktion (grün). Inder rechten Abbildung ist dargestellt, dass die Armijo-Strategie den Newton-Schritt dreiMale halbieren muss, um in die blaue Levelmenge zu kommen, während die natürlicheTestfunktion den Schritt voll akzeptiert.

Die letzten Bilder lassen vielleicht annehmen, dass man mit den natürlichen Testfunktionenden Stein der Weisen gefunden hätte.- Leider ist das nicht so.

Einerseits kann man nämlich durch wiederholte Anpassung der Metrik tatsächlich wie inEschers Treppenbild in Abbildung 50 wieder zum Ausgangspunkt zurückkehren, obwohlman in der jeweiligen Metrik dauernd absteigt.

Abbildung 50: Treppe: Escher

Andererseits ist es bisher (deshalb?) noch niemandem gelungen, die lokale - geschweige dennglobale - Konvergenz eines durch natürliche Testfunktionen gesteuerten Newton-Verfahrenszu beweisen.

Und zum Dritten ist es nicht ganz einfach, die langen möglichen Schritte zu gehen, ohneGefahr zu laufen, doch in einem anderen als dem „Heimattal“ der angestrebten Nullstellezu landen.

Wie in Abbildung 32 schon angedeutet, kann man versuchen, eine verlässliche obere Schran-ke Bk(s) für

L(s) =1

2∥F ′(xk)

−1F (xk + sN(xk))∥22generieren.

113

Page 114: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Eine Skizze zu einem solchen Vorgehen schildern wir im Paragraphen

3.3 Behandlung parameterabhängiger Systeme moderater Größe

Hat man ein nichtlineares Gleichungssystem

F (x) = 0, F : D −→ Rn

durch ein x∗ im Definitionsbereich D ⊂ Rn gelöst, so ist man selten (lange) zufrieden.Wie die Frau im „Fischer un siene Fru“ wird man die die Modellierung durch das Glei-chungssystem weiter verbessern wollen und z.B. bestimmte Systemparameter λ1, . . . , λk,, die bislang feste Werte λ01, . . . , λ0k , verändern wollen, dass die Lösung x(λ01, . . . , λ0k) dieWirklichkeit noch besser wiedergibt oder bei Ingenieurwissenschaftlicher Umsetzung mehrGeld, Umsatz, Sicherheit, Kundenzufriedenheit, Umweltverträglichkeit etc. etc. generiert.

Gehen die Parameter glatt (am besten differenzierbar) in das System ein, so wird mandie dann zu erwartende glatte Änderung des Systems ausnutzen wollen. Der Satz überdie implizite Funktion liefert uns im Falle der differenzierbaren Abhängigkeit von x undvon λ1, . . . , λk Aussagen über die Fortsetzung der Lösung x(λ01, . . . , λ0k) := x∗ zu Lösungenx(λ1, . . . , λk) für (λ1, . . . , λk) nahe (λ01, . . . , λ

0k).

Obwohl die Numerische Mathematik schon länger Algorithmen zur Verfügung stellt, mitdenen auch von mehreren Parameteren abhängige Lösungsmannigfaltigkeiten angenähertwerden können, gehen wir hier davon aus, dass man bei mehreren Parametern in solchenParameteränderungstudien zunächst einmal einzelne Parameter getrennt von einander va-riieren wird129.

Wir gelangen dadurch zu einem von einem Zusatzparameter abhängigen System

F (x, λ) = 0, F : D × I −→ Rn (200)

in dem x in einer (meist offen angenommenen) Teilmenge D des Rn wählbar ist und λ ineinem reellen Intervall I.

Dies entspricht genau der bei den Homotopie-Verfahren zur Globalisierung iterativer Me-thoden vorgefundenen Situation, wobei die Parameterabhängigkeit hier nicht künstlichherbeigeführt wird, sondern systemimmanent ist.

Wie bei den Homotopie-Verfahren werden wir auch hier Annahmen über gewissen Regulari-täten von Jacobi-Matrizen machen müssen, wenn wir die von linearen Gleichungssystemengewohnte Annahme, dass die Lösungsgesamtheit bei n Gleichungen und n+1 unbekanntennormalerweise eindimensional ist, weiter verwenden wollen.

Ohne solche Annahmen können Lösungsgesamtheiten beliebig scheußlich aussehen, undwenn die Funktionen selbst noch so glatt sind130.

Um uns nicht bei der Analyse von Lösungsmannigfaltigkeiten durch die Beachtung voneinschränkenden Definitionsbereichen oder Restriktionen an die Differenzierbarkeoit durch-einander bringen zu lassen. nehmen wir in diesem Unterabschnitt an, dass D und I in (200)der ganz Rn bzw. ganz R sind und dass F überall beliebig häufig differenzierbar ist.

129Alles andere ist recht komplex und nur dann wirklich hilfreich, wenn in diesen Lösungsmannigfaltigkei-ten bestimmt strukturbestimmende Parameterkonstellationen gesucht werden, eine Aufgabe, die für dieseAusarbeitung zu involviert wäre. Siehe jedoch gegebenenfalls: [WCR]

130Nach einem Satz von Whitney gibt es zu jeder abgeschlossenen Menge M im Rn eine unendlich häufigstetig differenzierbare Funktion f : Rn −→ R deren Nullstellenmenge M ist.

114

Page 115: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wir werden die Lösungsmenge

S :=(x, λ) ∈ Rn+1 | F (x, λ) = 0

zunächst nur in der (offenen) „Regularitätsmenge“

R :=(x, λ) ∈ Rn+1 | Rang(F ′(x, λ)) = n = maximal.

(201)

untersuchen.Es ist für die mathematische Behandlung der Aufgabe meistens einfacher, wenn man dieSonderrolle von λ aufgibt, und (x, λ) einfach als (n + 1)-dimensionalen Vektor y ∈ Rn+1

verwendet. Jeder Punkt y0 ∈ S ∩ R ist dann ein Punkt, in dem auf F der Satz überimplizite Funktionen angewendet werden kann. y0 ∈ S besagt nämlich, dass F (y0) = 0 ist,und aus y0 ∈ R folgt, dass es unter den n + 1 Spalten der Jacobimatrix F ′(y0) ∈ R(n,n+1)

n linear unabhängige Spalten gibt. Nach den zugehörigen Variablen lässt sich das SystemF (y) = 0 in einer Umgebung von y0 eindeutig auflösen, wobei die restliche Variable alsParameter herangezogen wird. Es besteht S ∩ R damit aus eindimensionalen „Stücken“,die entweder geschlossen einen Kreis bilden oder bijektiv auf das offene Intervall (0, 1)abgebildet werden können. Alle solchen Lösungsabschnitte werden i.a. als „Lösungsäste“bezeichnet.

−5 −4 −3 −2 −1 0 1 2 3 4 5−5

−4

−3

−2

−1

0

1

2

3

4

5

λ

x

1 Teilstück ~ Kreis (grün), 11 Teilstück ~ (0,1) (blau), 5 Verzeigungspunkte (rot)

Abbildung 51: Verzweigungsdiagramm

Die rot gezeichneten Schnittpunkte der Kurve in Abbildung 51 zerschneiden diese Kurvein die genannten bijektiv und stetig auf das Intervall (0, 1) abbildbaren Kurvenabschnitte.In den Punkten selbst ist der Rang Jacobimatrix kleiner als n. Andernfalls müsste man inihnen die Lösungsgesamtheit ja in eindeutiger Weise eindimensional fortsetzen können.

Man nennt diese Punkte Verzweigungspunkte des Diagrammes der Äste und das ganzeDiagramm „Verzweigungsdiagramm“. Verzweigungsdiagramme können wesentlich kompli-zierter aussehen, als das aus der obigen Skizze.

Wenn man solche Verzweigungsdiagramme erstellen will, muss man natürlich eigentlichmit solchen Verzweigungspunkten ein wenig umgehen zu können. Einerseits muss manüber sie „hinwegkommen“, wenn man bei der Astverfolgung auf sie stößt. Andererseitssind sie besonders interessant, weil das Verhalten der Funktion F in ihnen und in ihrerUmgebung meist strukturgebend für die Diagramme ist131

Leider haben wir nicht die Zeit, auf die Behandlung solcher „singulären Punkte“ einzu-gehen. Um an ihnen zumindest mit den hier zu besprechenden Astverfolgungsmethoden

131Dass Elemente, die bestimmte den Umgang mit ihnen angenehm gestaltende Eigenschaften vermissenlassen, einerseits (glücklicherweise?) nicht so häufig vorkommen und dabei andererseits aber oft ablauf-oder formbestimmend sind, ist schon Laotse im „Dao Dö Djing“ (siehe [LAO]) aufgefallen: „Dreißig Speichentreffen die Nabe - die Leere in der Mitte aber macht das Rad“.

115

Page 116: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

„vorbei zu kommen“ hilft ein Trick aus der Zeit bevor man die Singularitätzen richtigbehandeln konnte. Durch eine kleine Störung der Gleichung brechen die „Kreuzungen“meistens in nichtverbundene glatte Straßen auf. In den folgenden drei Skizzen sehen wirdie Lösungsgesamheiten der Gleichung

λx = x3 und ihrer gestörten Versionen λx = x3 + 0.1 und λx = x3 − 0.1

−2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3Pitchfolk−Verzweigung zu λ x = x3

−2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3λ x = x3 − 0.01

−2 −1 0 1 2 3 4−3

−2

−1

0

1

2

3λ x = x3 − 0.01

Abbildung 52: Reine und gestörte „Pitchfork-Verzweigung“

3.3.1 Prädiktor-Korrektor-Astverfolgungsprobleme.

Die einfachste Zugang zu Lösungsästen ist der in Abbildung 34 schon geschilderte. Manerhöht eine zur Parametrisierung geeignete Variable schrittweise und passt die restlichenn Variablen iterativ an die Änderung an.

Wenn der Pfad bezüglich des gewählten Parameters umkehrt, wird man eine andere Kom-ponente als Parameter wählen müssen. Dass ist programmtechnisch relativ aufwendig. Manmuss eventuell häufig das lösbare (n, n)-System neu zusammanstellen.

Anstatt die n Gleichungen mit n + 1 Variablen auf ein (n, n)-System herunterzubrechen(Deflation), ist die Alternative, dass ganze System auf ein (n+1, n+1)-System aufzublasen(Inflation).

Der Schritt von einem Punkt yk auf dem Ast zu einem Nachfolger wird man dann in einemZweistufenprozess durchführen:

1.Stufe: Berechne einen Prädiktor-Punkt y0k durch tangentiale Voraussage.

2.Stufe: Wende Iterationen an auf ein erweitertes System an, bis der Ast (bis auf nahezuRechnergenauigkeit) wieder erreicht ist.

0.5 1 1.5 2 2.5 3 3.5

0

0.5

1

1.5

2

2.5

3First idea

Corrector−Steps

Prädiktor

Abbildung 53: Prädiktor/Korrektor-Grundstruktur

116

Page 117: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wir vertrödeln keine Zeit mit Nachvollzug der historischen Entwicklung der für die Reali-sierung der Stufen nötigen Rechenschritte, sondern schreiben einfach einige an.

Stufe 1: Sei der Ast bei yk nach der Bogenlänge t parametrisiert132, so dass F (y(t)) = 0 istund ∥y′(t)∥2 = 1. Die letzte Bedingung folgt aus der Annahme der Parametrisierungnach der Bogenlänge. Der Ast wird mit der Geschwindigkeit 1 durchlaufen. Dannerhält man den Tangenteneinheitsvektor y′(t) einfach aus der durch Differentiationvon F (y(t)) = 0 entstehenden Gleichung

F ′(y(t))y′(t) = 0.

Ein MATLAB-Befehl zur Lösung dieser Aufgabe ist

T= null(F ′(yk)). (202)

null(A) ist der Befehl, der eine Orthonormalbasis des Nullraumes oder Kerns derMatrix A berechnet. T wäre daher sicher schon die Ableitung der Kurve y(t), wennwir nur sicher sein könnten, dass T neben der korrekten Richtung und der richti-gen Länge auch noch die Orientierung von y′(t) hätte. Die Berechnung von T aus(202) sichert ja nur die ersten beiden Eigenschaften, nicht aber die Orientierung. Eswäre ohne die korrekte Orientierung nicht ausgeschlossen, dass die T -Vektoren inaufeinanderfolgen Schritten dauernd die Richtung wechselten.

Abhängig von der Größe des behandelten Systems verwendet man unterschiedlicheMethoden, eine einheitliche Orientierung zu sichern.

• Für kleine bis moderat große Systeme ist es am einfachsten, die Stetigkeit derMatrix

D(t) =(F ′(y(t))y′(t)T

)(203)

auszunutzen. Da y′(t) einerseits ungleich Null ist und andererseits senkrechtzu den n linear-unabhängigen Zeilen von F ′(y(t)), ergänzt y′(t)T die MatrixF ′(y(s)) zu einer regulären (n+ 1, n+ 1)-Matrix. Da deren Determinante

D(t) := det

(F ′(y(t))y′(t)T

)(204)

ebenfalls stetig ist und überall ungleich Null, hat D(t) ein festes Vorzeichen.Analog gibt man T eine einheitliche Orientierung, indem man nach seiner Be-rechnung - gegebenfalls durch Vorzeichenänderung - die Bedingung

det

(F ′(yk)T (yk)

T

)> 0 (205)

sicherstellt. Dies gibt den Tangentialvektoren T (yk) in der Punktfolge y0, y1, y2, ...entlang y(t) eine einheitliche Orientierung entweder in Richtung von y′(t) oderdagegen.Fordert man in (205) ein negatives Zeichen, wird die Kurve in Gegenrichtungdurchlaufen.

132Bitte nicht die „Realisierung der Bogenlängenparametrisierung über die Inversion der streng mono-tonen Bogenlängenfunktion“ aus den Mathematik-Grundvorlseungen aufarbeiten. Hier geht die Tatsache,dass y(t) nach der Begenlänge allein über die Aussage ein, dass ∥y′(t)∥2 = 1 für alle t.

117

Page 118: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

• Für größere Dimensionen n ist es sicher weniger rechenaufwendig nach Vorgabeeiner Richtung im ersten Astfolge-Punkt y0 die Tangenten in Folgepunkten soauszurichten, dass ihr inneres Produkt mit ihrer Vorgängerin positiv ist. Al-lerdings setzt dies eine gute Schrittweitensteuerung voraus, die nicht zulässt,dass die Kurve zwischen einem Punkt yk und dem nächsten yk+1 die Richtungvollständig wechselt133.

0 1 2 3 4 5 6 7 8 9 10 110

0.2

0.4

0.6

0.8

1

1.2

1.4

1.6

1.8

2

yk+1

yk

T(yk+1

)

T(yk+1

)

Winkel < 180°

Orientierung von T(xk+1

) am Vorgänger T(xk)

Abbildung 54: Festlegung der Tangentialrichtung

Definition 3.38 ( Einheitstangentenvektorfeld)Es ist hier ein guter Platz um anzumerken, dass durch die Gleichungen (202) und (205)sowie eine Normierung, also durch

F ′(y)T (y) = 0, det

(F ′(y)T (y)T

)> 0 und ∥T (y)∥ = 1 (206)

für y ∈ R ein Einheitstangentenvektorfeld definiert wird, welche auf den Trajektorieny(t) aus F (y(t)) = 0 mit deren Tangentialvektoren übereinstimmen.

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3

Tangentialschritt und Tangentialfeld

Abbildung 55: Tangentialvektorfeld

133Das ist wirklich ein großes praktisches Problem, und die Literatur ist voll von Steuerungsalgorithmenfür die Astverfolgung, die sich um die geeignete tangentiale Schrittweitenwahl und die Orientierung desTangentenvektors bemühen.

118

Page 119: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Stufe 2: Wir nehmen für die Diskussion dieses Teils des Algorithmus an, dass wir vonyk auf der Kurve aus einen Schritt in die richtige Tangentenrichtung getan haben,uns in ypk+1 außerhalb des Astes befinden134 und sehnlichst wieder zum Ast zurückwollen.

Eine erste ein gute Idee ist es sicher wieder, die Gleichung F (y) = 0 bei ypk+1 zulinearisieren

F (y) ≈ F (ypk+1) + F ′(ypk+1)(y − ypk+1) = 0

Wenn ypk+1 ∈ R, so dass Rang(F ′(ypk+1)) = n, ist die Lösungsgesamtheit dieser Glei-chung eine Gerade, aus der noch ein geeigneter Punkt ausgewählt werden muss (vgl.Abbildung 56).

0 0.5 1 1.5 2 2.5 30

0.5

1

1.5

2

2.5

3

yk

yk+1p

Lösungslinie der Linearisierung

Lauter mögliche Schritte

"Newton"−Schritte zur Lösung der Linearisierung

Abbildung 56: Lösung der Linearisierung

Für die Auswahl sind verschiedene Zusatzgleichungen vorgeschlagen worden. VonHerber B. Keller stammt die Idee, F (y) = 0 durch die Gleichung eines Kreises umden Startpunkt yk+ zu ergänzen, und dieses System

F (y) = 0,∥y − yk∥22 − rk = 0

(207)

mit Newton-Iterationen und Startpunkt ypk+1 zu lösen (vgl. Abbildung 57, Keller-Schritt).

Von Schwetlick und anderen stammt der Vorschlag, vom Prädiktionspunkte aussenkrecht auf der bisherigen Tangentialrichtung zu laufen. Das läuft bei Start desPrädiktor-Korrektorschrittes bei yk+1 in Abbildung 57) auf die Ausführung der Newton-Iteration für

F (y) = 0,T (yk+1)

T (y − ypk+2) = 0(208)

mit Startpunkt ypk+2 hinaus.

134Die Indizes bei ypk+1 deuten an, dass dieser Punkt ein Startwert für die Berechnung des nächstenAstpunktes yk+1 ist, der mit einem Prädiktor gewonnen wurde.

119

Page 120: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−1 −0.5 0 0.5 1 1.5 20

0.5

1

1.5

2

2.5

3

yk+2

yk+1

yk

yk→ y

k+1,

Keller−Schritt

yk+1

→ yk+2

,T(y

k+1)−Orthogonal−Schritt

2 Wege zurück zum Ast

yk+1p

T(yk+1

)

yk+2p

Abbildung 57: Festlegung der Tangentialrichtung

Es waren vermutlich Allgower und Georg (vgl. [AG]), die vorgeschlagen haben, inSystem (208) die Tangentialrichtung T (yk+1) zu ersetzen durch die im Prädiktions-punkt vorliegende Tangentialrichtung T (ypk+2), und nach Ausführung eines Newton-Schrittes den Tangentenvektor anzupassen.

−0.5 0 0.5 1 1.5 2 2.5 3 3.5

0

0.5

1

1.5

2

2.5

3

Orthogonalschritt, orthogonal zu T am Prädiktorschritt

yk

yk+1

yk+1p

T(yk+1p )

Newton, senkrecht zu T(y

k+1p )

Abbildung 58: Schritt senkrecht zur Tangente am aktuellen Ort

In Abbildung 56 hieße dies, dass unter allen Schritten der kürzeste Schritt, senk-recht auf die Linearisierungsgerade gewählt würde. Dafür kann man viele positiveArgumente sammeln.

1. Im Zweifel sollte man bei der Verwendung der Linearisierung einer Funktion be-müht sein, keine großen Schritte zu machen, da die Linearisierung die wirklicheFunktion umso besser wiedergibt, je weniger man sich vom Entwicklungspunktentfernt.

2. Anders als bei einem Schritt senkrecht zur Tangentenrichtung im Startpunktdes Prädiktors wird man nicht planmäßig an der Lösungskurve vorbeigeführt.(Dies würde sich in der Situation der Abbildung 53 ergeben.

120

Page 121: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3. Stattdessen würde dies Verfahren bei genügender Dämpfung vom Prädiktor-punkt aus orthogonal zum Tangentenvektorfeld T (y), y ∈ R auf die Kurve zulaufen (vgl. Abbildung 59 sowie den Abschnitt ??).

0 0.5 1 1.5 2 2.5 3 3.5 4

0

0.5

1

1.5

2

2.5

3

Kontinuierlicher Korrektur−Pfad vom Prädiktorpunkt senkrecht zu Tangentialfeld.

Abbildung 59: Tangentialvektorfeld

3.3.2 Differentialgleichungsberechnung von Lösungsästen

Zur Berechnung eines Lösungsastes eines parameterabhängigen Systems

F (x, λ) = 0, F : Rn × R −→ Rn (209)

(vgl. 200) lässt sich wie für den Spezialfall (183) die Davidenko-Methode (vgl. Seite 96)heranziehen. Wenn F (x0, λ0) = 0 und detFx(x

0, λ0) = 0, so kann de Gleichung (209) lokalnach x = x(λ) aufgelöst werden und es gilt die Gleichung:

F (x(λ), λ) = 0. (210)

Wenn man (210) nach λ differenziert, ergibt sich

Fx(x(λ), λ)x′(λ) + Fλ(x(λ), λ) = 0.

Bei Regularität von Fx(x(λ), λ) lässt sich die Gleichung nach x′(λ) auflösen, und x(λ) istdamit lokal durch „Allgemeine Davidenko-Anfangswertaufgabe“ bestimmt:

Fx(x(λ), λ)x′(λ) = −Fx(x(λ), λ)

−1Fλ(x(λ), λ), x(λ0) = x0. (211)

Leider lässt sich die Lösungs-Kurve mit dieser Metheode nicht um λ-Umkehrpunkte imRegularitätsgebiet (201) herumsteuern.

Hier ist es günstiger, das Einheitstangentenvektorfeld T (y) nach (206) für

F (y) = 0, y := (x, λ)

heranzuziehen.Wenn y(t) die Bogenlängenparametrisierung der Lösungskurve mit y(0) = (x0, λ0) ist, soist

y′(t) = T (y(t)), y(0) = (x0, λ0) (212)

121

Page 122: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

eine Anfangswertaufgabe, mit der sich der Lösungsast solange verfolgen lässt, wie in inder Regularitätsmenge bleibt135. Obwohl sich dies relativ kompliziert anhört, ist es sehreinfach zu programmieren:function r e s = imp l i c i t ( t , y , fun )% Annahme : Sei fun in C^2(R^n ,R^(n−1)) and Rang ( Jacobian ( fun )) = n−1% im ( konvexen und o f f enen ) Gebie t M in der Regu lar i tä t smenge R von fun .% Wenn es e in y∗ in M mit fun ( y∗)=0 g i b t , d e f i n i e r t fun ( y)= 0 eine Kurve% in M durch y ∗ .%% 1. Das vo r l i e g ende Programm d e f i n i e r t e in Vek tor f e l d , das a l s r e ch t e% Se i t e e iner MATLAB−Anfangswer tau fgaben löser b enu t z t werden kann .%(Die ODE−Su i t e Aufru fkonvent ion s ind e r f ü l l t ) .% Wird " imp l i c i t " mit Uebergabe des Funktionsnamens auf " fun" b e i y0 mit% fun ( y0 ) =0 g e s t a r t e t , so f o l g t der ODE−I n t e g r a t o r der durch% fun ( y)=0 d e f i n i e r t e n Kurve .% Be i s p i e l% func t i on res = c i r c l e ( y )% % de f i n e s un i t c i r c l e in R^2% res = y(1)^2+y(2)^2−1;%% T=10; y0 =[1 ,0 ] ’ ; [ t , y ] = ode45 (@( t , y ) im p l i c i t ( t , y , @c i r c l e ) , [ 0 ,T] , y0 )%% 2. I s t fun ( y0 ) \ne 0 , so f o l g t d e r s e l b e Aufruf% T=10; y0 =[2 ,0 ] ’ ; [ t , y ] = ode45 (@( t , y ) im p l i c i t ( t , y , @c i r c l e ) , [ 0 ,T] , y0 )% der " p a r a l l e l e n Kurve" der Punkte , d i e fun ( y ) = fun ( y0 ) e r f ü l l e n .% Im Anwendungsbeispie l i s t d i e der Kreis um den Ursprung mit Radius 2 .% two .

[ J ,F ] = Jakob ( fun , y ) ; %"Jakob" berechne t d i e Jacob imatr ix "J"% und den Funkt ionswert "F"

n=null ( J ) ; % " nu l l " berechne t e ine Orthonormalbasis% des Kerns von J .% Dies i s t d i e Tangen t i a l r i ch tung wenn Rang(J)=n−1.% Man beachte , dass der Vektor schon e i n h e i t l ä n g e% hat .

i f det ( [ J ; n ’ ] ) <0 % Wenn d ie um n^T ergänz t e Jacob i sche ke ine p o s i t i v en=−n ; % Determinante hat , dreh t man d ie Richtung von n um.

end % [Man s i c h damit auf e ine Durch lau f r i ch tung f e s t . ]r e s =n ;

Um unser Programm zu testen, verwenden wir die Gleichung für den Einheitskreis.function r e s=c i r c l e ( z )

r e s=z (1)^2+z (2)^2−1;

Der Aufruf kann so aussehen:x0 = [ 0 ; 1 ] ;opts=odeset ( ’ RelTol ’ ,1 e−2); % Diese Option , d i e wir g l e i c h b e i der zwei−% ten In t e g r a t i on anscha l ten , r e d u z i e r t d i e s tandardmaess ig e i n g e s t e l l t e% In t e g r a t i on s g enau i g k e i t , so dass wir g l e i c h d i e Tendenz zur Abweichung% von der exakten Loesung bemerken koennen .

[ t , y]=ode45 (@( t , y ) imp l i c i t ( t , y , @c i r c l e ) , [ 0 , 2 0∗ pi ] , x0 , opts ) ;

plot ( y ( : , 1 ) , y ( : , 2 ) ) ;axis equal ;

135Dem kann dadurch ein Ende gesetzt werden, dass der Definitionsbereich von F verlassen wird oderdadurch dass auf einen singulären Punkt gestoßen wird, etwa ein Verzweigungspunkt, in dem der Rangvon F ′(y) kleiner als n wird.

122

Page 123: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anders als bei der Davidenko-Gleichung, die eine Parametrisierung des Kreises nach xoder nach y verlangen würde, kann der Integrator in der Kurvenlänge t den Kreis be-liebig häufig umfahren. (Dass der Kreis durch t Bogenlängenparametrisierung erhält, wireinfach dadurch geregelt, dass der in der Differentialgleichung verwendet RichtungsvektorEinheitlänge bekommen hat. Dass bedeutet doch schicht nur, dass die Integralkurve mitGeschwindigkeit 1 durchlaufen wird.

−1 −0.5 0 0.5 1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

Abbildung 60: Ganzer - sauberer - Kreis

Man beachte, dass die letzte Abbildung mit hoher Integrationsgenauigkeit berechnet wurde.Senken wir diese ab (wie das die Optionen „Ops“ im Programm andeuten), verlassen wirdie Lösungskurve:

−1.5 −1 −0.5 0 0.5 1 1.5

−1

−0.5

0

0.5

1

Integrationwith lowintegrationqualityleads toleavingthe curve

Abbildung 61: Low quality integration

Das kann man - bei beibehaltener grober Integration - durch einen „Schuss Newton“ ver-hindern. Man addiert zum Tangentialeinheitsvektor, der in Richtung der Kurve zeigt, den-jenigen Vektor δ⊥ unter den Vektoren δ, die die Linearisierung

F (x0) + F ′(x0)δ = 0

lösen, der zum Tangentialvektor T (x0) senkrecht steht, der also das System

F ′(x0)δ⊥(x0) = −F (x0),

T (x0)T δ⊥(x0) = 0,

(213)

löst.

123

Page 124: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

function r e s = imp l i c i t 2 ( t , y , fun , alpha )% Annahme : Sei fun in C^2(R^n ,R^(n−1)) and Rang ( Jacobian ( fun )) = n−1% im ( konvexen und o f f enen ) Gebie t M in der Regu lar i tä t smenge R von fun .% Wenn es e in y∗ in M mit fun ( y∗)=0 g i b t , d e f i n i e r t fun ( y)= 0 eine Kurve% in M durch y ∗ .%% 1. Für a lpha =0 l i e f e r t das Programm da s s e l b e Ergebnis wie im p l i c i t .m

% Anwendungsbeispie l% func t i on res = c i r c l e ( y )% % de f i n e s un i t c i r c l e in R^2% res = y(1)^2+y (2)^2 −1;%% T=10; y0 =[1 ,0 ] ’ ; [ t , y ] = . . .% ode45 (@( t , y ) imp l i c i t 2 ( t , y , @circ le , 0 ) , [ 0 ,T] , y0 ) ;%% 2. I s t fun ( y0 ) \ne 0 and a lpha =0, so l i e f e r t% T=10; y0 =[2 ,0 ] ’ ; [ t , y ] = . . .% ode45 (@( t , y ) imp l i c i t 2 ( t , y , @circ le , 0 ) , [ 0 ,T] , y0 ) ;% wieder d i e Pa ra l l e l−Kurve fun ( y ) = fun ( y0 ) .%%3. I s t fun ( y0 ) \ne 0 aber a lpha >0, so e r h ä l t d i e I n t e g r a t i on% T=10; y0 =[2 ,0 ] ’ ; [ t , y ] = ode45 ( @impl ic i t2 , [ 0 ,T] , y0 , ’ ’ , @circ le , a lpha )% eine Newton−Ausrichtung auf d i e Kurve fun ( x)=0 hin , we lche mit% wachsendem alpha i n t e n s i v e r wird .%% Bemerkung : Um zu verhindern , dass numerische Feh ler dazu führen , d i e Kurve% zu ver l a s s en , i s t es empfohlen , s t e t s imp l i c i t 2 .m mit einem k l e i n en% pos i t i vem alpha zu verwenden .% Negat ive alpha−Werte s ind n i ch t s i nn vo l l , denn s i e t r e i b en den% In t e g r a t o r von der Kurve f o r t .% Zu groe po s i t v e alpha−Werte s ind auch kontraproduk t i v , we i l s i e d i e% D i f f e r e n t i a l g l e i c h u n g s t e i f machen .

[ J ,F ] = Jakob ( fun , y ) ;N=null ( J ) ;JJ=[J ;N ’ ] ;i f det ( JJ)<0

N=−N;endJJ=[J ;N ’ ] ;r e s = JJ\[− alpha ∗F ; 1 ] ;

% Anmerkung% res i s t e ine Über lagerung res = res1+abs ( a lpha )∗ res2 von% res1=N, das d i e Lösung von% JJ res1 = [ ze ros ( s i z e (F ) ) ; 1 ]% i s t , sowie von einem Newton−Typ−Sch r i t t , der " senkrech t zum% Tangen t i a l v e k to r N" zur Lösung smann i g f a l t i g k e i t von fun ( y)=0% zu r ü c k t r e i b t .%% JJ res2 = [−F; 0 ]%% Achtung res2 e r f ü l l t% J res2 = −F,% a l s o d i e L inear i s i e rung von fun ( y)=0 in y und% N’ res2 = 0 ,% welche Gleichung J zu e iner quadra t i s chen regu lä ren Matrix macht .% Die Gleichung N’ res2 =0 such t unter a l l e n Lösungen von% J res2 = −F d i e j e n i g e aus , d i e or thogona l zum Tangen tenvek tor f e l d% v e r l ä u f t .

124

Page 125: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Hier ist der Aufruf.x0 = [ 0 ; 2 ] ;opts=odeset ( ’ RelTol ’ ,1 e−2); %Reduce exac tne s s o f i n t e g r a t i o n

[ t , y]=ode45 (@( t , y ) imp l i c i t 2 ( t , y , @c i r c l e , 0 . 0 3 ) , [ 0 , 4 0∗ pi ] , x0 , opts ) ;

plot ( y ( : , 1 ) , y ( : , 2 ) ) ;axis equal ;

% Man beachte , dass der Kreis auch mir r e d u z i e r t e r% In t e g r a t i o n s g e n au i g k e i t n i ch t v e r l a s s en wird .

Anmerkungen 3.39 (Newton-Fluss zum Lösungsast)1. Analog zum Newton-Fluss (187) zur Lösung eines nichtlinearen Systems führt uns

die Lösung der Differentialgleichung

x′(t) = δ⊥(x(t)) (214)

mit δ⊥(x(t)) aus (213) „schnellstens“ zurück zum Lösungsast.In Abbildung 59 ist dies die rote Kurve.

2. Die lineare Abbildung von −F (x0) auf δ⊥(x0) kann auch mit der PseudoinversenF ′(x0)

† geschrieben werden als

δ⊥(x0) = −F ′(x0)†F (x0). (215)

3.3.3 Berechnung von Umkehrpunkten:

Im Abschnitt 3.2.4 über Homotopien hatten wir schon ausgeführt, dass man in der An-fangszeit der Behandlung parameterabhängiger Gleichungssysteme (200), also

F (x, λ) = 0, F : D × I −→ Rn, D ⊂ Rn (216)

einen Lösungsast durch sukzessive Vergrößerung von λ mit iterativer Anpassung des zuge-hörigen x-Vektors zu generieren versuchte (vgl. Abbildung 34).

Dort hatten wir auch schon darauf hingewiesen, dass diese Methode Probleme bekommt,wenn der Lösungsast in Bezug auf den Parameter λ bei einem Wert λ∗ seine Richtung wech-selt (vgl. Abbildung 35). Abgesehen davon, dass solche Umkehrpunkte für die Verfolgungdes Astes von Belang schienen136, war natürlich für das dem Modell zugrundeliegende Pro-blem sehr wichtig, dass das Modell voraussagte, dass bei Überschreiten des Parameters λ∗(sagen wir nach rechts) auch für das beschriebene Problem möglicherweise keine „Lösung“mehr existierte137. Weil sich ein solches ‘„Aufhören der Existenz“ z.B. in einer explosi-onsartigen Auflösung bestehen könnte138, ist der damals gebräuchliche Name „kritischerParameter“ für λ∗ relativ einleuchtend.

Um nun herauszubekommen, an welchen λ-Stellen das modellierte System kritisch würde,war es deshalb von großem Interesse, Algorithmen zu bestimmen, mit denen Umkehrpunkteeiner implizit definierten Kurve bestimmt werden konnten.

136Hier hatte man die Veränderung von λ auch umzukehren, wenn man dem Ast weiter folgen wollte.137Jedenfalls keine in der Nähe gelegene, in die das System ohne große - und vermutlich plötzliche -

Veränderung überwechslen könnte.138Man hat solche mathematischen Aufgaben damals u.a. im Zusammenhang mit der Beschreibung che-

mischer oder auch nuklearer Reaktoren verwendet.

125

Page 126: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Ende der siebziger Jahre und zu Anfang der 80er Jahre des letzten Jahrhunderts wurdehierfür sehr viele solcher Methoden vorgeschlagen. Diese kann man unterteilen in „ast-gebundene Methoden“ und in „direkte Methoden“.

Die „ast-gebundenen“ Methoden verwendeten eine lokale Parametrisierung des Astes

(x(t), λ(t)), t ∈ (a, b)

(wobei der Parameter t meist als eine der Komponenten von x gewählt wurde), und stelltenüber diese Funktionen Bedingungen an t auf, die den Umkehrpunkt charakterisierten.

λ′(t) = 0 (217)

ist eine solche Bedingung, und Methoden, den Punkt zu gewinnen, erwuchsen aus derAnwendung von Nullstellenverfahren auf das Problem λ′(t) = 0. Nach der Bestimmungeines Parameters t∗, bei dem λ′(t∗) = 0 war, ergab sich der Umkehrpunkt selbst als

(x∗, λ∗) := (x(t∗), λ(t∗)).

Da alle Verfahren zur eindimensionalen Nullstellenberechnung nur wirklich gut funktionie-ren, wenn die Ableitung der auf Null zu bringenden Funktion in der Nullstelle von Nullverschieden ist, forderte man, dass

λ′′(t∗) = 0 (218)sein möge, und nannte einen Umkehrpunkt, der (218) erfüllte, einen einfachen Umkehr-punkt. Neben ihrer Bedeutung für die numerische Berechnung einer Nullstelle von λ′(t)sichert sie zugleich auch, dass die Lösungskurve in (x∗, λ∗) auch wirklich umkehrt und nichtnur eine Tangente senkrecht zur λ-Richtung hat:

Beispiel 3.40Bei

Fa(x, λ) := λ− x3

ist t := x ein geeigneter Parameter um die Lösungskurve in der Nähe desPunktes (0, 0) gemäß

(x(t), λ(t) =:= (t, t3)

zu parametrisieren. t∗ := 0 erfüllt sicher (217). Aber (siehe Abbildung 62), dieKurve kehrt bezüglich λ nicht um.

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

λ

x

Umkehrpunkt−Aspirant

Abbildung 62: Ast kehrt in (0,0) nicht um

126

Page 127: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Fb(x, λ) := λ− x2

hat dagegen bei (0, 0) einen einfachen λ-Umkehrpunkt.

−1 −0.8 −0.6 −0.4 −0.2 0 0.2−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

λ

x

λ+x2 =0

Einfacher Umkehrpunkt

Abbildung 63: Einfacher Umkehrpunkt

Obwohl das „eindimensionale Rechnen auf einem parametrisierten Ast“ im Prinzip eineinfaches Konzept ist, hat es nicht ganz befriedigt, weil man bei seiner Anwendung diebenötigten Werte von (x(t), λ(t)) relativ genau berechnen muss.

Mit den direkten Methoden versuchte man deshalb, ein den Umkehrpunkt (x∗, λ∗) ∈R(n+1) selbst charakterisierendes Gleichungssystem aus n+1 Gleichungen aufzustellen, zudessen Lösung man sich nicht auf den Ast zurückziehen muss.

Dazu werden auf die eine oder andere Weise, die n Gleichungen in (216), die den Lösungs-ast festlegen um eine weitere Gleichung ergänzt, die eine charakteristische Qualität desUmkehrpunktes ausdrückt.

Eine der in der Geschichte der Bestimmung von Umkehrpunkten ersten solcher Gleichungen

detFx(x, λ) = 0 (219)

machte von der Information Gebrauch, dass im Umkehrpunkt die Fortsetzbarkeit des Astesin λ-Richtung scheitert, weil die Jacobimatrix bezüglich der Zustandsvariable x singulärwird. Wir demonstrieren das Zusammenwirken von (216) und (219) im folgenden

Beispiel 3.41Das Gleichungssystem (220) ist eine sehr grobe Diskretisierung des Bratupro-blemes (27) mit nur zwei Diskretisierungspunkten:

2x1 −x2 −λex1 = 0,−x1 +2x2 −λex2 = 0.

(220)

Die Projektion der Lösungsäste auf die (λ, x1)-Ebene ergibt die blauen Linienin der folgenden Abbildung 64.

127

Page 128: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50

1

2

3

4

5

62D−Bratu

λ

x

Mannigfaltigkeiten singulärer Jacobischer

Umkehrpunkt

Verzweigungspunkt

Abbildung 64: Umkehr- und Verzweigungspunkt

Die roten Linien sind die Schnitte der Lösungsmannigfaltigkeiten von

det

(2− λex1 −1−1 2− λex2

)= 0. (221)

mit der (x1 = x2)-Ebene . Tatsächlich sehen diese Flächen aus, wie in Abbildung65 dargestellt139

0

2

4

6 0 1 2 3 4 5 6

−1

0

1

2

3

4

5

Y

Vollständige Mannigfaltigkeiten singulärer Jacobischer

X

λ

Abbildung 65: Mannigfaltigkeitem singulärer Jacobischer

Diese Flächen schneiden den aus (0, 0, 0)T kommenden Lösungsast in

(x∗a, λ∗a) = ((1, 1), e−1) und (x∗b , λ

∗b) = ((3, 3), 3e−3).

Die Jacobimatrizen (Fx, Fλ) lauten in diesen Punkten

Ja =

(1 −1 −e−1 1 −e

)bzw. Jb =

(−1 −1 −e3−1 −1 −e3

).

139Achtung: Aus technischen Gründen weist hier die λ-Koordinate nach oben.

128

Page 129: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Bei beiden ist der Rang des x-Anteils Fx nur 1, die Determinante ist Null.Es ist aber Rang(Ja) immer noch zwei, so dass nach dem Satz über implizi-te Funktionen durch (x∗a, λ

∗a) = ((1, 1), e−1) ein eindimensionaler Lösungsast

verläuft.

Der Rang von Jb dagegen bleibt gleich 1, so dass der Satz über Implizite Funk-tionen hier keine eindeutige Fortsetzung garantiert. Tatsächlich ist (wie ja auchdie Abbildung 64 zeigt) der Punkt (x∗b , λ

∗b) = ((3, 3), 3e−3) ein Verzweigungs-

punkt, durch den (in diesem Fall) zwei Äste laufen140.

Bildet man die Gesamtjacobischen des um (219) erweiterten Systems(216),so ergeben sich in den beiden Punkten die erweiterten quadratischen Jacobi-Matrizen

Ja,plus =

1 −1 −e−1 1 −e−1 −1 −12e

bzw. Jb,plus =

−1 −1 −e3−1 −1 −e33 3 2e3

.

Die Tatsache, dass Ja,plus regulär ist, macht uns sicher, dass der Umkehrpunkt(x∗a, λ

∗a) durch Anwendung der Newton-Iteration direkt auf das System (216,

219) berechnen kann141.

Diese Beobachtung ist allgemein gültig. Ohne den Beweis anzutreten, halten wir hier fest:

Lemma 3.42Sei (x∗, λ∗) einfacher Umkehrpunkt der Lösungsgesamtheit von (216). Sei F in einer offenenUmgebung von (x∗, λ∗) zweimal stetig differenzierbar mit Lipschitz-stetiger zweiter Ablei-tung. Dann konvergiert das Newton-Verfahren in Anwendung auf das um (219) erweitertenichtlineare Gleichungssystem

F (x, λ) = 0,detFx(x, λ) = 0

(222)

lokal quadratische gegen den Umkehrpunkt.

Es gibt weitere Charakterisierungen der Singularität von Fx(x, λ), und entsprechend hat esauch weitere Methoden gegeben, Umkehrpunkte aufzuspüren. Unter die ast-gebundenenMethoden fällt z.B. die Beobachtung der Eigenwerte von Fx(x(t), λ(t)). Hier verratensich kritische Punkte durch einen Nulleigenwert. Diese Methode bietet sich dann an, wenndie Eigenwerte bei der Astverfolgung sowieso überwacht werden142.

Als Grundlage für eine direkte Iteration bietet sich das erweiterte System

F (x, λ) = 0,kleinster Eigenwert von(Fx(x, λ)) = 0

(223)

140Wie man diese mathematisch und ingenieurwissenschaftlich ebenfalls sehr interessanten Punkte be-stimmt, wird in diesem Skript nicht erläutert. Es sei aber darauf hingewiesen, dass Ihnen allen aus derMechanik ein solches Verzweigungsphänomen in Form des Problemes der „Eulerschen Knicklast“ schonbegegnet ist.

141Für die Berechnung von Verzweigungspunkten musste man sich etwas Raffinierteres einfallen lassen,dessen Darstellung den Umfang dieser Vorlesung zu groß machen würde.

142Das macht man zum Beispiel dann, wenn man wissen will, ob eine stationäre Lösung der Differential-gleichung x = F (x, λ), also eine Lösung von F (x, λ) = 0, stabil unter der durch diese Differentialgleichungbeschriebenen Zeitentwicklung ist.

129

Page 130: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

nicht an, da die Erweiterungsfunktion noch schwieriger abzuleiten ist als die Determinante.

Ziehlt man statt auf die Existenz eines Nulleigenwertes auf die eines Eigenvektor zu einemEigenwert Null, so ergibt sich das vielbenutzte System von Moore und Spence.

Lemma 3.43 (Moore-Spence-Erweiterung)Sei (x∗, λ∗) einfacher Umkehrpunkt der Lösungsgesamtheit von (216), sei Φ∗ der mit

einem geeigneten Vektor r ∈ Rn durch rTΦ∗ = 1 normierte Eigenvektor von Fx(x∗, λ∗)

zum Eigenwert Null. Dann hat das erweiterte quadratische nichtlineare Gleichungssystem

F (x, λ) = 0,Fx(x, λ)Φ = 0

rTΦ = 1(224)

in x,Φ ∈ Rn und λ ∈ R im Punkt (x∗, λ∗,Φ∗) eine reguläre Ableitungsmatrix, so dass dasNewtonverfahren zur Berechnung der Lösung mit lokal quadratischer Konvergenz herange-zogen werden kann, wenn F in einer Umgebung des gewünschten Punktes eine Lipschitz-stetige zweite Ableitung hat.

Anmerkungen 3.44Einen geeigneten Vektor r erhält man in der Nähe eine Umkehrpunktes z.B. als Differenzzweier aufeinanderfolgender x-Werte von Punkten auf dem Lösungsast, da der Tangential-vektor T (x∗, λ∗) ∈ Rn+1 an die Kurve im Umkehrpunkt eine λ-Komponente Null hat. Dadieser Vektor

(Fx(x∗, λ∗), Fλ(x

∗, λ∗))T = 0

erfüllt, ist der x-Anteil von T ein Eigenvektor von Fx(x∗, λ∗) zum Eigenwert Null.

Diese Überlegung führt direkt zur Verwendung des Einheitstangentenvektorfeldes von Seite118.

Indem wir wie dort die Komponenten x, λ zu einem Gesamtvektor (x, λ) =: y ∈ Rn+1

zusammenfassen, können wir (wieder ohne Beweis) schreiben.

Lemma 3.45 (Erweitertes System für einfache Umkehrpunkte)Sei (y∗) einfacher Umkehrpunkt der Lösungsgesamtheit von

F (y) = 0, F : Rn+1 −→ Rn

bezüglich der (n+1)-ten Komponente von y (vormals λ). Habe F in einer Umgebung vony∗ ein Lipschitzstetige zweite Ableitung. Dann ist

F (y) = 0,T (y)n+1 = 0

(225)

ein erweitertes System, dessen lokal eindeutige Lösung y∗ durch das Newton-Verfahren mitlokal quadratischer Konvergenz approximiert werden kann.

Die Beobachtung, dass T (y)n+1 = eTn+1T (y) geschrieben werden kann, führt leicht zurDefinition eines L-Umkehrpunktes für eine beliebigen von Null verschiedenen Vektor inRn+1. Wir werden einen Punkt y∗ dann einen L-Umkehrpunkt der Lösungsgesamtheitvon F (y) = 0 nennen, wenn in y∗ die „L-Komponente“ LTy(t) des Lösungsastes umkehrt.

130

Page 131: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beispiel 3.46So sind die roten Punkte des Kreises in Abbildung 3.49 L1-Umkehrpunkte für L1 :=

(11

)und die blauen L2-Umkehrpunkte für L2 :=

(01

).

−3 −2 −1 0 1 2 3−2.5

−2

−1.5

−1

−0.5

0

0.5

1

1.5

2

2.5

L1−Umkehrpunkte

T

L1

L2

L2

−Umkehrpunkt

Abbildung 66: L-Umkehrpunkte

Definition 3.47 (Einfacher L-Umkehr-Punkt)1. y∗ in der Regularitätsmenge von F ∈ C1(Rn+1,Rn) ist L-Umkehrpunkt zu L ∈

Rn+1 \ 0, wennF (y∗) = 0,

LTT (y∗) = 0(226)

mit dem Einheitstangentenvektorfeld T (y).

2. Für F ∈ C2(Rn+1,Rn) ist mit der Jacobimatix DT (y) von T (y) das Vektorfeld

C(y) := DT (y)T (y)

das sogenannte Krümmungsvektorfeld.

3. Ein L-Umkehrpunkt y∗ heißt einfacher L-Umkehrpunkt, wenn

LTC(y∗) = 0.

Anmerkungen 3.48Für eine Trajektorie zum Einheitstangentenvektorfeld T (y) ist C(y) das, was in der Dif-ferentialgeometrie „Hauptnormalenvektor“ oder „Krümmungsvektor“ einer Kurve genanntwird.

Lemma 3.49 ( Berechnung von Umkehrpunkten)Sei y∗ ein einfacher L-Umkehrpunkt einer Funktion F ∈ C2,1(Rn+1,Rn). Dann ist dieJacobimatrix von

F (y) = 0,LTT (y) = 0

in y∗ regulär, so dass das Newton-Verfahren lokal quadratisch gegen y∗ konvergiert.

131

Page 132: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beispiel 3.50Als Beispiel rechnen wir die oben definierten Größen aus, die bei der Berech-nung der L-Umkehrpunkte (L = (1, 1)T ) des Einheitskreises

F (x, y) = x2 + y2 − 1

auftreten, dabei wählen wir für den Urbildbereich nicht die Kooerdinate y1 undy2 sondern (x, y).

Es ist

1. F ′(x, y) = (2x, 2y) und daher

2. T (x, y) = 1√x2+y2

(−yx

).

3. Die Jacobimatrix hiervon ist DT (x, y) = (x2 + y2)−3/2

(xy −x2y2 −xy

)4. C(x, y) = DT (x, y)T (x, y) = − 1

(x2+y2)

(xy

)5. LT (x, y) = (x− y)(x2 + y2)−1/2

6. Das erweiterte System x2 + y2 − 1 = 0,(x− y)(x2 + y2)−1/2 = 0

7. Die Newton-Gleichung für den Schrittvektor N(x, y):(2x 2y

xy + y2 −(x2 + xy)

)N(x, y) = −

(x2 + y2 − 1

(x− y)(x2 + y2)

)Zur Veranschaulichung zeigt die nächste Abbildung 67 Trajektoren des Newton-Flusses (

x′(t)y′(t)

)= N(x, y).

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5

−1

−0.5

0

0.5

1

1.5

2

2.5

Newton−Fluss in die (1,1)−Umkehrpunkte des Einheitskreises

Abbildung 67: Newton-Fluss in (1,1)-Umkehrpunkte

132

Page 133: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.3.4 Berandete lineare Systeme

Bei der Behandlung parameterabhängiger Probleme treten als Linearisierungen typischer-weise sogenannte berandete lineare Gleichungssysteme auf. Dies sind Gleichungssteme derForm (

A bcT d

)(xy

)=

(fg

), (227)

wobei A ∈ Rn×n regulär ist, b, c, f ∈ Rn und d und g ∈ R gegeben und x ∈ Rn sowie y ∈ Rzu berechnen sind.Obwohl man berandete Matrizen auch in anderen Zusammenhängen nützlich findet143, istihr Auftreten bei parameterabhängigen Problemen besonders natürlich.

Wir waren ja davon ausgegangen, dass

F (x, λ) = 0, F : Rn × R −→ R

für das Studium der Parameterabhängigkeit eines ursprünglich parameterfreien Systems

F (x) = 0, F : Rn −→ R

entstanden war144.Wenn die Lösung x0 dazu mit einem Newton-Verfahren berechnet wurde, so war dieJacobimatrix A := F ′(x0) sicher regulär. Für einen Newton-Schritte musste ein n × n-Gleichungssystem

Ax = b

gelöst werden. In echten Anwendungsproblemen145 haben Jacobimatrizen fast immer spe-zielle Strukturen, die man bei der Lösung ausnutzt146. Daher kann man annehmen, dassman einen gut ausgearbeiteten Löser für Ax = b hergestellt hat, wenn man sich an dasStudium der Parameterabhängigkeit macht. Die Anwendung dieses Lösers schreiben wirabkürzend als Multiplikation mit A−1. Schon in der Linearen Algebra I wurde darauf hin-gewiesen, dass inverse Matrizen tatsächlich nur ganz selten wirklich berechnet werden, unddass das Auftreten von A−1 in einer Formel meistens zu lesen sei als: „Hier wird ein linearesGleichungssystem mit der Systemmatrix A gelöst.“ So auch hier.Die Regularität von A = F ′(x0) = Fx(x0, λ0) gewährleistete über den Satz für impliziteFunktionen die Fortsetzbarkeit der Lösung x(λ0) = x0 in λ-Richtung. Für die Fortset-zung wurde die Tangente T benötigt, und um diese zu erhalten, brauchte man die ganzeAbleitung von F (x, λ).

(Fx(x0, λ0), Fλ(x0, λ0))T = 0.

Dies ist mit b := Fλ(x0, λ0) die erste Block-Zeile des berandeten Systems (227). Indemman Tn+1 gleich 1 setzt147, wird das System zu

Fx(x0, λ0)Tx = −Fλ(x0, λ0)

und man kann den vorhandenen effizienten Löser A−1 direkt einsetzen.Wenn man sich auf der Tangente ein Stück weit bewegt hat, gilt es zum Lösungsast zurück-zukommen. Nun tritt zum durch die Variable λ „nach rechts ergänzten System“ F (x, λ) = 0

143Vgl. rekursive LDLT-Zerlegung etc.144Genauer war der Parameter λ = λ0 hierin noch fest und daher nicht auszeichnungswürdig gewesen.145Etwa aus den Ingenieurwissenschaften146Wir werden unten einige typische Fälle ansprechen.147Was man entfernt von einem λ-Umkehrpunkt tun kann, da der Tangentenvektor einen nicht verschwin-

denden λ-Anteil hat.

133

Page 134: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

eine weitere Gleichung hinzu (vgl. 207) und (208 ), deren Linearisierung die erste Zeile von(227) zum ganzen neuen quadratischen System ergänzt.

Um dieses zu lösen, wenden wir den Löser A−1 auf die erste Gleichung an mit dem Resultat

x = −A−1by + A−1f.

Um es noch einmal ganz deutlich zu sagen, wird hier nicht die Inverse von A mit b und fmalgenommen. Vielmehr werden gelöst die Gleichungssysteme

Av = b und Aw = f,

so dass wir nun auch schreibenx = −vy + w. (228)

Hiermit gehen wir in die zweite Zeile des Systems (227) und erhalten

−cTvy + cTw + dy = g

Dies ist eine skalare Gleichung

(d− cTv)y = g − cTw

für y. Diese ist genau dann eindeutig lösbar148, wenn

d− cTv = 0.

Dann isty = (g − cTw)/(d− cTv),

und man findet, indem man dies y in (228) einsetzt, schließlich auch den x-Anteil. Derganze Rechenweg wird gern als Keller’s Algorithmus bezeichnet.

Algorithmus 3.51 (Block-Elimination nach Keller )

Löst (227) für reguläres A.

Löse

Av = b,

Aw = f ;

setze y := (g − cTw)/ (d− cTv)︸ ︷︷ ︸1D Schur-Komplement

erhalte x := w − vy.

Wesentlicher Aufwand: Lösung der beiden linearen Systeme.

Die obige Blockstruktur ist auch bei den erweiterten Systemen (222), (223), (224), (225),(226) für die Berechnung der Umkehrpunkte zu beobachten, und auch bei der Berechnungkomplizierterer besonderer Punkte149 treten geeignete Erweiterungsgleichungen hinzu, wo-bei hierbei der Vektor b zu einer Matrix mit mehreren Spalten werden kann und cT und

148Und damit ist das ganze System genau dann eindeutig lösbar.149wie etwa der schon erwähnten Verzweigungspunkte

134

Page 135: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

d dafür entsprechend viele Zeilen bekommen. Allerdings tritt hier als Zusatzschwierigkeithinzu, dass A nicht regulär bleibt. Wir können auf diese Probleme hier leider nicht einge-hen.

Tatsächlich tritt eine Berandung mit größeren Matrizen bei beibehaltener Regularität aberbei vielen weiteren Gelegenheiten in der numerischen Mathematik auf. Man spricht dannmeisten nicht mehr von berandeten Matrizen sondern von Blockmatrizen. Die Vorgehens-weise ist im Prinzip dabei genau so wie bei berandeten Systemen.

3.3.5 Block-System

Berandete Matrizen sind Spezialfälle sogenannter Blockmatrizen. Solche Systeme, beidenen die Block-Matrizen gewissermaßen als Matrizen von Matrizen auftreten, werdenin der Literatur oft auch als Hyper- oder Supermatrizen bezeichnet. Ihre einfachsteErscheinungsform ist die der 2× 2-Blockmatrizen:

Ax = b⇔(A11 A12

A21 A22

)(x1x2

)=

(b1b2

)(229)

mit A ∈ Rn×n, A11 ∈ Rm×m,m < n; A12, A21, A22 passend und x1, b1 ∈ Rm, x2, b2 ∈Rn−m.

Als Spezialfall hiervon wird man von einem berandetem System sprechen, wenn n−m imVergleich zu m klein ist.

Genau wie mit normalen (2×2)-Systemen läßt sich hier eine blockweise Gauss-Eliminationdurchführen. Der Bedingung A11 = 0 für die Durchführbarkeit eines ersten Eliminations-schrittes entspricht hier in natürlicher Weise die Bedingung det(A11) = 0. Ist diese erfüllt,so liefert die Gleichung I von

Ax = b ⇐⇒

I. A11x1 + A12x2 = b1

II. A21x1 + A22x2 = b2(230)

die Darstellungx1 = A−1

11 b1 − A−111 A12x2.

Geht man hiermit in II, so ergibt sich für die Restvariablen in x2 das System

S11x2 := (A22 − A21A−111 A12)x2 = b2 − A21A

−111 b1.

Definition 3.52 (Schur-Komplement)Zum Block-System (230) mit regulärer Untermatrix A11 heißt

S11 := (A22 − A21A−111 A12) (231)

das Schur-Komplement von A11 in A (zur einer ersten Theorie des Schur-Komplementessiehe bei Bedarf : [COTTLE 74]).

Nach dieser Block-Elimination löst man das System nun über

S11x2 = b2 − A21A−111 b1, (S11 := A22 − A21A

−111 A12)

A11x1 = b1 − A12x2.

135

Page 136: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

auf. Dabei ist A−111 natürlich nur wieder eine „Papier-Inverse“. Man löst wieder lineare

Gleichungssysteme, statt dass man wirklich die Inverse bildet.

Tatsächlich kann man (4.3) — wie im skalaren Fall — auch als das Auflösen einer Block-Dreieckszerlegten Version (

I 0A21A

−111 I

)(A11 A12

0 S11

)x = b

des Systems (4.1) interpretieren. Die Struktur dieser Zerlegung entspricht mit den „Einsen“in der Diagonale der linken Matrix gerade der üblichen „skalaren LR-Zerlegung.“

Nun gibt es über diese „übliche Zerlegung“ hinaus im „skalaren Fall“ ja noch andere ver-wandte Zerlegungen wie z.B. für den S(PD)-Fall) die Cholesky- und LDLT -Zerlegung.Während diese verschiedenen Zerlegungen im „Skalar-Fall“ keine dramatischen Unterschie-de bieten, ist die Art der Aufspaltung für geblockte Matrizen nicht ganz so unerheblich,da abhängig von der speziellen Wahl die eine oder die andere Teilmatrix zerlegt, mit eineranderen multipliziert oder gar invertiert werden muss.Die Literatur hierzu ist groß. Viele Hinweise findet man in der Monografie von Duff, Eris-mann und Reid, [DER].

3.4 Newton-Verfahren für nicht quadratische Systeme

Genau wie bei linearen Gleichungssystemen kommen in der Praxis nicht nur quadratischeGleichungssysteme vor, also Systeme mit genau so vielen Gleichungen wie Unbekannten.Abweichungen sind in beiden Richtungen möglich. Sowohl unter- als auch überbestimmtenichtlineare Systeme treten in den Anwendungen auf.

3.4.1 Lösungsmannigfaltigkeiten

Bei unterbestimmten SystemenF (y) = 0

mit F ∈ C1(Rn,Rm) und m < n ist die Lösungsgesamtheit L := F−1(0) im Normalfalleine nichtlineare Mannigfaltigkeit der lokalen Dimension n−m.Den Fall n −m = 1 haben wir oben schon behandelt. Der Schnitt von F−1(0) mit derRegularitätsmenge

R := x ∈ Rn | rang (F ′(x)) = m = maximal (232)

war bei n−m = 1 homeomorph zum Intervall (0, 1) gewesen oder zum Einheitskreis in derEbene und als Lösungstrajektorie der Differentialgleichungen (212) zum Tangenteinheits-vektorfeld berechenbar.

Das ist bei n−m > 1 alles nicht mehr so einfach, da die lineare TangentialmannigfaltigkeitMx0 in einem Lösungspunkt x0 ∈ L eben auch n−m dimensional ist.Mit einem orthonormalen Tangentensystem T0 ∈ Rn,n−m, dass z.B. durch Gram-Schmidt-Orthonormalisierung aus einem Lösungssatz von

F ′(x0)T = 0

gewonnen werden kann, lässt sich Mx0 dann wie folgt schreiben:

Mx0 =x ∈ Rn | x = x0 + T0r, r ∈ Rn−m

.

136

Page 137: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Punkte von L kann man nahe x0 ∈ L nun wieder berechnen, indem man von Startpunktenin y0 ∈Mx0 ausgehend entweder durch Pseudoinvers-Newtonschritte

yn+1 = yn − F ′(yn)†F (yn), n = 1, 2, 3, ... (233)

auf die Mannigfaltigkeit zurückstößt150, oder dies - wie in (214) kontinuierlich ausführt.

Wenn die Berechnung der Pseudoinversen in (233) zu aufwendig erscheint, kann man beiStartwerten in Mx0 nahe bei x0 den Newtonschritt auch einfach orthogonal zum Tangen-tensystem T0 ausführen

yn+1 = yn +∆(yn).

Dabei löst ∆(yn) das Gleichungssystem

F ′(yn)∆(yn) = −F (yn),T T0 ∆(yn) = 0.

Anmerkungen 3.53 (Begleitende glatte Tangentialbasis)Innerhalb der Regularitätsmenge hatten wir im Falle n−m = 1 zu einer Ck-SystemfunktionF (x) ein glattes Tangentialvektorfeld T (x) definiert, welche Ck−1 von x abhing.

Für den Fall n −m > 1 haben wir ein solches Vektorfeld bislang nicht brauchen können,da wir ja nicht eine ganze Fläche durch einen Differentialgleichungslöser „abfahren“ lassenkönnen.

Es gibt aber analog zum Satz 3.49 über die Berechnung von L-Umkehrpunkten einer einesLösungsastes auch Aufgaben der Berechnung von Umkehrpunkten von Lösungsflächen151.Für ein zu Satz 3.49 analoges Ergebnis benötigt man dann eine Ck−1 TangentensystemT (x) aus n−m Tangentialvektoren.

Ist T 0 = T (x0) das orthonormale Tangentensystem bei x0, so gewinnt man eine Ck−1-Fortsetzung in eine Umgebung von x0 durch die beiden Schritte

1. T (x) = [I − F ′(x0)T(F ′(x)F ′(x0)

T)−1

F ′(x)]T 0

2. Bestimme T (x) aus T (x) durch Gram-Schmidt-Orthonormalisiereung.

3.4.2 Gauß-Newton-Iterationen

Nun haben wir noch überbestimmte Systeme zu betrachten:

0 = F (x) =

f1(x1, . . . , xn)...

fm(x1, . . . , xn)

(234)

mit F ∈ C1(Rn,Rm) und m > n.

Solche Probleme treten in den Anwendungen relativ häufig auf, wenn die zu lösendenGleichungen einen Zusammenhang zwischen Größen aus Messwerten erschließen sollen.In diesem Fall geht man davon aus, dass die Messungen mit Fehlern behaftet sind undführt deshalb - um nicht einer Fehlmessung zu viel Einfluss zu geben - wesentlich mehrMessungn durch als für eine Bestimmung der Daten unbedingt nötig sein würden.

150Wobei alle Techniken zur professionellen Ausführung des Newton-Schrittes bedacht werden sollten,wie etwa die Dämpfung des Schrittes.

151Ohne hier genauer darauf eingehen zu können, merken wir an, dass Verzweigungepunkte von eindimen-sionalemn Lösungsästen im einfachsten Fall interpretiertwerden können als Umkehrpunkte von zugehörigenLösungsflächen. Vgl. Gegebenenfalls [GrR] und [MH]

137

Page 138: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beispiel 3.54 (Ausgleichskreis)Zur Festlegung der Daten m1,m2, r einer Kreisgleichung

(ξ −m1)2 + (η −m2)

2 = r2

in der (ξ, η)-Ebene genügt - wie man weiß - die Kenntnis dreier verschiedener Punkte aufdem Kreis. Wenn man sich aber auf drei Punkte verlässt, kann es durch leichte Variationder Daten bei unglücklicher Lage zu starken Veränderungen des Kreises kommen.

−4 −3 −2 −1 0 1 2 3 4 5−4

−3

−2

−1

0

1

2

3

4

Abbildung 68: Fehlereinfluss bei Kreisberechnung

Bei vielen Anwendungen wird man deshalb mehrfach messen, um aus diesen Daten diewirklichen Werte zu erschließen.

Bei der zementfreien Einpassung der Pfanne einer Hüftgelenk-Endoprothese muss die Pfan-ne äußerst passgenau sitzen. Man muss daher die Ausfräsung dafür entsprechend genaukennen. Da es im Knochenmaterial beim Ausfräsen zu unerwarteten Deformationen kom-men kann, arbeitet man daran, durch Messungen nach diesem Arbeitsgang die geeignetePfannengröße schnell bestimmen zu können.

Abbildung 69: Kuenstliches Hüftgelenk, Wikimedia

Misst man m > 3 Punkte(ξi, ηi), i = 1, . . . ,m

eines Kreises, so ergibt das nichtlineare Gleichungssystem (234) in der Form

fi(x) = (ξi − x(1))2 + (ηi − x(2))2 − x(3)2, i = 1, . . . ,m (235)

Die Jacobimatrix J(x) geben wir zur späteren Verwendung auch gleich an:

J(x) =

2(x(1)− ξ1) 2(x(2)− η1) −2x(3)2(x(1)− ξ2) 2(x(2)− η2) −2x(3)

......

2(x(1)− ξm) 2(x(2)− ηm) −2x(3)

.

138

Page 139: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Es ist klar, dass wir die m Funktionen fi(x1, . . . , xn), i = 1, . . . ,m in n < m Variableni.a. nicht gleichzeitig annullieren können. Wie im Falle des linearen Ausgleichs werden wirsie aber „so null wie möglich“ machen wollen, und das heißt, dass wir wie im quadratischenFall (m = n) eine Testfunktion T (A, x) := ∥AF (x)∥22 wie in (194) minimieren wollen. BeimVersuch der Lösung eines quadratischen Gleichungssystems gehört die Wahl der regulärenmetrischen Matrix A zum Aufgabenbereich des numerischen Lösers.

Hier stellen wir uns auf den Standpunkt, dass das Ersetzen des nichtlinearen Gleichungs-systems (234) durch das nichtlineare Ausgleichsproblem

Φ(x) = ∥F (x)∥22 = min! (236)

eine Angelegenheit des Aufgabenstellers ist. Er hat zu entscheiden, welchen Einfluss dieeinzelnen Gleichungen fi(x) = 0 haben sollen, so dass F (x) in (236) gegebenenfalls schonein Skalierungs-A enthält. Wir werden daher im kommenden Algorithmus eine möglicheSkalierung von F durch den Algorithmus außer Acht lassen.

Wenn wir nun das Minimumproblem

Φ(x) := F (x)TF (x) = min!

lösen wollen, und Differenzierbarkeit von F annehmen, finden wir (lokale) Minima offenbarunter den stationären Punkte von Φ, die

∇Φ(x) = F ′(x)TF (x) = 0 (237)

erfüllen. Wenn die Hessesche, also die zweite Ableitung ∇2Φ(x) von Φ existiert, Lipschitz-stetig von x abhängt und im stationären Punkt x∗ regulär ist, wird das Newton-Verfahren

xk+1 = xk −(∇2Φ(xk)

)−1F ′(xk)TF (xk) (238)

lokal quadratisch gegeben x∗ konvergieren. All unsere Ergebnisse über das Newton-Verfahrenund seine Globalisierung könnten wir hier nun anwenden.Tatsächlich macht man das sehr selten, denn die Hessesche

∇2Φ(x) = F ′(x)TF ′(x) +m∑i=1

fi(x)∇2fi(x)

ist nur mit viel Aufwand zu bestimmen. Insbesondere sind die zweiten Ableitungen∇2fi(x), i =1, . . . ,m relativ arbeitsauwändig und bei einer numerischen Approximation zugleich feh-leranfällig.

In der Praxis ersetzt man den Newton-Schritt (238) durch den einfacheren sogenanntenGauss-Newton Schritt

xk+1 = xk −(F ′(xk)TF ′(xk)

)−1F ′(xk)TF (xk). (239)

Die Bedingung der Regularität von F ′(xast) wir hier ersetzt durch die Forderung der linea-ren Unabhängigkeit der Spalten von F ′(x∗). Dann ist die Matrix

(F ′(xk)TF ′(xk)

)für xk

hinreichend nahe bei x∗ invertierbar und der Schritt ausführbar.

Weil in (239) verglichen mit (238) nur den Term mit zweiten Ableitungen in ∇2Φ(xk)fortgelassen hat, kann man dieses Vorgehen als genähertes Newton-Verfahren interpre-tieren. Dies gilt insbesondere wenn im stationären Wert x∗ der Funktionsvektor F (x∗)verschwindet. Denn dann sind die Iterationen in x∗ gleich, und man rechnet außerdem fürdie Verfahrensfunktion

Ψ(x) = x−(F ′(x)TF ′(x)

)−1F ′(x)TF (x)

139

Page 140: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

leicht nach, dassΨ′(x∗) = 0

ist, so dass das Verfahren nach dem Zusatz 3.20 Nr. 2 zum Satz von Ostrowski lokalquadratisch konvergiert.Für kleine ∥F (x∗)∥-Werte kann man ebenso mit dem Satz von Ostrowski 3.19 die lokallineare Konvergenz erschließen.

Aufgabe 3.55Tun Sie’s!

Der Name Gauss-Newton-Verfahren für die Iteration (239) resultiert daraus, dass derSchritt

δk = −(F ′(xk)TF ′(xk)

)−1F ′(xk)TF (xk)

auch verstehbar ist als Lösung des linearen „Gauss’schen“ Ausgleichslösung

∥F (xk) + F ′(xk)δ∥2 = min

der „Newton’schen“ Linearisierung

0 = F (xk + δ) ≈ F (xk) + F ′(xk)δ.

Das Gegenstück des lokalen Konvergenzsatzes 3.29 für das Newton-Verfahren ist hier

Satz 3.56 (Konvergenzverhalten von Gauss-Newton)Sei F ∈ C1,1(M,Rm) mit einer konvexen offenen Menge M ⊂ Rn mit m > n. Es sei L dieLipschitzkonstante von F ′(x) in M , so dass

∥F ′(x)− F ′(y)∥ ≤ L∥x− y∥ für x, y ∈M.

Sei x∗ ∈M ein stationärer Punkt von

Φ(x) := F (x)TF (x),

so dass F ′(x∗)TF (x∗) = 0 ist. Seien weiter die Spalten von F ′(x∗) linear unabhängig, sodass die Gauss-Newton-Iteration nahe x∗ ausführbar ist.Dann gibt es ein δ > 0 und eine Konstante K > 0 so dass für ∥xk − x∗∥ ≤ δ

xk+1 = xk −(F ′(xk)TF ′(xk)

)−1F ′(xk)TF (xk)

ausführbar ist und die Abschätzung

∥xk+1 − x∗∥ ≤ K(∥xk − x∗∥2 + ∥F (x∗)∥ · ∥xk − x∗∥

)gilt.

Beweis: Sei δ > 0 so klein, dass F ′(xk)TF ′(xk) für ∥xk − x∗∥ < δ stets regulär ist. Dannfindet man

xk+1 − x∗ = xk − x∗ − (F ′(xk)TF ′(xk))−1F ′(xk)TF (xk)= (F ′(xk)TF ′(xk))−1F ′(xk)T

(F ′(xk)(xk − x∗)− F (xk)

)= (F ′(xk)TF ′(xk))−1F ′(xk)T

[ (F ′(xk)(xk − x∗)− F (xk) + F (x∗

)︸ ︷︷ ︸A(xk)

−F (x∗)]

= (F ′(xk)TF ′(xk))−1F ′(xk)TT (xk)− (F ′(xk)TF ′(xk))−1(F ′(xk)− F ′(x∗))F (x∗).

140

Page 141: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Da wir im Beweis der quadratischen Konvergenz des Newton-Verfahrens nachgewiesenhatten, dass

∥A(xk)∥ ≤ L

2∥c+ xk − x∗∥2,

und da außerdem∥F ′(xk)− F ′(x∗∥ ≤ L∥xk − x∗∥

ist. müssen wir nur noch die Koeffizienten dieser beiden Terme im letzten Ergebnis sam-meln, um zu dem gewünschten Ergebnis zu kommen. 2

Lemma 3.57 (Abstieg von Φ(x) in Gauss-Newton-Richtung)Unter den Voraussetzungen des letzten Satzes ist

δk = −(F ′(xk)TF ′(xk)

)−1F ′(xk)TF (xk)

Abstiegsrichtung für Φ in einem nichtstationären xk; denn es ist

d

dtΦ(xk + tδk)|t=0 = −2∥F ′(xk)δk∥22 < 0 (240)

Beweis: Es ist

d

dtΦ(xk + tδk)|t=0 = 2(F ′(xk)δk)TF (xk) = 2(δk)T

[F ′(xk)TF (xk)

]. (241)

Weil δk die Normalgleichungen

F ′(xk)TF ′(xk)δk = −F ′(xk)TF (xk)

erfüllt, kann man [F ′(xk)TF (xk)] ganz rechts in (241) ersetzen durch

[F ′(xk)TF (xk)] = −F ′(xk)TF ′(xk)δk,

was gerade (240) ergibt. 2

Die Ergebnis zeigt, dass für das Gauss-Newton-Verfahren eine Armijo-Typ-Dämpfung mög-lich ist, wenn man Φ(x) als Testfunktion benutzt. Das macht auch deshalb besonders vielSinn, weil man ja tatsächlich den Wert von Φ(·) reduzieren will.

Natürlich kann mit der Gauss-Newton-Richtung auch ein Gauss-Newton-Fluss definiertwerden

x′(t) = −(F ′(x)TF ′(x)

)−1F ′(x)TF (x). (242)

Wenn Rechenzeit kein Problem ist, ist dies sicher eine der bequemsten Dämpfungsansätze.

Beispiel 3.58 (Fortsetzung von Beispiel 3.54)Wir zeigen hier die Anwendung des Gauss-Newton-Flusses zur Berechnung eines Ausgangs-kreises.

% Testprogramm zur Berechnung e ine s Au s g l e i c h s k r e i s e s% mit H i l f e der Lösung e ine s Gauss−Newton−Flus se s

% 1. Te i l Eingabe e ine s Kre ises durch d r e i Punkte% a l s o r i e n t i e r u n g s h i l f e b e i der Anschlieenden Eingabe von Testdaten

141

Page 142: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

axis ( [−4 ,4 ,−4 ,4 ])axis equalhold onz=ginput (3 )x=z ( : , 1 ) ; y=z ( : , 2 ) ;A=[x(2)−x (1 ) , y(2)−y ( 1 ) ; x(3)−x (1 ) , y(3)−y ( 1 ) ] ;b=[x(2)^2−x (1)^2 + y(2)^2−y (1 )^2 ; x(3)^2−x (1)^2 + y(3)^2−y ( 1 )^2 ] / 2 ;m=A\b ;r=sqrt ( ( x(1)−m(1))^2+(y(1)−m(2 ) )^2 ) ;%p l o t ( x , y , ’ or ’ ) ;phi=linspace (0 ,2∗pi , 1 0 1 ) ;xx=m(1)+ r ∗cos ( phi ) ; yy=m(2)+ r ∗ sin ( phi ) ;plot ( xx , yy , ’b ’ )

% 2. Nutzung des Kreises , um 20 Daten in s e in e r Nähe% einzugebenz=ginput (20)x=z ( : , 1 ) ; y=z ( : , 2 ) ;f igureaxis ( [−4 ,4 ,−4 ,4 ])axis equalhold on% er s t e s P lo t t en der Datenplot (x , y , ’ or ’ )% Eingabe des Anfangskre i se sa0 = input ( ’ [mx,my, r r ] e ingeben : ’ )% a0=[−2 ,−2 ,1] ’;

xxt=a0(1)+a0 (3)∗ cos ( phi ) ; yyt=a0(2)+a0 (3)∗ sin ( phi ) ;plot ( xxt , yyt , ’b ’ )pause

% 3. Gauss−Newton−Fluss zum bes t en Ausg l e i ch

[ t , a]= ode45 (@( t , a ) reduce ( t , a , x , y ) , [ 0 , 1 0 ] , a0 ) ;M=length ( t ) ;for j =1:3 :Mxxn=a ( j ,1)+a ( j , 3 )∗ cos ( phi ) ; yyn=a ( j ,2)+a ( j , 3 )∗ sin ( phi ) ;plot ( xxn , yyn , ’ k ’ )end

%Übermalen der Daten .

plot (x , y , ’ or ’ , ’ MarkerFaceColor ’ , ’ g ’ )plot ( xxn , yyn , ’ r ’ , ’ LineWidth ’ ,2 )

function [ F , J ] = k r e i s ( a , x , y ) ;

n = length ( x ) ;for k=1:n

F(k ) = (x (k)−a (1))^2+(y (k)−a(2))^2−a (3 )^2 ;J (k , 1 : 3 ) =[2∗( a(1)−x (k ) ) , 2∗( a(2)−y (k ) ) , −2∗a ( 3 ) ] ;

endF=F ’ ;

function erg = reduce ( t , a , x , y ) ;[F , J]= k r e i s ( a , x , y ) ;erg = −J\F ;

Hinweis zur function „reduce“: Man beachte, dass das Statement für die Be-rechnung des Gauss-Newton-Flusses sich von dem für den Newton-Fluss nicht

142

Page 143: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

unterscheidet. Der Backslash-Operator berechnet im Fall eines regulären Glei-chungssystems die Lösung, im Falle der Überbestimmtheit die Augleichsappro-ximation.

Nachdem in einer ersten Phase 20 Daten für eine Kreis eingegeben werden können, wirdein Startkreis gewählt.

−5 0 5−4

−3

−2

−1

0

1

2

3

4

Abbildung 70: Daten und Startkreis

Hiernach wird die Gauss-Newton-Fluss-Gleichung von 0 bis 10 integriert. Jeder dritte Kreisder Fluss-Diekretisierung wird geplottet. Der letzte Kreis ist rot gehalten.

−5 0 5−4

−3

−2

−1

0

1

2

3

4Ausgleichskreisberechnung mit Gauss−Newton−Fluss

Abbildung 71: Fluss zum Ausgleichskreis

Anmerkungen 3.59Man kann (236) mit einer Matrixfunktion Q(·) ∈ R(m,m), deren Werte Q(x) orthogonalsind, also Q(x)TQ(x) = I erfüllen, äquivalent schreiben als

Φ(x) = ∥Q(x)F (x)∥22 = min!

Wendet man hierauf den Gauss-Newton-Zugang an, so ergibt sich ein vom Gauss-Newton-Schritt abweichender Wert, wenn Q(x) nicht konstant ist. Man kann darauf Methoden zurKonvergenzverbesserung aufbauen, cf. [FC].

143

Page 144: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.5 Differenzen Newton-Verfahren.

Wir haben weiter oben schon Annäherungen an das Newton-Verfahren kennengelernt, diebesser ausführbar waren und - unter geeigneten Voraussetzungen - immer noch konver-gierten, wie z.B. das vereinfachte Newton-Verfahren (126). Dort wählte man anstelle derJacobimatrix am aktuellen Iterationspunkt die Jacobimatrix am ersten Iterationspunkt.Dies ist aber nur eine Weise, wie man sich einen Ersatz für die Jacobimatrix beschaffenkann. Die Literatur ist voll von Methoden Ersatzmatrizen zu generieren, die den aktuellenJacobimatrizen nahe genug kommen, um lokale Konvergenz zu gewährleisten. Man könntemit ihnen sicher mehrere Bücher füllen152. Wir gehen in diesem Abschnitt auf Näherungenvon Jacobimatrizen mit Hilfe von numerischen Differentiationsverfahren ein.

3.5.1 Differenzen-Approximation von Ableitungen

Gerade bei großen nichtlinearen Gleichungssysteme und insbesondere bei echten Anwen-dungsaufgaben, bei denen die Komponenten nicht - wie z.B. bei unserem akademischenBratu-Problem (63) - alle mit derselben einfach zu differenzierenden Funktion gebildetwerden, kann man es sich oft kaum leisten, die Ableitungen alle „per Hand“ zu bildenund zu programmieren. In solchen Fällen wird man - sofern damit Erfahrungen vorliegen- zum Mittel der automatische Differentiation greifen153 oder man wird Ableitungen pernumerischer Differentiation approximativ bestimmen.

Differenzenapproximationen machen den Limesprozess

f ′(x) = limh→0

f(x+ h)− f(x)h

gewissermaßen rückgängig, indem sie

f ′(x) ≈ f(x+ h)− f(x)h

mit geeignetem von Null verschiedenem h-Wert nähern.Theoretisch wird diese Approximation um so besser werden, je kleiner h gewählt wird.Praktisch ist dies durchaus nicht der Fall.

Wenn man z.B. die Ableitung von f(x) = sin(x) bei x0 = 1 über

f ′(x0) ≈f(x+ h)− f(x)

h

berechnen will, und h < 10−16 verwendet, so wird man auf den meisten Rechner als Ap-proximationswert stets den Wert Null bekommen.

Da die Rechner Zahlen mit geringfügig mehr als 16 Dezimalziffern darstellen154, merktx0 = 1 gar nichts von der Addition von Zahlen kleiner als 1e − 16. Tatsächlich ist dieGrenze auf den meistemn gebräuchlichen Rechnern etwas höher. Unter MATLAB kannman sie einfach durch Aufruf der Variable EPS erfragen. Mein Rechner antwortet dannzum Beispiel mit

ans = 2.220446049250313e− 016(

das ist die Umrechnung von 252).

152In vielen der noch folgenden Abschnitte wird hierauf noch eingegangen werden, insbesondere sei aufAbschnitt 6 hingewiesen.

153Es gibt hierfür inzwischen frei herunterladbare Programme154Diese komische Aussage liegt daran, dass Rechner tatsächlich meist Dualdarstellungen benutzen, die

auf Dezimaldarstellung umgerechnet keine glatte Zehnerpotenz ergeben.

144

Page 145: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wählt man h kleiner als diesen Wert, löscht der Rundungsfehler jede Information aus.Wählt man h dagegen sehr groß, so wird die berechnete Sekantensteigung meistens auchnicht viel mit der Ableitung zu tun haben.Es ist deshalb zu erwarten, dass es einen Zahlenbereich geben sollte, in dem man die sinn-vollsten Näherungen bekommt. Im nächsten Abschnitt machen wir uns an eine Schätzungdieses zu bevorzugenden Bereiches.

3.5.2 Wahl der Differenzenschrittweite

Um zu einer ersten Idee für die Schrittweitenwahl für

f ′(x0) ≈f(x0 + h)− f(x0)

h(243)

zu kommen, führen wir erst einmal eine Testrechnung durch.

−20 −18 −16 −14 −12 −10 −8 −6 −4 −2 0−8

−7

−6

−5

−4

−3

−2

−1

0

1

2

Error in numerical differentiation of exp(x) at x0= π

log10

(h)

log 10

(Err

or)

Abbildung 72: Beobachteter Fehler bei einseitiger Approximation der ersten Ableitung

In Abbildung 72 sehen wir in einem doppellogarithmischen Plot die beobachteten numeri-schen Werte, die sich ergeben, wenn wir den sogenannten Diskretisierungs- oder Abbruch-fehler155

Ab(h) ≈ f(x0 + h)− f(x0)h

− f ′(x0)

für f(x) = exp(x), x0 = π und die Schrittfolge h = 10−20, 10−19, ..., 10−1 auf einem Rechnermit ca. 16 Mantissenstellen berechnen. Für relativ große h-Werte, sieht man den Fehlerglatt fallen. Nachdem h aber einen kritischen Wert H ≈ 10−8 ≈ √eps unterschritten hat,wächst der Fehler an, um erwartungsgemäß am Ende bei 100% Fehler zu stagnieren.

Können wir das Verhalten erklären und aus unseren Erkenntnissen eine Regel für die Wahleines geeigneten h-Wertes herleiten?

Zunächst überlegen wir uns, was uns die Analysis über den Fehler sagen kann. Wenn wir dieTaylorentwicklung mit Cauchyschem Fehlerterm heranziehen, um f(x+ h) nach Potenzenvon h zu entwickeln, ergibt sich mit

f(x0 + h) = f(x0) + f ′(x0)h+ f ′′(ζ) · h2

2!für ein ζ ∈ (x0, x0 + h)

155Abbruch bezieht sich hier „Abbruch“ der Limesbildung f ′(x0) = limh→0f(x0+h)−f(x0)

h bei einem vonNull verschiedenen h-Wert.

145

Page 146: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

die folgende theoretische Aussage

Ab(h) =(f(x0) + f ′(x0)h+ f ′′(ζ) · h

2

2!− f(x0)

)/h− f ′(x0) =

f ′′(ζ)

2h. (244)

Diesen Abbruchfehler machen wir dadurch, dass wir den Differentialquotienten durch einenDifferenzenquotienten ersetzen. Die Formel (244) sagt, dass der Fehler mit h wie h1 fallensollte. Da eine h-Potenz erster Ordnung das theoretische Fehlerverhalten beschreibt156,nennt man das Verfahren der einseitigen einfachen Differenzenapproximation ein Nähe-rungsverfahren erster Ordnung. Fügt man den Graphen von h −→ f ′′(x0)

2h in die letzte

Abbildung ein, so ergibt sich die Abbildung 73.

−20 −15 −10 −5 0−20

−15

−10

−5

0

5Practical (blue) and theoretical (green) differencing error

Abbildung 73: Theoretischer Abbruchfehler und beobachteter Fehler

Wie man sieht, entspricht der beobachtete Fehler für größere h-Werte genau dem theore-tischen Abbruchfehler, so dass sich die Frage stellt, was die tatsächlich berechneten Wertedazu bringt, von diesem Pfad der Tugend abzuweichen.

Die Lösung ist im sogenannten „Rundungsfehler“ zu finden, der dazu führt, dass die in dieBerechnung des Differenzenquotienten eingehenden Werte für f(x0) und f(x0+h) von denkorrekten Werten leicht abweichen.

Tatsächlich berechnen wir ja nur Näherungen für diese Werte, die wir in der Form f(x0)(1+δ1) und f(x0 + h)(1 + δ2) schreiben können, wobei δ1 und δ2 die relativen Fehler sind, diebei der Berechnung auf der Maschine entstehen. Für die elementaren Operation und fürdie in den Programmiersprachen direkt zur Verfügung gestellten Funktionen wird heutezugesichert, dass die verwendeten Werte diejenigen der auf dem Rechner vorhandenenZahlen sind, die den wahren Werten am nächsten sind. Hierdurch können wir annehmen,dass

|δi| ≤ eps,

wobei eps - wie oben erklärt - die Maschinengenauigkeit ist. Mit dem Abbruchfehler Ab(h)aus (244) und dem Rundungsfehler

|Rund(h)| :=∣∣∣∣f(x0 + h)δ1 − f(x0)δ2

h

∣∣∣∣haben wir also zusammen

Beobachtung(h) =f(x0 + h)(1 + δ1)− f(x0)(1 + δ2)

h− f ′(x0) = Ab(h) + Rund(h).

156Wie wir sehen werden, gibt es Formeln, bei denen höhere Potenzen auftreten.

146

Page 147: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Für kleine h-Werte ist f(x0 + h) ≈ f(x0), und somit können wir den Rundungsfehlerbeschränken durch

|Rund(h)| :=∣∣∣∣f(x0 + h)δ1 − f(x0)δ2

h

∣∣∣∣ . 2 · |f(x0)| ·epsh

(245)

Murphy’s Gesetz157 sagt, dass diese obere Schranke als schlechtest möglicher Fall regelhafteintritt, und wenn wir die rechte Seite von (245) zu dem linearen theoretischen Fehleraddieren, ergibt sich tatsächlich158 das in Abbildung 74 zu beobachtende Verhalten.

−20 −15 −10 −5 0−20

−15

−10

−5

0

5

10Errors in differencing: Theoretical (green), rounding(red), true (blue)

Abbildung 74: Abbruch-, Rundungs- und Gesamtfehler der einsitigen Differenzenapproxi-mation

Diese Beobachtung ermöglicht es „einen besten h-Wert“ zu schätzen. Das Minimum desGesamtfehlers wird etwa dort angenommen, wo beide Fehler gleich groß sind. Aus

2 · |f(x0)| ·epsh≈ Rund(h) = Ab(h) =

|f ′′(ζ)|2

h.

erhalten wir somit

hopt ≈ 2

√|f((x0)||f ′′(x0)|

· √eps. (246)

Wenn man die erste Ableitung einer Funktion f bestimmen will, ist selten davon auszuge-hen, dass man die Größenordnung von |f ′′(x0)| kennt159. Man vernachlässigt daher meistden Vorfaktor von √eps und wählt

hwahl := max1, |x0| ·√

eps. (247)

Der Teil |x0| im Vorfaktor max1, |x0| trägt (bei großem |x0|) der Tatsache Rechnung,dass ein großer Argumentwert, sagen wir 1020 sich durch eine Variation um √eps ≈ 10−8

kaum beeindrucken lassen wird. Die Größe hwahl ist so gewählt, dass x0 etwa in der Mitteseiner Mantissenstellen gestört wird.Falls x0 = 0 ist, ist dies natürlich nicht möglich. Daher wird mit dem Wert 1 in derMaximumbildung, um den Wert Null herum ein Bereich festgelegt, in dem hwahl absolutgleich √eps gewählt wird. Die Größe dieses Intervalles [−1, 1] um Null ist willkürlich.

157Vgl. http://de.wikipedia.org/wiki/Murphys_Gesetz158Bis auf eine leichte Überschätzung des Rundungsfehlers159Ist das doch der Fall, so wird man h entsprechend vergrößern, wenn |f ′′(x0)| sehr klein ist. Ist f z.B.

fast linear, so wird man mit großen Schrittweiten schon eine gute theoretische Approximation bekommen,während bei solch großen Schrittweiten der Rundungsfehler noch kaum spürbar ausfällt.

147

Page 148: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

3.5.3 Ergänzungen zu Ableitungsapproximationen der ersten Ableitung

Feinstruktur Das in Abbildung 74 wiedergegebene Verhalten ist tatsächlich nur appro-ximativ. Wenn man die Schrittweiten feiner variiert findet man Schrittweiten, die sowohlnach oben als auch nach unten von diesem Verhalten abweichen (vgl. Abbildung 77).

10−20

10−15

10−10

10−5

100

10−12

10−10

10−8

10−6

10−4

10−2

100

Fehlerverhalten bei kleineren Schrittweiten

Abbildung 75: Feiner

Bei einem noch feineren Blick, sieht man in diesem Bild erstaunliche Strukturen, die aufRegelmäßigkeiten bei der Fehlerauslöschung durch die Rechnerarithmetik schließen lassen.

10−9

10−8

10−7

10−9

10−8

Feinstruktur

Abbildung 76: Feinstruktur Blow up

Man wird dies aber kaum numerisch nutzen können.

Will man daher eine Ableitungs- oder Jacobi-Matrix einer Funktion

f : Rn −→ Rm

in MATLAB approximieren, so kann das Programm dazu etwa wie folgt aussehen:

148

Page 149: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

function [ J ,F ] = jacobi_v ( fun , x )% Approximiert d i e Jakob imatr ix der auf fun übergebenen% Funktion an der S t e l l e x% Da dafür der Funkt ionswert an der S t e l l e x berechne t werden muss , wird% er e b e n f a l l s zurückgegeben ; d i e s i s t a r b e i t s s pa r end z .B. b e i% Newton−I t e r a t i on en% Die Dimensionen von Urb i l d und Bi ld ergeben s i c h aus den Eingabevek tor x% und Funkt ionswert fun ( x )n=length ( x ) ;ee = sqrt (eps ) ;F = fun (x ) ;m=length (F ) ;for k=1:n

va r i = max(1 ,abs ( x (k ) ) )∗ ee ;savex = x(k ) ;x (k ) = x(k)+va r i ;J ( 1 :m, k)= ( feval ( fun , x)−F)/ va r i ;x ( k)=savex ;

end

Verbesserung 1 Meist kann man das Ergebnis einer Differenzenapproximation nochetwas verbessern, wenn man bei der Differenzenbildung

xp := x+ h;D =f(xp)− f(x)

h

statt durch h durch die Differenz xp − x teilt. Diese Differenz muss nämlich (wieder ausGründen der Rundung) nicht gleich h sein. In der nächsten Abbildung ist das Resukltatzu sehen

10−15

10−10

10−5

100

10−9

10−8

10−7

10−6

10−5

10−4

10−3

10−2

10−1

100

Ableitung von sin(x) bei p=8.147236863931790

ξ(k)=p+h(k)

(sin(ξ(k))−sin(p))/(ξ(k)−p)

(sin(ξ(k))−sin(p))/h(k)

Abbildung 77: Zusätzlicher Effekt

Das Programm für die Jacobi-Matrix sollte deshalb besser wie folgt aussehen:function [ J ,F ] = j a c ob i ( fun , x )% Approximiert d i e Jakob imatr ix der auf fun übergebenen% Funktion an der S t e l l e x

149

Page 150: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

% Da dafür der Funkt ionswert an der S t e l l e x berechne t werden muss , wird% er e b e n f a l l s zurückgegeben ; d i e s i s t a r b e i t s s pa r end z .B. b e i% Newton−I t e r a t i on en% Die Dimensionen von Urb i l d und Bi ld ergeben s i c h aus den Eingabevek tor x% und Funkt ionswert fun ( x )n=length ( x ) ;ee = sqrt (eps ) ;F = fun (x ) ;m=length (F ) ;for k=1:n

va r i = max(1 ,abs ( x (k ) ) )∗ ee ;savex = x(k ) ;x (k ) = x(k)+va r i ;J ( 1 :m, k)= ( feval ( fun , x)−F)/( x (k)−savex ) ;x (k)=savex ;

end

Verbesserung 2 Zu einer sicheren Verbesserung der Ergebnisse kommt man, indem manein Formel höherer Ordnung anwendet. Für die zentrierte Differenzenformel

Z(f, x, h) =f(x+ h)− f(x− h)

2h(248)

mit

f ′(x) ≈ Z(f, x, h)− f (3)(x)

6h2 +O(h4) (249)

überzeugt man sich von der Fehlerordnung h2 wieder einfach durch Taylorentwicklung.

Die Formel

f ′(x) ≈ 8 ∗ (f(x+ h)− f(x− h))− (f(x+ 2h)− f(x− 2h))

12h+O(h4) (250)

entsteht entweder durch Taylorentwicklung der eingehenden Funktionswerte bei x undGewinn der Koeffizienten durch Abgleich der Koeffizienten vor den h-Potenzen, oder durchDifferentiation der Lagrange-Interpolation der Daten oder durch Richardson-Extrapola-tion160 von Z(f, x, h):

Z2(f, h) =4Z(f, h)− Z(f, 2h)

3

Die Koeffizienten 4/3 und −1/3 werden dabei so gewählt, dass ihre Summe 1 ist und derführende h2-Fehlertem weggehoben wird.

Dadurch, dass die Ordnung höher wird, erreicht der theoretische Abbruchfehler schon fürgrößere h-Werte kleine Fehlerwerte, so dass der Einfluss des Rundungsfehlers161 verkleinertwird. Dies sieht man deutlich in der Abbildung 78.

160Siehe auch Abschnitt 384.161der bei der Formeln höherer Ordnung nur um einen Faktor um 1.5 angehoben wird

150

Page 151: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

10−16

10−14

10−12

10−10

10−8

10−6

10−4

10−2

100

10−14

10−12

10−10

10−8

10−6

10−4

10−2

100

Approximation der ersten Ableitungen mit verschiedenen Fehlerordnungen

Verf. 1. Ordnung

Verfahren 2. Ordnung

Verfahren 4. Ordnung

Abbildung 78: Verschiedene Approximationsordnungen

Die Bereiche günstiger h-Größen lassen sich auch hier leicht aus

Ab(h) = Rund(h)

schätzen. Für die Differenz zweiter Ordnung Z(f, x, h) ergibt sich aus

C1h2 =

C2epsh

.

dasshopt ≈ 3

√eps ≈ 10−5

sein sollte, während wir für die Formel vierter Ordnung aus

C1h4 =

C2epsh

als Schrittweite der Wahlhopt ≈ 5

√eps ≈ 10−3

ausrechnen.Man sieht, dass man für die besten Ergebnisse erstaunlich große Differenzenschrittweitenwählen muss. Dieser Effekt wird noch verstärkt, wenn man Ableitungen höherer Ordnungapproximiert. Für eine Ableitung n-ter Ordnung muss man nämlich bei Differenzenap-proximationen immer durch die n-te Potenz von h teilen. Dadurch wird der Grad derWurzel, die man aus eps ziehen muss noch größer. Um die vierte Wurzel von f mit derDifferenzenformel zweiter Ordnung

f (iv)(x) =f(x− 2h)− 4f(x− h) + 6f(x)− 4f(x+ h) + f(x+ 2h)

h4+O(h2)

zu nähern sollte man (vgl. Abbildung 79 links)

hopt ≈ 6√

eps ≈ 0.0025

wählen.

151

Page 152: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

10−5

10−4

10−3

10−2

10−1

100

10−8

10−6

10−4

10−2

100

102

104

Approximationsfehler für die vierte Ableitung

0.00410

−2010

−1510

−1010

−510

010

−10

100

1010

1020

1030

1040

1050

Differenzenapproximation für die vierte Ableitung

Abbildung 79: Approximation der vierten Ableitung

Dass es gerade bei Differenzenapproximation von Ableitungen höherer Ordnung extremwichtig ist, keine zu kleinen Schrittweiten zu wählen, zeigt die Skizze in Abbildung 79rechts. Wegen der hohen negative h-Potenz bleibt der Rundungsfehler nicht bei 100%stehen. Die Rundungsfehler werden groß noch bevor h die Grenze der Maschinengenauigkeiterreicht hat.

Abschlussbemerkung Der Verbrauch von vier Funktionswerten bei der Approximationder Fehlerordnung vier für die erste Ableitung könnte die Frage aufkommen lassen, ob mannicht den höheren Aufwand in eine Verminderung der Fehlerempfindlichkeit der Formelstecken könnte statt in die Approximationsordnung. Man könnte beispielsweise für dievier Funktionswerte eine Ausgleichsgerade bestimmen und deren Ableitung als Näherungwählen.Tatsächlich zeigte sich aber in Versuchsrechnungen, dass die so entstehende Formel

f ′(x) ≈ 2(f(x+ 2h)− f(x− 2h)) + (f(x+ h)− f(x− h))10h

der Formel vierter Ordnung stets unterlegen war.

3.5.4 Strukturen in der Jacobimatrix

Spaltenweise Approximation der Jacobi-Matrix: Wir haben oben in den letztenProgramm-Listen schon gezeigt, wie die numerische Differentiation zur Gewinnung vonNäherungen von Jacobi-Matrizen von Funktionen

F :

Rn −→ Rm

x 7−→ F (x)

verwendet werden kann.Man wendet dazu die obigen Differenzenformeln für die genäherte Ableitung nach deneinzelnen Komponenten xi, i = 1, . . . , n des Urbildvektors x an und passt die Differen-zenschrittweiten der jeweilige Größe der gerade betrachteten Komponente an. Dabei kannman alle Bildkomponenten von F (x) auf einmal abrufen. Man kann daher sagen, dass dieApproximation der Jacobi-Matrix (mindestens) so teuer ist wie n Auswertungen von F .

152

Page 153: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Elementweise Bildung der Jacobimatrix Wenn die Komponenten Fk(x) der Funk-tion einzeln aufgerufen werden können, so können alle Einträge

Jki :=∂Fk

∂xi

individuell durch Differenzenquotienten genähert werden. Hat die Jacobi-Matrix nur we-nige Eintragungen, die von Null verschieden sind162, so kann man dadurch eine MengeRechenzeit sparen.

Ausnutzen bestimmter Strukturen Wenn die Jacobi-Matrix eine vorab bekannteDünnbesetztheitsstruktur hat, kann man diese manchmal ausnutzen, auch wenn man dieFunktion F (x) nur als vollen Funktionsvektor auswerten kann.

Ganz klar ist das, wenn die Jacobimatrix z.B. eine (n, n)-Diagonalmatrix ist. Denn danngilt mit e := (1, 1, 1, . . . , 1)T für die Richtungsableituing von f in Richtung e die Beziehung

F (x+ he)− F (x)h

=(F ′(x)he+O(h2))

h=

∂F1

∂x1(x)

∂F2

∂x2(x)...

∂Fn

∂xn(x)

+O(h).

Hier kann man also mit einem Gruppendifferenzenschritt alle Diagonalelemente approxi-mieren, wobei man nicht mehr Rechenzeit aufgebracht hat als man für die individuelleBerechnung jedes Diagonalelementes hätte investieren müssen.Mit Ärger muss man allerdings rechnen, wenn die Komponenten des Urbildvektors x sehrunterschiedeliche Größen haben; denn dann müsste man eigentlich für jedes x-Komponenteeine andere Schrittweite wählen. Man kann dies hier noch tun, indem man diese Variationder Größenordnung in den Vektor e steckt.Einfacher wäre die Angelegenheit, wenn alle Komponenten von x gleich Größenordnungenhätten.Die Herstellung gleichmäßiger Größen der x als auch der F -Komponenten ist ein Ziel dersogenannten „Vorskalierung“ nichtlinearer Systeme. Dies ist eine schwierige und delikateAngelegenheit, und wir drücken uns deshalb163 vor ihrer Diskussion, indem wir hier for-dern, dass das System schon gut vorskaliert sei.

Fast so einfach wie bei einer diagonalen Jacobi-Matrix ist es, wenn die Jacobi-matrix zusätzlich nur eine oder wenige Spalten hat, die von Null verschiedensind.

162Und eine solche Dünnbesetztheit oder - englisch - „Sparseness“ tritt tatsächlich sehr sehr häufig auf163Wie die meisten Lehrbücher.

153

Page 154: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 10 20 30 40

0

5

10

15

20

25

30

35

40

nz = 157

Diagonalmatrix mit drei von Null verschiedenen Spalten

Abbildung 80: SpaltengestörteDiagonalmatrix

In diesem Fall berechnet man zuerst die störenden Spalten und berechnet danach aus

D :=F (x+ he)− F (x)

h=

(F ′(x)he+O(h2))

h== F ′(x)e+O(h)

die Diagonalelemente, die noch nicht in einer der Spalten standen. Bei der Matrix ausAbbildung 80, deren zehnte, zwanzigste und fünfundzwanzigste Spalte nicht verschwindethat, ergibt sich zum Beispiel mit der ersten Komponente des Differenzenvektors D

D1 =∂F1

∂x1(x) +

∂F1

∂x10(x) +

∂F1

∂x20(x) +

∂F1

∂x25(x) +O(h)

ohne weiteres eine O(h)-Näherung von ∂F1

∂x1(x) durch

∂F1

∂x1(x) ≈ D1 −

∂F1

∂x10(x) +

∂F1

∂x20(x) +

∂F1

∂x25(x).

weil die anderen Elemente ja schon bekannt sind.

Fast so einfach wie bei Diagonalmatrizen ist das Vorgehen bei tridiagonalen Jacobi-Matrizen.

0 5 10 15 20

0

5

10

15

20

nz = 64

Tridiagonalmatrix

Abbildung 81: Tridiagonalmatrix

154

Page 155: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Hier bildet man die drei Richtungsableitungen nach den Vektoren

v1 :=

10010010...

, v2 :=

01001001...

und v3 :=

00100100...

.

Die Richtungsableitungen (F (x+hvi)−F (x))/h nach v1, .., v3 ergeben (bis auf O(h)) dann

bei v1 die Summen der 1.,4.,7., 10., ... Spalten von F ′(x),

bei v2 die Summen der 2.,5.,8., 11., ... Spalten von F ′(x),

bei v3 die Summen der 3.,6.,9., 12., ... Spalten von F ′(x).

Da die Komponenten der Spaltensummen in jeder Komponente nur ein Element der Jaco-bimatrix enthalten, brauchen wir diese nur noch aus den drei Ergebnisvektoren abzulesen.

Curtis, Powell und Reid [CPR] haben schon 1974 eine Verallgemeinerung dieser Strategiefür allgemeine dünnbesetzte Matrizen beschrieben. Sie teilen die Spalten von F ′(x) inGruppen ein. Die erste Gruppe bilden sie, indem sie zur ersten Spalte eine j1-te Spaltehinzutun, deren Nichtnullelemente in Zeilen stehen, die nicht schon in der ersten SpalteNichtnullelemente enthielten. Diese Gruppe baut man aus durch Hinzunahme weiterenj2-ten Spalte deren Nichtnullelemente nicht in Zeilen stehen, in denen die ersten beidenSpalten schon Nichtnullelemente hatten, usw. bis nach Aufnahme von k Spalten keineweiter solche Spalte mehr existiert.

Dann bildet man die Richtungsableitung von F nach v := e1 +∑k

p=1 ejp und erhält die

Jacobieinträge der Spalten mit den Nummern 1, j1, . . . , jk.

Die nächste Gruppe bildet man, indem man genau so weiter verfährt mit den Spalten, dienoch nicht berücksichtigt wurden.

Diese Methode ist in den 70er und 80er Jahren starkt ausgebaut worden. Einen relativneuen Überblick findet man in [GMP].

4 Direkte Lösung „großer linearer Systeme“

Bei Newton-Typ-Verfahren zur Lösung großer nichtlinearer Gleichungssysteme wird dasnichtlineare System in jedem Iterationsschritt vermittels Linearisierung durch ein lineares- natürlich ebenfalls großes - Gleichungssystem genähert, welches gelöst werden muss. Dieskann entweder durch ein direktes Verfahren geschehen, das (im Prinzip wie das Verfahrender Gauss-Elimination) die Gleichungen164in endlich vielen Rechenschritten löst. Als Al-ternativen stehen iterative Verfahren bereit, die je nach eingesetzter Arbeit unterschiedlichgute Näherungen für die Lösungen bereitstellen.

164abgesehen einmal von Rundungsfehlern

155

Page 156: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Da ein großer Teil der Gesamtarbeit in die (näherungsweise) Lösung der auftretenden linea-ren Systeme geht, macht es Sinn, viel Erfindungsgeist in diesen Aufgabenteil zu investieren.

Wir können hier nur wenige Grundgedanken anreißen und ansonsten auf die Literatur undauf Spezialvorlesungen verweisen.

Man findet heute öfter die Bemerkung, dass für große Systeme nur iterative Verfahren inFrage kämen. Dies sei insbesondere für dünnbesetzte Systeme (englisch „sparse systems“)der Fall.

Dies ist - so undifferenziert verkündet - einfach Unsinn. Gerade wenn man lineare Glei-chungssysteme innerhalb eines Newton-ähnlichen Verfahrens lösen will, ist es nützlich zuwissen, dass der Lösungsprozess nach einer vorher bekannten Prozesslänge beendet ist, wasman bei iterativen Verfahren durchaus nicht immer sagen kann. Außerdem sollte beim Lö-sen auch klärbar sein, ob die Systemmatrix überhaupt regulär ist, was ebenfalls für direkteVerfahren vom Eliminationstyp relativ gut zu kontrollieren ist.

Deshalb sind seit den 70er Jahren des letzten Jahrhunderts direkte Verfahren immer weiterverbessert worden. Bei Interesse hierfür halte man sich etwas an die Monographien [BEA],[Dav], [DER], [GL], [Meu], [YS].

Grundlage aller direkter Verfahren ist die Gaußelimination. Die folgende Version aus einemSkript von 1992

Algorithmus 4.1 (Gauss’scher Eliminations-Algorithmus)C GAUSS-ALGORITHMUS

C

. SUBROUTINE GAUSS (A,B,X,NMAX,N)

.

C Löst AX=B. Das rufende Programm stellt bereit A(NMAX,NMAX) für A,

C und B(N), X(N) für B und X.

C N ist die aktuelle Dimension des zu bearbeitenden Problems

C

. DIMENSION A(NMAX,N), B(N), X(N)

C

C ELIMINATIONSPHASE

C

. DO 200 I=1,N-1

. DO 200 K=I+1,N

. FAC = A(K,I)/A(I,I)

. DO 100 J=I+1,N

100 A(K,J) = A(K,J) - FAC* A(I,J)

200 B(K) = B(K) - FAC* B(I)

C

C

156

Page 157: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

C AUFLOESUNGSPHASE (RUECKWAERTSEINSETZEN)

C

. X(N) = B(N)/ A(N,N)

. DO 400 I=N-1,1,-1

. X(I) = B(I)

. DO 300 J=I+1,N

300 X(I) = X(I) - A(I,J)* X(J)

400 X(I) = X(I)/A(I,I)

C

. RETURN

. END

hat gerade 14 Zeilen echten Code.

Heute verwendete direkte Löser sind sehr viel komplexer, weil sie auf spezielle Struktu-ren des jeweils behandelten Systems Rücksicht nehmen und damit genauere Lösungen inkürzeren Rechenzeiten ermöglichen.

Hinter dem einfachen Backslash-Befehl x=A\ b der in MATLAB das System Ax = b löst,stecken Zehntausende von Code-Zeilen.

Ein „einfach gehaltener Demonstrationscode“ für sogenannte dünnbesetzte Matrizen in[Dav] hat (siehe dort das Vorwort auf Seite xi) ca 2200 Befehlszeilen.

Dünnbesetzte Matrizen sind dabei Matrizen, bei denen nur sehr wenige Elemente vonNull verschieden sind. Unter „sehr wenige“ stelle man sich wirklich sehr wenige vor. Oftschreibt man, eine Matrix sei dünnbesetzt, wenn in einer (n, n)-Matrix O(n) Elementevon Null verschieden sind. Da Landau-Symbole nur Sinn machen, wenn n variert, mussman hier wohl mit den Matrizen stets Klassen oder Familien von Matrizen verbinden, dieRealisierungen für unendlich viele Dimensionen haben. Eine solche Matrix-Familie wärenz.B. die „Verfeinerungen“ der diskreten Laplacegleichung (50) bei der in jeder Gleichungimmer nur maximal fünf Elemente von Null verschieden sind. Wählt man das Gitter sehrfein, so ist die Anzahl der Nicht-Null-Elemente schnell unter 1 Promille gefallen.

Wenn nur so wenige Elemente von Null verschieden sind, wird man versuchen, nur nochdiese zu speichern. Speichermethoden gibt es unzählige, und fast jede einzelne ist mitbestimmten Zugriffs- und Verarbeitungstechniken verbunden. Mehr darüber erfährt manin [Dav] oder zum Beispiel auch in [Pis].

In MATLAB erscheinen dünnbesetzte Matrizen als Listen von Indexpaaren (i, j) zu nicht-verschwindenden Matrixeinträgen aij zusammen mit diesen Werten.

Die Matrix

B =

5 2 0 0 0 −12 4 0 3 0 00 0 3 0 0 −20 3 0 4 0 30 0 0 0 7 1−1 0 −2 3 1 20

157

Page 158: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

wird im Sparse-Mode von MATLAB z.B. so dargestellt:

(1, 1) 5, (4, 4) 4,(2, 1) 2, (6, 4) 3,(6, 1) −1, (5, 5) 7,(1, 2) 2, (6, 5) 1,(2, 2) 4, (1, 6) −1,(4, 2) 3, (3, 6) −2,(3, 3) 3, (4, 6) 3,(6, 3) −2, (5, 6) 1,(2, 4) 3, (6, 6) 20.

Es ist klar, dass man bei dünnbesetzten Matrizen damit viel Speicher sparen kann165. Es istaber auch ebenso einleuchtend, dass Eliminations- und Zerlegungsalgorithmen mit dieserSpeicherung nicht einfach zu handhaben sind, da während des Ablaufes dieser Prozesseneue von Null verschiedene Elemente erzeugt werden können.

Eine Klasse dünnbesetzter Matrizen, die bei der Speicherung auch während Eliminations-phasen keine Probleme verursacht, sind Bandmatrizen:

Definition 4.2 (Band-Matrix)Eine Matrix A = (aij)

ni,j=1 hat Bandgestalt oder Bandstruktur, wenn es natürliche

Zahlen p, q(<< n) gibt, mit denen

aij = 0 für

j > i+ q

i > j + p(251)

ist. Genauer nennt man dann A eine (p, q)–Bandmatrix166.

Eine (p, q)–Bandmatrix wird man i.a. nicht in einem n×n–Array speichern. Besser ist dieSpeicherung der einzelnen „Bänder“

vr(i) ∼ a(i+ r, i),

i = 1, . . . , n− r, r = 0, . . . , p,

i = −r + 1, . . . , n, r = −1, . . . ,−q(252)

der Matrix.

Es ist unmittelbar einsichtig, dass die Gausselimination (und damit auch die LR-Zerlegung)einer Bandmatrix in diesem Bandspeicher durchführbar ist, wenn keine Pivotisierung vor-genommen wird.

Lemma 4.3A ∈ Rn×n sei LR–zerlegbar ohne Pivotisierung. Ist A eine (p, q)–Bandmatrix, so gelten

L ist eine (p, 0)–Bandmatrix,und

R ist eine (0, q)–Bandmatrix.

165Sie haben Recht. Bei der eben angegebenen Matrix spart man nichts, wenn man die auftretendenZahlen zählt. Hier benötigt man für die Matrix-Form 36 Zahlenspeicher und für die sprase Form 54.Nun ist dies aber weder eine große noch dünnbesetzt Matrix, und außerdem werden die Indizes auch alsInteger-Zahlen gespeichert, was deutlich wenige Platz braucht.

158

Page 159: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis: Durch Induktion nach n.

Sei alles bewiesen bis n− 1. Strukturiere dann die (p, q)-Band-Matrix A ∈ Rn×n gemäß

A =

(α wT

v B

)mit α ∈ R, v, w ∈ Rn−1.

Dann hat manA =

(1 0v/α In−1

)(1 00 B − vwT/α

)(α wT

0 In−1

). (253)

Da in v nur die ersten p− 1 und in w nur die ersten q − 1 Elemente von Null verschiedensind, sind im dyadischen Produkt vwT nur die Matrixelemente von Null verschieden diegleichzeitig in den ersten p − 1 Zeilen und den ersten q − 1 Spalten stehen. Damit störtvwT/α in

B := B − vwTα

die (p, q)–Bandstruktur von B nicht, und B ist eine ((n− 1)× (n− 1)) (p, q)–Bandmatrixaus R(n−1)×(n−1). Nach Voraussetzung der LR-Zerlegbarkeit von A hat auch B eine LR-Zerlegung167

B = L1R1, (254)

und nach Induktionsvoraussetzung ist L1 eine (p, 0)–Bandmatrix, sowie R1 eine (0, q)–Bandmatrix.

Setzt man die Zerlegung (254) für B in (253) ein, so erhält man

A = LR =

(1 0v/α L1

)(α wT

0 R1

),

und man erkennt unschwer die gewünschte Bandstruktur dieser L– und R–Matrizen.

q.e.d

Eine kleine Bandbreite einer Matrix macht sich bei der direkten Lösung sofort bezahlt168.

Allerdings müssen Matrizen keinesfalls Bandgestalt haben, wenn man das erste Mal mitihnen konfrontiert wird.

Vermutlich sieht man es der Matrix

A :=

4 0 0 0 0 0 10 4 0 0 0 1 00 0 4 0 1 0 10 0 0 4 1 1 00 0 1 1 4 0 00 1 0 1 0 4 01 0 1 0 0 0 4

167Man überzeuge sich davon, dass diese Matrix gerade die Restmatrix ist, welche sich bei Ausführung

des ersten Gauss-Eliminationsschrittes für A ergibt.168Das gilt auch für den Fall, dass man bei der Zerleung noch pivotisieren muss, ist nur sehr viel kompli-

zierter in der praktischen Ausnutzung.

159

Page 160: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

nicht gleich an, dass man sie durch Umordnen von Zeilen und Spalten in die tridiagonaleMatrix (das ist eine (1, 1)-Bandmatrix)

A :=

4 1 0 0 0 0 01 4 1 0 0 0 00 1 4 1 0 0 00 0 1 4 1 0 00 0 0 1 4 1 00 0 0 0 1 4 10 0 0 0 0 1 4

umwandeln kann.

Wir wollen uns deshalb im nächsten Unterabschnitt mit dem Problem auseinandersetzen,die Zeilen und Spalten einer gegebenen Matrix so zu vertauschen, dass die Matrix eineBandmatrix möglichst kleiner Breite wird.

4.1 Bandreduktion bei SPD-Systemen

Wie das letzte Beispiel gezeigt hat, kann die Bandbreite der Matrix eines Gleichungssy-stems stark von der Art der Numerierung seiner Variablen und Gleichungen abhängen. Wirwollen uns in diesem Paragraphen mit einem Algorithmus auseinandersetzen, der Nume-rierungen von Variablen und Gleichungen sucht, für die die Bandbreite der Systemmatrixkleiner wird. Dabei beschränken wir uns auf den Fall von symmetrischen und positiv de-finiten (SPD) Systemen. Bei dieser Problemklasse wird man Variablen und Gleichungennur simultan in gleicher Weise umnumerieren (sogenannte Diagonalpivotisierung); dennder Übergang

A −→ P TAP (P = Permutationsmatrix)

erhält natürlich SPD-Eigenschaft. Dies möchte man, weil man weiß, dass die Gaußelimina-tion bei SPD-Systemen ohne Pivotisierung durchführbar ist169. Das gibt uns ein gewissesRecht, uns voll auf die Verkleinerung der Bandweite durch Diagonalpivotisierung zu kon-zentrieren, ohne dass wir dadurch zu viele Stabilitätsverluste befürchten müssten170.

Für die Umnumerierung ist es nützlich, mit einer SPD-MatrixA einen Adjazenz-GraphenG(A) zu assoziieren.

Definition 4.4 (Adjazenzgraph einer symmetrischen Matrix.)Zu A ∈ R(n,n) mit AT = A heißt das Paar

E := v1, . . . , vn , K ⊂ vi, vj | vi, vj ∈ E

mitvi, vj ∈ K ⇐⇒ aij = 0 und i = j

der Adjazenzgraph von A.Die Elemente von E heißen die Ecken des Graphen und die Elemente von K seine Kanten.

169In der Vorlesung „Lineare Algebra II“ wurde gezeigt, dass die Pivotelemente dabei stets positiv bleiben.170In der Tat ist die Sachlage in der Praxis nicht ganz so einfach. Positive aber sehr kline Pivotelemente

können auch zu recht unzuverlässigen Ergebnissen führen.

160

Page 161: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anmerkungen 4.51. Die Ecke vj des Graphen ist sowohl der j-ten Variable als auch der j-ten Gleichung

zugeordnet. Der Matrix

B =

5 2 0 0 0 −12 4 0 3 0 00 0 3 0 0 −20 3 0 4 0 30 0 0 0 7 1−1 0 −2 3 1 20

.

ist so z.B. der Graph

0 0.5 1 1.5 2 2.5 3 3.5 40

0.5

1

1.5

2

2.5

3

3.5

4Adjazenzgraph zu B

1 2

43 6

5

Abbildung 82: Adjazenzgraph zur Matrix B

zugeordnet. Die blauen Zahlen an den Ecken sind die Nummern j der vj. Knoten kist mit Knoten i verbunden, wenn aij = aji = 0. Eine Umnumerierung der Eckenentspricht einer simultanen Vertauschung von Variablen und zugehörigen Gleichun-gen:

A −→ PAP T , P = Permutationsmatrix

2. Die Gleichungsstruktur nichtsymmetrischer Gleichungssysteme modelliert man z.B.durch gerichtete Graphen. Dabei gehört das geordnete Paar (vi, vj) zur Kantenmengevon G(A), wenn aij = 0. (vj, vi) gehört nur dann auch dazu, wenn auch aj,i = 0. Wirgehen auf den nichtsymmetrischen Fall hier nicht ein.

3. In der Graphentheorie verbindet man umgekehrt mit einem ungerichteten Grapheneine symmetrische Adjazenzmatrix A, die gerade für jede Kante vi, vj die Ele-mente aij und aji gleich 1 setzt und den anderen den Wert Null gibt. Für gerichteteGraphen wählt man analog eine (möglicherweise) unsymmetrische Adjazenzmatrix.

4. Diskretisierungsstrukturen tragen oft selbst schon die Struktur des Adjazenz-Graphen.Das Gitter aus Abbildung 7 ist so z.B. der Adjazenzgraph der auf das Bild folgendenMatrix A. Ersetzt man umgekehrt in A alle von Null verschiedenen Werte durch 1,erhält man die Adjazenzmatrix zum Gittergraphen.

Das Ziel ist nun, eine solche Umnumerierung der Ecken eines Adjazenzgraphen zu finden,bei denen im Netz benachbarte Ecken möglichst benachbarte Eckennummern erhalten.

161

Page 162: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Leider ist das Problem, die optimale Numerierung zu finden171, NP-schwer172. Daher istman bei seiner Behandlung auf heuristische Algorithmen angewiesen.

Ein einfaches — aber erfolgreiches — Exemplar solcher heuristischer Algorithmen ist dersogenannte Algorithmus von Cuthill und McKee.

Zu seiner Formulierung benötigen wir nur noch einige Sprechweisen für die Ecken undKanten des Adjazenzgraphen einer Matrix:

Sprechweisen:

a. vi ist Nachbar von vj, wenn vi, vj ∈ K. (auf hochdeutsch: wenn sie verbunden sind)

b. Eine Kante k inzidiert mit einer Ecke vi, wenn vi ∈ k ist. (hochdeutsch: wenn dieEcke von der Kante getroffen wird)

c. Der Grad einer Ecke vi ist die Anzahl der mit ihr inzidierenden verschiedenen Kanten.( = Anzahl der Kanten, die vi mit anderen Ecken verbinden)

Damit können wir den Cuthill-McKee- oder kürzer den CM-Algorithmus nur einfach for-mulieren. In der Graphentheorie ist er auch ùnter dem Namen „Breitensuche“ bekannt173.

Algorithmus 4.6 (Algorithmus von Cuthill-McKee.)Finde Startecke v1 (Wie? Siehe unten.)

For i := 1 to n− 1Finde alle unnumerierten Nachbarn von vi undnumeriere sie aufsteigend nach steigendem Grad,

beginnend mit der nächsten noch nicht vergebenen Nummer.end

Bemerkung: Damit der Algorithmus den ganzen Graphen durchnumerieren kann, müs-sen wir annehmen, dass der Adjazenzgraph des behandelten Systems zusammenhängendist (d.h. dass er nicht in zwei oder mehr nicht durch Kanten verbundene Teilgraphen zer-fällt). Andernfalls bräche der Algorithmus nach Durchnumerierung des Teilgraphen, der v1enthält (der sogenannten Zusammenhangskomponente von v1), ab.Das wäre aber nicht schlimm. Man müsste den Algorithmus einfach nur mit einer nochnicht numerierten Ecke neu starten und erhielte am Ende alle Zusammenhangskompo-nenten in durchnumerierter Form. Tatsächlich hätte man damit das Gleichungssytem inebenso viele unabhängige Gleichungssysteme separiert, die alle einzeln weiterbehandeltwerden könnten.

Beispiel CM1: Wir wollen den CM-Algorithmus an einem Beispiel durchspielen. Ge-geben sei dazu die folgende Diskretisierungsstruktur, etwa aus einer Finite-Elemente-Diskretisierung (vgl. Seite 31).

171d.h. die Umnumerierung der Ecken, bei der die Bandbreite der Matrix minimal wird172Das ist die mathematische Präzisierung für „wahrscheinlich unheimlich schwierig, auf jeden Fall genauso

schwierig, wie alle schwierigsten Probleme, die man bisher gefunden hat“. Wir wollen das hier nicht weiterverfolgen. Wer mehr Informationen hierüber wünscht, lese nach bei M.R.GAREY und D.S.JOHNSON:Computers and Intractibility", A Guide to the Theory of NP-Completeness, Freeman and Comp., SanFrancisco, 1979

173Englich: „Breadth first search.“

162

Page 163: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−1 0 1 2 3 4 5 6 7

−2

−1

0

1

2

3

4

Diskretisierungsstruktur

Abbildung 83: Diskretisierungsstruktur

Um die zugehörige Diskretisierungsmatrix aufstellen zu können, benötigt man eine Nume-rierung der Knoten der Diskretisierung, bzw. der Ecken des Graphen174.Wir wollen mit der folgenden (zugegebenerweise besonders dummen und fernliegenden)Numerierung beginnen:

−1 0 1 2 3 4 5 6 7

−2

−1

0

1

2

3

4

23

4

5

6

1

7

9 10

11

12

13

14

15

1617

8

Abbildung 84: Erste Numerierung

Dann hat die Matrix die folgende Struktur:174Eine solche Numerierung ist ja tatsächlich schon Voraussetzung für die Dpeicherbarkeit der Daten.

163

Page 164: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 5 10 15

0

2

4

6

8

10

12

14

16

18

nz = 79

Matrixstruktur zur Numerierung 1

Abbildung 85: Matrix zur ersten Numerierung

Wenden wir nun den Cuthill-McKee Algorithus an, werden wir zur folgenden Numerierunggeführt

−1 0 1 2 3 4 5 6 7

−2

−1

0

1

2

3

4

Cuthill−McKee−Numerierung

1

2 3

4

5

6

7

8

9

10

11

12

1314

15

16

17

Abbildung 86: Zweite Numerierung

mit dem Ergebnis einer schon etwas kleineren Bandbreite.

0 5 10 15

0

2

4

6

8

10

12

14

16

18

nz = 81

Matrixstruktur zur ersten Cuthill−McKee−Ordnung

Abbildung 87: Matrix zur zweiten Numerierung

Wenn Sie die Numerierung einmal genau nachvollziehen, werden Sie bemerken, dass derAlgorithmus noch nicht ganz festgeschrieben ist. So ist gleich zu Beginn bei der Numerie-

164

Page 165: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

rung der Nachbarn von Ecke 1 durch den Algorithmus nicht festgelegt, welcher der beidenanschließen mit den Nummern 2 und 3 versehenen Ecken die 2 und welcher die 3 bekommensoll. Beide haben den Grad 4. In diesem Fall braucht man natürlich eine „tie-break-Regel“,die einen Fortgang des Verfahrens ermöglich. Über solche Regeln ist in den 70er Jahren(ohne große Fortschritte zu erzielen) viel diskutiert worden. Man kann z.B. die vormaligeOrdnung in der letzten Numerierung verwenden.

Daß die endgültige Bandbreite stark von der Wahl des Anfangsknotens abhängt, sieht manetwa an dem folgenden zwei CM-Numerierungen:

0 1 2 3 4 5 6 7 8−3

−2

−1

0

1

2

3

Graph mit zwei versch. CMK−Numerierungen

16 4 2 3 75

2 73 4 5 61

Abbildung 88: Zwei CM-Numerierungen

0 2 4 6 8

0

1

2

3

4

5

6

7

8

nz = 18

Matrix zur blauen Numerierung

0 2 4 6 8

0

1

2

3

4

5

6

7

8

nz = 18

Matrix zur roten Numerierung

Abbildung 89: Matrizen zu den beiden Numerierung

Dieses Beispiel legt sicher die Idee nahe, dass es nicht günstig ist, einen Startknoten zuwählen „der mitten im Graphen liegt“, sondern dass man vielmehr besser in einem „Rand-punkt“ des Graphen startet.

Tatsächlich strebt man als Startecke die Verwendung einer sogenannten peripheren Eckean. Dies ist eine Ecke mit maximaler Exzentrizität, wobei die Exzentrizität e(v) einerEcke v definiert ist über

165

Page 166: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Definition der Exzentrizität e(v)

e(v) := maxd(v, w) | w ist Ecke von G(A),

undd(v, w) = minimaler Abstand (in Kanten) der Ecken v und w.

Der Grund für dieses Ansinnen wird klar, wenn man beachtet, dass der Cuthill-McKee-Algorithmus die Numerierung in mehreren „Stufen“ vornimmt, deren Größe mit der Band-breite der zugehörigen Matrixdarstellung korelliert ist.

Definition 4.7 (Stufen-Struktur eines Graphen zur Wurzel v )Sei G ein (ungerichteter) Graph und M eine Teilmenge seiner Ecken. Mit Adj(M) bezeich-nen wir dann die Menge der Ecken von G für die es verbindende Kanten in G zu einerEcke aus M gibt und die selbst nicht zu M gehören.

Ist dann v eine Ecke von G, so definieren wir für i = 0, 1, 2, . . . die i-te Stufe zur Wurzel v,Si(v), induktiv über

S0(v) := v,S1(v) := Adj(S0(v)),

Si+1(v) := Adj(Si(v)) \ Si−1(v) für i = 1, 2, . . . .

Mit L(v) bezeichnen wir den Index der letzten Stufe von v in G, die nicht leer ist, undnennen sie die Länge der Stufen-Struktur zu v.

Beispiel: In Abbildung 86 waren schon die Stufen zu Startknoten 1 skizziert worden. Diemit durchbrochenen Linien umgebenen Ecken bilden die erste Stufe, die blau eingerahmtengehören der zweiten Stufe an und die nichteingerahmten sind die Mitglieder der letztendritten Stufe. Es ist mithin L(1) = 3.

Beobachtungen:

(i) Wird der CM-Algorithmus mit der Ecke v gestartet, so numeriert er sukzessiv dieKnoten der Stufen S0(v), S1(v), S2(v), . . . .

(ii) Es ist die Länge der Stufen-Struktur bei v gerade die Exzentrizität der Ecke v,L(v) = e(v).

(iii) Bezeichnen wir mit |Si(v)| die Anzahl der Elemente der i-ten Stufe von G zur Wurzelv, so gilt für die Bandbreite der zur zugehörigen Numerierung gehörigen Matrix

m := max|i− j| | aij = 0 ≤ maxi:=1,...,e(v)

(|Si−1(v)|+ |Si(v)| − 1) . (255)

Wegen der Beobachtung (iii) wird man die (maximale) Stufengröße möglichst klein machenwollen. Da die Gesamtzahl der Ecken auf die Stufen verteilt wird, erwartet man, dass diesder Fall sein wird, wenn die Länge der Stufenstruktur, L(v), möglichst groß ist175. Wegen(ii) möchte man deshalb eine Startecke v möglichst hoher Exzentrizität.

175Tatsächlich ist dies nicht immer der Fall, was gerade die Schwierigkeit der Konstruktion wirklichoptimaler Numerierungen ausmacht.

166

Page 167: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Nach (i) kann man die Stufen-Struktur und die Exzentrizität einer Ecke mit dem CM-Algorithmus bestimmen. Der folgende GPS-Algorithmus zieht den CM-Algorithmus dar-über hinaus zur Bestimmung einer „quasi-peripheren“ Ecke heran.

Algorithmus 4.8 (GPS-Algorithmus [Gibbs-Poole-Stockmeyer 76])(1) Wähle eine beliebige Ecke r von G(A).

(2) Starte den CM-Algorithmus mit Ecke r.

(3) Bestimme aus dem Ergebnis e(r).

(4) Wähle eine Ecke minimalen Grades v in der letzten Stufe Se(r)(r).

(5) Starte CM mit v und bestimme e(v). Wenn e(v) > e(r) setze r := v und fahre bei(4) fort. Andernfalls

(6) Wähle v als quasi-peripheren Knoten und verwende ihn zur CM-Numerierung vonG.

Zum einfacheren Verständnis dieses Algorithmus’ erlauben wir uns eine

Reichlich unwissenschaftliche Interpretation des GPS-Algorithmus:

Fasse den Graphen als ein in den Ecken verknüpftes System von Lunten auf. Interpretieredie Stufen S0, S1, S2, . . . zu einer Startecke v als sukzessive Positionen einer Feuerfront zuden diskreten Zeitpunkten i = 0, 1, 2, . . ., die sich nach Anzünden des Systems in der Eckev ausbreitet.

Ziel ist es, den „Zünd-Knoten“ ausfindig zu machen, bei dem das System am längstenbrennt.

Iteration: Zünde das System irgendwo an. Stoppe die Brennzeit. Wähle aus der Stufevor dem endgültigen Verlöschen die Ecke, die mit ihren Nachbarpunkten möglichst wenigVerbindungen hat, von der aus der Brand sich (also) am langsamsten auf das Gesamtsystemüberträgt. Wiederhole damit das Vorgehen so lange, bis sich die Brennzeit nicht mehrverlängert.

Beispiel CM2: Sucht man einen Startpunkt für das System aus Beispiel CM2, so erhältman das folgende Ergebnis mit sechs Stufen (die wieder in das Bild eingezeichnet sind):

−1 0 1 2 3 4 5 6 7

−2

−1

0

1

2

3

4

Cuthill−McKee−Numerierung mit sechs Schichten

1 2

3 4

56

7

8

9

10

11

12

13

1415

1617

Abbildung 90: Dritte Numerierung

167

Page 168: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

mit der anschließenden zugehörigen Matrixstruktur

0 5 10 15

0

2

4

6

8

10

12

14

16

18

nz = 81

Matrixstruktur zur zweiten Cuthill−McKee−Ordnung

Abbildung 91: Matrix zur dritten Numerierung

Tatsächlich wird man die Numerierung am Ende noch umkehren

0 5 10 15

0

2

4

6

8

10

12

14

16

18

nz = 81

Zweite Cuthill−McKee−Ordnung, Revers

Abbildung 92: Matrix zur dritten Numerierung,rückwärts

weil man zeigen kann, dass sich dadurch die Größe der „Hülle der Matrix“ nicht vergrößert.

Die Hülle eine dünnbesetzten Matrix A = (aij)i,j=1,...,n erhält man als Verallgemeinerungihres Bandes, indem man bei der Bandbreite „Zeilenabhängigkeit“ zulässt 176.

Definition 4.9 (Bandbreite, Hülle)Genauer definiert man zu A ∈ Rn×n, symmetrisch, und i ∈ 1, . . . , n die (linke) Band-breite der i–ten Zeile durch

jM(i) := maxj | j ≤ i, aik = 0 ∀k < j.

Dann ist die Hülle env(A) von A gegeben durch die Indexmenge

env(A) := (i, j) | jM(i) ≤ j ≤ i, i = 1, . . . , n .

176In der anglo-amerikanischen Literatur heißen Hüllenmatrizen deshalb auch oft „variable bandwidthmatrices“.

168

Page 169: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anmerkungen 4.10Die Hülle ist die Menge an Matrix-Speicherplätzen, die durch die ursprünglichen Nicht-Null-Elemente belegt waren und für die man bei Gauß-Elimination ein Auffüllen nichtausschließen kann.

Definition 4.11 (Fill-in)Nicht-Null-Elemente, die während des Lösungsprozesses erzeugt werden, heißen „Fill-In“.

Achtung: Den allgemeinen Gepflogenheiten entsprechend wurde hier nur der linke untereTeil der Matrix betrachtet, weil man bei symmetrischen Matrizen üblicherweise auch nurdiesen Teil speichert. Der Anteil oberhaupt der Hauptdiagonale ergibt sich durch Sym-metrie. Numerische Algorithmen der „Eliminationsklasse“ lassen sich zudem so schreiben,dass sie nur die Elemente der so „einseitig“ definierten Hülle benötigen.

Die nächste Figur zeigt links eine typische CM-Ergebnismatrix und rechts ihre durch so-genannten Fill-In komplettierte Hülle.

0 2 4 6 8 10

0

1

2

3

4

5

6

7

8

9

10

nz = 33

Typische Cuthill−McKee Struktur

0 2 4 6 8 10

0

1

2

3

4

5

6

7

8

9

10

nz = 33

Erzeugter "Fill−In"

Abbildung 93: CM-Matrix mit Fill-In

Eine Umkehr der Reihenfolge (RCM, „Reverse Cuthill-McKee“) der Numerierung wirddie Hülle nachweislich nicht größer aber häufig - wie im vorliegenden konstruierten Fall -deutlich kleiner machen:

169

Page 170: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 2 4 6 8 10

0

1

2

3

4

5

6

7

8

9

10

nz = 33

Reverse Cuthill−McKee−Struktur

0 2 4 6 8 10

0

1

2

3

4

5

6

7

8

9

10

nz = 33

Fill−In bei Reverse CM

Abbildung 94: RCM-Matrix mit Fill-In

4.2 Bandstruktur-Erzwingung

Bei Diskretisierungsstrukturen, die selbst nicht „langgestreckt und dünn“ sind, wird mankeine schmale Bandgestalt erwarten können.

So führt die finite Differenzendiskretisierung der periodischen Randwertaufgabe

−y′′(x) + a(x)y(x) = f(x), x ∈ [0, 1]; y(0) = y(1), y′(0) = y′(1)

bei a(x) > 0, ∀x auf ein reguläres lineares Gleichungssystem

Cy = r

mit einer zyklischen Matrix der Form

C =

a1 −1 0 . . . 0 −1−1 a2 −1 0 0

0 −1 a3. . . . . . ...

... . . . . . . . . . . . . 0

0. . . . . . an−1 −1

−1 0 . . . 0 −1 an

Wenn man den zur Matrix gehörigen Graphen aufzeichnet

−1.5 −1 −0.5 0 0.5 1 1.5

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1

...

...n

n−1 n−2

2

3 4

Abbildung 95: Zyklischer Graph zu periodischen Randwerten

170

Page 171: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

so sieht man schnell ein, dass man mit keiner Numerierung die Bandbreite verkleinernkann.

Um in solchen Fällen Bandstruktur doch noch ausnutzen zu können, ändert man dasSystem so ab, dass die Matrix bandförmig wird, und korrigiert danach die Änderung.

Variante 1 Eine Variante davon wäre, dass man die Variablen y1 und yn als bekanntannimmt. Dann bekommt das System der zweiten bis vorletzten Gleichung für y :=(y2, . . . , yn−1)

T die GestaltCy = r + y1e

1 + ynen−2 (256)

mit

r =

r2...

rn−1

, e1 :=

10...0

, en−2 :=

0...01

.

Die Matrix C ist tridiagonal und regulär, und daher kann (256) gelöst werden mit dreiLösungen mit C.

y = C−1r + y1C−1e1 + y1C

−1en−2 (257)

Wie ganz y sind auch die erste und die letzte Komponente von y affin lineare Funktionenvon y1 und yn. Geht man mit diesen in die erste und letzte Gleichung von (256), entstehtein 2 × 2 „reduziertes lineares Gleichungssystem“ für y1 und y2. Nachdem dies gelöst ist,sind alle anderen Komponenten der Lösung über (257) bestimmt.

Erweitert man den Satz y1, yn der als bekannt angenommene Variablen um weitere Kom-ponenten von y, so zerfällt das System in mehrere Tridiagonalsysteme und das reduzierteSysten wächst entsprechend.

Diese Vorgehensweise ist unter dem Namen „Tearing“ (Zerreißen) des Systems bekannt. Wirwerden noch genauer im Abschnitt über Gebietszerlegungen und Master/Slave-Ansätzeüber diese Methoden sprechen.

Variante 2 Statt das System zu zerreißen, kann man es auch in gleichbleibender Größeverändern. Indem man zur Matrix C z.B. das dyadische Produkt

uuT mit u = (1, 0, . . . , 0, 1)T

addiert, erhält man die reguläre Bandmatrix

C =

a1 + 1 −1 0 . . . 0 0−1 a2 −1 0 0

0 −1 a3. . . . . . ...

... . . . . . . . . . . . . 0

0. . . . . . an−1 −1

0 0 . . . 0 −1 an + 1

,

mit der man das alte System in der Form

(C − uuT )y = r

schreiben kann. Zu seiner Lösung bringen wir uuTy auf die rechte Seite

Cy = uuTy + r

171

Page 172: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Mit den Lösungen s und t der Tridiagonalsysteme

Cs = r und Ct = u

finden wir nuny = tuTy + s. (258)

Zur endgültigen Lösung fehlt uns hierin nur noch eine einzige Zahl, nämlich

p := uTy.

Indem wir (258) mit uT malnehmen, finden wir aber sofort die eindimensionale Gleichung

p = uT t · p+ uT s.

Nach deren Lösung ist y aus (258) ablesbar.

Diese Vorgehensweise lässt sich natürlich verallgemeinern. Sie geht auf Sherman, Morrisonund Woodebury zurück (ab 1948) und ist Gegenstand des nächsten Abschnitts.

172

Page 173: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

4.3 Sherman-Morrison-Woodbury Ansätze

Lemma 4.12 (Sherman-Morrison-Woodbury-Formel)Seien A ∈ Rn×n und S ∈ Rk×k (k ≤ n) invertierbar und V,W ∈ Rn×k. Dann ist

A+ V SW T

genau dann invertierbar, wenn dies für

S−1 +W TA−1V

gilt, und es ist

(A+ V SW T )−1 = A−1 − A−1V (S−1 +W TA−1V )−1W TA−1. (259)

Beweis:

Wir zeigen die Aussage

A+ V SW T singulär ⇔ S−1 +W TA−1V singulär.

"⇒": Sei x = 0 und (A+ V SW T )x = 0. Dann ist

0 = x = −A−1V SW Tx, also z := SW Tx = 0

und somit

(S−1 +W TA−1V )z =W T (x+ A−1V SW Tx) =W TA−1(A+ V SW T )x = 0.

"⇐": Sei umgekehrt z = 0 und (S−1 +W TA−1V )z = 0. Dann ist nach

0 = z = −SW TA−1V z auch x := A−1V z = 0

und(A+ V SW T )x = V z + V (SW TA−1V z) = V z − V z = 0.

Die Formel (259) selbst ergibt sich nun wie im Rang-1-Fall des obigen Beispiels durcheinfaches Rechnen. Zunächst hat man

(A+ V SW T )x = b ⇔ Ax = b− V SW Tx⇔x = A−1b− A−1V SW Tx.

(260)

Durch Multiplikation von (260) mit W T erhält man

(I +W TA−1V S)W Tx = W TA−1b ⇔ (S−1 +W TA−1V )SW Tx =W TA−1b.

Auflösen dieser Gleichung nach SW Tx und Einsetzen des Ergebnisses in (260) liefert diegewünschte Formel.

q.e.d

Bemerkung:Die Merkregel zur Berechnung inverser Matrizen behält selbstverständlich auch für die

173

Page 174: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Sherman-Morrison-Woodbury-Formel ihre Gültigkeit und (259) ist daher tunlichst als Al-gorithmus zur Lösung des gestörten Gleichungssystemes

(A+ V SW T )y = b

zu lesen, wenn ein Löser „A−1“ für das ungestörte System

Ax = b

zur Verfügung steht177

Eine solche algorithmische Lesart der Sherman-Morrison-Woodbury-Formel könnte etwawie folgt aussehen

y =

x︷ ︸︸ ︷A−1b−

X︷ ︸︸ ︷A−1V (S−1 +W T

X︷ ︸︸ ︷A−1V︸ ︷︷ ︸Z

)−1

d︷ ︸︸ ︷W T

x︷ ︸︸ ︷A−1b︸ ︷︷ ︸

r

und zur folgenden Rechenvorschrift führen

Algorithmus 4.13 (Sherman-Morrison-Woodbury-Algorithmus; Variante 1)

Ax = b; ein Gleichungssystem lösen!AX = V ; k Gleichungssysteme lösen!Z := W TX;d := W Tx;(S−1 + Z)r = d; ein Gleichungssystem lösen!y := x−Xr.

Andere Varianten, die von speziellen Gegebenheiten Gebrauch machen (vgl. das einleitendeBeispiel) sind denkbar. Liegt für A z.B. eine LR-Zerlegung vor, so kann die Sherman-Mor-rison-Formel z.B. wie folgt verwirklicht werden:

(A = LR vorgelegt)Algorithmus 4.14 (Sherman-Morrison-Woodbury-Algorithmus, Variante 2)

Ax = b; ein Gleichungssystem lösen!LX(1) = V ; k Dreieckssysteme lösen!RTX(2) =W ; k Dreieckssysteme lösen!Z := X(2)TX(1);d := W Tx;(S−1 + Z)r = d; ein Gleichungssystem lösen!c := X(1)r;Rw = c; ein Dreieckssystem lösen!y := x− w;

177Die Penetranz, mit der hier wieder auf dem Verbot der inversen Matrix herumgetrampelt wird, erklärtsich aus einer ebensolchen Penetranz, mit der eine doch recht große Anzahl (sonst eigentlich ganz intelligenterscheinender) Anwender numerischer Verfahren (und das schließt auch (sogenannte) Mathematiker leidernicht immer aus) Rechenzeit zu sparen glauben, wenn sie zur Lösung von mehr als einem Gleichungssystemmit derselben Systemmatrix zunächst einmal deren Inverse bilden.

174

Page 175: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5 Iterative Verfahren zur Lösung großer Linearer Syste-me

Iterative Verfahren zur Lösung linearer Gleichungssysteme

Ax = b, A ∈ R(n,n), b ∈ Rn gegeben, x ∈ Rn gesucht. (261)

hatten wir schon im Abschnitt 3.1.3 als Anwendung des Banachschen Fixpunktsatzes dis-kutiert. Diese Iterationen waren speziell Iterationen der Form

xn+1 = Φ(xn), n ∈ N

gewesen, bei denen der nächste Iterationsvektor mit einer festen Verfahrensfunktion Φ :Rn −→ Rn nur aus dem aktuellen Iterationsvektor xn berechnet wird, und bei dem dieLösungen von (261) Fixpunkte von Φ sind. Diese Verfahren nennt man „stationäre Verfah-ren‘ “.Es gibt auch „nichtstationäre Iterationen“. Hier kann sich die Iterationsfunktion von Schrittzu Schritt ändern

xn+1 = Φn(xn), n ∈ N.

Es kann die Iteration hier etwa nicht nur vom letzten Iterationswert abhängen sondern vonmehreren. So kann die Iteration aus ihrem konkreten Verlauf „lernen“.Wir können in diesem Abschnitt nur einige weitere Ideen der Verfahren vorstellen, dennmit der Schilderung des aktuellen Forschungsstandes zu iterativen Verfahren178 für lineareGleichungssysteme ließen sich ohne Probleme fünf und mehr schöne dicke Bücher füllen,wie z.B. [DMY], [BEA],[YS], [AG], [OA], [HAVDV].

Um die Frage, wann solche Iterationsverfahren direkten Methoden vorzuziehen sind, habenwir uns oben elegant herumgedrückt, indem wir sie lieber gar nicht erst aufgeworfen haben.So verfahren auch die meisten anderen Autoren. Einige der „Verfechter iterativer Methoden“versteigen sich zwar zu der Behauptung, iterative Methoden seien stets anzuwenden, wenndie Systemmatrix groß und dünnbesetzt sei. Dies ist so aber nicht haltbar.

Leider kann man dem Anwender der numerischen Mathematik wohl (noch?) keine einfacheAnleitung an die Hand geben.

Überhuber fasst in seinem Buch [UEB] seine Erfahrungen in der folgenden Tabelle zusam-men.

direkte Verfahren iterative VerfahrenGenauigkeit nicht beeinflussbar wählbarRechenaufwand vorhersagbar meist nicht vorhersagbar aber oft kleinerneue rechte Seite rasch keine ZeitersparnisSpeicherbedarf größer kleinerStartwert-Vorgabe nicht erforderlich meist vorteilhaftAlgorithmus Parameter nicht erforderlich müssen gesetzt werdenBlack-box-Verwendung möglich oft nicht möglichRubustheit ja nein

Bethke und Voss (vgl [BV]) haben eine MATLAB-Umgebung bereitgestellt, mit der derpotentielle Benutzer erstens einsehen kann, dass ein klare (überall geltende) Aussage nichtmachbar ist, mit der er aber auch testen kann, welche der bis 2003 verfügbaren Verfahren

178Die Forschung kann hier auf gar keinen Fall als irgendwie abgeschlossen bezeichnet werden. Die Lei-stung iterativer Verfahren ist bislang noch alles andere als wirklich zufriedenstellend.

175

Page 176: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

für seine Problemklasse angemessen erscheint.Dabei können (siehe [BV]) manchmal schon überraschende Ergebnisse herauskommen.

Wenn man die Ausführungen von Überhuber noch ein wenig ergänzen und vertiefen will,so sind vermutlich die folgenden Aussagen als normative Ideen geeignet.

Iterative Verfahrungen werden angewandt, wenn

1. eine direkte Lösung aus Speicherplatzgründen nicht durchführbar ist,

2. die Matrix eine für eine iterative Lösung besonders geeignete Struktur hat,

3. eine (sehr) gute Näherung für die Lösung existiert

4. ein direkter Löser für eine in einer Norm von der aktuellen Systemmatrix nur leichtabweichende Matrix vorhanden ist

5. iterative Löser schneller sind als direkte Löser

Hierzu sind zunächst einige allgemeine Kommentare angebracht

Ad 1. Es kann natürlich leicht vorkommen, dass trotz raffinierter Speichertechniken dieElemente der LR-Zerlegung einer Matrix nicht mehr speicherbar sind, die Multipli-kation eines Vektors mit der Systemmatrix aber ganz unproblematisch ist179. Wenndann direkte Verfahren, die Teile der Matrix und ihrer Zerlegungen auf externe Zwi-schenspeicher legen, auch nicht mehr anwendbar sind, wird man alternativ versuchen,mit iterativen Verfahren Erfolg zu haben.Wenn man sich auf iterative Verfahren einlässt, weiß man i.a nicht, welches der zigexistierenden Verfahren man nehmen soll, man weiß i.a. nicht, wie schnell es konver-giert, ja, man weiß i.a. noch nicht einmal, ob es überhaupt konvergiert.

Ad 2. Man hat heute schon eine Reihe von Anwendungsgebieten identifiziert, deren Glei-chungssysteme für iterative Verfahren gut geeignet sind. Insbesondere sind dies dieelliptischen partiellen Differentialgleichungen, deren Diskretisierungen auf Matrizenführen, die mit speziell angepassten Iterationsverfahren viel schneller lösbar sind alsmit direkten Lösern. Die Matrix A von Seite 29 braucht man bei iterativer Anwen-dung z.B. überhaupt nicht zu speichern, weil die Multiplikation mit A vollständigmit dem Differenzenstern (51) zu bewältigen ist. Außerdem werden hier problemspe-zifische Iterationsverfahren (siehe unten z.B. Mehrgitter-Verfahren) eingesetzt.

Ad 3. Wenn schon eine sehr gute Näherung für die Lösung bekannt ist180, liegt es na-he, die „kleinen Fehler“, die die Näherung noch hat, mit einem Iterationsverfahrenauszumerzen. Da direkte Verfahren keine Lösungsnäherung arbeitssparend einsetzenkönnen, sind sie in solch einer Situation erst einmal im Nachteil.

Ad 4. Wenn ein Löser A−1 für eine Matrix A vorhanden ist181 , die A recht nahe kommt

∥A− A∥ ≤ ε ( klein ).

Dann istxn+1 := xn − A−1(Axn − b)

179Man wird sehen, dass die meisten heute verwendeten iterativen Verfahren die Systemmatrix im We-sentlichen nur durch ihre multiplikative Anwendung auf einen Vektor in’s Spiel bringen.

180Gelegenheiten hierfür sprechen wir noch an.181Beachten Sie, dass A−1 hier nicht als Inverse von A zu lesen ist, sondern dass x = A−1b zu lesen ist:

x löst Ax = b.

176

Page 177: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

eine Iteration, deren Iterationsmatrix182

M := I − A−1A = A−1(A− A)

wegen∥M∥ ≤ ∥A−1∥ · ∥A− A∥ ≤ ∥A−1∥ · ε

bei moderat großem ∥A−1∥ einen kleinen Spektralradius hat.

Ad 5. Hierzu ist nichts zu sagen. Wenn man diese Information hat, verwendet man na-türlich iterative Verfahren.

Eine Situation, die die unter 3. und 4. beschriebenen Gegebenheiten vereint, findet manbei der sogenannten „Nachiteration‘ “.

Algorithmus 5.1 (Nachiteration)Ein lineares Gleichungssystem

Ax = b

werde durch eine Gauss-Elimination gbearbeitet, die am Ende eine recht ordentliche Lö-sungsapproximation x0 liefert sowie eine approximative LR-Zerlegung

A ≈ LR

mit normierter unterer Dreiecksmatrix L und rechter oberer Dreiecksmatrix R.Bei exakter Rechnung wäre x0 die Lösung und A das Produkt von L und R. Tatsächlichist bei der Ausführung auf dem Rechner zu erwarten, dass x0 = x und LR = A. Es wirdaber andererseits auch zu erwarten sein, dass x0 eine gute Näherung der Lösung x ist undder Lösungsprozess R−1L−1 eine gute Approximation von A−1. Mit A−1 = R−1L−1 lautetdie Nachiteration also

xn+1 := xn −R−1L−1(Ax0 − b), n ≥ 0.

Zu sehr guten Ergebnisse gelangt man, wenn man das sogenannte „Residuum“ Ax0− b miterhöhter Rechnergenauigkeit berechnet.

Beispiel 5.2 (Nachiteration)Führt man den Gauss-Algorithmus (mit LR-Zerlegung) für das System Ax = b für

A =

2 −1 0 0 0 0 0−1 2 −1 0 0 0 00 −1 2 −1 0 0 00 0 −1 2 −1 0 00 0 0 −1 2 −1 00 0 0 0 −1 2 −10 0 0 0 0 −1 2

und b = (1, 1, 1, 1, 1, 1, 1)T

mit zweistelliger Dezimalgleitpunktarithmetik aus, so ergibt sich als Approximation für diekorrekte Lösung

x = (3.5000, 6.0000, 7.5000, 8.0000, 7.5000, 6.0000, 3.5000)T

182Vgl. Seite 43

177

Page 178: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

die ziemlich falsche Näherung

x0 = (4.0000, 7.0000, 8.0000, 8.0000, 7.0000, 5.0000, 2.5000)T

mit den approximativen L- und R-Matrizen

L =

1.0000 0 0 0 0 0 0−0.5000 1.0000 0 0 0 0 0

0 −0.7000 1.0000 0 0 0 00 0 −0.8000 1.0000 0 0 00 0 0 −0.8000 1.0000 0 00 0 0 0 −0.8000 1.0000 00 0 0 0 0 −0.8000 1.0000

und

R =

2.0000 −1.0000 0 0 0 0 00 1.5000 −1.0000 0 0 0 00 0 1.3000 −1.0000 0 0 00 0 0 1.2000 −1.0000 0 00 0 0 0 1.2000 −1.0000 00 0 0 0 0 1.2000 −1.00000 0 0 0 0 0 1.2000

.

Ganz offensichtlich ist

L · R =

2.0000 −1.0000 0 0 0 0 0−1.0000 2.0000 −1.0000 0 0 0 0

0 −1.0500 2.0000 −1.0000 0 0 00 0 −1.0400 2.0000 −1.0000 0 00 0 0 −0.9600 2.0000 −1.0000 00 0 0 0 −0.9600 2.0000 −1.00000 0 0 0 0 −0.9600 2.0000

nicht gleich A. Führen wir mit diesen fehlerhaften Matrizen L und R nun die Nachiterationaus

xk+1 = xk − R−1L−1(Axk − b), k ≥ 0,

so ergeben sich folgende Iterationsvektoren

x1 =

3.44645.89287.33937.84107.36935.89113.4277

, x2 =

3.50276.00537.50808.00507.49535.99223.4941

, x3 =

3.49965.99937.49897.99897.49925.99933.4995

mit konsekutiven Fehlern E(k) = ∥xk − x∥2 in der 2-Norm

E = [1.936, 0.3156, 0.1559 10−1, 0.2080 10−2, 0.1013 10−3, 0.1375 10−4, 0.6654 10−6, 0.9051 10−7, . . .

und einer Folge von Verbesserungsfaktoren Vn+1; = En+1/En

V = [0.16299, 0.04939, 0.13405, 0.04848, 0.13567, 0.04840, 0.13603...

178

Page 179: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.1 Stationäre Verfahren: Konvergenzaussagen für Matrixklassen

Die Diskretisierung der einfachen Randwertaufgabe

−x′′(t) = f(t), t ∈ [0, 1]x(0) = x(1) = 0

mit der Standard-Differenz

x′′(t) = h−2 [x(t− h)− 2 x(t) + x(t+ h)] +O(h2)

lieferte bekanntlich Systeme der Form

h−2

2 −1 0 . . . 0

−1 . . . . . . . . . ...

0. . . . . . 0

... . . . . . . . . . −10 . . . 0 −1 2

xh = fh. (262)

Wendet man auf dies System die Jacobi-Iteration183 an184, so erhält man Konvergenz.

Um zu sehen, was hier geschieht, berechnen wir den Spektralradius der Jacobi-Iterationsmatrix

GJ =

0 1/2 0 . . . 0

1/2. . . . . . . . . ...

0. . . . . . 0

... . . . . . . . . . 1/20 . . . 0 1/2 0

(263)

in diesem einfachen Fall einfach einmal explizit.

Seien dazu h := 1/(n+1) und damit die Vektoren Ek ∈ Rn für k = 1, . . . , n definiert durch

Ekj := sin(jkπh), j = 1, . . . , n.

Wie sich sofort aus1

2[sin((j − 1)kπh) + sin((j + 1)kπh)] = cos(kπh) · sin(jkπh)

ergibt, ist Ek Eigenvektor von GJ zum Eigenwert cos(kπh). Damit haben wir hier

spec(GJ) = cos(kπh) | k = 1, . . . , n

und also

ρ(GJ) = cos(πh) = cos(π

n+ 1) = 1− 1

2

n+ 1

)2

+ . . . .

Das Jacobi-Verfahren ist mithin für alle n ∈ N für das System (262) konvergent. Allerdingswird die Konvergenz immer schlechter, je größer n wird, und das heißt, je genauer die ur-sprüngliche Randwertaufgabe diskretisiert und damit approximiert wird. Dieses Verhaltenist symptomatisch für die Anwendung aller Splitting-Verfahren auf Diskretisierungen vonDifferentialgleichungen.

183Vgl. Seite 50184auch wenn dafür praktisch kein Anlass besteht, weil sich das Systen wunderbar und viel schneller

direkt lösen lässt

179

Page 180: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Kleiner Einschub: Etwas Heuristik zu dieser AussageSei

(L x)(t) = f(t),((L x)(t) = x(m)(t) +

∑m−1k=0 ak(t) x

(k)(t))

Rx = 0(264)

eine Randwertaufgabe m-ter Ordnung und

h−mLhxh = fh (265)

eine Diskretisierung davon zur Schrittweite h = 1/(n+1). Um die Argumenta-tion zu erleichtern, nehmen wir einmal für die Matrix Lh ∈ Rn×n an, dass ihreDiagonale einen konstanten Wert enthält, der auch noch h-unabhängig ist:

Diagonale(Lh) = αI.

Dann ist die Iterations-Matrix des Jacobi-Verfahrens zu (265) gegeben durch

GJ = α−1 (αI − Lh) = I − α−1hm(h−mLh).

Mit der Diskretisierung möchte man ja die Randwertaufgabe (264) approxi-mieren. Wir ziehen daraus den (zugegeben flinken) Schluß, dass die Eigenwerteλh,1, . . . , λh,n der Matrix h−mLh die ersten n Eigenwerte λ1, . . . , λn der zu (264)gehörigen Eigenwertaufgabe

(L x)(t) = λx(t),Rx = 0

approximieren. Für die Eigenwerte solcher Eigenwertaufgaben der Ordnung mgilt normalerweise

λj = O(jm).

Damit schließen wir, dass tendenziell gelten sollte

spec(GJ) ≈1− α−1hm, 1− α−1hm 2m, . . . , 1− α−1hm nm ≈ 1− α−1

.

Dies ergibt (auch wenn wir noch versuchen α geeignet zu variieren (gedämpfteJacobi-Iteration)) auf jeden Fall

ρ(GJ)h→0−→ 1 wie hm −→ 0.

Weil sich die Eigenwerte und Eigenvektoren der Matrix (262) explizit angeben lassen, istdies Problem ideal geeignet, um erste Ideen über das Verhalten von Iterationsverfahren zuerhalten. Man kann nämlich - wie oben gesehen - über die Spektralzerlegung der System-matrix selbst oft auch Spektralanalysen des Iterationsprozesses185 vornehmen.

Wir haben das obige System (262) aber aus zwei weiteren Gründen als Beispiel ausge-wählt. Denn es gehört gleichzeitig zu zwei wichtigen Klassen von Matrizen, für die Konver-genzaussagen zu den Standard-Iterationsmethoden bekannt sind. Einerseits ist die Matrix„SPD“186 und andererseits ist sie „schwach diagonaldominant“ und „nicht zerfal-lend“ (bzw.anderslautend aber dasselbe bezeichnend: „irreduzibel“ ), vgl. hierzu Definitio-nen 5.5 und 5.7.

Die Konsequenzen dieser letzten Eigenschaften behandeln wir im nächsten Unterabschnitt.Hier wird für die Systemmatrix weder Symmetrie noch positive Definitheit vorausgesetzt.In den zuhörigen Konvergenzbeweisen für die beiden Splitting-Verfahren nach Jacobi undGauss-Seidel, muss der Rechenfluss en detail analysiert werden.Unter der Voraussetzung der positiven Definitheit von A lassen sich für diese Verfahren alsauch gleich für overrelaxierte oder gedämpfte Versionen elegantere Beweise führen. Diesgeschieht im übernächsten Unterabschnitt.

185Hier etwa der Iterationsmatrix186Kurzfassung von „symmetrisch und positiv definit“

180

Page 181: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.1.1 Diagonaldominanz und schwache Diagonaldominanz

Wir wollen in diesem Abschnitt über Kriterien berichten, welche an der Systemmatrixerkennen lassen, ob die Standard-Verfahren für Gleichungssysteme wie (262) konvergieren.

Einerseits hatten wir als leicht kontrollierbare und für die Konvergenz der Jacobi-Iterationausreichende Eigenschaft schon auf der Seite 52 die folgende Eigenschaft der starken Zeilen-Diagonaldominanz erkannt:

Definition 5.3 (Starke Zeilen Diagonaldominanz)A = (aij) ∈ R(n,n) heißt „stark zeilen-diagonal-dominant“, wenn

|aii| >∑k =i

|aik| ∀i = 1, . . . , n (266)

Auf Seite 52 hatten wir auch schon festgestellt, dass die starke Spaltendiagonaldominanzhinreichend für die Konvergenz der Jacobi-Iteration ist.

Definition 5.4 (Starke Spalten Diagonaldominanz)A = (aij) ∈ R(n,n) heißt „stark spalten-diagonal-dominant“, wenn

|ajj| >n∑

i=1,i =j

|ai,j|, j = 1, . . . , n. (267)

Leider sind beide Eigenschaften bei der Matrix (262) nicht erfüllt. Hier gelten die Be-dingungen (266) und auch (267) nur noch in dem Sinne „schwach“, dass dort anstelleeinen <-Zeichens fast überall das Gleichheitszeichen gilt. Nur in zwei Zeilen (bzw. Spal-ten) bleibt das <-Zeichen erhalten. Die einfach Bildung der ∞-Norm der Iterationsmatrixbringt uns hier nicht die beobachte Konvergenz sowohl vom Jacobi- als auch vom Gauss-Seidel-Verfahren.

Für Abhilfe sorgt hier das Zusammenwirken dieser „schwache Diagonaldominanz“ mit dersogenannten „Irreduzibilität“ der Systemmatrix:

Definition 5.5 (Schwache Zeilen-Diagonaldominanz)A = (aij) ∈ R(n,n) heißt „schwach Zeilen-diagonal-dominant“, wenn

|aii| ≥∑k =i

|aik| ∀i = 1, . . . , n (268)

aber auch|app| >

∑k =p

|apk| für mindestens ein p ∈ 1, . . . , n, (269)

Anmerkung: Wenn die beiden Bedingungen (268, 269) gelten, so sagt man auch, dass dieMatrix das „schwache Zeilensummenkriterium“ erfüllt.

181

Page 182: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Definition 5.6 (Schwache Spalten-Diagonaldominanz)A = (aij) ∈ R(n,n) heißt „schwach Spalten-diagonal-dominant“, wenn AT schwach Zeilen-diagonal-dominant ist.

Definition 5.7 (Reduzibilität und Irreduzibilität)Eine Matrix A ∈ R(n,n) heißt „reduzibel“ , wenn es eine Permutationsmatrix P gibt, mitder

P TAP =

(A11 A12

0 A22

)wird, wobei Aii ∈ Rpi×pi , i = 1, 2 sind mit p1 > 0, p2 > 0 und p1 + p2 = n.

Andernfalls ist A irreduzibel187.

Anmerkungen 5.81. Anstelle der Bezeichnung „reduzibel“ verwendet man auch „zerfallend“ oder „zerleg-

bar“.

2. Eine alternative äquivalente Definition der Reduzibilität ist die Folgende:Eine Matrix A ∈ R(n,n) heißt reduzibel, wenn es nichtleere Teilmengen N1 und N2

der Indexmenge N := 1, 2, 3, . . . , n gibt mit den Eigenschaften

– (i) N1 ∩N2 = ∅;– (ii) N1 ∪N2 = N ;

– (iii) aij = 0 für alle i ∈ N1 und j ∈ N2

3. Wir werden zeigen, dass schwache Diagonaldominanz zusammen mit der Irreduzibi-lität hinreichend für die Konvergenz sowohl der Jacobi- als auch der Gauss-Seidel-Iterationen sind.Überzeugen Sie sich durch Konstruktuion von Beispielen, dass man auf keine der dreiEigenschaften (268), (269) und Irreduzibilität verzichten kann, ohne den Verlust derKonvergenz des Jacobi-Verfahrens zu verlieren. (Dies gilt auch für das Gauss-Seidel-Verfahren, ist aber schwieriger zu analysieren.)

4. Die Reduzibilität einer Matrix bedeutet, dass es eine Gruppe von Komponenten desLösungsvektors gibt, die im System nicht von den komplementären Komponentenabhängen. (Nach Anwendung der obigen Permutation sind dies gerade die letztenp2 Komponenten.) Der folgende Satz sichert die Konvergenz der Jacobi-Iteration fürschwach diagonal-dominante Matrizen, die gleichzeitig irreduzibel sind. Diese letzteForderung ist für die Anwendungen nicht einschränkend. Ist nämlich eine Matrixreduzibel, so kann ein Teilsystem des Problems unabhängig vom Rest bearbeitetwerden. Das ist sicher kein Nachteil. Nach Elimination der entsprechenden Variablenist das Restsystem entweder irreduzibel, oder es kann weiter reduziert werden.

5. Es ist von Vorteil, die Irreduzibilität einer Matrix über einen zugehörigen gerichte-ten Adjazenz-Graphen zu interpretieren. Wie beim ungerichteten Adjazenzgraphensymmetrischer Matrizen188 wird der i–ten Zeile der Matrix A ∈ Rn×n ein Knoten vizugeordnet, i = 1, . . . , n. Im gerichteten Adjazenzgraphen GG(A) von A wird nun

188vgl. Seite 161

182

Page 183: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

der Knoten vi mit dem Knoten vj durch die gerichtete Kante (vi, vj) verbunden189,wenn aij = 0 ist190.Eine Matrix ist nun genau dann irreduzibel, wenn es in ihrem gerichteten Adjazenz-Graphen zu je zwei Knoten vi und vj stets einen gerichteten verbindenden Weg191

gibt192.

6. Für die spätere Verwendung schließen wir, dass es bei irreduziben MatrizenM zu zweinicht leeren und disjunkten Knotenmenge J,K ⊂ 1, . . . , n mit J ∪K = 1, . . . , nstets zwei Indizes j ∈ J und k ∈ K gibt mit mjk = 0. Wählt man nämlich zweibeliebigen Indizes j ∈ J und k ∈ K, so gibt es einen gerichteten Weg in GG(M) vonj nach K. Dieser Weg muss irgendwann J verlassen und in K eintreten. Hier findetman die Indizes j und k.

Beispiel 5.9 (Reduzibilität und Irreduzibilität)∗ bedeutet im weiteren stets ein Nicht-Null-Element. Unter den Matrizen

A1 :=

∗ 0 ∗ 0 00 ∗ 0 ∗ 0∗ 0 ∗ 0 ∗0 ∗ 0 ∗ 00 0 ∗ 0 ∗

, A2 :=

∗ 0 0 0 ∗∗ ∗ 0 0 00 ∗ ∗ 0 00 0 ∗ ∗ 00 0 0 ∗ ∗

, A3 :=

∗ ∗ 0 0 0∗ ∗ ∗ 0 00 ∗ ∗ ∗ 00 0 ∗ ∗ ∗0 0 0 ∗ ∗

ist A1 reduzibel, die anderen beiden sind irreduzibel. Ihre gerichteten GraphenGG(Ak), k =1, .., 3 sind in der folgenden Abbildung dargestellt.

0 1 2 3 4 5 6−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1 3 5 2 4

GG(A1)

−1 −0.8 −0.6 −0.4 −0.2 0 0.2 0.4 0.6 0.8 1

−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

4

3

2

1

5GG(A

2)

0 1 2 3 4 5 6−1

−0.8

−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

31 2 4 5

GG(A3)

Abbildung 96: Gerichtete Graphen

Wie man übrigens aus dem Graphen sofort abliest, zerfällt A1 in zwei unabhängige jeweilsirreduzible Untersysteme.

Satz 5.10 (Eine zweite Konvergenz-Aussage für die Jacobi-Iteration )Ist die System-Matrix A ∈ Cn×n schwach diagonal-dominant und irreduzibel so ist dasJacobi-Verfahren durchführbar und konvergent.

189Wichtig: Anders als beim ungerichteten Graphen kommt es hier bei der Kante (vi, vj) auf die Reihen-folge der Knoten an.

190Im unsymmetrischen Fall muß mit aij = 0 nicht notwendig auch aji = 0 sein. Dieser strukturellenUnsymmetrie wird im Graphen mit der Einführung einer Richtung der Kanten Rechnung getragen.

191Dabei erklären wir einen solchen gerichteten Weg nicht genauer, sondern gehen davon aus, dass dieseNotation anschaulich klar ist.

192Die Forderung schließt ein, dass es sowohl einen Hinweg als auch einen Rückweg gibt; denn mit vi undvj sind auch vj und vi „ je zwei Knoten“.

183

Page 184: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Bevor wir auf die Konvergenz eingehen, wollen wir erst einmal zeigen, dass die Vorausset-zungen der letzen Konvergenzaussage implizieren, dass das Verfahren überhaupt ausführ-bar ist (dass also die Diagonalelemente ungleich Null sind). Dabei lernen wir zugleich auchnoch, dass dann die Systemnmatrix zwingend regulär ist.

Satz 5.11 (Satz über schwach diagonaldominante, irreduzible Matrizen )Eine quadratische schwach diagonaldominante und irreduzible Matrix M ist regulär undhat lauter nichtverschwindende Diagonalelemente.

Beweis: Wenn M nicht regulär ist, gibt es einen Vektor x = 0 mit Mx = 0. Das heißt,dass

miixi = −n∑

l=1,l =i

milxl, i = 1, . . . , n,

und mit der Dreiecksungleichung folgt hieraus

|mii| |xi| ≤n∑

l=1,l =i

|mil| |xl|, i = 1, . . . , n. (270)

Wir definieren nun Indexmengen

J := j | |xj| = ∥x∥∞ und K := k | |xk| < ∥x∥∞ .

Es ist trivialerweise J = ∅, und es ist ebenfalls K = ∅, weil sonst

|xi| = ∥x∥∞ für alle i = 1, . . . , n

wäre, was nach (270) bedeutete, dass

|mii| ≤n∑

l=1,l =i

|mil|, i = 1, . . . , n,

Dies widerspräche aber (269). Weil J und K beide nicht leer sind und M irreduzibel ist,gibt es j ∈ J und k ∈ K mit mjk = 0. Damit ergibt sich

|mjj| ≤∑n

l=1,l =j |mjl| |xl||xj | =

∑nl=1,l =j |mjl| |xl|

∥x∥∞=

∑nl∈J,l =j |mjl|∥x∥∞∥x∥∞ +

∑nl∈K,l =j,k |mjl| |xl|

∥x∥∞ + |mjk| |xk|∥x∥∞

<∑n

l=1,l =j |mjl|,

da |xk|∥x∥∞ < 1 und mlk = 0. Die gewonnene Ungleichung

|mjj| <n∑

l=1,l =j

|mjl|

widerspricht nun aber (268), weshalb M nicht singulär sein kann, was der erste Teil derBehauptung ist.Dass die Diagonalelemente alle von Null verschieden sind, schließt man so. Wäre das Dia-gonalelement mii = 0, so wäre nach (268) die ganze i-te Zeile Null, M also singulär, was -

184

Page 185: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

wie gerade gezeigt - nicht der Fall ist.2

Einen eleganten Beweis für die Konvergenzaussagen findet man etwas weiter unten. Die-ser ist aber ein wenig indirekt und macht Gebrauch von der letzten Implikation „schwachdiagonal-dominant und irreduzibel ⇒ regulär“. Es gibt andere, rechentechnisch aufwendi-gere Beweise, bei denen man aber die Wirkungsweise der Voraussetzungen besser versteht.Wegen ihrer Länge werden wir hier die Grundidee dieser Beweise nur veranschaulichen.

Beweisidee zum letzten Konvergenzsatz:

Nach (96) gilt für die Fehlervektoren193 e[k] := xk − x∗ die Rekursion

e[k+1] = GJe[k],

wobei GJ := I − D−1A = (gij)ni,j=1 die Iterationsmatrix des Jacobi- oder Gesamtschritt-

verfahrens bezeichne. Da die Betragssummen der Zeilen von GJ nach Voraussetzung derschwachen Diagonaldominanz alle kleiner oder gleich 1 sind, gilt für die i–te Komponentevon e[k+1] sicherlich

|e[k+1]i | =

∣∣∣∣∣n∑

j=1

gije[k]j

∣∣∣∣∣ ≤n∑

j=1

|gij| · ∥e[k]∥∞ ≤ ∥e[k]∥∞.

Der Fehlervektor wird also in der Maximum-Norm sicher nicht größer.

Nach Voraussetzung gibt es mindestens eine Zeile von GJ , deren Betragssumme echt kleinerals 1 ist. Sei dies die m–te Zeile:

n∑j=1

|gmj| =: W < 1.

Dann wird die m–te Komponente des Fehlervektors e[k+1] sogar mindestens um den Wert(1 −W )∥e[k]∥∞ kleiner als ∥e[k]∥∞. Diese Verkleinerung wirkt sich beim nächsten Iterati-onsschritt in allen Gleichungen aus, welche auf die m–te Komponente des Iterationsvektorszugreifen, deren zugeordnete Knoten im Adjazenzgraphen von A also direkt mit vm verbun-den sind. Hier bewirken sie garantierte Reduktion der entsprechenden Fehlerkomponentenunter ∥e[k]∥∞. In den nächsten Iterationen breitet sich diese Reduktion nun entlang der We-ge im Adjazenzgraphen aus. Ist L die maximale Länge eines einfachen Verbindungswegeszwischen zwei Knoten in GG(A), so hat diese Reduktion nach spätestens L Schritten alleKomponenten erfaßt, und es tritt eine echte Fehlerverkleinerung ∥e[k+L]∥∞ < ∥e[k]∥∞ ein194.

Wollen wir die Idee einprägsam formulieren, so können wir etwa festhalten:

In den „stark-diagonaldominanten Zeilen wird Fehler aus dem System direkt abgeführt“.Die Fehler der anderen Zeilen „fließen über den zusammenhängenden Adjazenzgraphen indiese Fehlersenken ab.“

Es folgt nun der angekündigte indirekte Beweis:

193Die im Satz mitbewiesene Regularität von A (und damit die eindeutige Existenz der Lösung x∗)nehmen wir hier der Einfachheit halber einmal an.

194Hier muß man natürlich noch insofern Vorsicht walten lassen, als dass ja bekanntlich nicht jede monotonfallende nichtnegative Folge auch schon Nullfolge ist. Der Grundgedanke sollte aber so doch klar gewordensein.

185

Page 186: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis von Satz 5.10:Wir zielen darauf, für die Iterationsmatrix GJ = D−1(L + R) = D−1(D − A) der Jacobi-Iteration direkt ρ(GJ) < 1 nachzuweisen. Dazu werden wir zeigen, dass für alle λ ∈ C mit|λ| ≥ 1 die Matrix

M(λ) := GJ − λIregulär ist. Damit wäre dann gezeigt, dass alle Eigenwerte von GJ im Inneren des komple-xen Einheitskreises liegen müssen.Für den Nachweis der Regularität benutzen wir Satz 5.11, nach dem wir nur zu zeigenhaben, dass M(λ) schwach diagonal-dominant und irreduzibel ist. Letzteres folg aber so-fort daraus, dass Irreduzibilität und Reduzibilität Eigenschaften sind, die nur von denNichtdiagonalelementen einer Matrix bestimmt sind. Da die Nichtdiagonalelemente vonD−1(D−A) für dieselben Indexpaare von Null verschieden sind wie die von A, ist GJ mitA irreduzibel. Wenn wir die Nichtdiagonalelemente

mjk = −ajkajj

über die Zeile aufsummieren, ergeben sich wegen der schwachen Diagonaldominanz von Adie Ungleichungen

n∑k=1,k =j

∣∣∣∣ajkajj∣∣∣∣ ≤ 1 für alle j = 1, . . . , n,

mit dem <-Zeichen für mindestens einen Index aus 1, . . . , n.Da |λ| ≥ 1 ist und außerdem −λ überall auf der Diagonale von M(λ) steht, können wirdie letzten Ungleichung wie folgt fortsetzen

n∑k=1,k =j

∣∣∣∣ajkajj∣∣∣∣ ≤ 1 ≤ |λ| = |mjj| für alle j = 1, . . . , n

und ebenfalls dem <-Zeichen für mindestens einen Index aus 1, . . . , n. D.H. aber dasM(λ) tatsächlich schwach diagonal-dominant ist, und wir sind fertig.

2

Korollar 5.12Die Aussage des vorigen Konvergenzsatzes gilt natürlich auch wieder mit dem analogenschwachen Spaltensummenkriterium. Zum Nachweis geht man wieder genau so vor wie inBemerkung 4 auf der Seite 52.

Die starke und die schwache Zeilen-Diagonal-Dominanz (mit Irreduzibilität) sind auch hin-reichend für die Konvergenz des Gauss-Seidel-Verfahrens. Wir zeigen dies in den nächstenbeiden Sätzen.

Satz 5.13 (Konvergenz-Satz für das Gauss-Seidel-Verfahren)Erfüllt A das starke Zeilensummenkriterium, so gilt

∥GGS∥∞ ≤ ∥GJ∥∞ < 1,

wobei GJ und GGS die Iterationsmatrizen von Jacobi- bzw. Gauss-Seidel-Verfahren be-zeichnen.

186

Page 187: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis:Die Durchführbarkeit des Verfahrens haben wir hier gar nicht erst erwähnt, da die starkeDiagonaldominanz nach Satz 5.11 sofort impliziert, dass alle Diagonalelemente von A vonNull verschieden sind.Zum Beginn erinnern wir daran, dass bei starker Diagonaldominanz

∥GJ∥∞ = max1≤i≤n

n∑j=1,j =i

|aij|aii|

< 1

gilt.Sei y ∈ Rn beliebig und z := GGSy. Durch vollständige Induktion werden wir gleich zeigen,dass

|zi| ≤ ∥GJ∥∞∥y∥∞, für alle i = 1, . . . , n (271)

gilt. Maximumbildung über i zeigt, dass dann

∥GGSy∥∞ = ∥z∥∞ ≤ ∥GJ∥∞∥y∥∞

also∥GGS∥∞ ≤ ∥GJ∥∞ < 1

ist.Für i = 1 ist (271) klar, denn es ist

a11z1 = −n∑

k=2

a1kyk

und mithin

|z1| ≤n∑

k=2

|a1k||a11||yk| ≤

n∑k=2

|a1k||a11|∥y∥∞ ≤ ∥GJ∥∞∥y∥∞.

Der Induktionsschluss ergibt sich, indem wir die i-te Gleichung von z = GGSy bzw. äqui-valent (D − L)z = Ry komponentenweise aufschreiben, wobei wir annehmen, dass (271)bis i− 1 gezeigt ist. Aus

aiizi = −i−1∑k=1

aikzk −n∑

k=i+1

aikyk

ergibt sich dann

|zi| ≤∑i−1

k=1|aik||aii| |zk|+

∑nk=i+1

|aik||aii| |yk|

≤∑i−1

k=1|aik||aii| ∥GJ∥∞︸ ︷︷ ︸

<1

∥y∥∞ +∑n

k=i+1|aik||aii| ∥y∥∞

≤∑n

k=1,k =i|aik||aii| ∥y∥∞ ≤ ∥GJ∥∞∥y∥∞

Damit ist alles gezeigt.

Anmerkungen 5.14Man könnte geneigt sein, das Ergebnis des letzten Satzes dahingehend zu interpretie-ren, dass das Gauss-Seidel-Verfahren stets und bedingungslos schneller konvergiert als dasJacobi-Verfahren. Wir bemerken aber, dass dazu nach dem Satz 3.9 über die asymptotischeKonvergenzrate von Seite 48 die Aussage ρ(GGS) ≤ ρ(GJ) < 1 erforderlich wäre. Hierfürsind i.a. aber schärfere Voraussetzungen nötig. Wäre z.B. GJ elementweise größer oder

187

Page 188: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

gleich Null, so erhielte man sie etwa aus dem Satz von Stein-Rosenberg195. Dieser sagt,dass unter dieser Voraussetzung stets genau eine der folgenden vier Aussagen gilt:

(1) ρ(GGS) = ρ(GJ) = 0;(2) 0 < ρ(GGS) < ρ(GJ) < 1;(3) ρ(GGS) = ρ(GJ) = 1;(4) ρ(GGS) > ρ(GJ) > 1.

Es ist naheliegend, nun auch noch nach der Konvergenz des Gauss-Seidel-Verfahrens un-ter den Voraussetzungen der schwachen Diagonaldominaz und Irreduzibilität zu fragen.Tatsächlich läst sich aus dies mit einem Beweis ähnlich dem zum Satz 5.11 zeigen.

Satz 5.15 (GS-Konvergenz bei Diagonaldominanz und Irreduzibilität)Ist die System-Matrix A ∈ Cn×n schwach diagonal-dominant und irreduzibel so ist dasGauss-Seidel-Verfahren durchführbar und konvergent.

Beweis:Die Wohldefiniertheit des Verfahrens ist klar, weil die Diagonalelemente nach Satz 5.11von Null verschieden sind. Wie beim Beweis von Satz 5.10 betrachten wir die Matrix

M(λ) = (D − L)−1R− λI

für |λ| ≥ 1 und wollen wieder zeigen, dass M(λ) regulär ist.Nun ist M(λ) = (D − L)−1R − λI genau dann regulär wenn M := (D − L)M(λ) =R−λD+λL regulär ist. Offenbar ist M = R−λD+λL mit A = −R+D−L irreduzibel.Da nach

n∑k=1,k =j

|mjk| = |λ|j−1∑k=1

|ajk|+n∑

k=j+1

|ajk| ≤ λ|n∑

k=1,k =j

|ajk| ≤ |λ||ajj| = |mjj| für j = 1, . . . , n

mit strikter Ungleichung für mindestens ein j gilt, ist M auch schwach diagonaldominent,nach Satz 5.11 also regulär. 2

5.1.2 SPD-Systeme

Bei der Wahl der Splitting Matrix eines Splitting-Verfahrens besteht die Kunst darin,unter den leicht numerisch behandelbaren Matrizen B eine solche auszusuchen, die alleSpektralwerte von A über G = I − B−1A in das Innere des Einheitskreises treibt undmöglichst dicht bei Null versammelt.Dies wird umso einfacher machbar sein, je netter das Spektrum von A selbst aussieht. DasSpektrum symmetrischer Matrizen z.B. liegt in R, die mögliche Ausdehnung ist damit schonmal „um eine Dimension“ verkleiner. Für positiv definite Matrizen steht sogar nur nocheine Hälfte der reellen Achse zu Verfügung, weshalb mit ihnen besonders leicht umzugehenist.

Betrachten wir z.B. das Richardson–Verfahren

B = τI, xn+1 = (I − 1

τA)xn +

1

τb, (272)

195zum Beweis vgl. man z.B. [Bohl]

188

Page 189: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

so sieht man, dass das Spektrum von Gτ = I − 1τA gerade durch

spec(Gτ ) =

1− λ

τ: λ ∈ spec(A)

gegeben ist. Die optimale Wahl erhält man, indem man τ so wählt, dass die Funktion

gτ (λ) = 1− λ

τ

in der Mitte des Intervalles [λmin, λmin] ihre Nullstelle hat, wobei λmin und λmax

den betragskleinsten bzw. -größten Eigenwert von A bezeichnen. Das ist offenbar für

τopt =λmax + λmin

2

der Fall, und dort wird

ρ(G) =λmax − λmin

λmax + λmin

=K − 1

K + 1

mit der spektralen Konditionszahl

K =λmax

λmin

Wie die Zeichnung 97 zeigt, nimmt die mit ρ(K) verbundenen Konvergenzrate mit zuneh-mender Kondition ab.

−5 0 5 10 15 20 25 30−0.2

0

0.2

0.4

0.6

0.8

1

1.2

Kondition der Matrix

ρ(G)

Abbildung 97: Konvergenzrate und Kondition

Wie wir unten sehen werden, ist dies Verhalten typisch für alle Iterationsverfahren.

Zunächst wollen wir aber einige Konvergenzresultate für positiv definite Systemmatrix Afesthalten. Die Beweise aller Resultate lassen sich eleganter führen, wenn man es gewohntist, mit durch SPD-Matrizen definierten inneren Produkten zu rechnen196.Wir schreiben die Beweise hier so auf, wie sie mit der Linearen Algebra der ersten zweiSemester der TUHH verstehbar sind.

Relativ häufig anwendbar ist der folgende Satz.

196Vgl. dazu etwas [DW] S. 156-162

189

Page 190: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 5.16 (Konvergenz bei hinreichend großer Splitting-Matrix)Sind sowohl die Systemmatrix A ∈ R(n,n) als auch die Splittingmatrix B ∈ R(n,n) SPD undist die Splitting-Matrix in folgendem Sinne wenigstens „halb so groß“ wie A:

vTAv < 2vTBv für alle v ∈ Rn (273)

so ist ρ(I −B−1A) < 1.

Beweis: Wir wollen das Spektrum von G = I − B−1A untersuchen. G ist keine symme-trische Matrix, was die Untersuchungen schwieriger zu machen droht. G ist aber wegender SPD-Eigenschaft von B eine sogenannte „symmetrisierbare Matrix“ (vgl. hierzu gege-benenfalls [HY]).Durch Ähnlichkeitstransformation wird aus G eine symmetrische Matrix

G −→ G := B1/2GB−1/2 = I −B−1/2AB−1/2,

die dasselbe Spektrum hat wie G.Sei nun (λ, x) ein Eigenpaar von G mit xTx = 1. Dann ist

λ = λxTx = xT Gx = xTx− xTB−1/2AB−1/2x =: 1− α. (274)

Setzen wir v := B−1/2x , so ergibt sich wegen der positiven Definitheit von A und B erstens

α = xTB−1/2AB−1/2x > 0,

und zweitens wegen (273) die obere Abschätzung

α = xTB−1/2AB−1/2x < 2xTB−1/2BB−1/2x = 2xTx = 2.

Mit (274) schließen wir aus α ∈ (0, 2), dass

λ ∈ (−1, 1).

2

Die erste Anwendung formulieren wir als

Aufgabe 5.17Zeigen Sie:Sei A ∈ R(n,n) SPD und sei λmax der größte Eigenwert von A. Dann konvergiert dasRichardsonverfahren (272), wenn

τ > λmax/2

ist.

Auch die Konvergenz des Jacobi-Verfahrens bei starker Diagonaldominanz ist im SPD-Fallschnell mit Satz 5.16 zeigbar:

Satz 5.18 (Jacobi konvergiert für stark-diagonaldominante SPD-Matrix)Sei A ∈ R(n,n) SPD und stark diagonaldominant197. Dann konvergiert die Jacobi-Iterationzur Lösung von Ax = b.

190

Page 191: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis: Es ist B = D mit der Diagonalmatrix D von A, die selbst auch positiv definitist. Dann schätzt man ab

xTAx = xTD1/2D−1/2AD−1/2D1/2x ≤ ρ(D−1/2AD−1/2) · xTD1/2D1/2x = ρ(D−1A)xTDx.

Daρ(D−1A) ≤ ∥D−1A∥∞ < 2,

haben wirxTAx < 2xTBx

gezeigt. 2

Satz 5.19 (GS konvergiert für alle SPD-Systeme)Das Gauss-Seidel-Verfahren konvergiert für jedes Gleichungssystem mit SPD SystemmatrixA.

Beweis: Die Iterationsmatrix zum Gauss-Seidelverfahren war G = (D − L)−1LT bei derZerlegung A = D − L− LT . Sei (x, λ) ein Eigenpaar198 von G. Dann ist

[Gx = λx]⇐⇒ [LTx = λ(D − L)x].

Durch Multiplikation mit xT und Auflösen nach λ erhält man199

λ =xTLTx

xTDx− xTLx

Sei xTLTx = a+ib mit a, b ∈ R und i2 = −1. Dann ist xTLx = a−ib. Weiter sei d = xTDx.Da D SPD ist, ist d > 0. mit den eingeführten Größen ist

λ =a+ ib

d− a+ ib

und daher|λ|2 = a2 + b2

(d− a)2 + b2

Der Beweis ist erbracht, wenn wir (d− a)2 > a2 zeigen können.Aus der positiven Definitheit von A selbst erhalten wir

0 < xTAx = xTDx− xTLTx− xTLx = d− 2a.

Wenn a negativ ist, so ist sicher (d− a) > a > 0. Ist a andererseits positiv, so folgt aus

d > 2a

dass(d− a) > 2a− a = a

ist, und der Beweis ist beendet. 2

Mit dem letzten Satz kommt man schnell zu einem konvergenten Iterationsverfahren fürjedes lineare Gleichungssystem

Ax = b

198möglicherweise komplex199Dass der Nenner im nächsten Ausdruck immer von Null verschieden ist, ergibt sich gleich aus der

weiteren Rechnung.

191

Page 192: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

dessen Systemmatrix regulär ist. Man setzt nämlich einfach

x = ATy

und gelangt zu dem Gleichungssystem

AATy = b (275)

mit SPD-Systemmatrix A := AAT , für welches das Gauss-Seidel-Verfahren - wie geradebewiesen - konvergiert.Man kann nun das Gauss-Seidel mit der MatrixA und einer Folge von y-Werten y0, y1, y2, . . .ausführen und am Ende aus dem letzten yk eine Approximation xk := ATyk gewinnen. Mankann die ganze Iteration aber auch direkt in den x-Werten schreiben. wie dies in der näch-sten Aufgabe geschieht:

Aufgabe 5.20

Zeigen Sie: Für i ∈ 1, . . . , n sei ai := AT ei das Transponierte der i-ten Zeile von A.Dann lässt sich ein Schritt des Gauss-Seidel-Verfahrens für (275) in der folgenden Formschreiben, wenn man während der Iteration bei jedem Update einer Komponente von ygleich wieder alles in die zugehörigen x-Vektoren umrechnet.For i=1:n

x = x− (aTi ai)−1(aTi x− bi

)· ai;

end

Anmerkung: Man beachte, dass im i-ten Unterschritt jeweils der ganze x-Vektor ange-passt wird.

Wir wenden uns jetzt noch einigen Aussagen über die SOR-Verfahren zu und haben fürdiese deren Iterationsmatrix

GSOR = I − ω(D − ωL)−1A

zu untersuchen.

Allgemeiner betrachten wir200 gleich die allgemeineren Iterationsmatrizen

G(ω, τ) := I − τ(D − ωL)−1A.

Je nach Parameterwahl sind in dieser Klasse enthalten

G(0, 1) Jacobi-IterationG(0, τ) τ -extrapolierte Jacobi-IterationG(1, 1) Gauss-Seidel-IterationG(1, τ) τ -extrapoliertes Gauss-SeidelG(ω, ω) ω-Sor

Wir merken an, dass sich die G(ω, τ)-Methode wegen

G(ω, τ) =τ

ωG(ω, ω) + (1− τ

ω)I

200mit [HADJIDIMOS 79] und [HAQUE 87]

192

Page 193: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

allgemein als gedämpfte Overrelaxation interpretieren läßt201.

Wir interessieren uns hier vorwiegend für die SOR-Iteration und ihre gedämpfte Variante-Fall202.

Für den SOR-Fall beweisen wir zunächst den folgenden einfachen Satz, der die bei Defini-tion des SOR-Verfahrens getroffene Einschränkung ω ∈ (0, 2) begründet.

Satz 5.21 (Sinnvoller Overrelaxationsparameter-Bereich)Für beliebige Matrizen A mit regulärer Diagonale gilt

ρ (G(ω, ω)) ≥ |ω − 1| ∀ω,

so dass als Relaxationsparameter ω nur Werte aus (0, 2) in Frage kommen.

Beweis: Es ist det(I − ωL) = 1, so dass für das charakteristische Polynom φ(λ) vonG(ω, ω) gilt

φ(λ) : = det(λI −G(ω, ω))= det ((I − ωL)(λI −G(ω, ω)))= det ((I − ωL) [λI − (I − ωL)−1 (1− ω)I + ωR])= det ((I − ωL)λ− (1− ω)I − ωR) .

Die MatrixV (λ, ω) := (I − ωL)λ− (1− ω)I − ωR

wird für λ = 0 zur unteren Dreiecksmatrix, so dass sich einerseits ergibt

|φ(0)| = |ω − 1|n. (276)

Auf der anderen Seite ist φ(0) aber auch das Produkt der Eigenwerte von G(ω, ω)

φ(0) =n∏

i=1

λi(G(ω, ω)). (277)

Aus (276) und (277) folgt nun sofort die Behauptung.2

Für die in diesem Abschnitt im Vordergrund stehenden SPD-Matrizen erhält man imganzen Parameterbereich (0, 2) Konvergenz. Etwas allgemeiner haben wir den folgendenSatz.

Satz 5.22 (Konvergenzsatz für SOR im SPD-Fall)Sei A ∈ Cn×n hermitesche und positiv definit203. Dann ist

ρ(G(ω, τ)) < 1, ∀0 < τ ≤ ω < 2.

201Gedämpfte Relaxationsverfahren sind später bei sogenannten Mehrgitter-Verfahren von Interesse202Für die anderen Fälle haben wir ja teilweise schon gesonderte Konvergenzresultate geliefert.

193

Page 194: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Beweis:Sicherheitshalber wiederholen wir, was hermitesch und positiv definit für komplexe Matri-zen bedeuten: A = AH := AT , xHAx > 0,∀x = 0.Um Übersicht über die Teilschlüsse zu behalten, teilen wir den Beweis in drei Unterab-schnitte auf:

Abschnitt A. Die Splitting-Matrix B = B(ω, τ) von G(ω, τ) ist

B =1

τD − ω

τE.

Dafür rechnet man aus

B +BH − A =1

τD − ω

τE +

1

τD − ω

τF − (D − E − F )

=2− ωτ

D +(ωτ− 1)A

Da A und D positiv definit sind und

2− ωτ

> 0,(ωτ− 1)≥ 0,

ist B +BH − A positiv definit.

Abschnitt B. Wir zeigen hier Re(spec(A−1(2B − A))) > 0.Sei dazu x ein Eigenvektor von A−1(2B−A) mit Eigenwert λ. Dann hat man (2B−A)x =λAx, woraus

xH(2B − A)x = λxHAx (278)

und - durch Übergang zum konjugiert Komplexen -

xH(2BH − A)x = λxHAx (279)

folgen. Durch Addition von (278) und (279) ergibt sich

xH (B +BH − A)︸ ︷︷ ︸pos.def.

x = Re(λ) xH (A)︸︷︷︸pos.def.

x,

was Re(λ) > 0 bedeutet.

Abschnitt C. Zu Q := A−1(2B−A) = 2A−1B− I existiert (Q+ I)−1 = (2A−1B)−1, undes ist

(Q− I)(Q+ I)−1 = I −B−1A = G(ω, τ).

Ist µ ein Eigenwert von G(ω, τ) und x zugehöriger Eigenvektor, so ist

(Q− I) (Q+ I)−1x︸ ︷︷ ︸y =0

= G(ω, τ)x = µx,

so dass(Q− I)y = µ(Q+ I)y

bzw.(1− µ)Qy = (1 + µ)y

ist. Wegen y = 0 ist sicher µ = 1, und wir haben daher weiter

Qy =1 + µ

1− µy.

194

Page 195: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Also istλ =

1 + µ

1− µEigenwert von Q = A−1(2B − A) und hat damit nach B. positiven Realteil.

Umgekehrt ist nun µ = λ−1λ+1

und

|µ|2 = |λ|2 + 1− 2Re(λ)

|λ|2 + 1 + 2Re(λ).

und daher |µ| < 1. 2

5.1.3 Konsistente Ordnung

Das grundsätzliche Wissen, dass das SOR-Verfahren konvergiert, ist natürlich schon sehrschön. Allein hätte man wohl gern näher gewusst, wie man denn den Overrelaxationspa-rameter bestmöglich wählen sollte.Eine geschlossene Theorie existiert hier nur für eine recht enge Klasse von Matrizen,die sogenannten „konsistent geordneten“ Matrizen. Dies sind mit der Standard-ZerlegungA = D(I − E − F ) diejenigen Matrizen A, bei denen die Eigenwerte der Matrix

J(α) := αE + α−1F

nicht von α = 0 abhängen.

Solche Matrizen gibt es, wie die folgende Aufgabe zeigt.

Aufgabe 5.23Alle Block-Tridiagonal-Matrizen, deren Blöcke wiederum Diagonalmatrizen sind, sind kon-sistent geordnet.

Tatsächlich ist diese Klasse relativ klein. In den Anwendungen gehören zu ihnen u.a. dieFinite-Differenzen-Diskretisierungen einfacher elliptischer Differentialgleichungen, wenn mandie Variablen auch noch in bestimmter Weise sortiert. Färbt man das Gitter der Abbildung6 z.B. wie ein Schachbrett ein und wählt man analog der Reihenfolge der Standardnumerie-rung zeilenweise von unten nach oben und in den Zeilen von links nach rechts die Variablenzunächst auf den schwarzen Feldern und dann auf den weißen Feldern, so gelangt man zueiner 2× 2-Blockmatrix mit Diagonalmatrizen als Diagonalblöcke.

Für die Klasse der konsistent geordneten Matrizen gibt es zwei sehr hübsche Resultate, diewir hier ohne Beweis angeben (Beweise hierzu findet man etwa bei [STBU] ).

Satz 5.24 (Vergleichssatz für Jacobi- und Gauss-Seidel-Verfahren)Wenn A konsistent geordnet ist, so gilt

ρ(GGS) = ρ(GJ)2.

Für konsistent geordnete Matrizen konvergiert das Gauss-Seidel-Verfahren also asympto-tisch doppelt so schnell wie das Jacobi-Verfahren, wenn letzteres denn konvergiert.

195

Page 196: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 5.25 (Satz über den optimalen Relaxationsparameter)Ist A konsistent geordnet und gelten für die Iterations-Matrix GJ des Jacobi-Verfahrensdie Aussagen spec(GJ) ∈ R und ρ(GJ) < 1, so wird ρGSOR

= ρ(G(ω, ω)) in (0, 2) minimalfür

ωmin = 2(1 +

√1− ρ(GJ)2

)−1

(280)

mit dem Wert

ρmin = ωmin − 1 =

(ρ(GJ)

1 +√

1− ρ(GJ)2

)2

.

5.2 Nichtstationäre Verfahren 1: Konvergenzverbesserung

Statt in der sogenannten „ersten Normalform“

xn+1 := Gxn + b, mit G := I −B−1A und b := B−1b (281)

der Splitting-Iteration zur Lösung von Ax = b mit dem Splitting A = B + (A−B), denktman gern mit der äquivalenten „zweiten Normalform“ nach

xn+1 := xn −B−1(Axn − b).

Ersetzt man hierin204 den Vektor b durch Ax∗, so wird die zweite Normalform zu

xn+1 := xn −B−1A(xn − x∗), (282)

und es wird noch deutlicher, warum die Iteration umso besser wird, je mehr B−1 denLösungsprozess A−1 approximiert.Es ist einleuchtend, dass man im Verlauf der Iteration etwas über den Lösungsprozesslernen kann, und so kann sich in jedem Schritt das B−1 ändern um sich z.B. mehr derwirklichen Inversen zu nähern oder aber auch um auszunutzen, dass der Fehler xn− x∗ imVerlauf der Iteration bestimmte Eigenschaften hat.

Wir werden auf (282) besonders bei Kaczmarz-Typ-Verfahren und bei sogenannten Mehrgitter-Verfahren zurückkommen. Man benutzt sie auch bei Verfahren mit sogenannten „appro-ximativen Inversen“. Hier wird B als Näherung von A−1 bestimmt, für die gewisser Spei-cherplatz vorgegeben ist. Wir gehn hierauf in dieser Vorlesung nicht ein. Vgl. aber [BT].

Zunächst aber wollen wir auf Verfahren eingehen, die bei herkömmlichen Iterationen (281)Information auszunutzen bemüht sind, die im jeweils bisherigen Iterationsverlauf

x0, x1, x2, . . . , xn

enthalten sein könnte, um eine mitρ(G) < 1 (283)

vorhandene Konvergenz zu beschleunigen.204unter Annahme der Lösbarkeit von Ax = b durch x∗

196

Page 197: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.2.1 Polynomiale Beschleunigung

MPE Methode Bei der Minimal-Polynom-Extrapolation geht man davon aus, dass sichder Fehler e[k] = xk−x∗ der k-ten Iterierten entwickeln lässt nach Eigenvektoren v1, . . . , vnder Iterationsmatrix G zu den Eigenwerten λ1, . . . , λn:

e[k] =n∑

i=1

βivi.

Dann ist

e[k+m] = Gme[k] =n∑

i=1

λmi βivi,m ≥ 0 (284)

oder

xk+m = x∗ +n∑

i=1

λmi βivi. (285)

Seien µ1, . . . , µr (r ≤ n) die paarweise verschiedenen Spektralwerte aus λ1, . . . , λn, diein (284) auftauchen205.

Ist dann

P (λ) =r∏

p=1

(λ− µp) =r∑

q=0

cqλq

das Polynom mit den einfachen Wurzeln µ1, . . . , µr, so istr∑

q=0

cqxk+q =

∑rq=0 cqx

∗ +∑r

q=0 cq (∑n

i=1 λqiβiv

i)

= x∗∑r

q=0 cq1q +

∑ni=1

(∑rq=0 cqλ

qi

)βiv

i

= x∗P (1) +∑n

i=1 P (λi)βivi

= x∗P (1).

Dabei folgt das letzte Gleichheitszeichen aus der Tatsache, dass P (λi) = 0 für alle Indizesi ist, für die βi = 0. Wegen (283) ist

∑rq=0 cq = P (1) = 0, so dass(

r∑q=0

cqxk+q

)/( r∑q=0

cq

)= x∗

wäre.

Allerdings muss man dafür erst einmal die Koeffizienten des Polynoms P (λ) haben.

Zu deren (approximativer) Gewinnung betrachtet man die Differenzen

δk+m = xk+m+1 − xk+m, m = 0, . . . , r.

Dann istδk+m+1 = xk+m+2 − xk+m+1 = Gxk+m+1 −Gxk+m = Gδk+m,

Da an δk dieselben Eigenvektoren von G beteiligt sind wie an e[k], muss

δk+m =r∑

q=0

µmq wq

205Das können deutlich weniger als n sein: Einerseits treten in Anwendungen gern mehrfache Eigenwerteauf und andererseits werden für den Anfangsfehler oft nicht alle Koeffizienten βk von Null verschiedensein.

197

Page 198: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

sein, mit gewissen wq aus dem Eigenraum zu µq.Es muss folglich

c0δk + c1δk+1 + . . .+ crδk+r =r∑

q=0

P (µmq )wq = 0

sein. Betrachtet man dies System als überbestimmtes Gleichungssystem, so liegt es nahe,die ci, i = 0, . . . , r durch Ausgleichsrechnung, etwa (bei Normierung von c0 auf 1) durchLösen von

∥[δk+1, δk+2, . . . , δk+r]C + δk∥2 = min

in C = [C1, C2, . . . , Cr].Mit C0 := 1 wäre dann auszurechnen als verbesserte Näherung

xkimp :=

(r∑

q=0

Cqxk+q

)/( r∑q=0

Cq

).

0 20 40 60 80 100 1200

10

20

30

40

50

60Wirkung der Minimal−Polynom−Extrapolation

Original−Fehlerd=2,3

d=4,5

d=6,7

d=8,9

0 20 40 60 80 100 1200

1

2

3

4

5

6MPE bei rauem Startvektor

Abbildung 98: MPE bei glattem und rauem Fehlervektor

Der Erfolg des Verfahrens hängt wesentlich davon ab, welche Fehlerkomponenten im aktu-ellen Fehler wirklich vorhanden sind. Bei relativ glatten Fehlern (vgl. Abbildung 98 links)sind die Resultate sehr befriedigend. Enthält der Fehler hochfrequentere Anteile (vgl. Ab-bildung 98 rechts) kann die Voraussage schon einmal schlechter werden und (vgl. Abbildung99) der Fehler den Fehler der Originaliteration um mehrere Größenordnungen übersteigen.

198

Page 199: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 20 40 60 80 100 1200

2

4

6

8

10

12MPE−Fehler−Aufschaukelungen

r=2

r=3

r=4

r=5

Abbildung 99: MPE mit Fehleraufschaukelung

Polynomiale oder Semi-Iteration Wie eben bei MPE wollen wir die Iterationswertex0, x1, x2, . . . einer schon konvergenten Iteration (281) zur Lösung des Systems

Ax = b, A ∈ Rn×n, x, b ∈ Rn (286)

so linear kombinieren, dass eine schneller gegen die Lösung konvergierende FolgeX0, X1, X2, . . . entsteht.Allerdings wollen wir hier nicht wie bei MPE eine feste Anzahl vorangegangener xk-Wertezu den X-Werten kombinieren sondern gemäß

Xm :=m∑i=0

αm,ixi, m = 0, 1, 2, . . . (287)

jedes Xm aus allen vorangegangenen Vektoren zusammensetzen, wobei deren Anzahlnatürlich mit dem Fortschreiten wächst.Eine natürliche Bedingung für ein solches Vorgehen ist sicherlich zunächst einmal, dass

m∑i=0

αm,i = 1 für alle m ∈ N0, (288)

weil sonst die mit der Lösung x∗ gestartete Iteration nicht bei x∗ bliebe.

Für den Fehlerεm := Xm − x∗ (289)

rechnet man wegenε0 = e0 = x0 − xast

und (288) sowie (96) leicht aus

εm = Xm − x∗ = (∑m

i=0 αm,ixi)− x∗

=∑m

i=0 αm,i(xi − x∗) =

∑mi=0 αm,ie

[i]

=∑m

i=0 αm,iGie[0] = (

∑mi=0 αm,iG

i) ε[0].

Mithin istε[m] = Qm(G)ε

[0] (290)

199

Page 200: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

wobei für das Polynom

Qm(t) :=m∑i=0

αm,iti

wegen (288) die BedingungQm(1) = 1 (291)

gilt.

Wir nehmen im Weiteren stets an, dass die Iterationsmatrix G diagonalisierbar ist

Z−1GZ = Λ

mitZ =

(z1, . . . , zn

)regulär ,Λ = diag(λ1, . . . , λn)

undGzi = λiz

i, i = 1, . . . , n.

Setzt man dann yT1...yTn

:= Z−1,

so findet man für G wegen

G = ZΛZ−1 = (z1, . . . , zn)Λ

yT1...yTn

die Spektralzerlegung

G =n∑

i=1

λiziyTi ,

worin die Vektor-Sätze z1, . . . , zn und y1, . . . , yn biorthogonale Systeme von Rechts- bzw.Links-Eigenvektoren von G jeweils zu den Eigenwerten λ1, . . . , λn ∈ C sind206

Nun überzeugt man sich schnell davon, dass unter diesen Gegebenheiten für k ∈ N

Gk =n∑

i=1

λki ziyTi

und folglich

Qm(G) =n∑

i=1

Qm(λi) ziyTi

ist.Insbesondere hat man

spec(Qm(G)) = Qm(λ) | λ ∈ spec(G) . (292)206Das heißt:

Gzi = λizi, yTi G = yTi λi, i = 1, . . . , n

undyTi zj = δi,j , i, j = 1, . . . , n.

200

Page 201: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Um ε[m] unabhängig von ε[0] in (290) möglichst klein zu bekommen, ist es sinnvoll , fürden Spektralradius ρ(Qm(G)) den kleinstmöglichen Wert zu wünschen.

Nach (292) heißt das dann, dass das diskrete Tschebyscheff-Problem

max1≤i≤n

|Qm(λi)| = min (293)

zu lösen ist.

Leider ist das ganze Spektrum von G natürlich normalerweise nicht bekannt207. Oft weißman aber, dass das Spektrum spec(G) in einer gewissen Menge Ω ⊂ C enthalten ist,

spec(G) ⊂ Ω ⊂ C, (294)

oder man kann sich ein solches Ω mit nicht zu viel Aufwand beschaffen. Dann liegt es nahe,anstelle von (293) das Problem

maxz∈Ω

|Qm(z)| = min (295)

zu lösen und die Koeffizienten des so berechneten Polynoms Qm in (287) zu verwenden208.Dann wird Qm zwar im Sinne von (293) nicht optimal; wenn Ω dem Spektrum von Gaber hinreichend „dicht anliegt“, wird man erwarten, dass man nicht allzuviel Konvergenz-Geschwindigkeit verschenkt.

Wenn man - wie etwa bei Splitting-Iterationen, die von Satz 5.16 erfasst werden - dasSpektrum von G in einem reellen Intervall [a, b] mit

−1 < a < b < 1

liegt, so kann man die Polynome Qm(z) als die Polynome bestimmen, die bei t = 1 denWert 1 annehmen und deren Maximum auf dem Intervall [a, b] minimal wird. Man weiß,dass man diese Polynome mit Hilfe der sogenannten Tschebyscheff-Polynome

Tn(x) := cos(n arccos(x)), n ∈ N0

berechnen kann, wobei Tn(x) unter allen Polynomen Pn von Grad n mit Wert Pn(1) = 1den Wert

maxx∈[0,1]

|Pn(x)|

minimiert. Da die Tschebyscheff-Polynome mit einer dreier-Rekursion

Tn+1(x) = 2xTn(x)− Tn−1(x)

aus T0(x) = 1 und T1(x) = x berechnet werden können, können auch die Werte X0, X1, X2, . . .mit einer Dreierrekursion berechnet werden.

Problematisch ist die Tatsache, dass man für den Algorithmus ein das Spektrum einschlie-ßendes Intervall [a, b] ⊂ (−1, 1) gut kennen muss, das diese Werte in die Rekursionskoeffi-zienten eingehen.

Weil es für den Fall eine SPD-Systemmatrix A ein solche Dreierrekursion gibt, die genauso schnelle Konvergenz bringt, aber die Koeffizienten automatisch bestimmt, führen wirdas Verfahren hier nicht weiter aus.

Es sei aber angemerkt:207Und selbst wenn es bekannt wäre, würde diese volle Information bei großen Systemen (mit normaler-

weise furchtbar vielen Eigenwerten) auch nicht viel nützen, weil die exakte Lösung von (293) viel zu teuerkäme.

208Die Aufgabe (295) ist natürlich wieder unter der Restriktion (291) zu lösen, weshalb 1 ∈ Ω sein sollte.

201

Page 202: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Anmerkungen 5.26 (Tschebyscheff-Iteration)Die Tschebyscheff-Iteration ist auch durchführbar, wenn das Spektrum von G in einerEllipse der komplexen Ebene liegt, die den Wert 1 nicht enthält.

5.2.2 Unterraum-Minimierung

Bei einer Iterationxn+1 = Gxn + b

erhält man, wenn man bei x0 = 0 startet, die Folge

x0 = 0;

x1 = b;

x2 = b+Gb;

x3 = b+Gb+G2b;

x4 = b+Gb+G2b+G3b;...

die ersten m nichttrivialen Elemente x1, . . . , xm liegen also im Raum

Km(G, b) := spanb,Gb,G2b, . . . Gm−1b

(296)

Definition 5.27 (Krylovraum)Der Raum Km(G, b) aus (296) heißt m-ter Krylov-Raum zum Vektor b und zur Matrix G.

Zur Verbesserung der Approximation liegt es nahe, aus diesem Raum ein besseres Elementauswählen zu wollen.

Als Güte-Kriterium kämen z.B. die Minimierung des Funktionals (4) oder - im Falle derSPD-Eigenschaft von A - des Funktionals (9) in Frage.

Im ersten Fall führt dies mit r0 := Ax0 − b und der Minimierung von

∥Ax− b∥2

über x0 +Km(A, r0) zum sogenannten GMRES-Verfahren für die iterative Lösung von

Ax = b

für alle reguläten Matrizen A.

Im zweiten Fall gelangt man durch Minimierung von

1

2xTAx− xT b

über x0 +Km(A, r0) zum sogenannten Verfahren der konjugierten Gradienten.

Beide Verfahren bilden Standard-Verfahren in der großen Klasse der Krylow-Raum-Methoden.

202

Page 203: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.3 Nichtstationäre Verfahren 2: CG-Typ-Verfahren

5.3.1 Herleitung des Verfahrens als Ritz-Galerkin-Verfahren

Das sogenannte „Verfahren der Konjugierten Gradienten“ (CG wie Conjugate Gradients)wird meistens erklärt als ein Verfahren, welches das Gleichungssystem

Ax = b

mit SPD-Matrix A ∈ R(n,n) ausgehend von einem Startvektor x0 ∈ Rn durch (höchstens)n eindimensionale Minimierungsschritte für das Funktional

Φ1(x) =1

2xTAx− xT b (297)

löst. Dabei wird an jedem Iterationspunkt xk der negative Gradient

rk := b− Axk

gebildet, in dessen Richtung Φ1(x) bei xk am stärksten fällt, aber dann anschließend nichtin Richtung von rk minimiert, sondern in die Richtung, die entsteht, wenn man rk bezüglichder A-inneren Produktes

< x, y >A:= xTAy

gegen alle bisherigen Suchrichtungen orthogonalisiert. Man nennt solche Richtungen auchA-konjugiert.

Wir wollen dies Verfahren hier herleiten mit dem Vorwissenen, dass der Iterationspunktxk dabei der Minimumpunkt von Φ im affinen Raum

x0 +Kk(r0, A) (298)

ist, mit K0(r0, A) := 0.Um die Schreibarbeit etwas einfacher zu halten, wandeln wir

Ax = b

um inA(x0 + u) = b bzw. Au = (b− Ax0) = r0.

Anstatt Φ1(x) über x0 + Kk(r0, A) zu minimieren mit dem Ergebnis xk = x0 + uk, uk ∈Kk(r0, A) können wir alternativ

Φ2(u) :=1

2uTAu− xT r0

direkt über Kk(r0, A) minimieren mit dem Ergebnis uk.

Wie wir in Ungleichung (14) festgehalten haben, ist uk die beste Approximierende derLösung u von Au = r0 aus aus Kk(r0, A) bezüglich der durch die A-Norm definiertenMetrik und deshalb die orthogonale Projektion Pku von u auf Kk(r0, A).

Wenn wir einmal annehmen, dass Kk(r0, A) die Dimension k hat209 und dass p1, . . . , pk mitp1 = r0 eine A-orthogonale Basis von Kk(r0, A) sei, so können wir nach unserem Wissenaus der Linearen Algebra I und II schreiben:

uk = Pku =k∑

m=1

< pm, u >A

< pm, pm >A

pm =k∑

m=1

(pm)TAu

(pm)TApmpm =

k∑m=1

(pm)T r0

(pm)TApmpm.

209Das heißt, dass alle Vektoren r0, Ar0, . . . , Ak−1r0 linear unabhängig sind. Für k = 1 ist das der Fall,

wenn r0 = 0, wenn x0 also noch nicht die Lösung ist.

203

Page 204: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Hieraus lesen wir unmittelbar die Rekursion

uk = uk−1 + αkpk mit αk =(pk)

T r0(pk)TApk

ab.Zugleich ist

rk := b− Axk = b− A(x0 + uk) = b− (Ax0 + uk−1)− αkApk = rk−1 − αkApk.

Wegen rk−1, pk ∈ Kk(r0, A) ist daher rk ∈ Kk+1(r0, A).

Wenn rk = 0 ist, xk also nicht das System Ax = b bzw. uk nicht das System Au = r0 löst,so ist rk als Gradient des zu minimierenden Funktionals senkrecht auf dem Raum der zurVariation zugelassenen Richtungen aus Kk(r0, A). Die Hinzunahme von Akr0 zu Kk(r0, A)sorgt dafür, dass der zu Kk(r0, A) senkrechte Vektor rk in Kk+1(r0, A) liegt, womit induktivgezeigt ist, dass dim(Kk+1(r0, A)) = dim(Kk(r0, A)) + 1.

Wir ergänzen jetzt die A-orthogonale Basis p1, . . . , pk um einen Vektor pk+1 zu einerA-orthogonalen Basis von Kk+1(r0, A), indem wir rk gegen die Vektoren p1, . . . , pk ortho-gonalisieren

pk+1 = rk −k∑

j=1

rTkApjpTj Apj

pj. (299)

Für j < k gehören die Vektoren pj zu Kk−1(r0, A), die Vektoren Apj gehören für dieseIndizes demnach zu Kk(r0, A), zu dem rk senkrecht steht. Mithin verschwinden in derSumme von (299) alle Summanden bis auf den letzten, und die Orthogonalisierung reduziertsich auf

pk+1 = rk + βk pj mit βk := −rTkApkpTkApk

Mit etwas Rechnung lassen sich die Ausdrücke für αk und βk noch vereinfachen zu

αk =rTk−1rk−1

pTkApkund βk =

rTk rkrTk−1rk−1

.

Damit ist der CG-Algorithmus vollständig.

Algorithmus 5.28 (CG-Iteration). x0 = Startvektor;

p1 := r0 = b− Ax0;for k = 1 to kmax do;

αk =rTk−1rk−1

pTkApk;

uk = uk−1 + αkpk;

rk = rk−1 − αkApk;

βk =rTk rk

rTk−1rk−1

;

pk+1 = rk + βkpk;

end

204

Page 205: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.3.2 Skizze einer Fehleranalyse für den CG-Algorithmus

Wir haben oben den k-ten Iterationsvektor der CG-Methode definiert als den Punkt, der

qA(x) :=1

2xTAx− xT b

über x0 +Kk(R0, A) minimiert.Schon im Abschnitt 2.1.1 hatten wir festgestellt, dass xk dann die beste Approximationdes Vollraumminimums

x∗ = arg minRn

1

2xTAx− xT b

in der Energie- oder A-Norm ist

xk := arg minx∈x0+Kk(r0,A)

∥x− x∗∥2A.

Es ist also

∥xk − x∗∥2A = minx∈x0+Kk(r0,A)

∥x∗ − x∥2A = minz∈Kk(r0,A)

∥x∗ − x0 + z∥2A. (300)

ist.

Wegenr0 = b− Ax0 = A(x∗ − x0),

Ar0 = A2(x∗ − x0),...

...Ajr0 = Aj+1(x∗ − x0),

sind die Elemente z ∈ Kk(r0, A) gerade darstellbar als

z = α1A1(x∗ − x0) + α2A

2(x∗ − x0) + . . .+ αkAk(x∗ − x0), αi ∈ R, i = 1, . . . , k.

Setzen wir - wie gehabt -

x∗ − xk =: e[k], k = 0, 1, 2, . . . ,

so kann die Minimalaussage (300) geschrieben werden als

∥e[k]∥2A = minα1,...,αk∈R

∥e[0] + α1Ae[0] + . . .+ αkA

ke[0]∥2A. (301)

Definiert man die Polynomklasse Πk über

Πk := p | p = Polynom von Grad ≤ k, p(0) = 1 , (302)

so bekommt (301) die Form

∥e[k]∥2A = minp∈Πk

∥p(A)e[0]∥2A. (303)

Wie bei der polynomialen Iteration ist hier damit der Fehler der k–ten Iteration darstellbarals Ergebnis der Anwendung eines Polynoms in A auf den Ausgangsfehler. Die CG-Methodeist in diesem Sinne also auch eine polynomiale Iterationsform.

Während aber bei der Tschebyscheff-Iteration das der Rechenvorschrift zugrundeliegendePolynom explizit konstruiert (und anschließend geschickt implementiert) werden mußte,

205

Page 206: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

erzeugt die CG-Methode das verwendete Polynom gewissermaßen „ohne Zutun des Benut-zers“, und dies noch optimal im Sinne von (303)210.

Nun ist (303) zwar an sich schon sehr schön, sagt aber immer noch nichts Direktes überdie Konvergenzgeschwindigkeit des Verfahrens aus.

Bei der T-Iteration wurde eine solche Geschwindigkeitsaussage durch die Untersuchung desVerhaltens der tranformierten Tschebyscheff-Polynome auf dem Spektrum der Iterations-matrix gewonnen211.

Es liegt deshalb nahe, auch hier zu einer spektralen Darstellung von (303) überzugehen.

Sei hierzu

A =n∑

i=1

λizizTi , zi ∈ Rn, λi > 0, i = 1, . . . , n, zTi zj = δij (304)

die Spektralzerlegung der (SPD) Systemmatrix A und

e[0] =n∑

i=1

βizi (305)

die Entwicklung des Anfangsfehlers nach den Eigenvektoren von A.

Indem wir mit (304) und (305) in die rechte Seite von (303) gehen, erhalten wir auf schonbekannte Weise die Aussage

∥e[k]∥2A = minp∈Πk

∥n∑

i=1

βip(λi)zi∥2A. (306)

Unter Verwendung der Definition der A-Norm rechnen wir aus

∥n∑

i=1

βip(λi)zi∥2A =

(n∑

i=1

βip(λi)zi

)T

A

(n∑

j=1

βjp(λj)zj

)=

n∑i=1

(β2i · λi · (p(λi))

2) .Demnach wird aus (306) schließlich die wichtige Formel

∥e[k]∥2A = minp∈Πk

n∑i=1

β2i · λi · (p(λi))

2 . (307)

Wir werden diese Formel am Ende dieses Abschnittes noch genauer analysieren, leiten ausihr aber zunächst nur eine grobe212 obere Schranke für die Konvergenzgeschwindigkeit her.Dazu schätzen wir die in (307) auftretenden Polynom-Werte |p(λi)| durch ihr Maximummaxλ∈spec(A) |p(λ)| ab und verwenden213

∥e[0]∥2A =n∑

i=1

β2i λi,

um∥e[k]∥A ≤ min

p∈Πk

maxλ∈spec(A)

|p(λ)| ∥e[0]∥A (308)

zu erhalten.210Was doch nun wirklich sehr zuvorkommend ist.211Besser: auf einer das Spektrum enthaltenden Menge.212wenn auch in vielen Anwendungen realistische213zur Übung bitte nachprüfen!!

206

Page 207: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Ist daher q irgendein Polynom in Πk, so finden wir

∥e[k]∥A ≤ minp∈Πk

maxλ∈spec(A)

|p(λ)| ∥e[0]∥A ≤ maxλ∈spec(A)

|q(λ)| ∥e[0]∥A. (309)

Wir werden in dieser Abschätzung später das q speziellen Formen des Spektrums von Aanpassen, um zu speziellen Aussagen zu kommen. Zunächst vergröbern wir (309) aber nocheinmal, indem wir mit

0 < λmin = min spec(A) und λmax = max spec(A)

die Abschätzung fortsetzen zu

∥e[k]∥A ≤ maxλ∈spec(A)

|q(λ)| ∥e[0]∥A ≤ maxλ∈[λmin,λmax]

|q(λ)| ∥e[0]∥A ∀ q ∈ Πk. (310)

Verwendet man für q speziell das aus dem k-ten Tschebyscheff-Polynom abgeleitete Poly-nom aus Πk, das auf [λmin, λmax] in der Tschebyscheff-Norm minimal sind, so ergibt sich214

die Schranke

maxλ∈[λmin,λmax]

|q(λ)| ≤ 2 ·(√

κ− 1√κ+ 1

)k

,

wobei κ die spektrale Konditionszahl

κ =λmax

λmin

= cond2(A)

von A ist. Insgesamt finden wir damit die

Lemma 5.29 (Abschätzung der CG-Konvergenzrate)Sei A ∈ Rn×n eine SPD Matrix und xkk=1,...,n die mit dem CG-Algorithmus bestimmteSequenz von Approximationen der Lösung x∗ eines Gleichungssystems Ax = b. Dann ist

∥xk − x∗∥A ≤ 2 ·

(√cond2(A)− 1√cond2(A) + 1

)k

· ∥x0 − x∗∥A. (311)

Die Güte dieser Konvergenzrate(nabschätzung) wird beleuchtet durch den Vergleich miteiner analogen Abschätzung für das Verfahren des steilsten Abstieges (= Exakte Linien-suche in Richtung des jeweils negativen Gradienten rk = b−Axk). Hierfür weiß man (vgl.z.B. [LUENBERGER 73]) folgendes.

Lemma 5.30 (Abschätzung der Konvergenzrate des steilsten Abstieges)Sei A ∈ Rn×n eine SPD Matrix und xkk=1,...,n die bei exakter Liniensuche in Richtungdes Steilsten Abstieges aus einem Startpunkt x0 erzeugte Sequenz von Approximationender Lösung x∗ eines Gleichungssystems Ax = b. Dann ist

∥xk − x∗∥A ≤ ·(

cond2(A)− 1

cond2(A) + 1

)k

· ∥x0 − x∗∥A. (312)

214Aufgabe!

207

Page 208: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Nach einem Ergebnis von [AKAIKE 59] ist sogar bekannt, dass (312) keine grobe Über-schätzung ist, sondern bis auf wenige Ausnahmestartpunkte x0 auch angenommen wird.

Die Abschätzung (311) ergibt sich damit (approximativ) aus der Abschätzung (312), wennman dort in Zähler und Nenner die Konditionszahl von A durch ihre Wurzel ersetzt. Diesergibt schon eine erhebliche Beschleunigung, wie man aus dem folgenden Beispiel ent-nimmt:Bei einer Kondition der Matrix A von etwa 100 vermindern 10 Schritte des Gradienten-Verfahrens den Fehler (ungünstigstenfalls) um den Faktor 10−0.2 ≈ 0.631 während dieAbschätzung für das CG-Verfahren eine Reduktion um 10−2 = 0.01 voraussagt.

Tatsächlich gibt (311) oft sogar nur eine sehr grobe obere Schranke für die Konvergenzge-schwindigkeit des CG-Verfahrens215. Das sieht man allein schon an der schon angeführtenEigenschaft des CG-Verfahrens, (bei exakter Rechnung) das Ergebnis sicher nach n Schrit-ten zu liefern. Die Schranke (311) spiegelt diese Eigenschaft nicht mehr wieder.

Aus der (311) vorangehenden Abschätzung (309) kann man diese Eigenschaft noch gewin-nen. Da die n × n–Matrix A maximal n verschiedene Eigenwerte besitzt, kann für k ≥ ndas Polynom q so gewählt werden, dass es in allen Eigenwerten von A verschwindet.

Dieses Ergebnis läßt sich sofort verallgemeinern:

Lemma 5.31 (Vorzeitiger Abbruch der CG-„Iteration“)Sei A ∈ Rn×n eine SPD Matrix und xkk=1,...,n die mit dem CG-Algorithmus bestimmteSequenz von Approximationen der Lösung x∗ eines Gleichungssystems Ax = b. Hat Adann m ≤ n verschiedene Eigenwerte, so ist bei exakter Rechnung x[k] = x∗ spätestens fürk = m erreicht.

„Beweis:“ Das Polynom q braucht in diesem Fall nur die m verschiedenen Eigenwerte vonA als Nullstellen zu haben, um über (309) den Fehler Null erschließen zu können, undkleiner als Null kann eine nichtnegative Zahl nicht werden.

2

Bei welchen Problemen wird sich das letzte Ergebnis nun positiv auswirken können?

Dies wird einerseits bei Problemen auftreten, deren mehrfache Eigenwerte aufweisen. Daeine n × n–Matrix nach Vielfachheit gezählt genau n Eigenwerte besitzt, müssen schoneinige davon zusammenfallen, wenn die Gesamtzahl m verschiedener Eigenwerte deutlichkleiner als n sein soll.

Bei praktischen Problemen wird ein solches Zusammenfallen von Eigenwerten oft (vorher-sehbar) durch Symmetrien verursacht, die dem zu untersuchenden Objekt innewohnen.

Interessiert man sich z.B. für die Verformung einer quadratischen am Rande auf gleicherHöhe eingespannten Membran unter Einwirkung von Flächenlasten, so sind viele der Eigen-werte der Matrizen zugehöriger diskreter Analoga der kontinuierlichen Aufgabe doppelteEigenwerte.Es entsprechen dann nämlich die Eigenvektoren dieser Matrizen den Moden (oder Schwin-gungsformen) der freien Schwingung der Membran, und die zugehörigen Eigenwerte sindin eineindeutiger Weise mit den Schwingungsfrequenzen korelliert.Zu einer freien Schwingungform (mit fester Frequenz) ist aber jeweils auch die um 90

gedrehte Form möglich, und natürlich sollten diese beiden Formen mit derselben Frequenzschwingen. Wenn die beiden Formen linear unabhängig sind, gehören hier zu ein und

215Während die Abschätzung beim Gradientenverfahren häufiger realistisch ausfällt

208

Page 209: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

derselben Frequenz - und das heißt zum selben Eigenwert- (mindestens) zwei Moden (alsoEigenvektoren). Der zugehörige Eigenwert hat damit (mindestens) die216 Vielfachheit zwei.

Für eine Konvergenzbeschleunigung müssen die Eigenwerte nicht genau zusammenfallen.Wenn Sie fast gleich sind, können sie z.B. durch eine Nullstelle des Polynoms q an ihremMittel beide klein gemacht werden.

Die sogenannten Präconditionierungsmethoden versuchen, dass System

Ax = b

mit approximativen Inversen IA von A zu „präconditionieren“,

IAAx = IAb

dass die Eigenwerte der neuen Systemmatrix IAA alle nahe bei 1 in einem Kreis möglichstkleinen Durchmessers liegen.

5.4 Nichtstationäre Verfahren 3: CG-artige Verfahren für nicht-symmetrische Probleme

Der Erfolg des CG-Verfahrens für quadratischen Gleichungssysteme

Ax = b (313)

hing wesentlich davon ab, dass das Funktional (297) strikt konvex war. Wenn A seineSymmetrie oder seine positive Definitheit verliert, gehen alle schönen Eigenschaften desCG-Verfahrens erst einmal verloren.

Wenn A symmetrisch bleibt und nur wenige Eigenwerte unter Null fallen, kann das CG-Verfahren immer noch gute Resultate bringen217.

Ist A regulär, so könnte man auf den Gedanken kommen, das System (5.4) einfach mit AT

zu multiplizieren, um mitATAx = AT b

wieder ein System mit SPD-Systemmatrix M1 := ATA zu erhalten, auf dass sich CGvorteilhaft anwenden lässt.

Alternativ könnten man betrachten

AATy = b

mit SPD-Matrix M2 := AAT , um nach Lösung mit CG aus der Lösung y∗ die Lösung x∗von (5.4) über

x∗ := ATy∗

zu erhalten.Leider sind

cond2(ATA) = cond2(AA

T ) = (cond(A))2 ,

so dass die Konvergenzgeschwindigkeit von CG erheblich herabgesetzt wird.216geometrische und damit auch algebraische217Es lässt sich aber auch nicht ausschließen, dass es zusammenbricht, weil mit A gewichtete innere

Produkte Null werden.

209

Page 210: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Im Jahre 1986 schlugen Yousef Saad und Martin H. Schultz als Ausweg vor, nicht (297)sondern das Funktional

Ψ(x) := ∥Ax− b∥22über den Krylov-Raum (298) zu minimieren. Wenn man mit dem Arnoldi-Verfahren auf-steigende Orthonormalbasen der aufsteigenden Krylov-Räume aufbaut, kann man dieseAufgabe relativ effizient bewerkstelligen. Das sich ergebende Verfahren ist als generali-zed minimal residual method (oder kurz: GMRES) bekannt.Es findet das Minimum natürlich auch nach n-Schritten, muss aber anstelle von nur dreiletzten Richtungen (wie bei CG) alle bisherigen Basisvektoren speichern. Das macht GM-RES teuer, und daher gibt es eine ganze Liste von Varianten, die nicht so viele Vektorenspeichern müssen. (Siehe hierzu die Vorlesungen über iterative Lösung großer linearer Sy-steme.)

5.5 Nichtstationäre Verfahren 4: Kazcmarz-Typ-Verfahren

Aus der Klasse der hier zu besprechenden iterativen Verfahren vom Kaczmarz-Typus habenwir das sogenannte „klassische zyklische Kaczmarz-Verfahren“ zur Lösung eines beliebigenregulären Gleichungssystems

Ax = b, A ∈ Rn×n regulär (314)

schon - eher beiläufig - als ESV für das SPD-System AATy = b kennengelernt218.

Extrahieren wir dort die Unterschritte, die sich auf die Verarbeitung der Vektoren x[i] =ATy[i] beziehen, so schreibt sich ein „Gesamtschritt“ des zyklischen Kaczmarz-Verfahrenswie folgt:

Algorithmus 5.32 (Zyklisches klassisches Kaczmarz-Verfahren)

Löst iterativ Ax = b, A ∈ R(n,n);Hinreichend für Konvergenz gegen eindeutige Lösung: A regulär.

Konvergiert linear. Konvergenzrate abhängig von cond(A).Bei fehlender Regularität: Konvergenz gegen die nächstgelegene Lösung,

wenn eine Lösung existiert; vgl. S. 226 ff.

Beschrieben wird Schritt x[k] −→ x[k+1].

1. x[k,0] = x[k];

2. For i = 0 : n− 1x[k,i+1] = x[k,i] −

(aTi ai

)−1 (aTi x

[k,i] − bi)ai;

end

3. x[k+1] = x[k,n].

Dabei ist ai = AT ei das Transponierte des i-ten Zeilenvektors von A.

218Vgl. Seite 192.

210

Page 211: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Da das Kaczmarz-Verfahren äquivalent zum ESV-Verfahren für das SPD-System AATy = bist, folgt aus der linearen Konvergenz des ESV für SPD-Systeme sofort die lineare Konver-genz des Kacmarz-Verfahrens für reguläre Systeme219.

Normalerweise werden andere Zugänge zur Einführung von Kaczmarz-Typ-Verfahren ge-wählt, und es gibt derer (fast) so viele, wie es Bücher gibt, die solche Verfahren behandeln.Da alle Zugänge sicher auch geprägt sind durch die geplanten Anwendungen, ist es nichtunsinnig, mehrere Zugänge zu kennen. Wir schildern in diesem Abschnitt drei davon220

5.5.1 Zugang 1: Zeilenorientierte Lösung riesiger Systeme

CENSOR [CEN] stellt Kaczmarz-Typ-Verfahren als „zeilenorientierte Verfahren zur Lö-sung riesiger linearer Gleichungssysteme“ vor [CENSOR 81]. Dabei geht er davon aus,dass das zu lösende Gleichungssystem (314) nicht nur sehr groß ist, sonderen riesig in demSinne, dass nur jeweils eine seiner Gleichungen

aTi x = bi (315)

zur Zeit in den Speicher geladen werden kann (Es ist hierin wieder ai := AT ei ∈ Rn derSpaltenvektor, der die Elemente der i-ten Zeile von A enthält und bi die i-te Komponenteder rechten Seite b ∈ Rn.).

Es besteht nun die Frage, wie man mit Hilfe der Gleichung (315) allein eine gegebeneNäherung x[k] zu einer verbesserten Näherung x[k+1] abändern kann.

Naheliegend ist sicherlich, x[k] durch x[k+1] so zu ersetzen, dass x[k+1] (wenn schon nichtganz (314) so doch mindestens) die verfügbare Gleichung (315) erfüllt221.

Wenn A regulär ist, ist sicher ai = 0, so dass (315) auf jeden Fall eine Lösung hat. Eshat dann allerdings keine eindeutige Lösung222. Vielmehr ist durch (315) eine (n − 1)-dimensionale Hyperebene beschrieben. Welchen Punkt dieser Hyperebene soll man zurneuen Näherung x[k+1] küren?Da man beim Übergang von x[k] zu x[k+1] auf Grund der angenommenen Speicherplatz-beschränkung nur auf das Verhalten der Gleichung (315) achten kann, wird man zwarderen Residualanteil auf Null bringen können, muß aber damit rechnen, die Residualanteileder anderen Gleichungen dabei zu verschlechtern. Ist dies der Fall, so wird wegen derAffinlinearität der Gleichungen diese Verschlechterung (im schlimmsten Fall) proportionalzur Länge des Schrittes x[k+1] − x[k] werden. Es liegt daher nahe, unter allen Aspiranten

219Wir werden etwas später im Abschnitt einen allgemeinen Konvergenzsatz für Kaczmarz-Typ-Verfahrenherleiten, aus dem sich umgekehrt wieder die Konvergenz des ESV für SPD-System als Kaczmarz-TypVerfahren zurückgewinnen läßt.

220Die natürlich alle - „mehr oder weniger“ - äquivalent sein müssen. Wenn sie Ihnen daher ähnlichvorkommen, ist das nur natürlich.

221Zwischenbemerkung: Beim Einzelschritt- oder Gauss-Seidel-Verfahren für (314) haben wir ja auchnichts anderes gemacht. Wir haben die i-te Komponente im i-ten Einzelschrittchen so abgeändert, dass(315) erfüllt wird. (Es wird deshalb später auch nicht verwundern, dass das Gauss-Seidel-Verfahren un-ter gewissen Zusatzvoraussetzungen als Kaczmarz-Typ-Verfahren interpretierbar ist.) Voraussetzung fürdie Durchführbarkeit eines solchen Schrittes war aber, dass aii = 0 ist, was beim Kaczmarz-Verfahrennicht angenommen wird. Für den Nachweis der Konvergenz des Gauss-Seidel-Verfahrens benötigt mantatsächlich noch mehr Informationen über A (SPD oder starke Diagonaldominanz oder ....)

222Es sei denn, die Dimension wäre gerade gleich 1. Man wird dann aber kaum von einem riesigenGleichungssystem reden.

211

Page 212: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

für x[k+1] aus der Lösungsmenge von (315) den Punkt zu wählen, der ∥x[k+1] − x[k]∥2minimiert223.

Akzeptiert man dieses Auswahlkriterium, so ist x[k+1] gerade der Punkt in der Lösungsmen-ge von (315), der von x[k] den kleinsten Abstand hat. Die Berechnung von x[k+1] ist damitzu einer einfachen Übungsaufgabe aus der linearen Algebra des ersten Semesters geworden.Die Verbindungslinie von x[k] und x[k+1] muß parallel zur Normale der Lösungsmenge sein,und diese hat bekanntlich die Richtung von ai. Dies führt uns zu dem Ansatz

x[k+1] = x[k] + σai. (316)

Setzen wir diesen in die Gleichung (315) ein,

aTi (x[k] + σai)− bi = 0,

so erhalten wir sofortσ = (aTi ai)

−1(bi − aTi x[k]),

und somitx[k+1] = x[k] + (aTi ai)

−1(bi − aTi x[k]) · ai, (317)

was genau der Grundschritt des oben schon angegebenen Kaczmarz-Verfahrens ist. DieserSchritt sorgt nun also dafür, dass das Residuum von (315) bei minimaler Veränderung desPunktes x[k] annulliert wird. Ein Verfahren zur Lösung des Gesamtsystems wird aus dieserRechenvorschrift z.B. dadurch224, dass über (317) die Residuen aller Gleichungen von (314)zyklisch reduziert werden, wie dies oben schon beschrieben wurde225.

Da im Schritt (317) durch ∥ai∥22 geteilt werden muß, ist es von Vorteil, vor Beginn derIteration alle Zeilenvektoren auf die Länge 1 zu normieren:

∥ai∥2 = 1, ∀i. (318)

Durch die Normierung (318) bekommt die Iterationsvorschrift (317) die angenehmere Form

x[k+1] = x[k] + (bi − aTi x[k]) · ai, (319)

von der wir hinfort ausgehen werden.

5.5.2 Zugang 2: Fehler-Minimierung durch Liniensuche

Sei x[k] eine Näherung der Lösung x∗ von (314) und pk ∈ Rn eine Richtung, in der eine Ver-besserung von x[k] gesucht werden soll. Man macht also für eine verbesserte Approximationx[k+1] den Ansatz

x[k+1] := x[k] − αkpk,

mit einem noch zu bestimmenden reellen Wert αk.223Ein solches Argument haben wir auch schon einmal bei den Astverfolgungsalgorithmen getroffen. Vgl.

Seite 120. Natürlich kann man hier noch die Norm verändern, was zu verschiedenen Verfahrensvariantenführt.

224Es gibt andere Varianten, wie wir gleich sehen werden.225Wie wir später sehen werden, braucht dabei die Reihenfolge des Durchlaufens der Gleichungen nicht

unbedingt fest zu sein. Wichtig ist nur, dass jede der Gleichungen in jedem Zyklus mindestens einmal„d’ran kommt“. Die erzielte Konvergenzgeschwindigkeit kann allerdings ganz entscheidend von der Bear-beitungsreihenfolge der Gleichungen abhängen.

212

Page 213: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Um messen zu können, in welcher Beziehung x[k+1] der Lösung x∗ näher gekommen ist,benötigen wir einen Abstandsbegriff. Wir wollen hier als Abstand den Normwert ∥x[k+1]−x∗∥ wählen, wobei die Norm durch ein inneres Produkt Produkt < x, y > über

∥x∥ :=√< x, x >

definiert ist. Fordert man nun

αk := argminα∈R∥x[k] + αpk − x∗∥,

so erhält man aus der Minimierungsaufgabe

< x[k] − x∗ − αpk, x[k] − x∗ − αpk >!= min

oder< x[k] − x∗, x[k] − x∗ > −2α < x[k] − x∗, pk > +α2 < pk, pk >

!= min

den Wert

αk =< x[k] − x∗, pk >

< pk, pk >.

und somit den Schritt

x[k+1] := x[k] − < x[k] − x∗, pk >< pk, pk >

pk. (320)

Vielleicht wird man an dieser Stelle einwenden wollen, dass diese Iterationsvorschrift aberwohl nicht besonders gut ausführbar sein sollte, da ja in die Bestimmung der Schrittlängeαk die exakte Lösung x∗ einginge, die doch erst noch bestimmt werden soll.

Die Antwort darauf ist, dass man ja immer noch zwei Eingangsgrößen der Rechenvorschriftfrei wählen kann: Die Suchrichtung pk und das innere Produkt < ·, · >. Und tatsächlichgibt es zahlreiche Wahlen dieser Größen, die eine Berechnung von αk möglich machen, ohnedass man x∗ vorher kennen müßte. Wir listen hier einmal eine kleine Auswahl auf:

(i) Ist < ·, · > etwa das euklidische Produkt < x, y >:= xTy, so ist < x[k] − x∗, pk >:=pTk (x

[k] − x∗) leicht berechenbar, wenn pk als ein Zeilenvektor von A gewählt wird

pk := ai = AT ei, (321)

denn dann ist

pTk (x[k] − x∗) = eTi A(x

[k] − x∗) = eTi (Ax[k] − b) = aTi x

[k] − bi

gerade die i-te Komponente des Residuums Ax[k] − b. Der Schritt (320) wird dannzum Schritt (317) des Kaczmarzverfahrens.

(ii) Allgemeiner als (321) kann man auch fordern

pk := ATvk, vk ∈ Rn

und man erhält den Schritt

x[k+1] := x[k] − vTk (Ax[k] − b)

∥ATvk∥22ATvk. (322)

Eine einfach zu analysierende Variante davon wiederum ergibt sich z.B. mit

vk := rk := (Ax[k] − b). (323)

213

Page 214: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

(iii) Über das innere Produkt < ., . > kann man andererseits das Datum < x[k]−x∗, pk >für beliebige Richtungen pk „auswertbar“ machen, indem man ein für den Übergang

x[k] − x∗ −→ A(x[k] − x∗) = Ax[k] − b

benötigtes A „im inneren Produkt versteckt“ (statt wie eben im pk).

(α) Wenn A SPD ist, kann das z.B. durch

< x, y >:=< x, y >A:= xTAy

geschehen, was der Rechenvorschrift (320) die Form

x[k+1] := x[k] − pTk rkpTkApk

pk; rk := Ax[k] − b, (324)

gibt.

— Für pk = rk ist dies das Gradientenverfahren zur Lösung des SPD-SystemsAx = b;

— für p0 := r0 und pk := rk − µkpk−1 orthogonal zu pk−1 bzgl. <,>A erhältman das CG-Verfahren;

— für pk := ek, k = 1, . . . n und anschließender zyklischer Wiederholung erhältman

x[k+1] := x[k] − a−1kk e

Tk (Ax

[k] − b)ek,

also gerade das Einzelschrittverfahren für Ax = b.

(β) Ist A nur regulär aber nicht (notwendig) SPD, so führt

< x, y >:=< x, y >ATA:= xTATAy

zum Ziel226.

Für einige der Kaczmarz-Typ-Varianten kennen wir bereits Konvergenzbeweise227. Manfragt sich natürlich aber allgemein, unter welchen Voraussetzungen an das innere Produkt< ., . > und die Suchrichtungen pk die hier eingeführten Kaczmarz-Typ-Schritte (320) zurLösung führen, und wie schnell dies geschieht.

Wenngleich wir mit dem dritten Zugang eine weitere Verallgemeinerung der Kaczmarz-Typ-Verfahren einführen werden, für die sich dann im nächsten Abschnitt ganz allgemeinlineare Konvergenz zeigen läßt, wollen wir hier schon einmal einige Folgerungen für dieVerfahrensklasse (320) ziehen.

Ziehen wir auf beiden Seiten von (320) einmal die Lösung x∗ ab, so erhalten wir

[x[k+1] − x∗] := [x[k] − x∗]− < [x[k] − x∗], pk >< pk, pk >

pk.

Da der zweite Term der rechten Seite gerade die orthogonale Projektion der Fehlers [x[k]−x∗] auf die Richtung pk ist, stehen dieser Term und [x[k+1] − x∗] bezüglich des gewählten

226Resultierende Schrittvorschriften können Sie einmal selbst ausrechnen.227Einzelschrittverfahren für SPD-Systeme, Gradientenverfahren und CG-Verfahren für SPD-Systeme,

das zyklische Kaczmarz-Verfahren als Gauss-Seidel-Verfahren für AAT y = b,..

214

Page 215: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

inneren Produktes senkrecht aufeinander. Nach Pythagoras ist deshalb in der zugehörigenNorm ∥∥[x[k+1] − x∗]

∥∥2 = ∥∥[x[k] − x∗]∥∥2 − ∥∥∥∥< [x[k] − x∗], pk >< pk, pk >

pk

∥∥∥∥2 . (325)

Hieraus sehen wir, dass das Quadrat des Fehler in der natürlichen zugehörigen Norm aufjeden Fall um

∥∥x[k+1] − x[k]∥∥2 = ∥∥∥∥< [x[k] − x∗], pk >

< pk, pk >pk

∥∥∥∥2 = ∣∣< [x[k] − x∗], pk/∥pk∥ >∣∣2 ,

absteigt, also um die Länge der Projektion des Fehlers x[k] − x∗ auf die Richtung pk. Diesist ungleich Null, wenn nur die Suchrichtung pk nicht gerade senkrecht auf dem aktuellenFehler steht.

Man kann in einigen Verfahrensvarianten, in denen die Richtung pk einen festen Mindestan-teil in Richtung des Fehlers x[k] − x∗ besitzt, über die dann resultierende Konkretisierung∣∣< [x[k] − x∗], pk/∥pk∥ >

∣∣2 ≥ C ·∥∥[x[k] − x∗]∥∥2 (326)

dieser Aussage (wegen der Projektionseigenschaft ist hierin notwendig C ≤ 1) Konvergenzbeweisen. Setzt man nämlich (326) in (325) ein, so erhält man∥∥[x[k+1] − x∗]

∥∥ ≤ √1− C ∥∥[x[k] − x∗]∥∥ . (327)

Einfach ist eine Abschätzung der Form (326) etwa bei der Variante des Kaczmarz-Verfahrensmit sogenannter „optimaler Strategie der Gleichungswahl“ (vgl. z.B. [ANSORGE 84, Mc-CORMICK]). Bei dieser Variante werden die Gleichungen nicht zyklisch abgearbeitet. Viel-mehr wird in jedem Schritt gerade die Gleichung ausgewählt, welche aktuell eine größteResidualkomponente liefert. Diese Kaczmarz-Variante lautet demnach unter der Annahmeder Normiertheit der Zeilenvektoren auf die euklidische Länge 1 wie folgt:

Algorithmus 5.33 ( Kaczmarz-Verfahren mit „optimaler Gleichungswahl“:)

Löst iterativ Ax = b, A ∈ R(n,n);Hinreichend für Konvergenz gegen eindeutige Lösung: A regulär.

Bei fehlender Regularität: Konvergenz gegen verallgemeinerte Lösung.

Normierungsannahme: ∥aj∥2 = 1, ∀ j = 1, . . . , n.

Beschrieben wird Schritt x[k] −→ x[k+1].

1. Bestimme i := argmaxj∈1,...,n |aTj xk − bj|.

2. x[k+1] := x[k] − (aTi x[k] − bi) · ai.

Dabei ist aj := AT ej das Transponierte des j-ten Zeilenvektors von A.

215

Page 216: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Hier schätzt man ganz einfach mit der Maximalität der i-ten Fehlerkomponente wie folgtab:

∥x[k+1] − x[k]∥22 = ∥(aTi x[k] − bi)ai∥22= ∥aTi (x[k] − x∗)∥22≥ 1

n∥A(x[k] − x∗)∥22

= 1n(x[k] − x∗)ATA(x[k] − x∗) ≥ λmin(A

TA)n

∥x[k] − x∗∥22,

(328)

wobei λmin(ATA)(= σmin(A)

2 = ∥A−1∥−2) der kleinste Eigenwert der SPD-Matrix ATA ist(bzw. das Quadrat des kleinsten singulären Wertes von A). Ist A regulär, so ist dieser Wertpositiv, und (328) gibt dann die folgende

Lemma 5.34 (Konvergenz für Kaczmarz mit „optimalen Gleichungswahl“)

∥x[k+1] − x∗∥2 ≤(1− λmin(A

TA)

n

)1/2

· ∥x[k] − x∗∥2. (329)

Ähnlich kann man beim durch die Vorschrift (322) mit (323) beschriebenen Verfahren

x[k+1] := x[k] − ∥rk∥2

∥AT rk∥2AT rk (330)

schließen. Hier ist in der Richtung pk := AT rk := ATA(x[k] − x∗) der Fehlervektor älsFaktorënthalten und man muß im Prinzip seinen durch ATA in pk belassenen Anteil nurnoch"herausfiltern228. Man findet dann229

< [x[k] − x∗, pk >22

∥pk∥2=< rk, rk >

2

∥AT rk∥2≥ λmin(A

TA)

λmax(AAT )∥x[k] − x∗∥22,

und somit die

Lemma 5.35 (Konvergenz für das Verfahren (330))

∥x[k+1] − x∗∥2 ≤

√1− λmin(ATA)

λmax(ATA)∥x[k] − x∗∥2 =

√1− 1

cond22(A)∥x[k] − x∗∥2. (331)

Wegen λmax(AAT ) ≤ n ist diese Abschätzung besser als die Abschätzung (329) für das

„optimale“ Verfahren. Leider benötigt das Verfahren aber auch mehr als doppelt so vieleOperationen pro Schritt wie das „optimale“ (Man braucht dabei außerdem die transponierteMatrix, was manchmal etwas ärgerlich ist.). Testrechnungen mit Random-Matrizen ergabeninsgesamt im Mittel keine signifikanten Unterschiede zwischen diesen beiden Verfahren.

228Daß in ATAv ein „Anteil“ von v erhalten bleibt, sagt ja gerade die positive Definitheit von ATA,wonach vTATAv > 0 ist, der Winkel zwischen v und seinem Bild ATAv also kleiner als 90. Quantifiziertwird diese Aussage durch vTATAv ≥ λmin(A

TA)vT v.229versuchen Sie dies zu Übung zu zeigen! Tip: Rayleigh-Quotient.

216

Page 217: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Mit einer (leicht zu lösenden) SPD Approximation M ∈ R(n,n) der SPD-Matrix AAT

kann man das letzte Verfahren übrigens leicht präconditionieren. Man wählt in (322) dieRichtung vk :=M−1rk und findet für das resultierende Verfahren

x[k+1] := x[k] − vTk rk∥ATvk∥22

ATvk, mit vk aus Mvk = rk (332)

die Konvergenzratenabschätzung

∥x[k+1] − x∗∥2 ≤

√1− 1

cond2(W )∥x[k] − x∗∥2 mit W := ATM−1A. (333)

Eine Konvergenzratenabschätzung für das zyklische Kaczmarz-Verfahren ist durchaus nichtso einfach. Für jedes einzelne Schrittchen kann nämlich eine Abschätzung der Form (326)nicht erwartet werden. Dies ist erst für einen vollen Zyklus möglich. Schwierigkeiten bereitetdabei allerdings die Tatsache, dass der Iterationsvektor im Zyklus ja dauernd verändertwird. Die Herleitung der folgenden Abschätzungen sind deshalb auch etwas technisch,weshalb wir hier auf ihre Darstellung verzichten230.

Lemma 5.36 (Konvergenz für das zyklische Kaczmarz-Verfahren)

∥x[k+1] − x∗∥2 ≤√1− C · ∥x[k] − x∗∥2 mit

C ≥ 2n+∥AAT ∥2F

∥A−1∥−12 ≥

1

∥AAT ∥2F∥A−1∥−1

2

21+∥A∥22

∥A−1∥−12 n−1

≥(n · cond 2

2 (A))−1

Diese Abschätzung sagt (leider) immer eine langsamere Konvergenz voraus als die Ab-schätzung (329) für das optimale Verfahren. Das ist deshalb bedauerlich, weil das zyklischeKaczmarz-Verfahren nach meiner Erfahrung meistens (sogar wesentlich) effizienter als dasVerfahren mit sogenannter „optimaler“ Strategie ist231.

Sollten Sie selbst einen Vergleich der Verfahren vornehmen wollen, so dürfen Sie nichtunberücksichtigt lassen, dass beim „optimalen“ Verfahren allein die Bestimmung der Zei-le mit maximalem Residuum schon soviel Rechenaufwand kostet, wie n/2 Kaczmarz-Einzelschrittchen. Zwei „optimale Kaczmarz-Schritte“ kosten insgesamt schon etwas mehrals ein vollständiger Zyklus des zyklischen Kazcmarz-Verfahrens über alle n Gleichungen.

Vorteilhaft wirkt sich beim „optimalen Kaczmarz-Verfahren“ auf den ersten Blick der Um-stand aus, dass man bei der Berechnung der optimalen Komponente einen Überblick überdas Gesamtresiduum erhält, welcher eine Entscheidung über einen Abbruch der Iterationerleichtert. Beim zyklischen Kaczmarz-Verfahren kann man hierfür aber das Quadratmittelder letzten n Einzelresidua heranziehen. Man überlegt sich leicht, dass dies stets eine obe-re Schranke für die 2-Norm des aktuellen Residuums ist232. Wie Testrechnungen ergebenhaben, überschätzt dieser Wert das aktuelle Residuum auch nicht zu sehr.

230Ich bin allerdings durchaus noch nicht mit diesem Ergebnis zufrieden. Leider fiel mir bislang nichtsBesseres ein. Ich kenne auch keine bessere Abschätzung in der Literatur. Sollte ein Leser auf eine solcheAbschätzung stoßen, wäre ich für eine Mitteilung dankbar. Die Abschätzung im nächsten Lemma ist„Eigenbau“, wobei die Seiten mit den Beweisen leider verloren gegangen sind.

231Merke: Aus einem Vergleich von Abschätzungen der Konvergenzraten kann man i.a. noch nicht aufein analoges tatsächliches Verhältnis der Konvergenzraten schließen.

232Tu’n Sie’s!

217

Page 218: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.5.3 Zugang 3: Allgemeine projektive Fehlerreduktion

Der dritte Zugang ist eine direkte Verallgemeinerung des zweiten Zuganges. In seiner Dar-stellung orientieren wir uns an der sehr lesenswerten Arbeit „On the Schwarz AlternatingMethod I“ von P.L. Lions [LIONS 88], wobei wir hier den dort behandelten unendlichdimen-sionalen Ansatz zur Lösung elliptischer Differentialgleichungen dem uns interessierendenendlichdimensionalen Fall (vereinfachend) anpassen233.

Der „ideale Verbesserungsschritt“ für eine Approximation x[k] der Lösung x∗ von (314) istsicherlich

x[k+1] := x[k] −[x[k] − x∗

]. (334)

Natürlich haben wir die Lösung x∗ nicht parat und somit auch nicht den optimalen Schritt-vektor x[k] − x∗.

Wie wir aber bereits bei der Behandlung des zweiten Zuganges gesehen haben, kann manmit etwas Geschick durchaus Projektionen dieses idealen Schrittes gewinnen. In (320) wardie bei x[k] angebrachte Korrektur ja nichts anderes als die Projektion des Fehlers von x[k]auf die vorgegebene Richtung pk.

Der Ansatz in [LIONS 88] ist nun, allgemeiner irgendwelche (nun nicht mehr notwendig ein-dimensionalen) Unterräume V1, . . . ,Vm des Rn zu wählen, mit den Projektoren P1, . . . , Pm

bezüglich irgendeines inneren Produktes auf diese Unterräume zyklisch zu projizieren

x[k∗m+i] := x[k∗m+i−1] − Pi

[x[k∗m+i−1] − x∗

], i = 1, . . . ,m; k = 0, 1, 2, . . . (335)

und zu fragen, unter welchen Bedingungen an die Räume Vi und das innere Produkt dieseFolge gegen den Vektor x∗ konvergiert.

Sicher sollte die Gesamtheit der Unterräume den ganzen Rn erfassen,m⊕i=1

Vi = Rn, (336)

da sonst die Fehleranteile aus dem Komplement von⊕m

i=1 Vi sicher nicht aus x[0] eliminiertwürden.

Der Clou ist, dass außer (336) tatsächlich keine weiteren Voraussetzungen benötigt werden,um lineare Konvergenz garantieren zu können.

Damit hat man dann nämlich ein Konvergenzresultat für eine ganze Reihe von Iterati-onsverfahren an der Hand, wovon wir im übernächsten einige Beispiele geben werden.Zunächst beweisen wir aber im folgenden Abschnitt den angekündigten Konvergenzsatzfür das allgemeine Projektionsverfahren (335).

5.5.4 Konvergenz allgemeiner Projektionsverfahren

Wie im letzten Abschnitt schon eingeführt seien V1, . . . ,Vm lineare Teilräume des Rn, diezusammen den Rn aufspannen:

m⊕i=1

Vi = Rn. (337)

233Es gibt wahrscheinlich (ältere) Arbeiten, die die hier aus [LIONS 88] extrahierten Aussagen direkt fürden Fall linearer Gleichungssysteme darstellen (vgl. z.B. [MAESS 85], [MAESS 89]).

218

Page 219: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Es sei < ·, · > irgendein inneres Produkt auf dem Rn, und es seien damit — für denspäteren Gebrauch — die Orthogonalräume

Wi := V⊥i := x ∈ Rn |< x, v >= 0 ∀ v ∈ Vi , i = 1, . . . ,m

definiert234.

Zu i ∈ 1, . . . ,m seien außerdem Pi der bezüglich < ·, · > orthogonale Projektor des Rn

auf Vi und Qi := I−Pi der zugehörige komplementäre Projektor aufWi. Damit betrachten

wir zu x[0] ∈ Rn und x∗ ∈ Rn ,die Folgex[k]k∈N0

, die durch die zyklische Vorschriftx[k,0] := x[k];

For i := 0 to m− 1 dox[k,i+1] := x[k,i] − Pi+1

(x[k,i] − x∗

);

x[k+1] := x[k,m];

(338)

bestimmt ist, und fragen uns, ob diese Folge gegen x∗ konvergiert235. Wir wollen zeigen,

dass dies der Fall ist und dass es ein C ∈ [0, 1) gibt, mit dem

∥x[k+1] − x∗∥ ≤ C∥x[k] − x∗∥ ∀k ∈ N0 (339)

ist, mit der durch < ·, · > induzierten Norm.

Dazu ziehen wir in (338) auf beiden Seiten der Zuordnungen den Vektor x∗ ab, und erhaltenüber

x[k,i+1] − x∗ = x[k,i] − x∗ − Pi+1

(x[k,i] − x∗

)= (I − Pi+1)

(x[k,i] − x∗

)= Qi+1

(x[k,i] − x∗

),

dass (x[k+1] − x∗

)= QmQm−1 . . . Q2Q1

(x[k] − x∗

)ist. Um (339) zu zeigen, reicht also der Nachweis von

∥QmQm−1 . . . Q1∥ ≤ C < 1. (340)

Um diese letzte Aussage zeigen zu können, fassen wir die algebraische Form (337) derAussage, dass die Vi, i = 1, . . .m den Rn aufspannen, erst einmal analytisch.

234Damit Sie sich gleich etwas darunter vorstellen können: Beim Kaczmarz-Verfahren ist Vi = spanai,und der darauf (euklidisch) orthogonale Raum Wi ist gerade der (n − 1)-dimensionale Lösungsraum derhomogenen i-ten Gleichung aTi x = 0.

235Sie stellen fest, dass gar kein Gleichungssystem auftaucht? — Richtig! Braucht es auch noch nicht zutun! Wenn Sie noch einmal den Ansatz 2 anschauen, so werden Sie sehen, dass die Lösungseigenschaft vonx∗ erst bei der Konkretisierung der Projektionen in’s Spiel kommt.

219

Page 220: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Lemma 5.37Seien V1, . . . ,Vm lineare Unterräume des Rn und P1, . . . , Pm die bezüglich eines innerenProduktes < ·, · > orthogonalen Projektoren des Rn auf V1, . . . ,Vm. Weiter sei ∥ · ∥ irgend-eine Norm auf dem Rn.Dann spannen die Räume V1, . . . ,Vm genau dann den Rn auf, wenn es eine Konstante c > 0gibt, mit der die Abschätzung

∥x∥ ≤ c

(m∑i=1

∥Pix∥2)1/2

, ∀ x ∈ Rn (341)

gilt.

Anmerkungen 5.38Wir benötigen das letzte Lemma anschließend für die durch das innere Produkt definierteNorm, haben hier aber den allgemeinen Fall aufgeschrieben.

Beweis:

Daß aus der analytischen Fassung (341) die algebraische Fassung (337) folgt, ist einfach236.Ist nämlich (337) nicht der Fall, so gibt es einen nichttrivialen Vektor x = 0, der auf demlinearen Unterraum

⊕mi=1 Vi des Rn senkrecht steht. Mithin steht er auch auf allen Vektoren

eines jeden der Räume Vi senkrecht, woraus folgt, dass Pix = 0, ∀ i ∈ 1, . . . ,m ist.Das widerspräche aber (341).

Um im Beweis der umgekehrten Implikation Aussagen des ersten Semesters leichter nutzenzu können, merken wir an, dass das innere Produkt < ·, · > mit der SPD-Matrix237

W = (aij)ni,j=1, ai,j :=< ei, ej >, i, j = 1, . . . ,m

in der Form< x, y >= xTWy

geschrieben werden kann.

Ist vi1, . . . , vili ∈ Rn eine Basis von Vi und definieren wir die (n× li)-Matrix Vi durch

Vi :=(vi1, . . . , v

ili

),

so wissen wir nach den Aussagen des ersten Semesters, dass der Projektor Pi die Darstellung

Pi = Vi(V Ti WVi

)−1V Ti W (342)

hat238. Soweit die technischen Vorbemerkungen und Erinnerungen an das erste Semester.

236Diese Richtung ist auch die uninteressante, die wir später nicht brauchen. Wir haben sie hier nuraufgenommen, weil das Lemma damit „runder“ wird.

237Überlegen Sie bitte selbst, dass diese Eigenschaft zutrifft.238Und wenn man dies aus dem ersten Semester nicht mehr erinnert, ist es eine schöne Übung zu veri-

fizieren, dass die rechte Seite von (342) die Eigenschaften des gewünschten Projektors hat. Welche sinddies?

220

Page 221: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wir beweisen jetzt die Implikation „(337) ⇒ (341)“ durch Widerspruch und nehmen dazuan, dass (341) nicht der Fall sei. Dann gibt es eine Folge xk mit

∥xk∥ ≥ k

(m∑i=1

∥Pixk∥2)1/2

oder — gleichbedeutend —

k−1 ≥

(m∑i=1

∥∥∥∥Pixk∥xk∥

∥∥∥∥)1/2

. (343)

Die normierten Vektoren xk := xk/∥xk∥ liegen auf der kompakten Einheitssphäre. Daherkonvergierte eine Teilfolge von ihnen gegen einen Vektor x mit

∥x∥ = 1. (344)

Wegen (343) gilt für diesen Grenzwert

Pix = 0 ∀i = 1, . . . , n.

Mit der Darstellung (342) der Pi liefert dies

Vi(VTi WVi)

−1V Ti Wx = 0 ∀ i = 1, . . . ,m.

Mit der linearen Unabhängigkeit der Spaltenvektoren von Vi(VTi WVi)

−1 bedeutet dies,dass (vi1)

TWx...

(vili)TWx

= V Ti Wx = 0, ∀ i = 1, . . . ,m. (345)

Wegen (337) spannt die Gesamtheit der Basisvektoren

v11, . . . , v1l1, v21, . . . , v

2l2, v31, . . . . . . , v

mlm

den Rn auf. Nach dem Auswahlsatz gibt es hiervon eine Untermenge

v∗1, . . . , v∗n,

die eine Basis des Rn bildet, und für die nach (345) nun ebenfalls(v∗j)TWx = 0, j = 1, . . . , n

gilt. Folglich istWx = 0

und wegen der Regularität von Wx = 0,

was nun aber (344) heftig widerspricht. Es kann also unter Voraussetzung von (337) unsereAnfangsannahme nicht der Fall sein, d.h. es muß (341) gelten.

2

Mit dem letzten Lemma können wir nun die gewünschte Aussage (340) nachweisen:

221

Page 222: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 5.39 (Konvergenz-Satz für allgemeine Projektionsverfahren)Unter den Voraussetzungen des letzten Lemmas gilt für die komplementären ProjektorenQi := I − Pi, i = 1, . . . ,m die Aussage: Es gibt eine reelle Konstante C mit

∥QmQm−1 · · ·Q1∥ ≤ C < 1. (346)

Dabei ist ∥ · ∥ hier die durch das innere Produkt <,> induzierte Norm auf dem Rn und∥ · ∥ in (346) entsprechend die dieser Norm zugeordnete Operatornorm.

Beweis:

Die Aussage (346) bedeutet

∀ x ∈ Rn ist ∥QmQm−1 · · ·Q1x∥ ≤ C∥x∥. (347)

Da die Qi bezüglich < ·, · > orthogonale Projektoren sind, gilt auf jeden Fall schon einmal

∥Qi∥ ≤ 1

und somit auch239

∥QmQm−1 · · ·Q1∥ ≤ 1.

Ist (346) nicht der Fall und also auch nicht (347), so gibt es ein x mit ∥x∥ = 1 und

∥QmQm−1 · · ·Q1x∥ = 1.

Wegen

1 = ∥QmQm−1 · · ·Q1x∥ ≤ ∥Qm∥ · ∥Qm−1∥ · · · ∥Qj+1∥ · ∥Qj · · ·Q1x∥≤ ∥Qj · · ·Q1x∥ ≤ ∥x∥ = 1

gilt dann natürlich auch

∥Qj · · ·Q1x∥ = 1, ∀ j = 1, . . . ,m. (348)

Wir wollen induktiv bezüglich i = 1, . . . ,m zeigen, dass damit dann

Pix = 0 ∀i = 1, . . . ,m (349)

gilt.

Für i = 1 schließen wir aus ∥Q1x∥ = 1 mit

x = P1x+Q1x

mit der orthogonalen Komplementarität von Q1x und P1x über den Satz von Pythagoras

∥Q1x∥2 + ∥P1x∥2 = ∥x∥2= 1 ? = 1

,

dassP1x = 0.

239Überlegen Sie sich dies noch einmal genau!

222

Page 223: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Weil dann natürlich auchQ1x = x

ist, folgt aus ∥Q2Q1x∥ = 1, dass ∥Q2x∥ = 1 ist. Die hat wie eben zur Folge, dass

P2x = 0 und Q2x = x.

Dies wir so fortgesetzt, bis (349) erschlossen ist.Da ∥x∥ = 1 ist, haben wir somit einen Widerspruch erreicht, denn nach (341) müsste x = 0sein. 2

Bevor wir zu einigen verallgemeinernden Anmerkungen fortschreiten, wollen wir uns zu-nächst noch einmal vor Augen halten, dass wir mit dem letzten Satz eine (lineare) Kon-vergenzaussage für Kaczmarz-Typ-Verfahren von zyklischen Typus erhalten haben240.

Werden nämlich zu gegebenem regulären Gleichungssystem

Ax = b

mit normierten Zeilenvektoren ai := AT ei, ∥a1∥2 = 1, i = 1, . . . , n die Räume Vi vereinbartdurch

Vi := span ai , i = 1, . . . , n,

so sind Pi := aiaTi und die Iteration (338) wird zur bekannten zyklischen Kaczmarz-

Iteration, für die wir somit Konvergenz nachgewiesen haben.

An dieser Stelle wäre es jetzt natürlich naheliegend, diese Iteration durch andere dem Glei-chungssystem angepaßte Wahlen der Vi zu verallgemeinern. Zur Übung sollten Sie vielleichtselbst schon einmal über mögliche Wahlen und deren Vor- und Nachteile nachdenken. Wirwollen hier die Diskussion solcher Varianten bis zum nächsten Abschnitt zurückstellenund zunächst einige Verallgemeinerungen des letzten Satzes besprechen, die uns bei derKonstruktion von konkreten Lösungsverfahren noch mehr Freiheiten geben werden.

5.5.5 Verallgemeinerungen

Erste Verallgemeinerung (unterschiedliche Zyklen) Für die Iteration (338) hattenwir angenommen, dass die Projektionen innerhalb eines jeden Zykels stets dieselben sindund dass sie immer in derselben Reihenfolge angewendet werden. Man überlegt sich aberleicht, dass hier in den Zykeln eine recht große Variabilität zulässig ist, ohne dass dieKonvergenz des gesamten Verfahrens gefährdet wird. Ist z.B. P1, . . . , PM eine Menge vonorthogonalen Projektoren auf lineare Unterräume V1, . . . ,VM , so kann die Vorschrift (338)ersetzt werden durch

x[k,0] := x[k];

For i := 0 to mk − 1 dox[k,i+1] := x[k,i] − Pj(k,i+1)

(x[k,i] − x∗

);

x[k+1] := x[k,m]

(350)

mit zyklusabhängigen Indexmengen

Ik := j(k, 1), j(k, 2), . . . , j(k,mk) .240Doch, ja! Sie haben Recht! Das wissen wir schon alles, wir haben das oben schon ausgeführt! — Nein?

Haben wir nicht? — Sehen Sie, das hab’ ich mir doch gedacht!

223

Page 224: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Die Konvergenz des gesamten Verfahrens gegen x∗ bleibt auf jeden Fall dann erhalten,wenn die Zyklus-Längen mk für k ∈ N gleichmäßig beschränkt bleiben und die zu denin den Zyklen verwendeten Projektoren pro Zyklus gehörigen Unterräume jeweils den Rn

aufspannen:mk⊕l=1

Vj(k,l) = Rn.

Für jeden der Zyklen gibt es dann nämlich eine Fehlerreduktionskonstante Ck < 1 mit

∥Qj(k,mk)Qj(k,mk−1) · · ·Qj(k,1)∥ ≤ Ck,

und wegen der gleichmäßig beschränkten Zykluslänge sowie der endlichen Auswahlmög-lichkeit der Projektoren gibt es nur endlich viele zulässige Realisierungen solcher Zyklen,also nur endlich viele verschiedene Kontraktionskonstanten Ck. Deshalb gibt es unter denFehlerreduktionskonstanten Ck ein Maximum, welches immer noch kleiner als 1 ist. Umdiese Rate verkleinert jeder der möglichen Zyklen den Fehler mindestens. Folglich ist dieKonvergenz gesichert.

Zweite Verallgemeinerung: Noch unterschiedlichere Zyklen Es ist in den Zykleneine noch stärkere Variabilität zulässig als eben beschrieben. So müssen die die Projektion-räume Vj(k,i) z.B. nicht notwendig wie eben aus einer endlichen Anzahl gewählt werden.In [LIONS 88] wird etwa der Fall genauer diskutiert, in dem jeder der Zyklen aus zweiProjektionen besteht. Hinreichend für Konvergenz ist dann z.B., dass die Konstante c im(341) unabhängig vom Zyklus gewählt werden kann.

Dritte Verallgemeinerung: Unvollständige Projektion Ist die Bedingung (337)verletzt, so heißt das nicht, dass die Iteration (338) divergiert. Konvergenz tritt dann nurnicht mehr gegen den Punkt x∗ ein. Genauer läßt sich etwa das Folgende sagen:

Satz 5.40 ( Konvergenz-Satz für „unvollständige“ Projektionsverfahren)Betrachtet werde die Iteration (338). Es sei V der durch die Räume Vi, i = 1, . . . ,m aufge-spannte lineare Teilraum von Rn. Es sei R der bezüglich des gegebenen inneren Produktesorthogonale Projektor auf das orthogonale Komplement V⊥ von V . Dann konvergiert diedurch (338) definierte Folge für jedes x∗ ∈ Rn und jeden Startvektor x[0] geometrisch gegenden Vektor

x+ := x∗ +R(x0 − x∗).

Beweisskizze:

Wenn wir zunächst einmal voraussetzen, dass die Folge der Fehler

fk := x[k] − x+

im Raum V verbleibt, so können wir den Beweis des obigen Satzes einfach abschreiben;denn es wird V definitionsgemäß durch die V ′

is aufgespannt, und es ist dann

∥fk+1∥ ≤ ∥Qm · · ·Q1fk∥,

wobei die Q′js nun die in V orthogonal komplementären Projektoren zu den P ′

js sind.

224

Page 225: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Um einzusehen, dass fk ∈ V , beobachten wir zunächst

x[0] − x+ = (x[0] − x∗)−R(x0 − x∗) ∈ V ,

da I − R gerade der orthogonale Projektor von Rn auf V ist. Weiter findet man unterder Annahme, dass in (338) schon x[k,i] − x+ ∈ V gilt, induktiv unter Benutzung vonPi+1 : Rn −→ V , dass

x[k,i+1] − x+ = x[k,i] − x+︸ ︷︷ ︸∈V

−Pi+1

(x[k,i] − x∗

)︸ ︷︷ ︸∈V

∈ V.

2

Eine praktische Anwendung der letzten Aussage ergibt sich z.B. beim

Algorithmus 5.41 (Kaczmarz-Verfahren für unterbestimmte Systeme)

Ax = b, A ∈ R(m,n), Rang (A) = m < n, b ∈ Rm, x ∈ Rn gesucht.

Unter der (üblichen) Annahme der Normiertheit der Zeilenvektoren ai := AT ei, i =1, . . . ,m von A ist ein Zyklus der Kaczmarz-Iteration wieder durch

1. x[k,0] := x[k];

2. For i := 0 to m− 1

x[k,i+1] := x[k,i] −(aTi ai

)−1 (aTi x

[k,i] − bi)ai;

3. x[k+1] := x[k,m];

beschrieben.

Mit Vi := span ai und Pi := aiaTi sowie irgendeiner Lösung x∗ von Ax = b ist dies gerade

wieder die Iteration (338).

Da die Anzahl m der Zeilen von A kleiner ist als die Dimension n des Lösungsraumes wirddurch die Zeilen von A nicht mehr der ganze Rn aufgespannt, sondern nur ein echter m-dimensionaler Teilraum V := span a1, . . . , am. Der euklidisch orthogonale Komplemen-tärraum V⊥ davon ist gerade der Lösungsraum des homogenen Gleichungssystems Ax = 0.Der orthogonale Projektor P auf V ist nach den Ergebnissen des ersten Semesters241

P = AT (AAT )−1A.

Der Projektor R auf V⊥ ist demnach

R = I − P = I − AT (AAT )−1A,

241Prüfen Sie dies nach!

225

Page 226: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

und nach dem eben hergeleiteten Konvergenzergebnis konvergiert das Kaczmarz-Verfahrenim vorliegenden unterbestimmten Fall gegen242

x+ := x∗ +R(x[0] − x∗) = AT (AAT )−1b+Rx[0].

Dies ist gerade der Punkt der Lösungsmenge der gegebenen Gleichung Ax = b, der von x[0]den geringsten Abstand hat (also quasi die Projektion von x[0] auf den Lösungsraum243).

Wir halten (noch etwas allgemeiner244) fest:

Lemma 5.42 (Konvergenz des zyklischen Kaczmarc-Verfahrens)Für lösbare lineare Systeme konvergiert die zyklische Kaczmarz-Iteration gegen die demStartpunkt nächstgelegene Lösung.

Da wir gerade unterbestimmte Gleichungssysteme mit dem Kaczmarz-Verfahren iterativbehandelt haben, bietet es sich an, auch

Eine Projektions-Variante für überbestimmte Gleichungssysteme

vorzustellen:

Sei dazu A ∈ R(m,n)b mit rang (A) = m > n. Mit b ∈ Rm betrachten wir das überbestimmteGleichungssystem Ax = b. Normalerweise ist dies nicht lösbar, und wir haben in derMathematik I gelernt, dass man in diesem Falle eine Lösung x∗ des Ausgleichsproblems

∥Ax− b∥2!= min

bestimmen kann und dass diese als Lösung der Normalgleichungen ATAx = AT b gegebenist durch

x∗ = (ATA)−1AT b. (351)

Eine Projektionsiteration (338)) zur Bestimmung dieser Ausgleichslösung erhält man, in-dem man im Urbildraum Rn die durch die natürlichen Einheitsvektoren ei aufgespanntenProjektionsräume

Vi := span ei , i := 1, . . . , n

wählt und als inneres Produkt das durch die (n, n)-SPD-Matrix ATA definierte

< x, y >:= xTATAy.

Unter der Annahme, dass die Spaltenvektoren ai := Aei von A auf die euklidische Länge 1normiert wurden (∥Aei∥2 = 1), wird der < ·, · >-orthogonale Projektor Pi auf Vi dann zu

Pi := eieTi A

TA.

Der i-te Unterschritt der Iteration (338) bekommt damit die Form

x[k,i+1] := x[k,i] − Pi+1(x[k,i] − x∗)

= x[k,i] − ei+1eTi+1A

TA(x[k,i] − x∗). (352)

242Rechnen Sie dies selbst nach!243Es ist nur „quasi“ die Projektion, weil man genau genommen nur auf lineare Teilräume projizieren

kann. Die Lösungsmenge von Ax = b ist aber i.a. ein affin-linearer Raum.244Wo steckt die Verallgemeinerung? Weshalb ist sie zulässig?

226

Page 227: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Da die Einheitsvektoren ei, i = 1, . . . , n natürlich den ganzen Rn aufspannen, die Bedingung(337) also offensichtlich erfüllt ist, konvergiert die so definierte Iteration offenbar gegen x∗(und zwar unabhängig davon, ob x∗ > gerade die Lösung (351) des Ausgleichsproblemsist oder nicht.) Setzen wir speziell x∗ aus (351)) in (352) ein, so liegt Konvergenz gegendie Ausgleichslösung vor, und es kann — und das ist natürlich wesentlich — der Schrittwieder ohne Kenntnis der Lösung ausgewertet werden. Man rechnet nämlich leicht nach,dass dann

ei+1eTi+1A

TA(x[k,i] − x∗) = eieTi A

T (Ax[k,i] − b)

ist. Die gesamte Iteration lautet nun

Algorithmus 5.43 ( Kaczmarz-Typ-Iteration für linearen Ausgleich:)

Löst iterativ ∥Ax− b∥2 = min, A ∈ R(m,n),m ≥ n;Hinreichend für Konvergenz gegen eindeutige Lösung: rang (A) = n .

Konvergiert linear. Konvergenzrate abhängig von cond(ATA).

Weitere Voraussetzung: ai := Aei hat euklidische Länge 1, ∀ i

Beschrieben wird Schritt x[k] −→ x[k+1].

1. x[k,0] := x[k];

2. For i := 0 to n− 1

x[k,i+1] := x[k,i] − ei+1aTi+1(Ax

[k,i] − b);

end

3. x[k+1] := x[k,n].

5.6 Weitere Beispiele für Projektionsverfahren

Von den oben angeführten Kaczmarz-Typ-Verfahren werden vom Konvergenzsatz des letz-ten Abschnittes erfaßt

a. das klassische zyklische Kaczmarz-Verfahren,

b. das Verfahren (322), wenn darin die Richtungen vk eines Zyklus den Rn aufspannen,

c. das Einzelschrittverfahren für SPD-Systeme.

Nicht erfaßt werden das Gradientenverfahren, das CG-Verfahren, das Kaczmarz-Verfahrenmit Strategie der „optimalen“ Gleichungswahl und das Verfahren (330), da in diesen Ver-fahren die aktuelle Projektionsrichtung abhängig vom letzten Residuum gewählt wird245.

245Das ist für diese Verfahren aber auch nicht sehr schlimm, da man in deren Konvergenzanalyse ja geradediese Eigenschaft mit Vorteil ausnutzen konnte.

227

Page 228: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Was wird nun aus den Verfahren, wenn die Projektionsräume nicht mehr wie dort eindi-

mensional sondern (etwas) größer gewählt werden? Und — diese Frage ist natürlich fürden Anwender vordringlich — was hat man von einem solchen Vorgehen?

subsubsectionBlock-Kaczmarz-Verfahren

Natürliche Block-Einteilung Der Zugang 1 zu Kaczmarz-Verfahren war motiviertworden durch angenommene Speicherengpässe, aufgrund derer die Verfügbarkeit von nurjeweils einer Gleichung des Systems im schnellen Speicher vorgegeben war.

Normalerweise wird eine solche Restriktion als Extremfall der Situation anzusehen sein, inder nicht das gesamte System (inclusive etwa benötigten Arbeitsplatzes) in den schnellenSpeicher paßt. Allgemeiner ist in einem solchen Fall die Annahme, dass eine Anzahl k <n von Gleichungen im schnellen Speicher gleichzeitig behandelt werden kann. In einemsolchen Fall wird man Blöcke von jeweils k Gleichungen zusammen verarbeiten wollen.

Wenn wir der Einfachheit halber einmal annehmen, dass n = m · k ist, liegt es nahe, dieProjektionsräume Vi für das Projektionsverfahren (338) als durch jeweils k Zeilenvektorenai := AT ei von A aufgespannt anzunehmen. Eine mögliche und naheliegende Zuordung derZeilen von A und der Projektionsräume ist sicher

Vi := spanAT e(i−1)k+j | j := 1, . . . , k

, i := 1, . . . ,m.

Dabei wird die Matrix A gewissermaßen in disjunkte Blöcke von jeweils k aufeinanderfolgende Zeilen zerschnitten246:

A =

a11 . . . a1n...

...ak1 . . . akn

V1

ak+1,1 . . . ak+1,n...

...a2k,1 . . . a2k,n

V2

......a(m−1)k+1,1 . . . a(m−1)k+1,n

......

amk,1 . . . amk,n

Vm

Mit der aus der ((i−1)∗k+1)-ten bis ((i−1)∗k+k)-ten Spalte der (n×n)-Einheitsmatrix

246Daß andere Anordnungen, inclusive des "Überlappens"der Projektionsbereiche durchaus sinnvoll seinkönnen, werden wir in Kürze sehen.

228

Page 229: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

bestehenden „Auswahl-Matrix“

Ei :=(e(i−1)k+1, . . . , e(i−1)k+k

)=

0 0 . . . 0 0...

...0 0 . . . 0 01 0 . . . 0 0

0 1 0...

... . . . . . . . . . ...

... . . . 1 00 0 . . . 0 10 0 . . . 0 0...

...0 0 . . . 0 0

← ((i− 1)k + 1)-te Zeile

← ((i− 1)k + k)-te Zeile

(353)

hat der euklidisch orthogonale Projektor

Pi : Rn −→ Vi

die GestaltPi = ATEi(E

Ti AA

TEi)−1ET

i A,

und der i-te Teilschritt der Iteration (338) lautet

x[k,i] := x[k,i−1] − Pi

(x[k,i−1] − x∗

)= x[k,i−1] − ATEi(E

Ti AA

TEi)−1ET

i

(Ax[k,i−1] − b

).

(354)Selbstverständlich wird die Iteration247 nicht buchstabengetreu ausgeführt248.

So ist ETi (Ax

[k,i−1] − b) z.B. nur eine mathematisch kurze Schreibweise für: "Werte dieEinzelresidualanteile der ((i− 1)k + 1)-ten bis ((i− 1)k + k)-ten Zeilen aus", d.h.

ETi (Ax

[k,i−1] − b) =

aT(i−1)k+1x

[k,i−1] − b(i−1)k+1

...aT(i−1)k+kx

[k,i−1] − b(i−1)k+k

=: wi ∈ Rk.

Multiplikation des Residuums Ax[k,i−1]−b mit der Matrix Ei wäre zweifach dumm: Erstens„ist die Multiplikation mit Ei gar keine richtige Matrixmultiplikation“, es werden ja nurgewisse Komponenten aus dem Residuum herausgeschnitten, und zweitens wäre man schönverschwenderisch, wenn man alle Residualkomponenten auswertete, nur um den Hauptteildavon gleich hinterher fortzuwerfen.

Die Matrix Mi := ETi AA

TEi wird ebenfalls auf gar keinen Fall durch Multiplikation allereingehenden Matrizen gebildet249, sondern vermittels der Beobachtung, dass

Mi =(aT(i−1)k+pa(i−1)k+q

)kp,q=1

ist, wobei man bei der Berechnung dieser inneren Produkte die Symmetrie der Matrix Mi

doch bitteschön nicht unberücksichtigt läßt.247mal wieder248A−1b berechnen wir ja auch schon lange nicht mehr durch Bilden der Inversen von A und Multiplikation

dieses Ergebnisses mit b, sondern...249Ich würde dies nicht betonen, wenn ich etwas Ähnliches nicht schon einmal in Programmen gesehen

hätte!

229

Page 230: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Der k-Vektorvi = (EiAA

TEi)−1ET

i (Ax[k,i−1] − b)

schreibt sich mit den eingeführten Größen Mi und wi als

vi =M−1i wi

und wird selbstverständlich berechnet ............ als Lösung des Systems

Mivi = wi.

Bei regulärer Matrix A ∈ R(n,n) ist Mi eine SPD-Matrix250, und man verwendet deshalbselbstredend einen entsprechenden Löser für SPD-Systeme. Da der Zyklus der Projektionsi-terationen sicher mehr als einmal durchlaufen werden wird, speichert man bei Verwendungder Cholesky- oder LDLT-Zerlegung diese auch beim ersten Antreffen von Mi zur wie-derholten Benutzung bei den nächsten Zyklen ab. Mit dem Vektor vi =: (vi1, . . . , v

ik)

T ist

schließlich die bei x[k,i−1] anzubringende Korrektur

ATEi(ETi AA

TEi)−1ET

i (Ax[k,i−1] − b) = ATEiv

i =k∑

j=1

a(i−1)k+jvij

eine Linearkombination der Vektoren a(i−1)k+1, . . . , a(i−1)k+j.

Das hätten Sie aber natürlich auch so gemacht251.

Gut! Damit hätten wir das Block-Kaczmarz-Verfahren mit natürlicher konsekutiver Block--Einteilung wohl hinreichend genau erklärt. Seine Konvergenz ist nach dem allgemeinenProjektionssatz im Falle der Regularität von A auch klar.

Soll man dieses Block-Verfahren bei hinreichend vorhandenem schnellen Speicher nun demeinfachen zeilenorientierten Verfahren vorziehen?

Die Antwort ist ein entschiedenes: Nun — ziemlich meistens!

Einerseits kann man argumentieren252, dass — auf den Schritt bezogen — eine schnellereKonvergenz zu erwarten ist, da ja (mit der Lösung der Mi-Matrizen) im Schritt mehrLösungsarbeit geleistet wird. Wenn die Blockgöße k im Extremfall gleich der Systemgrößen wird, ist man in einem Schritt fertig. Dem kann natürlich entgegengehalten werden, dassin jedem Schritt auch mehr Rechenaufwand geleistet werden muß253. In einigen (wenigen)Testrechnungen mit Random-Systemen habe ich häufig Fälle angetroffen, in denen fürim Vergleich zu n kleine Blockgrößen (fast) kein Operationsgewinn verglichen mit derBlockgröße 1 festzustellen war.

Sind wir also ratlos254?

Wir sind es nicht ganz, wenn wir die Fragestellung wirklich auf den Fall großer Systemeeinengen, bei denen — verglichen mit der Systemgröße — wirklich nur wenige Gleichungen

250Warum?251Wehe, wenn nicht!252vgl. [MAESS 89]253und wenn man sich bei der Ausführung von (354) ßchön dumm anstellt", kann man noch einiges an

Zusatzaufwand spendieren!254Um gänzlich unentschlossen zu werden, könnten wir in unseren Überlegungen die Durchführbarkeit

der Blockgröße k = n zulassen : Dann wäre unsere vorliegendes Entscheidungsproblem mehr oder wenigeräquivalent mit der alten Streitfrage oll man direkt oder iterativ lösen?"

230

Page 231: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

in schnellen Speicher resident sein können255. In diesem Fall ist eine größere Blockgrö-ße deshalb vorzuziehen, weil die Anzahl der Zugriffe auf den langsamen Speicher damitverkleinert wird und somit eine Reduktion der effektiven Laufzeit eintreten sollte256.

Neben der Verbesserung des Datentransfers (und einer möglichen Beschleunigung der Ite-ration) gibt es andere mögliche Gründe für das Blocken von Gleichungen im Kaczmarz-Verfahren. Diese können z.B. durch den Wunsch motiviert sein, spezielle Strukturen desbehandelten Systems ausnutzen zu wollen oder auch spezielle Strukturen der verwendetenRecher (Rechnerarchitekturen), oder beides. Ein ganz einfaches Beispiel dafür geben wirim folgenden Unterabschnitt.

Andere Block-Einteilungen Zu anderen Block-Kaczmarz-Verfahren gelangt man durchandere Zusammensetzungen der Auswahlmatrizen Ei aus Einheitsvektoren des Rn, wobeiman zur Konvergenzsicherung natürlich darauf achtet, dass die Spalten aller E ′

is den Rn

auch aufspannen257. Außerdem gibt man sich wieder gehörige Mühe bei der Implementie-rung von (354).

Daß auch zunächst etwas eigenartig anmutende Wahlen dabei durchaus sinnvoll sein kön-nen, wollen wir an einem ganz einfachen Beispiel erläutern. Dafür habe die reguläre MatrixA des zu lösenden Systems Ax = b Tridiagonalgestalt. Weiter können wir (gegebenenfallsnach Hinzufügen einer oder zweier trivialer Gleichungen) annehmen, dass die Dimensionn ein Vielfaches von 3 ist: n = 3 · k.

Dann ist die durchE1 = (e1, e4, e7, . . . , e3k−2) ,E2 = (e2, e5, e8, . . . , e3k−1) ,E3 = (e3, e6, e9, . . . , e3k) ,

(355)

bestimmte Blockeinteilung und die dadurch definierte Block-Kaczmarz-Iteration recht in-teressant:

Erstens ergeben Testrechnungen mit Tridiagonal-Random-Matrizen bei Ausführung derIteration (schon auf einem herkömmlichen Rechner) einen leichtenmittleren Geschwindig-keitsvorteil der Dreierblock-Iteration258. Zweitens haben innerhalb eines jeden der dreiBlöcke die zu verschiedenen Zeilen gehörenden Operationen keinen Einfluß aufeinander, sodass diese durch Parallel- und/oder Vektorrechner vorzüglich ausgeführt werden können(Jeder Block kann gewissermaßen als Gesamtschritt ausgeführt werden).

Genauer beobachtet man für i = 1, 2, 3 unter der Annahme, dass die Zeilen von A vorBeginn der Rechnung euklidisch auf die Länge 1 normiert wurden, die folgenden Eigen-schaften:

255Wenn nicht andere klare Gründe (s.u.) für das Kaczmarz-Verfahren sprechen, kann eigentlich auch nurso seine Anwendung gerechtfertigt werden, da es meistens recht langsam ist.

256Natürlich sollte bei solchen Überlegungen in die Festlegung der Block-Größe k dann auch die Größeder Datenpakete einbezogen werden, in denen Daten auf der benutzten Maschine zwischen langsamem undschnellem Speicher transferiert werden.

257Oft wird man dabei die aufgespannten V ′is dadurch „linear unabhängig“ wählen, dass jede der Glei-

chungen des Systems nur in jeweils einem Block behandelt wird. Es gibt aber auch manchmal gute Gründefür "überlappende V ′

is"(vgl. unten : die Schwarzsche Alternierende Methode).258Allerdings wird diese Vorteil vornehmlich im ersten Schritt erzielt (Faktor ≈ 0.95) und wird in den

nachfolgenden Schritten zum größen Teil wieder ausgeglichen, so dass am Ende die Geschwindigkeit beiderVarianten als etwa gleich angesehen werden kann.

231

Page 232: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

1. Die in (354) auftretende Matrix

Mi = ETi AA

TEi

ist nicht nur Diagonalmatrix, sondern die k-Einheitsmatrix.

2. Der Schritt (354) lautet damit einfach

x[k,i] := x[k,i−1] −k−1∑j=0

ai+3j

(aTi+3jx

[k,i−1] − bi+3j

). (356)

3. Da durch jeden der Summanden in (356) verschiedene Komponenten von x abgeän-dert werden, können die Operationen zur Addition der Summanden simultan ausge-führt werden, ohne sich zu stören. Das ist sowohl für die Ausführung auf Parallel-als auch auf Vektorrechnern sehr vorteilhaft.

4. Die Parallelisierbarkeit ist auch schon für die Berechnungsphase der Koeffizienten

aTi+3jx[k,i−1] − bi+3j

gegeben. Es wird dabei nur auf die Koeffizienten zugegriffen, die anschließend durchdie Addition von (aTi+3jx

[k,i−1] − bi+3j)ai+3j verändert werden und umgekehrt.

Vernachlässigt man die Kosten für den Datentransport zwischen den Prozessoren259,so wird die Wahl der Dreier-Block-Iteration gegenüber der zyklischen Iteration beimEinsatz von n/3 Prozessoren eine (theoretisch maximale) Beschleunigung um denFaktor n/3 erbringen.

5. Obwohl die Rechenschritte eines jeden der Blöcke Gesamtschrittcharakter haben,läßt sich für x[k,i] und x[k,i−1] derselbe Speicher verwenden.

Block-Einzelschritt-Verfahren Das Gauss-Seidel- oder Einzelschrittverfahren für Sy-steme Ax = b mit SPD-Matrix A ∈ R(n,n) ergab sich als Projektionsverfahren durch dieWahl des inneren Produktes

< x, y >A:= xTAy

und der Projektionsräume

Vi := span ei, i = 1, . . . , n.

Mit dem Konvergenzsatz für Projektionsverfahren und seinen Erweiterungen erschließenwir ohne Schwierigkeiten

Lemma 5.44 (Konvergenzaussagen für Varianten des GS-Verfahres)Für das GS für SPD-Systeme Ax = b gelten folgende Zusätze:

1. Es kommt - was die Konvergenz angeht - nicht darauf an, in welcher Reihenfolge dieEinzelschrittchen des Einzelschrittverfahrens ausgeführt werden, wenn nur jeweils diei-te Gleichung nach der i-ten Komponente von x aufgelöst wird

259Was unstatthaft ist, was wir aber einmal tun, weil dieser Transport sehr von der Architektur desverwendeten Rechners abhängt.

232

Page 233: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

2. Die Reihenfolge der Einzelschrittchen darf - wenn der Wunsch dafür vorliegt - ohneKonvergenzverlust auch von Zyklus zu Zyklus geändert werden.

3. Ja, es darf mit den Einzelschrittchen sogar wild durcheinander d’rauflosgelöst wer-den, wenn nur gesichert wird, dass jeweils innerhalb einer festen Anzahl aufeinanderfolgender Schrittchen jede Gleichung mindesten einmal bearbeitet wird.

Anmerkungen 5.45Das Resultat 1 hätte man mit mit unserem früheren Wissen auch schon herleiten können;denn mit A ist auch PAP T positiv definit, wenn P eine Permutationsmatrix ist.

Zu Block-Einzelschrittverfahren gelangt man, wenn man - wie beim Block-Kaczmarz-Verfahren - jeweils mehrere Gleichungen des Systems zusammen bearbeitet. Unter Bei-behaltung des inneren Produktes < ·, · >A ergeben sich solche Verfahren z.B. mit derWahl

Vi := span Ei, i = 1, . . . ,m,

wobei die E ′is die Auswahlmatrizen (353) des Block-Kaczmarz-Verfahrens sind. Das zuge-

hörige Block-Einzelschrittverfahren lautet dann

x[k,0] := x[k];for i := 1 to m do

x[k,i] := x[k,i−1] − EiA−1i ET

i (Ax[k,i−1] − b);

x[k+1] := x[k,m].

(357)

Hierin ist für i ∈ 1, . . . ,m die Matrix Ai := ETi AEi der Diagonal-Block aus den Elemen-

ten der ((i− 1)k + 1)-ten bis ((i− 1)k + k)-ten Zeilen und Spalten von A:

Interpretieren wir die Matrix A als m × m-Hypermatrix aus k × k-Matrizen und sehenwir alle Vektoren als "Hypervektoren", deren m Komponenten aus Rk-Vektoren bestehen,so ist das Block-Gauss-Seidel bzw. Block- Einzelschrittverfahren nichts anderes als dasnormale Einzelschrittverfahren in solchen Blöcken:

Algorithmus 5.46 (Block-Gauss-Seidel)

Im i-ten Teilschritt wird in (357)) die i-te Blockgleichung nach der i-ten Block-Komponentedes x-Vektors aufgelöst. Die restlichen Block-Anteile von x gehen dabei mit ihren im letztenTeilschritt ermittelten Werten in die Rechnung ein, und nach der Berechnung der i-tenBlockkomponente in diesem Auflösungsschritt ersetzen diese Werte sofort die alten Wertein der aktuellen Lösungsapproximation.

Anmerkungen 5.47Natürlich sind alle in Lemma 5.44 geschilderten Varianten des GS-Verfahrens sofort auchfür Block-Verfahren zulässig.

Andere Wahlen der V ′is können — wie bei den Kaczmarz-Verfahren — auch beim Einzel-

schrittverfahren sinnvoll und praktisch sein. So kann etwa durch geeignete Dimensionierungder Ei-Matrizen eine in A vorliegende Blockstruktur in der Iteration ausgenutzt werden,oder man erzeugt durch die Wahl der Ei-Matrizen nach (355) für Tridiagonal-Systeme ei-ne Iteration, bei der — ganz analog zur entsprechenden Iteration vom Kaczmarz-Typ —

233

Page 234: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

die Gleichungen innerhalb eines Blockes simultan oder auf Vektorrechnern gelöst werdenkönnen. Wir wollen an dieser Stelle nicht genauer auf diese Variante eingehen260, sondernstattdessen an einem Beispiel erläutern, inwiefern es praktisch sein kann, die Projektions-räume Vi überlappend zu wählen. Dieses Beispiel261 gehört allerdings schon in den nächstenAbschnitt, in dem wir die Ausnutzung von Substrukturen bei Iterationsverfahren ein wenigbeleuchten wollen.

5.7 Substrukturen und Iterationsverfahren

Bei Substruktur- oder Zerlegungs-Verfahren teilt man das Problem in mehrere kleinere Pro-bleme auf, die natürlich gekoppelt sind. Bei elliptischen partiellen Differentialgleichungenwird diese Aufteilung mesit vorgenommen, indem man das Definitionsgebiet in Unterge-biete aufteilt. Man spricht dann vpon Gebietszerlegungs- oder Domain-Decomposition-Verfahren. Auf andere Zerlegungen und weitere Gründe für solche Zerlegungen gehen wirin einen gesonderten Abschnitt „Zerlegungen“ 7.4 unten ein.

Hier stellen wir zwei Beispielverfahreb vor, die gut an die eben behandelten Methodenvon Kaczmarz- und CG-Typ anschließen, die „Schwarzsche Alternierende Methode“, diedirekt als Projektionsmethode interpretiert werden kann, und das „CG-Verfahren für dasSchur-Komplement“.

5.7.1 Die Schwarzsche Alternierende Iteration

Wir betrachten das Modell-Problem der Poisson-Gleichung −∆u = f , welche unter Di-richlet-Randbedingungen u|∂Ω = g auf einem L-förmigen Gebiet Ω gelöst werden soll

−1 0 1 2 3−0.5

0

0.5

1

1.5

2

2.5

3

3.5L−förmiges Gebiet

Ω

Abbildung 100: L-förmiges Gebiet

Wir wollen der Einfachheit halber annehmen, dass die Abmessungen des Gebietes so sind,dass die Randwertaufgabe mit Hilfe der Standard-5-Punkte-Diskretisierung auf einem äqui-distanten Gitter mit in x- und y-Richtung gleicher Gitterfeinheit h in ein lineares Glei-chungssystem überführt werden kann. Wir hatten schon weiter oben angemerkt, dass das

260Führen Sie die Einzelheiten einer solchen Einzelschrittiteration zur Übung einmal allein aus.261Und mit ihm eigentlich schon alles, was wir im diesem Abschnitt über Block-Methoden gesagt haben

234

Page 235: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

entstehende lineare System dann eine symmetrische und positiv definite Systemmatrix be-sitzt. Es stehen uns damit alle Möglichkeiten zur Lösung mit Block-Einzelschrittverfahrenoffen.

Für die Poisson-Gleichung gibt es speziell für rechteckigen Grundbereich eine Reihe sehrschneller direkter Löser262.

Definieren wir entsprechend der nachfolgenden Skizze rechteckige Teilgebiete Ω1 und Ω2

von Ω mit Ω = Ω1 ∪ Ω

2, so können wir die (diskretisierte) Poisson-Gleichung auf diesenGebieten schnell lösen, wenn Randwerte auf ihren Rändern ∂Ω1 und ∂Ω2 gegeben sind.

−1 0 1 2 3−0.5

0

0.5

1

1.5

2

2.5

3

3.5Teilgebiet Ω

1

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5−0.5

0

0.5

1

1.5

2

2.5

3

3.5Teilgebiet Ω

2

Abbildung 101: Rechteckige Teilgebiete

Um mit Lösungen der Differentialgleichung auf Ω1 und Ω2 die Lösung der ursprünglichenRandwert-Aufgabe approximieren zu können, ist es sicherlich sinnvoll, als Randdaten auf

∂Ωai := ∂Ωi ∩ ∂Ω, i = 1, 2

die Randdaten g der ursprünglichen Aufgabe auf ∂Ω zu übernehmen.

Verändert man eine approximative Lösung u[k] nun durch alternierende Lösung der Rand-wertprobleme auf Ω1 und Ω2, wobei man auf den jeweils zusätzlichen Randstücken ∂Ω+

i

die Werte der letzten Iterierten als Randdaten ansetzt, so erhält man die sogenannte262z.B. unter Benutzung der schnelle Fouriertransformation

235

Page 236: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Algorithmus 5.48 ( Schwarzsche alternierende Methode)

Schritt u[k] −→ u[k+1] zu Approximation einer Lösung von ∆u = f auf Ω mit u|∂Ω = g.

SCHRITT 1:Löse ∆v = f auf Ω1

mit v|∂Ωa1= g und v|∂Ω+

1= u

[k]

|∂Ω+1

.

Setze u[k+1/2] :=

v auf Ω1,

u[k] auf Ω2 \ Ω1.

SCHRITT 2:Löse ∆w = f auf Ω2

mit w|∂Ωa2= g und w|∂Ω+

2= u

[k+1/2]

|∂Ω+2

.

Setze u[k+1] :=

w auf Ω2,

u[k+1/2] auf Ω1 \ Ω2.

In der oben schon zitierten Arbeit [LIONS 88] wird das Verhalten dieser Iteration mitstärkerem technischen Aufwand im Funktionenraum untersucht. Unsere einfachen Mittelreichen aber schon dafür aus, Aussagen über die entsprechende Iteration für die diskreteVersion der Randwertaufgabe zu machen. Diese Iteration ist nämlich gerade das 2-Block-Gauss-Seidel-Verfahren, wenn im Teilschritt 1 durch die Auswahlmatrix E1 alle Variablenund Gleichungen ausgewählt werden, die zu Diskretisierungspunkten im Inneren Ω

1 von Ω1

gehören, und entsprechend im zweiten Teilschritt die zu den Diskretisierungspunkten ausdem Inneren Ω

2 von Ω2 gehörenden Gleichungen gelöst werden. Als Block-Einzelschritt-Verfahren für ein SPD-System ist das Verfahren dann konvergent gegen die eindeutigeLösung.

Diese Block-Iteration ist das am Ende des letzten Abschnittes versprochene Beispiel einerBlock-Iteration, bei der die Projektions-Räume sich überlappen. Es werden nämlich dieGleichungen zu Punkten aus Ω

1 ∩ Ω2 in beiden Schritten erfaßt, so dass V1 ∩ V2 = 0.

Man nimmt damit verbundene Doppelarbeit in Kauf, weil dadurch die Teilgebiete Ωi Recht-ecke werden und man die dafür vorhandenen schnellen Poisson-Löser nutzen kann. Außer-dem zahlt sich diese Mehrfacharbeit oft aus. I.A. wird nämlich die Schwarzsche Iterationumso schneller, je stärker sich die Gebiete überlappen.

Beispiel 5.49 (Schwarze Iteration am 1D-Beispiel)Bearbeitet wird die mit Schrittweite h = 1

100und zentralen Finiten Differenzen diskreti-

sierte gewöhnliche Randwertaufgabe

−y′′(x) = 2 für x ∈ (0, 1) bei Randwerteny(0) = y(1) = 0. (358)

Der Ablauf der Iteratoion ist hier etwas einfacher darzustellen als im mehrdimensionalenFall.

236

Page 237: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Als die den beiden obigen Gebieten Ω1 und Ω2 entsprechende Intervalle wählen wir

I1 := [0,1

2+Overlap ∗ h] und I2 = [

1

2−Overlap ∗ h, 1].

Diskret überlappen die Gebiete um 2 mal Overlap Diskretisierungspunkte.

Das Ergebnis der Schwarzschen Iteration, bei der die Diskretisierungen der Differentialglei-chung aus (358) jeweils alternativ auf den Teilgebieten gelöst werden, wobei als Randwertam im Inneren von (0, 1) jeweils liegenden Randpunkt jeweils der letzte (durch die kom-plementäre Lösung ermittelte) Wert gewählt wird, ist in Abbildung 102 zu sehen, wobeihier overlap = 3 gewählt wurde.

0 0.2 0.4 0.6 0.8 10

0.05

0.1

0.15

0.2

0.25Schwarzsche alternierende Iteration, Overlap=3

y1

y4

yexact

Abbildung 102: Schwarzsche alternierende Iteration für 1D-Beispiel

Es dürfte nach diesem Bild unmittelbar einleuchten, weshalb das Überlappen von I1 undI2 die Konvergenzgeschwindigkeit erhöhen. In der folgenden Skizze 103 sind die Konver-genzgeschichten für verschiedene Overlap-Werte aufgetragen:

0 5 10 15 20 25−9

−8

−7

−6

−5

−4

−3

−2

−1

0Schwarzsche alternierende Methode, Fehlerlogarithmus

Schritte

10erlogarithmus des Fehlers

Overlap =3

Overlap=10

Overlap=20

Abbildung 103: Schwarzsche alternierende Iteration: Konvergenz

Wir setzen nun das zweidimensionale Beispiel fort:

Beachten Sie dazu bitte in diesem Zusammenhang, dass eine wie folgt skizzierte Aufteilungin Ω1 und Ω2 nicht zu einer gegen die Lösung konvergierenden Iteration führt.

237

Page 238: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5−0.5

0

0.5

1

1.5

2

2.5

3

3.5

Ω1

Ω2

Abbildung 104: Ungeeignete Aufteilung

Die zu den Punkten auf dem gemeinsamen Rand von Ω1 und Ω2 gehörenden Variablengehen nämlich in beide Teilprobleme nur als Randdaten ein, werden deshalb in der 2-Block-Iteration nicht verändert und behalten daher ihre Startwerte. Wenn man auf demganzen Geboiez Ω einen Startwert vorgibt, konvergiert die Iteration hier zwar nach einemSchritt, aber nciht gegen die Lösung, wenn man auf dem gemeinsamen Rand nicht zufälligdie korrekten Lösungswerte vorgibt.

Eine konvergente Iteration erreicht man mit der letzten Einteilung, wenn man die zu denPunkten auf dem gemeinsamen Rand gehörenden Gleichungen in einem dritten BlockΩ3 erfaßt und zu einer 3-Block-Iteration übergeht, deren Konvergenz ja ebenfalls durchdie Konvergenzaussage für allgemeine Projektionsverfahren gesichert wird. Allerdings wirdman bei einer solchen nicht überlappenden Gebietszerlegung eine andere Iteration benut-zen, die wir im nächsten Unterabschnitt263 behandeln werden.

263Stichwort CG

238

Page 239: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5−0.5

0

0.5

1

1.5

2

2.5

3

3.5Drei Gebiete

Ω1

Ω3

Ω1

Abbildung 105: Drei Gebiete

Wie soeben schon angedeutet, kann man die Schwarzsche Methode auch anwenden, wenndas Grundgebiet in mehr als zwei (überlappende) Teilgebiete eingeteilt wird. Dadurch kannman schnelle Poisson-Löser für Rechteckgebiete auch für komplizierte Gebiete nutzbarmachen. Die Poisson-Gleichung auf dem wie folgt skizzierten Gebiet wird man z.B. miteiner 6-Block-Iteration angehen können. Wenn man die Teilgebiete wie skizziert numeriert,kann man sogar jeweils die ersten und letzten drei Poisson-Lösungen auf Rechteckgebietenparallel ausführen.

239

Page 240: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 2 4 6 8 10 12−2

0

2

4

6

8

10Sechs Teilgebiete

Ω1

Ω2

Ω3

Ω4

Ω5

Ω6

Abbildung 106: Sechs Teilgebiete

Natürlich muß man das Grundgebiet nicht notwendig in Rechtecke zerlegen. Konvergenzder diskreten Schwarzschen Iteration liegt immer dann vor, wenn diese ein (gegebenenfallsüberlappendes) Block-Gauss-Seidel-Verfahren für das diskrete System wird. Bei Möglich-keit der Zerlegung in Rechtecke hat man nur den zusätzlichen Vorteil, dass die Teilproblememit schnellen Poisson-Lösern angegangen werden können.

Solche schnellen Poisson-Löser existieren übrigens auch für Kreisgebiete, so dass auch diePoisson-Gleichung auf Gebieten der folgenden Form

0 2 4 6 8 100

1

2

3

4

5

6

7

8

9

10

Ω1

Ω2

Abbildung 107: Schwarzsches Problem

240

Page 241: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

mit der Schwarzschen Methode und schnellen Poisson-Lösern leicht angehbar sind.

So hat Schwarz in der Arbeit, die der Methode ihren Namen gegeben hat, gezeigt, dass dieLaplace-Gleichung auf dem in Abbildung 107 gezeigten Vereinigungsgebiet von Ω1 und Ω2

eine Lösung hat.

5.7.2 CG im Schur-Komplement

Auch in diesem Abschnitt gehen wir vom Modellproblem der Poisson-Gleichung

∆u = f auf Ω,u∂Ω = g

auf einem L-förmigen Grundgebiet aus, bzw. des mit Gitterweite h daraus durch Standard-Diskretisierung erzeugten linearen Gleichungssystems Ax = b.

Wir zerlegen hier das Grundgebiet Ω einmal — wie im folgenden skizziert — in zweianeinanderstoßende rechteckige Bereiche Ω1 und Ω2 mit dem gemeinsamen Randstück(Interface) Ω3.

−1.5 −1 −0.5 0 0.5 1 1.5 2 2.5 3 3.5−0.5

0

0.5

1

1.5

2

2.5

3

3.5Drei Gebiete

Ω1

Ω3

Ω1

Abbildung 108: Ω3 als „Interface“

Im letzten Abschnitt haben wir gelernt, dass wirAx = b iterativ mit dem Block-Einzelschritt-Verfahren lösen können, wenn wir die Gleichungs- und Variablenblöcke nach ihrer Zugehö-rigkeit zu den Mengen Ωi in Blöcke aufteilen. Für die Blöcke zu Ω1 und Ω2 entsprach die

241

Page 242: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Lösung der Teilsysteme gerade der Lösung von diskreten Poisson-Gleichungen auf diesenGebieten. Durch die Lösung des zu Ω3 gehörenden Teilsystems werden die Interface-Datenso angepaßt, dass die Poisson-Gleichung auch über die Interface-Linie hinweg erfüllt ist.Man überlegt sich leicht, dass die letzte System Tridiagonalstruktur hat und daher einfachzu lösen ist. Insgesamt scheint dieser Zugang ganz vielversprechend.

Allerdings ist diese Iteration nicht besonders schnell.

Mit den gleichen Unterprogrammen zur schnellen Poisson-Lösung auf Ω1 und Ω2 läßt sicheine sehr viel schnellere Iteration auf CG-Basis definieren. Dabei wird die CG-Methodenur eingesetzt, um die Interface-Daten in Ω3 anzupassen. Da Ω3 erheblich weniger Dis-kretisierungspunkte enthält — sagen wir k — als das Gesamtgebiet264 erwartet man eineverhältnismäßig rasche Konvergenz265.

Die Vorgehensweise orientiert sich zunächst an den uns schon bekannten direkten Block-Lösern:

Sind für i = 1, 2, 3 im Vektor xi die zu bestimmenden Approximationswerte für die Lösungin den Diskretisierungspunkten von Ωi zusammengefaßt und ordnet man die Gleichungendes diskreten Systems in der gleichen Reihenfolge, so bekommt das zu lösende Gleichungs-system Ax = b die BlockgestaltA11 0 A13

0 A22 A23

AT13 AT

23 A33

x1x2x3

=

b1b2b3

(359)

Hierbei entspricht Aii dem diskreten Laplace-Operator auf Ωi, i = 1, 2. A33 sorgt für dieKopplung der zu Ω3 gehörenden Variablen untereinander, und Ai3 und AT

i3 vermitteln dieKopplung zwischen Ωi und Ω3, i = 1, 2.

Aufgabe 5.50Stellen Sie das System (359) explizit auf für das wie folgt angedeutete diskrete Problem:

−1 0 1 2 3 4 5 6 7 8

Diskretisierung mit Substrukturierung

g19

g1 g

2

g3

g6

g9

g10

g4

x11 x

21

x31 x

41

x13 x

23 g

5

x12 x

22

x102

g14

g15

Abbildung 109: Substruktur-Numerierung

Die Werte der rechten Seite bezeichne man den xji entsprechend mit f ji .

264Ω3 ist im Gegensatz zu Ω eindimensional, bei kleiner werdender Diskretisierungsweite h wächst dieAnzahl der Diskretisierungspunkte in Ω wie h−2 und in Ω3 nur wie h−1

265CG-Methoden brauchen zur exakten Berechnung der Lösung höchstens soviel Schritte, wie Unbekanntezu bestimmen sind; hier also maximal k Stück.

242

Page 243: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Lösung(shinweis):

A11 =

4 −1 −1 0−1 4 0 −1−1 0 4 −10 −1 −1 4

,

A22 =

(B −I5−I5 B

)und B ∈ R(5,5) mit bij =

4 i = j,

−1 |i− j| = 1,

0 sonst

A33 =

(4 −1−1 4

),

AT13 =

(0 0 −1 00 0 0 −1

), AT

23 =

(−1 0 0 0 00 −1 0 0 0

)(b1)T = (g1 + g19 − h2f1

1 , g2 + g3 − h2f12 , g18 − h2f 1

3 , g4 − h2f14 ),

(b2)T = (g16 − h2f 21 , 0− h2f 2

2 , g5 − h2f23 , . . .)

T ,

(b3)T = (g17 − h2f 31 , g5 − h2f3

2 ).

Am besten setzen Sie das Ganze einmal selbst auf einem großen Blatt Papier entsprechend(359) zusammen.

Wir wollen auf das System (359) jetzt das Verfahren der Block-Elimination von Seite 135anwenden. Dort handelte es sich um ein (2 × 2)-Block-System, und wir fassen deshalb in(359) Blöcke wie folgt zusammen:

Aaa :=

(A11 0

0 A22

), Aa3 :=

(A13

A23

),

xa :=

(x1

x2

), ba :=

(b1

b2

).

(360)

Damit hat (359) die gewünschte (2× 2)-Block-Struktur(Aaa Aa3

ATa3 A33

)(xa

x3

)=

(ba

b3

). (361)

Wenden wir hierauf Block-Gauss-Elimination an266, so finden wir, dass (361) äquivalent zu

Aaaxa +Aa3x

3 = ba,

Sx3 :=(A33 −AT

a3A−1aaAa3

)x3 = b3 −AT

a3A−1aa b

a

ist, mit dem Schur-Komplement S von Aaa in A.

Setzen wir hierin die Abkürzungen (360) wieder ein und kehren die Reihenfolge der Glei-chungen um, so finden wir als zu (359) äquivalentes System

Sx3 = b3 − AT13A

−111 b

1 − AT23A

−122 b

2 =: r, (362)A11x

1 = b1 − A13x3, (363)

A22x2 = b2 − A23x

3, (364)

worin das Schur-Komplement S nun

S = A33 − AT13A

−111 A13 − AT

23A−122 A23 (365)

266Das ist möglich: Mit A ist auch Aaa SPD.

243

Page 244: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

lautet. Hat man das Schur-Komplement S ∈ R(k,k) einmal zu Verfügung, so kann (359)über (362-??) leicht gelöst werden, wobei als wesentlich arbeitsaufwendige Prozesse nurnoch jeweils zwei Lösungen der Poisson-Gleichungen auf Ω1 und Ω2 anfallen267.

So klingt der Algorithmus doch recht gut268.

Ärgerlich ist eigentlich auch nur die nötige Berechnung von S und die Tatsache, dassS meist voll besetzt ist, so dass bei mittlerer Größe von k doch schon einiges an Re-chenaufwand bei der Auflösung von (362) anfallen könnte. Die wesentliche Arbeit bei derBerechnung von S liegt in den Termen

A−111 A13 und A−1

22 A23. (366)

Da die Matrizen A13 und A23 jeweils k Spalten haben269, werden für (366) jeweils k Lö-sungen der diskreten Poisson-Gleichung auf Ω1 und Ω2 erforderlich. Das stört uns.Ein erster Gedanke zur Verbesserung resultiert aus der Beobachtung, dass S als Schur-Komplement einer führenden Hauptuntermatrix einer SPD-Matrix selbst wieder SPD ist.Es liegt deshalb nahe, auf das System (362), also

Sx3 = r,

die Methode der konjugierten Gradienten anzuwenden. — Sie meinen, das würde nichtsändern, da man das System ja schließlich erst mal haben müßte, bevor man es lösen könne?— Sie irren270.

In der CG-Methode muß die Systemmatrix nur multiplikativ angewendet werden, und Siekönnen sicher

Sv =(A33 − AT

13A−111 A13 − AT

23A−122 A23

)v

= A33v − AT13A

−111 (A13v)− AT

23A−122 (A23v)

(367)

bilden, ohne dass Sie S vorher vollständig ausgerechnet haben müßten. Da man bei derCG-Methode die System-Matrix in jedem CG-Schritt einmal anwenden muß, sehen Sie aus(367), dass jeder CG-Schritt je eine Poisson-Lösung auf Ω1 und Ω2 erfordert.

Es stellt sich natürlich sofort die Frage: „Und wieviel Paare von Poisson-Auswertungenbrauchen wir nun, um (362) mit Hilfe von CG zu lösen? Bei der direkten Methode brauchtenwir k + 1 davon!“

Nun — ein Paar benötigen wir auf jeden Fall für die Berechnung der rechten Seite von(362). Und ein Paar für jeden Schritt. Da Sx3 = r die Dimension k hat, liefert die CG-Methode die Lösung auf jeden Fall nach k Schritten. Wir brauchen damit höchsten (k+1)Paare von Poisson-Auswertungen.

Das befriedigt nicht, weil wir bei der direkten Block-Methode auch nur (k + 1) Poisson-Paare lösen mußten?

Na, immerhin haben wir doch die Speicherung der vollbesetzten Matrix S und ihre Auflö-sung vermieden, ist das nichts?

Es ist tatsächlich nichts, sagen Sie? Und ich hätte schließlich selbst gesagt, k sei klein?Stimmt, hab’ ich! Aber wir haben doch gelernt, dass es durchaus Fälle gibt, in denen CG

sehr viel schneller fertig wird271! Darauf kann man sich nicht verlassen, meinen Sie? Na267Je einmal zur Berechnung der rechten Seite von (??) und einmal je einmal bei der Lösung der Glei-

chungen (363-364).268So haben wir ihn ja auch bei den direkten Methoden gut verkauft!269Vgl. die obige Übungsaufgabe.270Haben Sie oben nicht aufgepaßt?271Symmetrie, etc.

244

Page 245: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

gut! — Wie kann man die CG-Methode sonst noch schneller machen ? — Richtig! DurchPräconditionieren. Allerdings ist dies hier schneller gesagt als getan, und ein guter Prä-conditionierer M ≈ S ist nicht so leicht gefunden. Insbesondere für allgemeinere elliptischeDifferentialgleichungen kann man hier noch einige Lorbeeren ernten!

Für den Fall des Poisson-Problemes selbst gibt es allerdings schon einige gute Präcondi-tionierungsmatrizen, die (fast) alle mit dem uns schon aus vielen Beispielen bekannten"diskreten zweidimensionalen Laplace-Operator"

K :=

2 −1 0 . . . 0

−1 2. . . . . . ...

0. . . . . . . . . 0

... . . . . . . 2 −10 . . . 0 −1 2

∈ R(k,k)

verbunden sind. [DRYJA 84] empfiehlt

M := F ·√K

(F ≈ (Länge von Ω3)

−1)

und [GOLUB-MAYERS 84] empfehlen

M := F ·√K2 + 4K.

[CHAN-RESASCO 85] finden, dass der letzte Präconditionierer i.a. besser ist und gebeneinen dritten (nicht so schnell zu beschreibenden) an, der noch etwas besser ist. Beideobigen Präconditionierer ergeben erhebliche Beschleunigungen, so dass sich PCG für dasSchur-Komplement-System (??) auf jeden Fall lohnt272.

Nun mag man sich vielleicht noch fragen, wie denn die bei PCG benötigte Lösung vonSystemen Mv = w vorzunehmen sei. Man kann sich ja durchaus vorstellen, dass z.B.

√K

erstens nicht einfach zu berechnen ist und zweitens möglicherweise vollbesetzt273.

Des Rätsels Lösung ist die Tatsache, dass man die Spektralzerlegung von K explizit ange-ben kann274, und dass die Eigenvektoren wj von K gerade die Form

wj =

√2

k + 1(sin(jπh), sin(2jπh), . . . , sin(kjπh))T , j = 1, . . . , k

haben mit h = 1/(k + 1). Mit den Eigenwerten λj von K und

W := (w1, . . . , wk) ∈ R(k,k)

ist dann nach dem Spektralsatz(√K)−1

= W diag ((λ1)−1/2, . . . , (λk)−1/2)W T

(enstprechend steht bei(√

K2 + 4K)−1

was in der Diagonalmatrix?) und M−1 läßt sichganz einfach anwenden. Die Multiplikationen mit W und W T führt man natürlich durchschnelle Vorwärts- bzw. Rückwärts-Fourier-Transformation aus. Mithin ist die Präcondi-tionierung schnell zu erledigen. Näheres findet man bei [CHAN-RESASCO 85].

272Bei mehreren rechten Seiten wird die direkte Schur-Komplement Methode allerdings schon wiederkonkurrenzfähig.

273Dann hätte man die Einsparung der vollen Matrix S gerade wieder an anderer Stelle zum Fenster’raus geworfen.

274vgl. Seite 164

245

Page 246: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

5.8 Neuere Konvergenzanalysen für Kazcmarz-Typ Iterationen

Während der letzten Jahre sind neue, wahrscheinlichkeitstheoretische Abschätzungen fürdie Entwicklung der Erwartungswerte für die Fehler bei randomisierten Iterationsvariantenentwickelt worden; vgl.[StrVer].

Definiert man für das konsistente275 (m,n)-Gleichungssystem

Ax = b

mit den einzelnen Gleichungen

aTi x = bi, ai = AT ei, i = 1, . . . ,m

mit Demmel die „skalierte Konditionszahl“ κ(A) durch

κ(A) = ∥A∥F∥A−1∥2

so gilt für den

„Randomisierten Kazcmarc-Algorithmus“

xk+1 := xk + (aTr(k)ar(k))−1(br(k) − aTr(k)xk

)ar(k), (368)

worin der Index r(k) als Zufallszahl zwischen 1 und n gewählt [ai erscheintdabei mit Wahrscheinlichkeit proportional zu |ai|2.],

dass der Erwartungswert des Fehlers der k-ten Iteration wie folgt abgeschätzt werden kann:

E∥xk − x∗∥22 = (1− κ(A)−2)k · ∥x0 − x∗∥22.

Achtung: Anders als bei der zyklisches Kazcmarz-Iteration auf Seite 210 zählen wirnicht einen Durchgang durch alle m Gleichungen als einen Schritt, sondern jeden kleinenEinzelschritt.

Es sind für die nächsten Jahre neue wahrscheinlichkeitstheoretische Konvergenz-Analysenfür viele numerische Algorithmen zu erwarten.

6 Direkte Iterationsvarianten für große nichtlineare Sy-steme

Für große nichtlineare Systeme

F (x) = 0, F : Rn −→ F : Rn, n groß

ist es oft schwierig, das Newton-Verfahren durchzuführen. Dafür gibt es (mindestens) zweiGründe:

Einerseits kann es sein, dass man die Jacobi-Matrix nicht bilden kann, weil dies - auch beigeschicktem Einsatz von Differenzenapproximationen276 - zu viel Rechenzeit kostet.

275Überbestimmt aber lösbar wäre auch möglich.276Vgl. Seite 144

246

Page 247: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Andererseits ist möglicherweise das in jedem Schritt zu lösende Lineare Gleichungssy-stem

F ′(x[k])δ = −F (x[k])

nicht direkt und exakt lösbar.

Um trotz dieser Restriktionen in annehmbarer Rechenzeit an die Lösung heranzukommen,sind zahlreiche Iterationen ersonnen worden.

Während in den letzten Jahren277 Verfahren der Zerlegung des Systems besonders inter-essant gewesen sind278, wurden schon in den siebziger Jahren des letzten Jahrhundertsviele „nichtlineare Varianten“ bekannter Iterationen untersucht. In fast enzyklopädischerArt wurden deren Konvergenzeigenschaften im Klassiker „Ortega-Rheinboldt“ [OR] aufge-listet.

Verfahren, die die oben angegebenen iterative Lösungsmethoden mit einer schrittweisenLinearisierung verbinden, wollen wir “Newton-Mix-Verfahren“ nennen. Hierzu gehören diemeisten nichtlineare Iterationsverfahren.

Verfahren, die an keiner Stelle Linearisierungen einsetzen, sind meist nur theoretische Ver-fahren. Wir geben dafür als erstes einige Beispiele.

6.1 Linearisierungs„freie“ Verfahren

6.1.1 Nichtlineares Jacobischrittverfahren

Für das System

F (x) =

f1(x1, . . . , xn)...f1(x1, . . . , xn)

= 0

lässt sich rein formal natürlich ein Jacobi-Iterations-analoger k-ter Schritt

x[k] −→ x[k+1] = Φ(x[k]) (369)

definieren, indem alle Gleichungen simultan nach ihren jeweiligen „Diagonalelementen“aufgelöst werden:

x[k+1]i ist eine Lösung von fi(x

[k]1 , . . . , x

[k]i−1, x, x

[k]i+1, . . . , x

[k]n ) = 0 in x. (370)

Dabei ist allerdings für jede der Komponentengleichungen (370) ad hoc nicht klar, ob esüberhaupt eine Lösung gibt und ob - wenn es sie gibt - diese eindeutig ist. Außerdem mussdann bei Anwendung die Gleichung auch konkret gelöst werden, was ohne Einsatz vonLinearisierung kaum denkbar ist.

Die Untersuchung dieser Iteration ist daher eher von theoretischem Interesse. Sie wäre„Grenzwert“ in der Menge der Iterationen, die (370) mit Hilfe irgendwelcher Subiterationenapproximativ lösen, mit der man den Sinn einer sehr genauen Lösung von (370) abklärenkönnte.

Hierzu beweist man solche Sätze wie den nächsten.

277vermutlich durch die Möglichkeit der Nutzung mehrerer Rechnerkerne befördert278Wir gehen darauf in einem gesonderten Abschnitt ein.

247

Page 248: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 6.1 (Konvergenz der nichtlinearen Jacobi-Iteration)Sei F : D −→ Rn auf der offenene Menge D ∈ Rn zweimal stetig differenzierbar. DerPunkt x∗ ∈ D erfülle F (x∗) = 0 und es sei F ′(x∗) strikt diagonal dominant.Dann gibt es eine Kugel Kµ(x

∗) um x∗, so dass die Iteration (370) in Kµ(x∗) wohldefiniert

ist und∥xk − x∗∥2

k∈N wie ρk gegen Null konvergiert, wobei

ρ = ρ(GJ)

der Spektralradius von GJ ist und GJ die Jacobi-Iterationsmatrix für F ′(x∗).

Beweis: Wenn F ′(x∗) strikt diagonal dominant ist, sind deren Diagonalelemente sicherungleich Null. Die Gleichungen (370), die für

(x[k]1 , . . . , x

[k]i−1, x

[k]i+1, . . . , x

[k]n ) = (x∗1, . . . , x

∗i−1, x

∗i+1, . . . , x

∗n)

in der i-ten Komponente durch x = x∗i gelöst werden, sind daher lokal nach dem Satz3.23 über Implizite Funktionen in einer Kugel um x∗ alle eindeutig lösbar, so dass derIterationsschritt (369) über (370) hier definiert ist.Um das Resultat zu beweisen, müssen wir nach dem Satz 3.19 von Ostrowski nur noch

Φ′(x∗) = GJ(F′(x∗))

zeigen, aus dem dann die Konvergenzaussage folgt.Nun ist die i-te Komponente von Φ(x) gegeben durch durch denjenigen Wertϕi = ϕi(x1, . . . , xi−1, xi+1, . . . , xn), der die Gleichung

fi(x1, . . . , xi−1, ϕi, xi+1, . . . , xn) = 0. (371)

löst.Um die i-te Zeile von Φ′(x) zu erhalten, benötigen wir den Gradienten von ϕi(x).Die Ableitung ∂ϕi(x)

∂xiist offenbar gleich Null, weil xi nicht in die Gleichungen (371) eingeht,

so dass ϕi(x) daher nicht von xi abhängt.Die Ableitungen von ϕi nach den anderen x-Komponenten bilden wir, indem wir (371)einfach nach ihnen differenzieren. Nach Kettenregel ergibt sich

0 =∂

∂xjfi(x1, . . . , xi−1, ϕi((x1, . . . , xi−1, xi+1, . . . , xn)), xi+1, . . . , xn) =

∂fi∂xj

+∂fi∂xi· ∂ϕi

∂xj.

Indem wir nach ∂ϕi

∂xjauflösen, erhalten wir:

∂ϕi

∂xj= −

(∂fi∂xi

)−1∂fi∂xj

und dies ist gerade das (i, j)-Elemente von GJ(F′(x)), womit alles gezeigt ist. 2

Anmerkungen 6.21. Analog lassen sich viele andere für den linearen Fall bekannte Verfahren „nichtlinea-

risieren“. So konvergiert etwa das nichtlineare Gauss-Seidel-Verfahren wie das lineareVerfahren, wenn F ′(x∗) stark diagonal dominant sind oder symmetrisch und positivdefinit. Dabei ergibt sich das nichtlineare Gauss-Seidel-Verfahren natürlich, indem

248

Page 249: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

man die Gleichungen (370) nicht simultan sondern sukzessiv nach x1 bis xn löst unddie bereits gewonnenen neuen Komponenten in die Gleichung einsetzt:

x[k+1]i ist eine Lösung von fi(x

[k+1]1 , . . . , x

[k+1]i−1 , x, x

[k]i+1, . . . , x

[k]n ) = 0 in x. (372)

Das macht bei Bildung der Jacobischen der Iterationsfunktion natürlich etwas mehrSchwierigkeiten, aber letztendlich ergibt sich am Ende analog zu letzten Satz

Φ′(x∗) = GGS(F′(x∗)

woraus die beiden oberen Behauptungen unmittelbar folgen.

2. Wie das Gauss-Seidel-Verfahren lässt sich auch das SOR-Verfahren „nichtlinearisie-ren“ und die lokale Konvergenz wird durch die Sätze für das lineare Verfahren inAnwendung auf die Jacobi-Matrix F ′(x∗) gesteuert.

3. Wir gehen hier nicht weiter auf diese Verfahren ein, weil sie erstens sehr Rechenzeitverbrauchen, wenn man die Gleichungen jeweils wirklich (fast) genau lösen will.(Eineganz genaue Lösung ist ja meist nicht möglich, weil dies im Normalfall unendlich vie-le Teillösungsschritte benötigte.) Zweitens zeigt der Satz 6.4, dass das Verfahrennicht besser ist das dort betrachtete, das aus dem nichtlinearen Jacobi-Verfahren ent-steht, wenn man den infiniten Lösungsprozesse durch einen einzigen Newton-Schritt(ausgehend von der letzten Approximation) ersetzt.

Aufgabe 6.3Wenden Sie das nichtlineare Gauss-Seidel-Verfahren auf das diskrete Bratu-Problem (28)an.

6.2 Newton-Mix Verfahren

Newton-Mix-Verfahren kann man wiederum in zwei große Klassen unterteilen, die „XN“und die „NX“, wobei bei manchen Verfahren nicht ganz klar ist, wie sie hier eingruppiertwerden müssen.

6.2.1 XN-Verfahren

Bei den Verfahren dieser Klasse gehen wir davon aus, dass zunächst ein nichtlineares Ver-fahren „X“ wie das nichtlineare Jacobi-Verfahren aus Satz 6.1 gewählt wird, und dassdie zugehörige „XN“-Varianten sich dadurch ergeben, dass die (370) entsprechenden Glei-chungen mit einem oder mehreren Newton-Schritten approximativ gelöst werden. Werdenm-Newton-Schritte ausgeführt, so sprechen wir von einem XN(m)-Verfahren.

Jacobi-Newton(1)-Verfahren Beim Jacobi-Newton(1)-Verfahren werden die Lösungs-schritte für (370) durch einen einfachen Newton-Schritt in der jeweils ausgewählten Varia-ble xi ersetzt.

Satz 6.4 (Jacobi-Newton(1)-Verfahren)Sei F : D −→ Rn auf der offenene Menge D ∈ Rn zweimal stetig differenzierbar. DerPunkt x∗ ∈ D erfülle F (x∗) = 0 und es sei F ′(x∗) strikt diagonal dominant.

249

Page 250: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Dann gibt es eine Kugel Kµ(x∗) um x∗, so dass die durch

x[k+1]i := x

[k]i −

(∂fi∂xi

)−1

fi(x[k]) (373)

definierte Iterationx[k+1] = Φ(x[k])

wohl definiert ist und dort lokal gegen x∗ konvergiert.Wegen

Φ′(x∗) = GJ(F′(x∗)

ist die asymptotische Konvergenzgeschwindigkeit dieselbe wie die der nichtlinearen Jacobi-Iteration.

Beweis:Der Beweis ist einfach und wird dem Leser überlassen. (Bei benötigter Anschubhilfe kannman sich am Vorgehen auf der Seite 63 orientieren.) 2

Anmerkungen 6.51. Wie das gerade vorgeführte Resultat zeigt, haben das Jacobi-N(1)- und das Jacobi-

N(∞)-Verfahren gleiche asymptotische Konvergenzraten. Es wäre (korrekt) zu ver-muten, dass die Jacobi-N(m)-Iterationen für alle m ∈ N dieselbe Rate haben.

2. Für das durch einen Newton-Schritt gangbar gemachte nichtlineare Gauss-Seidel-Verfahren und das entsprechende SOR-Verfahren gelten offensichtliche ähnlicheTheoreme.

Kaczmarz-Newton(1)-Verfahren Das Kazmarz-Newton(1)-Verfahren entsteht aus demWunsch, eine Verbesserung

x[k] −→ x[k+1]

einer Lösungsapproximation x[k] für das Gleichungssysstem

F (x) =

f1(x1, . . . , xn)...f1(x1, . . . , xn)

= 0

zu erreichen, indem in einer Schleife über alle Teilgleichungen

fj(x1, . . . , xn) = 0, j = 1, . . . , n

im i-ten Unterschrittx[k,i−1] −→ x[k,i]

den Vektor x[k,i] ausgehend von x[k,i−1] so zu bestimmen279 dass

fi(x[k,i]) = 0

279x[k,0] := x[k] und x[k,n] =: x[k+1]

250

Page 251: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

wird. Anders als beim nichtlinearen GS-Verfahren wird dabei aber fi(x) nicht in xi (unterBeibehaltung der anderen Komponenten) gelöst, sondern die Bewegung sollte auf kurz-möglichstem Weg von x[k,i−1] die Lösungsmannigfaltigkeit von fi = 0 ansteuern280. Manmacht dass, indem man den Kaczmarz-Schritt für die Linearisierung der i-ten Gleichungin x[k,i−1], nämlich

fi(x[k,i−1]) +∇fi(x[k,i−1])(x− x[k,i−1]) = 0

durchführt, mit dem Ergebnis

x[k,i] = x[k,i−1] − (∇fi(x[k,i−1])∇fTi (x

[k,i−1]))−1fi(x[k,i−1])∇fT

i (x[k,i−1]). (374)

Lokale Konvergenzaussagen sind wieder klar.

Wir lassen diese beiden Verfahren als Beispiel für XN -Verfahren stehen und wenden unsNX-Verfahren zu.

6.2.2 NX-Verfahren

Bei Schritt x∗ −→ x[k+1] den NX(m)-Verfahren wird

F (x) = 0

bei x[k] zunächst einmal linearisiert

F ′(x[k]δ = −F (x[k], (375)

um dann zur Approximation von δ einen der üblichen Iterationen zur Lösung des System(375) anzuwenden. Dabei gibt es bei dieser Anwendung zwei Vorgehensweisen:

(i) Man wendet die Iteration zur Lösung des Systems (375) eine bestimmte aber festeAnzahl m mal an und datiert xk mit der dann bestimmten Approximation δ auf. Dasentstehende Verfahren wirkt in jedem Iterationsschritt gleich und man kann für dasgesamte Verfahren (unter geeigneten Voraussetzungen) zeigen, dass die Konvergenz-rate etwa die der Konvergenzrate der Iteration für den linearen Teil hoch m ist. Dabei Konvergenz der Iteration zur Lösung von (375), das Verfahren NX(∞) nichtsanderes als die quadratisch konvergente Newton-Iteration ist, zeigt sich, dass die An-zahl der Iterationen der Methode zur Lösung von (375) durchaus zu spüren ist. Wirbehandeln diese Varfahren in diesem Unterabschnitt.

(ii) Man wendet die Iteration so häufig an, bis für δ in (375) eine vorgegebene Genau-igkeit erreicht wurde. In diesem Fall kann man die Konvergenzgeschwindigkeit überdie Genauigkeit dieses Lösungsprozesses bestimmen. Diese Verfahren werden oft als„Inexakte Newton-Verfahren“ gehandelt und unter diesem Namen auch im nächstenAbschnitt behandelt.

Newton-Jacobi(m) Als ein Beispiel für die NX(m)-Iterationen untersuchen wir dieNewton-Jacobi(m)-Iteration.

280Eine Möglichkeit hierfür läge in der Verwendung des Newton-Flusses

x′(t) = −(∇fi(x(t))∇fTi (x(t)))−1fi(x(t))∇fT

i (x(t)), x(0) = x[k,i−1].

aber das ist natürlich viel zu teuer, und deshalb ist es auch ganz überflüssig, diesen Fluss hier näher zuerklären.

251

Page 252: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 6.6 (Newton-Splitting(m)-Verfahren)Sei F : D −→ Rn auf der offenene Menge D ∈ Rn zweimal stetig differenzierbar. DerPunkt x∗ ∈ D erfülle F (x∗) = 0.Betrachte das Splitting

F ′(x) = B(x)− C(x)

in zwei stetig differenzierbare Matrizen B(x) und −C(x), so dass die Splitting-MatrixB(x∗) regulär ist und ρ(G(x∗)) < 1 mit der Iterationsmatrix G(x) = B−1(x)C(x). Danngibt es eine Kugel Kµ(x

∗) um x∗, so dass die durch

x[k+1] := x[k] − δ[k] (376)

definierte Iteration konvergiert, wenn δ[k] durch m Splitting-Iterationen wie folgt berechnetwird:

δ[k] := 0for j=1:mδ[k] := G(x[k])δ[k] −B(x[k])−1F (x[k])end

Asymptotisch konvergiert ∥x[k] − x∗∥ gegen Null, wie P k, wobei

P := ρ(GJ(F′(x∗))m

ist.

Beweis (nach [OR]): Aus Stetigkeitsgründen gibt es eine Kugel um x∗, in der B(x)regulär ist und in der G(x) damit stetig existiert. Die Splitting-Iteration ist damit in dieserKugel ausführbar. Sei x[k] in dieser Kugel. Durch Ausführen den m Iterationen findet man,dass am Ende der Splitting Iteration

δ[k] =[I +G(x[k]) + · · ·+G(x[k])m−1

]B(x[k])−1F (x[k])

ist. Es ist somit

x[k+1] := Φ(x[k]) := x[k] −[I +G(x[k]) + · · ·+G(x[k])m−1

]B(x[k])−1F (x[k]).

Man überzeugt sich leicht von

[I −G(x∗] · [I +G(x∗ + · · ·+G(x∗)m−1] = I −G(x∗)m

Da ρ(G(x∗)m) = ρ(G(x∗))m < 1 ist, ist die rechte Seite der letzten Gleichung nach Stö-rungslemma 3.12 regulär. Mithin ist auch [I +G(x∗ + · · ·+G(x∗)m−1] regulär und

A(x) = B(x)[I +G(x∗ + · · ·+G(x∗)m−1]−1

ist in einer Kugel um x∗ wohldefiniert, regulär uns stetig bei x∗. Mit A(x) können wir nunΦ(x) schreiben als

Φ(x) = x− A(x)−1F (x),

und Φ ist offenbar in einer ganzen Umgebung von x∗ definiert und bei x∗ differenzierbarund

Φ′(x∗) = I − A(x∗)−1F ′(x∗).

252

Page 253: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Es ist aber

I − A(x∗)−1F ′(x∗) = I − [I +G(x∗ + · · ·+G(x∗)m−1]B(x∗)−1(B(x∗)− C(x∗))= I − [I +G(x∗ + · · ·+G(x∗)m−1][I −G(x∗)]= I − [I −G(x∗)m] = G(x∗)m.

Damit folgt das Resultat aus Ostrowskis Konvergenzsatz. 2

Newton-Kaczmarz(1) unterscheidet sich von der Kaczmarz-Newton(1)-Iteration da-durch, dass die Iterationsvektor-Updates in der Nichtlinearität erst nach einem Zykel überalle Komponenten durchgeführt wird. Wenn man die Nichtlinearität nicht komponenten-weise auswerten kann, ist diese Vorgehensweise angesagt.

6.2.3 Inexakte Newton-Methoden

Unter inexakten Newton-Methoden zu Lösung eines quadratischen Systems F (x) = 0 mitstetig differenzierbarer Funktion F : Rn ⊃ D → Rn versteht man die Ausführung vonangenäherten Newton-Schritten

x[k+1] := x[k] + δ[k],

wobei δ[k] die Linearisierungsgleichung

F ′(x[k])δ = −F (x[k]) (377)

nur angenähert löst.

Um zu Aussagen über die lokale Konvergez des Verfahrens kommen zu können, wirdman die Approximationsgüte von δ[k] irgendwie spezifizieren müssen. Dabei kommt eseinerseits darauf an, die Spezifikation so zu stellen, dass man aus ihr Konvergenzaus-sagen ziehen kann. Andererseits müssen sie aber auch praktisch prüfbar sein, so dassman sie bei der numerischen Rechnung auch implementieren kann. Eine Schranke für[δ[k] − (−F ′(x[k])−1F (x[k])] in einer der üblichen Normen zu fordern ist so z.B. unreali-stisch, weil man die exakte Lösung von (377) eben nicht hat.

Stattdessen fordert man häufig, dass das Residuum

r[k] := F ′(x[k])δ[k] + F (x[k]

klein wird.

Wie das Gleichungssystem (377) gelöst wird, ist für die Untersuchung der inexakten Newton-Methoden nur von untergeordneter Bedeutung, obwohl dies für die Praxis selbst natürlichdurchaus wichtig ist. Hierzu geben wir unten am Ende dieses Abschnittes einige Hinweise.

Um einen Eindruck von der Art der in diesem Untersuchungsgebiet der numerischen Ma-thematik verwendeten Schlüsse zu vermitteln, formulieren wir zunächst den Algorithmusund geben dann einen Satz aus einer der ersten Arbeiten von Dembo, Steihaug und Eisen-stadt [DES] zur lokalen Konvergenz der erzeugten Folge an.

253

Page 254: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Algorithmus 6.7 (Inexakte Newton-Iteration)

Bei gegebener Startnäherung x[0], setze k := 0, und wähle Abbruchtoleranz Tol

A: if ∥F (x[k]∥ < Tol STOP

B: Wähle ηk ≥ 0 und bestimme δ[k] mit

∥F (x[k]) + F ′(x[k])δ[k]∥ ≤ ηk · ∥F (x[k]∥ (378)

C: x[k+1] = x[k] + δ[k]

k := k + 1 Gehe zu A

Anmerkungen 6.81. Essentiell für die Implementierbarkeit des Algorithmus ist die Tatsache, dass die

Bedingung (378) praktisch abprüfbar ist.

2. Die Werte ηk bilden eine Folge von Steuerungswerten mit denen man die Güte derNäherungen δ[k] kontrollieren kann.

3. Hinreichend für die lokale Konvergenz der Iteration ist, dass die Werte alle kleinersind als eine Schranke aus (0, 1). (Siehe den Konverhezbeweis unten.)

4. Wählt man für ηk eine Nullfolge, so führt dies zu superlinearer Konvergenz.

5. Lässt man ηk proportional zu ∥x[k] − x∗∥ klein werden, so erhält man superlineareKonvergenz. Die ist praktisch sicherbar, indem man ηk ≤ ∥F (x[k]∥ einrichtet.

6. Die Forderungen von 4. und 5. erfüllt man z.B., indem man

ηk := min

1

k + 1, ∥F (x[k])∥

setzt.

Satz 6.9 (Konvergenz inexakter Newton-Methoden)Sei F : Rn ⊃ D −→ Rn auf der offenene Menge D stetig differenzierbar. Sei x∗ ∈ D undF (x∗) = 0 sowie F ′(x∗) regulär und ∥ · ∥ eine Norm auf Rn.Wählt man

ηk ≤ κ < 1 für alle k ∈ N

so gibt es eine Zahl µ > 0, so dass das Inexakte Newton-Verfahren für jedes x[0] mit∥x[0] − x∗∥ < µ wohldefiniert ist, und die Folge der Iterationswerte konvergieren lineargegen x∗. Genauer gilt für jeden Wert K ∈ (κ, 1) die Ungleichung

∥x∗ − x[k+1]∥∗ ≤ K∥x∗ − x[k]∥∗

wobei die Norm ∥ · ∥∗ gegeben ist durch ∥∥y∥∗ := ∥F ′(x∗)y∥.

Beweis: Wir geben eine Beweisskizze nur für den Fall einer zweimal stetig differenzierbarenFunktion F . Der Beweis für den einmal stetig differenzierbaren Fall verläuft ähnlich, istaber ein wenig technischer.

254

Page 255: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wir orientieren uns an der Gleichung (159) bei der Untersuchung der quadratischen lokalenKonvergenz des Newton-Verfahrens und schreibn zunächst auf

x[k+1] − x∗ = x[k] + δ[k] − x∗ = x[k] − x∗ + δ[k].

Diese Gleichung multiplizieren wir mit F ′(x[k]) und ersetzen F ′(x[k])δ[k] gemäß

F ′(x[k])δ[k] + F (x[k]) =: rk,

umF ′(x[k])

(x[k+1] − x∗

)= F ′(x[k])

(x[k] − x∗

)− F (x[k]) + rk

zu erhalten.indem wir recht wieder 0 = F (x∗) einfügen, ergibt sich

F ′(x[k])(x[k+1] − x∗

)= F (x∗)−

[F (x[k]) + F ′(x[k])

(x∗ − x[k]

)]+ rk. (379)

Der Term in eckigen Klammerm ist gerade die lineare Taylorapproximation von F (x∗) imPunkt x[k]. Somit können wir diesen wie im Beweis von Lemma 162 durch einenquadrati-schen Term L∥x[k] − x∗∥2 abschätzen. Nach (378) ist

∥rk∥ ≤ ∥F (x[k])∥ηk,und so erhalten wir

∥rk∥ ≤ ∥F (x[k])∥ηk = ∥F (x∗)− F (x[k])∥ηk= ∥F (x∗)− [

[F (x[k]) + F ′(x[k])

(x∗ − x[k]

)]+ F ′(x[k])

(x∗ − x[k]

)∥ηk

≤ ∥F (x∗)− [[F (x[k]) + F ′(x[k])

(x∗ − x[k]

)]∥ηk + ∥F ′(x[k])

(x∗ − x[k]

)∥ηk.

≤ L∥x[k] − x∗∥2 + ∥F ′(x[k])(x∗ − x[k]

)∥ηk.

Indem wir in (379) zu Normen übergehen und die letzte Ungleichung verwenden ergibtsich schließlich

∥F ′(x[k])(x[k+1] − x∗

)∥ ≤ (1 + κ)L∥x[k] − x∗∥2 + κ∥F ′(x[k])

(x∗ − x[k]

)∥.

Indem man gegebenenfalls näher an x∗ heranrückt und damit den quadratischen Termhinreichend klein macht, kann man zu jeden K > κ die Ungleichung

∥F ′(x[k])(x[k+1] − x∗

)∥ ≤ K∥F ′(x[k])

(x[k] − x∗

)∥.

Nun ist nur noch F ′(x[k]) unter Multiplikation mit ∥F ′(xk)F ′(x∗)−1∥ durch F ′(x∗) auszu-tauschen, um die Abschätzung in einer x[k]-unabhängigen Norm zu gewährleisten.Die Tatsache, dass der Faktor ∥F ′(xk)F ′(x∗)−1∥ durch Verkleinerung des Radius µ um x∗

beliebig nahe an 1 herangebracht werden kann, verbleibt dem Leser als leichte Übung. 2

Anmerkungen 6.101. Für eine iterative Lösung der Gleichung (377) empfiehlt sich ein Verfahren zur Lö-

sung linearer Systeme Ax = b, welches auf die Matrix A nur zugreift, indem es dieMultiplikation eines Vektors y mit A abfordert. Die Multiplikation von y mit F ′(x[k])kann nämlich als Richtungsableitung

F ′(x[k])y =d

dtF (x[k] + ty)|t=0

interpretiert werden, die man durch einseitige

F ′(x[k])y ≈ 1

h

(F (x[k] + hy)− F (x[k])

)+O(h)

oder zweiseitige

F ′(x[k])y ≈ 1

2h

(F (x[k] + hy)− F (x[k]−hy)

)+O(h2)

Differenzenquotienten approximieren kann281. Man braucht daher bei solchen Ver-281Erfahrungsgemäß lohnt sich die Anwendung von Formeln höherer Ordnung nicht.

255

Page 256: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

fahren überhaupt nicht die Jacobi-Matrix explizit zu bilden.

2. Bei den Differenzenapproximationen hat man natürlich wieder auf eine geeigneteSchrittweitengröße zu achten. Vgl. hierzu Abschnitt 3.5.2.

3. Geeignete iterative Löser, die F ′(x[k]) nur multiplikativ benötigen, sind Verfahrenvom sogenannten CG-Typ. Neben dem „Original-CG-Verfahren“ für symmetrisch-positiv-definite Systemmatrizen sind ähnliche Verfahren entwickelt worden, die dieseSystemeigenschaften nicht fordern. Hierzu gehören die Verfahren mit den Abkür-zungen GMRES, GMRES(m), BiCGStab, QMR. Leider kann nicht bei all diesenVerfahren Konvergenz zugesichert werden.

6.3 Update-Methoden

In den durch Charles Broyden eingeführten Update-Methoden zur Lösung eines nichtli-nearen Gleichungssystems

F (x) = 0, F ∈ C1(Rn,Rn)

versucht man, die Berechnung der Jacobi-Matrizen (und auch die Lösung der LineareGleichungssysteme (31)) zu vermeiden, indem man eine Näherung Bk der JacobimatrixF ′(xk) am k-ten Iterationspunkt xk unter Verwendung der Sekanten-Informationen

yk = F (xk)− F (xk−1) und sk := xk − xk−1

aus einer Näherung Bk−1 aus dem letzten Schritt herzustellen versucht, wobei man fordert,dass

Bksk = yk (380)

Im linearen Fall ist

yk = F (xk)− F (xk−1) = F ′(xk)(xk − xk−1) = F ′(xk)sk

Im nichtlinearen hat man

Bksk = yk = F ′(xk)sk + o(∥sk∥),

woraus man im skalaren Fall

Bk = yk/sk = F ′(xk) + o(1)

bestimmt.

Im n-dimensionalen Fall liefert (380) nur n Gleichungen für die n2 Unbekannten in Bk.

Fordert man neben (380) noch die entsprechenden n − 1 Vorgängergleichungen ebenfallsfür Bk, also

Bksi = yi für i = k − n+ 1, . . . , k,

so hat man nun zwar n2 Informationen für n2 Unbekannte, jedoch sind die Richtungensk, sk−1, . . . , sk−n+1 leider oft fast linear abhängig, so dass das Sekantenverfahren im Mehr-dimensionale nicht stabil durchführbar ist282.

Stattdessen hat Broyden die Idee gehabt, neben der Bedingung (380), die Bk in Richtungsk festlegt, zu fordern, dass

Bks = Bk−1s für alle Richtungen s senkrecht zu sk282Vgl. dazu zum Beispiel den Klassiker von Ortega und Rheinboldt, [OR]

256

Page 257: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

sein soll.

Hierdurch wird Bk eindeutig festgelegt zu

Bk = Bk−1 +rks

Tk

sTk skmit rk = yk −Bk−1sk. (381)

Durch diese rekursive Berechnung von Jacobi-Approximationen wird nicht nur Aufwand beider Jacobi-Matrix-Berechnung gespart. Mit Hilfe von Sherman-Morrison-Woodbury-TypIdeen (vgl. Abschnitt 4.3 auf Seite 173) kann auch noch viel Rechenzeit bei der Berechnungdes Schrittes gespart werden.

Eine schnelle Herleitung solcher Algorithmen findet man in der Arbeit [WCR2]; MATLAB-Implementierungen bei C.T. Kelly [CTK2].

7 Reduktionsansätze

In diesem Abschnitt geht es darum, Verfahren aufzuzeigen, mit denen es gelingt sehr großeProbleme auf (mehrere) relativ kleine (gekoppelte) Probleme herunterzubrechen oder mitHilfe von Vorinformation große Probleme zu relativ kleinen zu machen.

7.1 Reduktion durch Teillösung

Eine Möglichkeit der Größenreduktion ist die Verwendung bestehender Löser für gewisseUnterprobleme.

7.1.1 Shooting-Verfahren

Das Shooting-Verfahren zur Lösung einer Randwertaufgabe

−y′′(t) = f(t, y), y(−1) = y0, y(1) = y1

nutzt aus, dass es effiziente Anfangswertaufgabenlöser gibt.

Wenn y(t, s) die Lösung der Anfangswertaufgabe

−y′′(t) = f(t, y), y(−1) = y0, y′(−1) = s

ist, hat man damit das Randwertproblem auf ein einfaches Nullstellenproblem

0 = Φ(s) := y(1, s)− y1

zurückgeführt.

Beispiel 7.1Das Bratu-Problem

−y′′(t) = λ exp(y(t)), y(0) = y(1) = 0

für λ = 1 lösen wollen, können wir dies wie folgt angehen: Die Randwertaufgabe wirdbeschrieben durchfunction erg = bratu_dgl ( t , y , lambda )erg=[y ( 2 ) , −lambda∗exp( y ( 1 ) ) ] ’ ;

257

Page 258: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Die Funktion Phi(s) := y(1, s) ist gegeben durchfunction erg = Phi ( s )[ t , y]= ode45 (@( t , y ) bratu_dgl ( t , y , 1 ) , [ 0 , 0 . 5 , 1 ] , [ 0 , s ] ) ;erg=y ( 3 , 1 ) ;

Um eine Idee für Nullstellen von Φ zu bekommen, plottet man Φ(s) gemäß:s=linspace ( 0 , 2 0 , 2 01 ) ;for k=1:201

w(k)=Phi ( s ( k ) ) ;endplot ( s ,w)hold onplot ( [ 0 , 2 0 ] , [ 0 , 0 ] , ’ k ’ )

2 4 6 8 10 12 14 16 18 20

s1≈ 1

s2≈ 11

Φ(s)

Abbildung 110: Graph von Φ(s)

Die Nullstellen s1 = und s2 = ... findet man schließlich einfach durchs1=fzero (@Phi , 1 )s2=fzero (@Phi , 1 1 )

mit den Ergebnissen

s1 = 0.549352732735889 und s2 = 10.847240293079622.

Methoden, welche geometrisch höherdimensionale Probleme auf äquivalente Problem fürweniger Daten zurückspielen, kommen in der angewandten Mathematik häufiger vor.

Bei Potentialproblemen kann man die Berechnung eines elektrischen Feldes z.B. zurückspie-len auf die Ermittlung der Ladungsverteilung auf dem Rand des betrachteten Gebietes. Diezugehörige Randintegral-Methode ist leider zu komplex, um sie hier nebenbei darzustellen.

Aufgabe 7.2Lösen Sie die Randwertaufgabe mit der Differentialgleichung (66) und den Randwertvor-gaben (65) durch einen Shooting-Ansatz.

258

Page 259: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

7.1.2 Master-Slave-Einteilungen

Als Verallgemeinerung des Shooting-Ansatzes könnte man sogenannte Master-Slave-Me-thoden ansehen. Dabei werden Variablen und Gleichungen in sogenannte Master- undSlave-Variablen (und zugehörige Master- und Slave-Gleichungen) eingeteilt. Typischerwei-se ist die Anzahl der Master-Variablen viel geringer als die der Slave-Variablen. Typischwäre etwa bei der in Abbildung (109) dargestellten Datenstruktur die Wahl der Interfa-cevariablen x31, x

32 als Mastervariablen und die anderen als Slaves. Nimmt man x31, x

32 als

gegeben an, so zerfällt das Poisson-Problem in zwei unabhängige Probleme, die - in Ab-hängigkeit von x31, x

32 - getrennt gelöst werden können. In die beiden Gleichungen zu den

Masterpunkten gehen die Mastervariablen einerseits direkt ein, andererseits aber auch überdie involvierten vier Slave-Variablen, die ihrerseits wieder von den Matervariblen abhängen.Die zwei Gleichungen zu den Masterpunkten werden dadurch also etwas komplexer. DiesenPreis akzeptiert man, weil ihre Anzahl wirklich deutlich kleiner wird als die Gesamtanzahl.Wenn man sich vorstellt, dass man die im Beispiel diskretisierten partielle Differential-gleichungen mit feiner werdender Schrittweite h diskretisiert, so wächst die Anzahl derMaster-Variablen mit h−1 während die Gesamtzahl mit h−2 ansteigt.

Für den linearen Fall haben wir eine direkte Lösungsmethode schon als Blockeliminationauf der Seite 135 angesprochen. Im Abschnitt 5.7.2 haben wir auch schon gesehen, wieim linearen Fall in den Mastervariablen CG-Iterationen ausgeführt werden können, undder Abschnitt 7.4.3 klärt darüber auf, wie eine solche Einteilung Newton-Unterschritte fürSlaves und Master verbinden kann.

7.2 Verbindung von Diskretisierungen verschiedener Feinheiten

Im Abschnitt 2.1 haben wir gesehen, dass große Systeme durch die Diskretisierung kontinu-ierlicher Probleme, etwa die Diskretisierung von Differentialgleichungen entstehen können.Bei der Lösung fein diskretisierter Probleme kann man dies auf verschiedene Weisen aus-nutzen.Zum Ersten kann man versuchen, gute Startapproximationen für feinere Gitter zu be-kommen, indem man zunächst auf gröberen Gittern löst und die gewonnene Lösung durchInterpolation auf die nächst feineren fortsetzt, um sie dann iterativ zu verbessern.Zum Zweiten kann man die so gefundenen Lösungen zu verschiedenen Feinheiten ver-wenden, um Vorhersagen für noch bessere Approximationen zu machen. Das geschieht imAbschnitt 7.2.2 „Extrapolation“.Zum Dritten kann man die speziellen Approximationseigenschaften verschiedener Gittermiteinander kombinieren und auf groben Gittern die Grobstruktur einer Lösung bestim-men und die feineren Gitter verwenden, um feine Strukturen der Lösung herauszuarbeiten.Das wird kurz geschildert im Abschnitt 7.2.3 „Mehrgitterverfahren“.

7.2.1 Aufsteigende Gitter

Wird die Differentialgleichung

−y′′(x) = exp(y(x)), x ∈ (0, 1), y(0) = y(1)

auf Gittern mit den Schrittweiten h = 12, 14, 16, 18, 110, 112

dikretisiert, so ergeben sich Glei-chungssysteme der Form (63). Löst man diese mit dem Newton-Verfahren, braucht manfür diese Iteration Startwerte. Wählt man jedes Mal den entsprechenden Nullvektor als

259

Page 260: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Startwert , so benötigt man für die verschiedenen Diskretisierungen die folgende Anzahlenvon Newton-Schritten, um den Fehler283 auf unter 10−14 zu drücken284

h 12

14

16

18

110

112

Schritte 6 5 5 5 5 5

Setzt man den Lösungsvektor zu einem hk für das nächstfeinere hk+1 durch Splineinterpo-lation fort, um diese Fortsetzung als Startvektor zu verwenden, so braucht man auf jederStufe (außer der ersten natürlich) zwei Newton-Iterationen weniger.

Aus der folgende Abbildung sieht man, dass selbst lineare Interpolationen schon gute Nä-herungen für die Lösungen des nächsten Gitters ergäben.

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

0.02

0.04

0.06

0.08

0.1

0.12

0.14

0.16Lösungsapproximationen zu h=1/2, h=1/4, h=1/6

Abbildung 111: Differenzen-Lösungsaproximationen für das Bratu-Problem

Die folgende Abbildung vergrößert den Bereich um x = 0.5, damit man sehen kann, dasssich die Werte zu gleichen x-Werten mit kleiner werdenden h-Werten noch bewegen.

283Den Fehler bei der Lösung des Gleichungsstems.284Was - wie wir im Abschnitt 10 noch diskutieren werden - eigentlich totaler Unsinn ist.

260

Page 261: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0.47 0.48 0.49 0.5 0.51 0.52 0.53

0.136

0.137

0.138

0.139

0.14

0.141

0.142

0.143

0.144

0.145

Blow−up um yh(0.5) zu zeigen

y1/2

(0.5)

y1/4

(0.5)

y1/6

(0.5)

Abbildung 112: Die Approximationen bei x = 0.5

7.2.2 Extrapolationsverbesserung

Plottet man die Werte für y(0.5) über den Diskretisierungsschrittweiten (vgl. Abbildung113), so ist ein Trend ersichtlich, dem man gern nach h = 0 fortsetzen würde. Eine im-mer feiner werdende Diskretisierung verbietet sich wegen eines immer größer werdendenArbeitsaufwandes.

0.05 0.1 0.15 0.2 0.25 0.3 0.35 0.4 0.45 0.50.1405

0.141

0.1415

0.142

0.1425

0.143

0.1435

0.144

0.1445

0.145y

h(1/2) für h=1/n, n=2,4,6,8,10,12

Abbildung 113: Werte bei x = 0.5

Es liegt nahe, interpolierende Funktionen durch die Daten zu legen und bei Null auszu-werten. Das technisch Einfachste sind Polynome.

Genau das macht man, wobei man aber berücksichtigt, dass die Fehlerfunktion eine Funk-

261

Page 262: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

tion in h2 ist285. Wir gehen auf diesen Nachweis nicht ein, sondern schildern nur die so-genannten Extrapolationsverfahren unter Annahme, dass die Gültikeit der Entwicklungenbekannt ist.

Polynomiale Extrapolation Der Name Extrapolation deutet an, dass man ein inter-polierendes Polynoms außerhalb („extra“) seines Datenbereichs, d.h. außerhalb des klein-sten Intervalles, das alle Abszissen der Datenpunkte enthält, auswerten will. Weil Inter-polationspolynome dazu neigen, außerhalb dieses Intervalles sofort stark zu wachsen286,macht es selten Sinn, Polynome zu Extrapolationszwecken heranzuziehen287.

Eine der seltenen Gelegenheiten der Extrapolation mit Polynomen findet man bei derVoraussage von Ergebnissen T aus diskretisierungsparameterabhängigen ApproximationenA(h), die bei h→ 0 nach der Theorie gegen T gehen.

Wie wir in Abschnitt 3.5.2 über die Wahl der Schrittweite bei Differenzenapproximationenvon Ableitungen sahen, verbieten Rundungsfehlereinflüsse die Wahl zu kleiner h-Werte288.

In vielen Fällen (siehe z.B. (249)) kann man aber zeigen, dass A(h) wie folgt nach aufstei-genden Potenzen von h entwickelt werden kann

A(h) = T + c1hα + c2h

2α + c3h3α + c4h

4α + · · ·+ ckαk +O(h(k+1)α), (382)

wobei α üblicherweise die Werte 1 or 2 annimmt289.

Wenn man in (382) den Restterm O(h(k+1)α) fortlässt, wird die Funktion A(h) zu einemPolynom in hα, dessen Wert bei h = 0 der gewünschte Wert T ist.

Die Konstanten ck sind nicht bekannt290.Während man bei der Extrapolation von Iterationswerten zur Lösung linearer Systemezunächst Koeffizienten eines geeigneten Extrapolationspolynoms aus Iterationswerten zuerschließen versucht291, verwendet man hier A-Werte zu verschiedenen h-Werten, um ihreInterpolationspolynome sofort bei Null auszuwerten.

Die Bildung von Interpolationspolynomen zur sofortigen Auswertung an einen Stelle isteine Aufgabe, für die das Neville-Aitken-Verfahren geschaffen ist.

Wenn Daten A(hk) für verschiedene Werte h1, h2, h3, . . . gegeben sind, führt die Neville-Aitken-Interpolation in hα bei h = 0 zum folgenden Neville-Aitken-Scheme:

285Der Nachweis diese Fehlerverhaltens ist - insbesondere bei nichtlinearen Problemen - nicht ganz einfach.Vgl. dazu z.B. [Stetter]

286Oft oszillieren sie schon in den Randbereichen des Datenbereiches erheblich.287Es gibt viele schöne Aufgaben, in denen man sehen kann, dass der Versuch der Fortschreibung zeit-

abhängiger Wirtschaftsdaten (z.B. Aktienkurse) durch Polynomextrapolation fast regelhaft katastrophaleErgebnisse liefert.

288Bei Finite-Differenzen-Approximationen von Differentilgleichungen beschränken nicht nur Rundungs-fehlereinflüsse die Verkleinerung von h. Da die Arbeit oft mit mehr als h−2 wächst, setzen auch diebeschränkten Rechenkapazitäten Schranken.

289In seltenen Fällen treten auch rationale α-Werte zwischen 0 und 1 auf.290Auch wenn man sie z.B. bei numerischer Differentiation oder Integration mit geschlossenen Formeln

angeben kann, sind sie praktisch nicht zugänglich. Bei der Numerischen Differentiation sind sie z.B. durchgewichtete Werte der höheren Ableitungen der numerisch zu differenzierenden Funktion bestimmt. Undhöhere Ableitungen weiß man sicher nicht, wenn man schon zur Numerik greifen muss, um überhaupt dieerste Ableitung zu bestimmen.

291Vgl. Abschnitt 5.2.1)

262

Page 263: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

T10 := A(h1)T11

T20 := A(h2) T12T21 T1,3

T30 := A(h3) T22. . .

T31 T2,3

T40 := A(h4) T32. . .

T41 T3,3

T50 := A(h5) T42. . .

(383)

mit

Tm,n =Tm,n−1(h

αm+n − 0) + Tm+1,n−1(h

αm − 0)

(hαm+n − hαm)= Tm+1,n−1 +

Tm+1,n−1 − Tm,n−1

(hm/hm+n)α − 1

. (384)

Als h-Folge macht es Sinn, streng monoton abnehmende Werte h1, h2, h3, ... zu wählen.

Für viele Anwendungen werden die Schrittweiten als eine feste Zahl dividiert durch ganzeZahlen gewählt292: hk = H/nk.

Verschiedene Folgen n2, n3, n4... werden dazu üblicherweise herangezogen293.

Romberg 2, 4, 8, 16, 32, 64, ...Bulirsch 2, 4, 6, 8, 12, 16, 24, 32, 48, 46, ...Bader/Deuflhardt 2, 6, 10, 14, 22, ...harmonisch 2, 3, 4, 5, 6, 7, ...

(385)

Unsere bei der Lösung des Bratu-Problems gewählte Sequenz der geraden Zahlen stelltesicher, dass x = 0.5 stets zu den Diskretisierungspunkten gehörte.

Wenden wir das obigen Verfahren auf die Daten A(hi) = yhi(0.5) an, so ergibt sich294

n=2 0.144421353137510 0.140455235525216 0.140540500274483 0.140539199171332 0.1405392145499224 0.141446764928289 0.140531026413453 0.140539280490279 0.140539213934779 0.1405392144033826 0.140938021308936 0.140537216971073 0.140539224583659 0.140539214351315 08 0.140762669411121 0.140538501843128 0.140539216909401 0 010 0.140681969086643 0.140538899102168 0 0 012 0.140638253258054 0 0 0 0

Mit einem mit großer Genauigkeit für den Anfangwertaufgabenlöser und die Nullstellen-berechnung durchgeführten Shooting-Verfahren lassen sich die folgenden ersten Dezimal-stellen sichern.

y(0.5) = 0.14053921480...

Wenn wir mit diesem Wissen für die Werte der letzten Tabelle nur deren korrekte Dezi-malstellen angeben, sehen wir, was die Extrapolation leistet.

292Bei der Diskretisierung des Bratuproblemes z.B. als 2/m, m ∈ N.293Ihre Namen sind dabei meist auf ihren ersten Verwender bezogen. Man spricht bei den Zweierpotenzen

z.B. von der Romberg-Folge, weil Romberg diese Folge bei der Extrapolationsquadratur verwendet hat.294In der ersten Tabelle unter Auslassung der letzten Spalte, weil der Platz sonst nicht reichte.

263

Page 264: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0.14 0.140 0.1405 0.140539 0.140539214 0.1405392140.14 0.14053 0.140539 0.14053921 0.140539214 00.140 0.14053 0.1405392 0.140539214 0 00.140 0.14053 0.14053921 0 0 00.140 0.14053 0 0 0 00.140 0 0 0 0 0

Die Werte der ersten Spalte, die selbst nur auf maximal drei Dezimalstellen stimmen,enthalten doch die Informationen, die durch Extrapolation am Ende neun korrekte Stellenerschließen lassen.

7.2.3 Mehrgitterverfahren

Mehrgitterverfahren nutzen wie die eben geschilderten Verfahren Diskretisierungen aufmehreren Diskretisierungsstufen. Dabei fließt die Information aber nicht nur wie im Ab-schnitt 7.2.1 vom gröberen zum feineren Gitter.

Durch die Beobachtung, dass z.B. Jacobi-Iterationen für diskrete elliptische Differential-gleichungen hochfrequente Fehleranteile stärker dämpfen als niederfrequente, kann mannach einige Iterationen den verbleibenden Fehler auf einem gröberen Gitter darstellen unddort den für das Gitter feinsten Fehleranteil wieder iterativ wegglättten.

7.3 Informations-Wiederverwendung

Bei großen Problemen ist es fast immer nützlich, Informationen aus schon früher einmalgelösten ähnlichen Aufgaben wiederzuverwenden. Dabei wird man zwar oft keine optimalenVerfahren für die neuen Aufgaben erzeugen. Man wird aber für konkrete Probleme nichtselten schnell zu guten Lösungsapproximationen kommen können. Da es bei der praktischenNumerik295 manchmal gewünscht ist, ein Problem möglichst rasch gelöst zu haben, sollteman die hier geschilderten "Ìnformation-Rcycling-Methoden“ kennen. Bei der praktischeLösung zählt häufig nicht nur die Laufzeit des Computers sonder auch die zu investierendeArbeitszeit des Problembearbeiters.

7.3.1 Verwendung bestehender Löser

Wenn für ein lineares Gleichungssystem

Ax = b (386)

ein Löser LA : b 7→ x vorhanden ist, so kann ein ähnliches System

Bx = c (387)

mit Hilfe des Lösers für System (386) angegangen werden:

a. wenn A − B niedrigen Rang hat, mit Hilfe von Shermann-Morrison-Woodbury-Algorithmen.

b. wenn ∥A−B∥ klein ist, mit Splitting-Verfahren

c. wenn LAB ein Spektrum mit wenigen „Spektral-Klumpen“ hat, durch eine CG-Typ-Methode für (387) mit LA als Präconditionierer.

295anders als bei der mathematischen Forschung

264

Page 265: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

7.3.2 Verwendung bestehender Lösungen

Lösungen x0, x1, . . . , xm für Probleme, die dem Problem (387) ähnlich sind, können - even-tuell nach Anpassung an die neuen Gegebenheit - als Basisvektoren einer ersten „Galerkin“-Approximationen verwendet werden, von der aus dann weiter gerechnet wird.

Für den nichtlinearen Fall siehe „Reduzierte Basis Methoden“.

Die Lösungen können aber auch verwendet werden, um in „Filter-Methoden“ einen erstenStartfilter aufzubauen, vgl. [HLT].

7.3.3 Verwendung ähnlicher Probleme

SollF (x) = 0

gelöst werden, und hat man eine Lösung x0 für ein ähnliches Problem

G(x) = 0,

so kann man erstens x0 als Startnäherung für ein Iterationsverfahren für F (x) = 0 verwen-den.Zweitens kann man natürlich auch G(x) = 0 über eine Homotopie (vgl. den Abschnitt3.2.4 auf Seite 93) mit F (x) = 0 verbinden und Pfadverfolgungsalgorithmen einsetzen.

7.4 Zerlegungen

„Divide et impera“ (also „Teile und herrsche“) ist eine Maxime, die oft296 den HerrschernGajus Julius Ceasar und Napoleon zugeschrieben wird. Dieses Prinzip, große Probleme inkleinere und (deshalb hoffentlich) beherrschbarere zu zerlegen, hat auch in der Mathematikviele erfolgreiche Anwendungen gefunden.

7.4.1 Multiple Shooting

Beim Multiple Shooting Verfahren zur Lösung gewöhnlicher Randwertaufgaben zerlegtman das Integrationsintervall in mehrere Intervalle, auf denen man jeweils das Shooting-Verfahren anwendet. Im nichtlinearen Problm für die Anfangsdaten sind dann nicht nur dieRandbedingungen zu erfüllen sondern auch noch die stetigen Anschlüsse an den innerenRandpunkten.

7.4.2 Gebietszerlegungsverfahren

Für partielle (elliptische) Differentialgleichungen kann eine solche “multiple Zerlegung“ desGrundgebietes auch von Vorteil sein.

296Vermutlich fälschlich

265

Page 266: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

7.4.3 Newton-Kopplung von Unterproblemen

Während man sich bei manchen “monolitischen Probleme“ sehr bemühen muss, Unter-stukturen geeignet zu definieren, sind in vielen Anwendungen Zerlegungen von vornehereindurch die Aufgabenstellung gegeben. Im Gegenteil geht es dann darum, bestehende Unter-probleme mit einander zu koppeln aber bei der Kopplung die ehemalige Unabhängoigkeitauszunützen.

Man kann sich in der Industrie etwa mehrere Produktionsprozesse vorstellen, in denenTeile des Gesamtproduktes an verschiedenen Unternehmensstandorten produziert werden.Dabei werden diese ihre Produktionsprozesse jeweils in eigenen Variablen beschreiben mitebensovielen eigenen Gleichungen. Gekoppelt werden diese Prozesse dann oft einerseitsdurch die Verwendung eines Satzes gemeinsamer „Kopplungsvariablen“ sowie eines ebensogroßen Satzes von „Kopplungsgleichungen“.Konkreter nehmem wir an, dass k ∈ N Subsysteme gegeben sind zusammen mit iterativenLösern

xn+1i := Φi(x

ni , y), Φi : Rki × Rm −→ Rki (388)

in den internen Variablen xi ∈ Rki des i-ten Systems sowie einem Satz von Koppelvariableny ∈ Rm. Diese System werden ergänzt durch eine Kopplungsgleichung

g(x1, x2, . . . , xk, y) = 0

mit

g : RK × Rm, wobei K :=k∑

i=1

ki.

Insgesamt ist damit ein quadratisches System

rcl0 = fi(xi, y) := xi − Φ(xi, y), i = 1, . . . , k, (389)0 = g(x1, . . . , xk, y) (390)

zu lösen. Die Annahme der Existenz von Iterationen für die Subsystemlöser297 spiegelt dieAnnahme wieder, dass die Untersysteme Lösungverfahren haben, mit denen sie sich aufÄnderungen der Vorgaben y von außen einstellen können.Man beachte, dass auch direkte Löser unter das Iterationsmodell fallen. Solche Löser

xi = Φi(y)

sind einfach nur sehr schnelle iterative Löser.Weil die einzelnen Löser nicht direkt untereinander gekoppelt sind298, können die Unter-system-Teile simultan und sogar unkoordiniert gelöst werden299. Wir gehen aber davonaus, dass alle Untersysteme koordiniert ihre Schritte ausführen300. Wir fassen deshalb alleIterationen (388) zu einer großen Iteration

xn+1 = Φ(xn, y)

mit x = (x1, . . . , xk)T und Φ = (Φ1, . . . ,Φk)

T zusammen und setzen außerden f(x, y) :=x− Φ(x, y).Damit haben wir dann das System

f(x, y) = 0,g(x, y) = 0

(391)

297für die wir hier der Einfachheit halber Kontraktivität in ihren Unterräumen annehmen298Was natürlich auch vorkommt. (Vgl. hierzu Abschnitt 7.4.4)299Den Aspekt, dass sie dabei vermutlich sehr unterschiedliche Zeiten benötigen könnten und deshlab Zwi-

schenergebnisse von den einzelnen Iterationen recht ungeordnet bei einem koordinierenden Zentralprozessankommen können, werden wir hier nicht berücksichtigen.

300Wenn sich ein Prozess „langweilt“ kann er ja gleich mehrere Iterationen ausführen.

266

Page 267: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

zu lösen. Ziel ist es, einen Löser für das Gesamtsystem zu entwickeln, der effizienten Ge-brauch der schon vorhandenen Löser für die fi-System macht.

Wir beginnen mit einer Analyse eines Block Gauss-Seidel-Newton-Schrittes301 :

xn+1 = xn − f−1x (xn, yn)f(xn, yn);

yn+1 = yn − g−1y (xn+1, yn)g(xn+1, yn).

(392)

0 1 2 3 4 5 6 7 8 9

(x n,y n)(x n+1,y n)

reduziert f aber vergrößert g

reduziert g abervergrößert wieder f

f(x,y)=0

x

y

g(x,y)=0

(x*,y*)

(x n+1,y n+1)

xn+1 = x n − fx−1 f(x n,y n)

yn+1 = y n − gy−1 g(x n+1,y n)

Abbildung 114: Gauss-Seidel-Newton

Wie aus Abbildung 114 klar werden sollte, ist die Konvergenz dieses Verfahrens sehr vonder relativen Lage der Lösungsmannigfaltigkeiten von f und von g und von deren Lage inBezug auf x- bzw. y-Koordinate abhängig302.

Mit dem Satz von Ostrowski kann man zeigen, dass die Jacobi-Matrix des Block-Newton-Verfahrens bei der Lösung einen Spektralradius Null hat, wenn fy(x∗, y∗) = 0 ist.

Aufgabe 7.3Zeigen Sie dies!

Geometrisch ist dies klar, denn die Bedingung bedeutet nichts anders als dass die Lösungs-mannigfaltigkeit von f(x, y) in der Lösung parallel zur y-Richtung ist. Damit kann einsolcher Schritt das Residuum der Gleichung f(x, y) nicht wieder verschlechter.

301Dass für f in x auch ein Newton-Schritt vorgesehen wird, sollte erst einmal nicht stören. Er wirdalsbald durch die bestehenden Iterationen ersetzt werden.

302Wie wir aus dem Abschnitt über Konvergenz des Gauss-Seidel-Newton-Verfahrens wissen, konvergiertdas Verfahren, wenn die Jacobimatrix des Systems am Lösungspunkt (x∗, y∗) entweder stark diagonaldo-minant oder SPD ist.Aufgabe: Interpretieren Sie diese beiden Bedingungen geometrisch und erstellen sie eine Skizze wie Ab-bildung 114, aus der man die Konvergenz ablesen kann.

267

Page 268: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Das Tangential-Block-Newton-Verfahren macht von dieser Idee Gebrauch, indem derErsatz für den y-Schritt das Residuum von g verkleinert, indem er parallel zur Mannigfal-tigkeit f(x, y) = 0 vorangeht.

0 1 2 3 4 5 6 7 8 9

(x n,y n)(x n+1,y n)

reduziert f aber vergrößert g

f(x,y)=0

x

y

Tangential−Schritt in y.Parallel zu f(x,y)=0.

(x*,y*)

g(x,y)=0

reduziert g undvergrößert f kaum;

bewegt auch x noch einmal

Abbildung 115: Tangential-Block-Newton

Hierzu reduziert man g auf den Tangentialraum des Lösungsraumes von

f(x, y) = f(x+, yn)

in (x+, yn).Durch Differentiation von

f(x(y), y) = f(x+, yn)

nach y findet man für die Tangentialrichtung T =

(∂x∂y

Im

)aus

fx(x+, yn)

∂x

∂y+ fy(x

+, yn) = 0

dassT =

(−f−1

x fyI

)=:

(−CIm

)∈ R(K+m,m).

Wir berechenden daher den Schritt ∆y aus dem Newton-Ansatz

0 = g(x+ − C∆y, yn +∆y) ≈ g(x+, yn) + (−gxC + gy)︸ ︷︷ ︸=:S

∆y.

Insgesamt gelangen wir zur

268

Page 269: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Algorithmus 7.4 (TBN:Tangential-Block-Newton-Iteration)

Nr. Schritt Ableitungsauswertung bei(1) x+ := xn − f−1

x f(xn, yn) xn, yn

(2a) C := f−1x fys; x+, yn

(2b) S := gy − gx · C x+, yn

(2c) S∆y = −g(x+, yn)

(3)(xn+1

yn+1

)=

(x+

yn+1

)+

(−CIm

)∆y

Aufgabe 7.5(A) Sei (x∗, y∗) isolierte Nullstelle des Gesamtsystems (391), es sei die Gesamtjacobische

an der Nullstelle also regulär. Sei weiterhin auch fx(x∗, y∗) regulär. Sei die Gesamt-

funktion zweimal stetig differenzierbar. Zeigen Sie dann mit dem Satz von Ostrowski,dass das Tangentialblockverfahren lokal superlinear gegen (x∗, y∗) konvergiert.

(B) Zeigen Sie dass dieses Verhalten bestehen bleibt, wenn man alle Ableitungen bei(xn, yn) auswertet.

(C) Man kann auch zeigen, dass Superlineare Konvergenz erhalten wird, indem mannachweist, dass die Iteration nur um Terme mindestens zweiter Ordnung in ∥xn−x∗∥von dem Verfahren abweicht, bei dem die Linearisierung durch ein Block-Gauss-Verfahren gelöst wird.

Das Verfahren TBN ist durchführbar, wenn man die partiellen Ableitungen, fx, fy, gx, gybilden kann. Für g wird man dies annehmen müssen, aber im Zusammenhang mit f möch-ten wir eigentlich den durch die Einzeloperatoren Φi definierten Iterationsoperator Φ ein-setzen.

Dazu bemerken wir zunächst, dass der erste Newton-Scghritt (1) in x ja nicht anderesmachen sollte, als in x-Richtung dicht an die Lösungsmannigfaltigkeit von f(x, y) = 0herankommen. Hierfür brauchen wir aber keinen Newton-Schritt, wenn wie einen iterativenLöser haben. Wir können daher den Teilschritt (1) einfach ersetzen durch

(1′) x+ := Φκ1(xn, yn),

wobei die Anzahl der Iterationen κ1 dadurch bestimmt ist, dass das Residuum ∥f∥ vonf(x+, yn) etwa auf ∥f(xn, yn)2 fällt303. Dann „benimmt sich dieser Schritt wie ein Newton-Schritt“.

Um C aus Teilschritt (2a)zu approximieren, multiplizieren wir d = f−1x q mit fx = I − Φx,

um die Fixpunktgleichungd = Φx(x

n, yn)d+ q (393)

zu erhalten. Die Richtungsableitung Φx(xn, yn)d können wir dabei mit einer geeigneten

Differenz approximieren

Φx(xn, yn)d ≈ h−1 [Φ(xn + hd, yn)− Φ(xn, yn)] .

303Dabei haben wir angenommen, dass ∥f(xn, yn)∥ schon klein sind.

269

Page 270: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Wenn wir hiermit in die Fixpunktgleichung (393) gehen, gelangen wir zu

d = h−1 [Φ(xn + hd, yn)− Φ(xn, yn)] + q

Wählen wirq := qv = h−1(f(xn, yn + hv)− f(xn, yn)) (≈ fyv) (394)

so approximiert die Iteration

dk+1 = h−1[Φ(xn + hdk, yn)− Φ(xn, yn)

]+ qv (395)

einen Vektord∞ ≈ f−1

x fyv = Cv.

Indem man v die Einheitsvektoren in Rm durchlaufen lässt, approximiert man C spalten-weise.

Algorithmus 7.6 (TBN: „iterative Variante“)

Nr. Schritt(1’) x+ := Φκ1(xn, yn),(2a’) Berechne Cei über (394) und (395) mit v = ei für i = 1, . . . ,m(2b’) Berechne Sei ≈ h−1 (g(x+ − hCei, yn + hei)− g(x+, yn)) für i = 1, . . . ,m(2c’) Löse S∆y = −g(x+, yn)

(3)(xn+1

yn+1

)=

(x+

yn+1

)+

(−CIm

)∆y

Anmerkungen 7.71. Bei praktischer Rechnung werden die Block-Newton-Schritte gedämpft eingesetzt

werden.

2. Wenn die Gleichung in Schritt (2c) mit einer CG-Typ Iteration gelöst werden kann,die nur den multiplikativen Einsatz von S erfordert, so kann dies jeweils über Rich-tungsableitungen geschehen, ohne dass S zusammengestellt werden muss. Die An-wendung von C in der Differenzenformel für die Richtungsableitung von g kann dabeidurch eine innere Iteration (395) gebildet werden.

3. Die −C∆y-Korrektur von x+ in der ersten Komponente von Schritt (3)kann übereine Iteration mit (394) und (395) erledigt werden.

7.4.4 Weitere Block-Newton-Verfahren

7.4.5 Master-Slave-Zerlegung

Um zu Blockeinteilungen für Gleichungssysteme zu kommen, wie sie beim Tangential-Block-Newton-Verfahren aus Abschnitt 7.4.3 zu kommen, verwendet man oft Master-Slave-Zerlegungen, wie wir sie schon im Abschnitt 7.1.2 geschildert haben. Zu Block-Band-Strukturen kann man kommen, indem man hierarchisch weiterzerlegt.

270

Page 271: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

0 1 2 3 4 5 6 7 80

1

2

3

4

5

6

7

8Hierarchische Blockstruktur

Abbildung 116: Hierarchische Blockstruktur

Wenn man die 16 gelben Variablen (und Gleichungen) alle in einen Block tut, ebenso die8 roten Variable in einen Block, und am Ende die eine blaue Variable und Göleichung ineinen Block, so ergibt sich eine Tridiagonal-Blockmatrix.

7.4.6 ABS-Methoden

Das Akronym ABS in ABS-Methoden steht für die Initialen der Familiennamen der beider Bildung dieser Methoden maßgeblich beteiligter Mathemtiker Jozsef Abaffy, CharlesG. Broyden und Emilio Spedicato. In einem englischen Wikipedia-Artikel hierzu wird dasFunktionsprinzip wie folgt beschrieben:

• Given an arbitrary initial estimate of the solution, find one of the infinite solutions,defining a linear variety of dimension n - 1, of the first equation.

• Find a solution of the second equation that is also a solution of the first, i.e. find asolution lying in the intersection of the linear varieties of the solutions of the firsttwo equations considered separately.

• By iteration of the above approach after m’ steps one gets a solution of the lastequation that is also a solution of the previous equations, hence of the full system.Moreover it is possible to detect equations that are either redundant or incompatible.

In seiner ursprünglichen Form kann das Verfahren als eine rekursive Variante des Tangential-Block-Newton-Verfahrens auf der Seite 268 angesehen werden.Im nichtlinearen Fall haben auch Hoyer und Schmidt [HS1984], Schmidt,Hoyer und Hauffe[SHH1985], Chan [Ch] und der Autor [WM0, WM1...] solche Verfahren entwickelt.

271

Page 272: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

7.4.7 Spektral-Zerlegungsmethoden

Wittum und Nachfolgen haben Block-Iterationen entwickelt, bei denen die unterschiedli-chen Blöcke auf unterschiedliche Frequenzbereiche des Fehlers wirken. Für mehr als eineErwähnung dieser Methodengruppe reichjt die Zeit des Sommersemesters nicht.

7.4.8 Mehrgitter-Methoden

Auch Mehrgitter-Verfahren können - gekoppelt mit lokalen Newton-Linearisierungen - fürnichtlineare Problme eingesetzt werden. Eine globale Fehleranalyse ist hier - außer mitMethoden vom Ostrowsky-Typ sehr nahe der Lösung - aber kompliziert.

8 Rekursive Projektion

8.1 CNSP: Condensed Newton/Supported Picard

In diesem Abschnitt betrachten wir noch einmal die nichtlineare Aufgabe

Au = F (u), (396)

wobei wir davon ausgehen, dass für A ein schneller Löser „A−1“ zur Verfügung steht. Wirgehen davon aus, dass

1. A ∈ R symmetrisch und positiv definit ist,

2. F ∈ C1,1(Rn,Rn) mit F ′(u) symmetrisch.

3. u∗ eine isolierte Lösung von Gleichung (396) und also µ = 1 kein Eigenwert vonA−1F ′(u∗) ist.

In Anwendungen ist A ∈ R(n,n) typischerweise ein diskretisierter elliptischen Differen-tialoperator (mit Randbedingungen) und F : Rn → Rn eine Nichtlinearität304, bei dertypischerweise F ′(u) fast diagonal ist.In dieser Situation wäre es nicht fernliegend, als ersten Lösungsversuch die Picard-Iteration

un+1 = A−1F (un) (397)

einsetzen zu wollen.Leider konvergiert diese Iteration oft nicht. Selbst wenn ρ(A−1F ′(u∗)) < 1 sein sollte

• kann der Spektralradius am Startwert u0 leicht größer als Null sein oder

• er kann dicht bei 1 liegen und die Konvergenz furchbar langsam machen.

Als Alternatives Verfahren, dessen Konvergezgeschwindigkeit nicht vom Spektrum vonA−1F ′(u) abhängt, fällt einem natürlich sofort das Newton-Verfahren ein. Allerdings istNewton für solch große Problem auch relativ teuer und hinsichtlich einer Globalisierungauch relativ schwer zu handhaben.

304Oft hängt F auch noch - wie beim Bratu-Problem (28) - auch noch von einem Parameter λ ab, aberdies wollen wir hier erst einmal zurückstellen.

272

Page 273: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Nun fällt in vielen Anwendungen auf, dass nur wenige Eigenwerte von A−1F ′(u∗) betrags-mäßig größer als eins und damit verantwortlich für das Versagen der Iteration (397) sind.Die Grundidee des zu schildernden „Condensed-Newton/Supported Picard“- Prozesses istes, den Einfluss dieser zu großen Eigenwerte aus der Iteration (396) herauszuziehen, indemdiese - grob gesagt - auf ihren „kontraktiven Teil“ projiziert wird und der verbleibende -hoffentlich kleine - Teil mit einem anderen Verfahren305 behandelt wird.

Zu diesem Zweck versehen wir den Rn mit dem A-inneren-Produkt

< x, y >A:= xTAy

und der zugehörigen Energie-Norm

∥x∥A :=√< x, x >A

MitX bezeichnen wir ab jetzt den mit diesem inneren Produkt und dieser Norm versehenenRaum.

Sei am Startpunkt nun ein System A-orthonormaler Vektoren Z = (z1, . . . , zm) ∈ Xm

gegeben, dessen lineares Erzeugnis den Eigenraum von A−1F ′(u0) zu dessen m größtenEigenwerten

|µ1(x0)| ≥ |µ2(x

0)| ≥ · · · ≥ |µm(x0)| ≥ γ > |µm+1(x

0)| ≥ · · · (398)

ist.Die Zahl γ < 1 wird von Anfang an gewählt und wird die finale lineare Fehler-Kontraktionszahldes zu entwickelnden Verfahrens festlegen. Die u0-abhängige Zahl m wird gerade so be-stimmt, dass (398) gilt und wird im Verlauf der Iteration angepasst, so dass diese Bedingungauch an den nachfolgenden Iterationspunkten uk eingehalten wird.

Wir nennen die Vektoren in Z „Stützen“ der Iteration. Einerseits deutet das an, dass dieVektoren die Picard-Iteration unterstützen und ihre Kontraktivität sicher stellen werden.Andererseits wurden die ersten Varianten des CNSP-Iteration zur Berechnung von Zu-stände longitudinal gedrückter Balken berechnet, die bezüglich einer Zeitentwicklung306

instabil waren. Durch das Anbringen von physikalischen Stützen konnten dies Zuständestabilisiert und per Zeitentwicklung307 berechenbar gemacht werden.

Auf X definieren wir die orthogonalen308 komplementären Projektoren

P = ZZTA und Q = I − P

mit X = PX ⊕QX,PX = spanZ.Damit ist das System (396) äquivalent zum Gleichungspaar

PR(u) = 0, (399)QR(u) = 0, . (400)

wobeiR(u) := u− A−1F (u) (401)

der Residual-Vektor zu u ist, den zum Verschwinden zu bringen die Aufgabe ist.Analog zum System zerlegen wir auch das Argument u in

u = p+ q mit p := Pu und q := Qu.

305Natürlich einer Newton-Variante306Die ist in unserer Anwendung durch die Picard-Iteration ersetzt.307bei uns Picard-Iteration308A-orthogonalen, versteht sich

273

Page 274: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Stellen wir p noch in der Basis Z von PX dar

p = Zc, c ∈ Rm,

so finden wir, dass (399,400) äquivalent sind zu

fp(c; q) := c− ZTF (Zc+ q) = 0, (402)fq(c; q) := QA−1F (Zc+ q) = q. (403)

Für festes q ist Gleichung (402) ein m ×m-System in c. Für festes c ist umgekehrt (403)eine Fixpunktaufgabe in q.

Tatsächlich ist (403) der „kontraktive Teil“ der Picard-Iteration, von dem wir oben spra-chen.

Der CNSP-Algorithmus führt nun

- Condensierte Newton-Schritte in c aus, um fp(c; q) = 0 zu erfüllen und

- durch die Projektion Q „geStützte“ Picard-Schritte in q, um fq(c; q) = q zu erreichen.

CN-Schritt:∆c = −(I − ZTF ′(u)Z)−1fp(c; q);c = c+∆c;u = u+ Z∆c.

(404)

SP-Schritt:q = QA−1F (Zc+ q). (405)

Um die Wirkung der Schritte zu kontrollieren, führt man ein das totale (A-)Residuum

r(u) := ∥R(u)∥2A (406)

und die P- und Q-Residuen

rp(u) := ∥PR(u)∥2A und rq(u) := ∥QR(u)∥2A, (407)

für die nach Pythagorasr(u) = rp(u) + rq(u) (408)

gilt.

Um das Weitere schnell zu verstehen, nehmen wir kurz einmal an,

(i) F wäre linear: F (u) = Tu+ f, T ∈ R(n,n), f ∈ Rn,

(ii) Z enthielte die exakten Eigenvektoren von A−1F ′(u0) = A−1T zu µ1, . . . , µm,

(iii) wir schrieben q = Qu = Y d, d ∈ Rn−m, wobei die Spalten von Y ∈ R(n,n−m) die Ei-genvektoren von A−1F ′(u0) = A−1T wären zu den Eigenwerten µm+1, . . . , µn kleinerals κ.

274

Page 275: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Achtung: Es sei hier gleich ausdrücklich darauf hingewiesen, dass für den späteren Al-gorithmus die Eigenvektoren in Y nicht braucht. Wir verwenden sie hier nur, um dieFunktionsweise des Algorithmus einfacher erklären zu können.

Unter den gerade gemachten Annahmen lauten die CN+SP-Schritte in c- und d-Variablennun wie folgt. (

cn+1

dn+1

)=

(0 00 Mq

)(cndn

)+

((I −Mp)

−1ZTfY Tf

)(409)

mit den Diagonalmatrizen Mp := diag(µ1, . . . , µm) und Mq := diag(µm+1, . . . , µn).

Wir sehen hieran, dass

a. der CN-Schritt (404) und der SP-Schritt (405) hier perfekt entkoppelt sind,

b. c∗ = ZTAu∗ in einem einzigen Newton-Schritt berechnet wird, welcher ausführbarist, weil (I −Mp) regulär ist.

c. der SP-Schritt qn+1 = QA−1F (qn + Zc) ⇐⇒ dn+1 = Mqdn + Y Tf eine |µm+1|-kontraktive Iteration zur Berechnung von q∗ = Qu∗ ist,

d. u∗ = q∗ + Zc∗

Das Originalproblem ist natürlich weder linear noch können die Stützen Z exakte Eigen-vektoren sein. Wenn aber - zunächst mal in dem gerade betrachteten linearen Fall - dieZ-Vektoren gute Approximation von Eigenvektoren von A−1T sind, wird die Iteration nurleicht gestört werden durch Nichtdiagonalelemente, die proportional zu Y TTZ bzw. ZTTYsind. Deren Größen sind aber gerade Maße für die „Invarianzgüte“ der Unterräume QXund PX. Diese Maße für den „Austausch“ zwischen den Unterräumen in den Griff zubekommen, ist ein Hauptproblem beim CNSP-Algorithmus.

Eine wesentliche Idee für den Erfolg des Algorithmus liegt in der Umkehrung des Sachver-haltes „Stützen gut“ ⇒ Ïterationen erfolgreich‘ “.

Sind nämlich die Teiliterationen erfolgreich, wird also das rp-Residuum durch einen CN-Schritt in (409) fp(c; q) reduziert und steigt dabei das rQ-Residuum nicht zu stark, soschließen wir309, dass die Stützen derzeit gut genug sind. Dasselbe gilt umgekehrt für denSP -Schritt, der einerseits kontraktiv sein sollte (das quadratische rQ-Residuum also umeinen Faktor bei γ2 kleiner machen sollte) und andererseits das rp-Residuum nicht zu starkerhöhen sollte.

Ist dies beides der Fall, sind wir mit den Stützen zufrieden, wie sie sind310.

Ist dies nicht der Fall, so müssen die aktuellen Stützen durch simultane Vektoriterationverbessert werden, bis eine hinreichende Entkopplung eintritt.

Um das Gesamtresiduums möglichst stark zu verkleinern, wird man - die Gleichung (408)bedenkend - denjenigen Schritt wählen, der das aktuell größere Teilresiduum vermindernsoll.

Es sollte vielleicht bemerkt werden, dass bei Anpassung der Stützen auch die Aufteilungdes Gesamtresiduums in P - und Q-Teil geändert wird. Dadurch kann es geschehen, dassnach einige erfolgreichen CN -Schritten die SP -Fixpunktiteration zum Zuge kommen soll.Dabei stellt der Algorithmus allerdings fest, dass keine Kontraktivität vorliegt, weshalb die

309möglicherweise fälschlich310Egal, ob sie nun Eigenvektoren sind oder nicht.„Der Erfolg hat viele Väter!“ oder „Der Zweck heiligt

die Mittel!“

275

Page 276: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Zahl der Stützen erhöht wird. Nun kommt allerdings auch der Residualanteil dieser neuenRichtungen in des RP -Residuum, so dass es eventuell mit eines CN -Iteration weitergeht.

Da sich während der Iteration der Punkt u, in dem die Linearisierung F ′(u) zu bildenist, verschiebt, verlieren die Vektoren Z tatsächlich planmäßig ihre Eigenvektorqualitäten.Neben ihrer iterativen Verbesserung muss - wie eben geschildert - eventuell auch die Anzahlm von Stützvektoren in Iterationsverlauf geändert werden, um |µm+1| ≤ γ sicherzustellen.

Der Grundalgorithmus könnte etwa wie in den folgenden Skizze dargestellt verlaufen:

Abbildung 117: CNSP-Grundstruktur

Einen ganz einfach Algorithmus - der meistens funktionieren wird - schreibt man, indemman jeweils einen Schritt für das größere Teilresiduum führt und nach jedem solchen Schrittdie Stützen Z durch eine feste Anzahl simultaner Vektoriterationen anpasst. Normalerweisewird man dabei eine Menge Vektoriterationen verschwenden, gewinnt aber eine einfacheAlgorithmusstruktur.

Wenn man einen „Qualitäts-Algorithmus“ so schreiben will, dass er ganz sicher einen kriti-schen Punkt von r(u) erreicht, muss man noch ein Menge mehr investieren. Ein Anwachsendes Komplementärresiduums kann nämlich außer durch ein Abweichen des Stützsystemsvon einem geeigneten Eigenvektorsatz auch noch durch die Nichtlinearität des Systemsverursacht werden. Dann muss gegebenenfalls mit gedämpften Schritten auf ein starkesnichtlineares Verhalten reagiert werden und - Hauptschwierigkeit hierbei!! - es muss de-tektiert werden welcher Missstand für den Misserfolg verantwortlich ist, schlechte Stützenoder eine “fiese Nihtlinearität“.

Dies lässt sich algorithmisch leisten, ist aber für diese Vorlesung zu involviert. Siehe dazugegebenenfalls [JM1].

276

Page 277: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

8.2 CNSP für parameterabhängige Gleichungen

Wenn wir in Verallgemeinerung der Problemstellung im letzten Abschnitt in die Gleichung(396), also Au = F (u) mit A SPD und F ′(u) symmetrisch, eine Parameterabhängigkeit

Au = F (u, λ) (410)

einführen, können wir diese Gleichung wieder mit dem Stützensystem Z und den Projek-toren P = ZZTA und Q = I − P aus analog zu (402,403) zerlegen in

fp(c; q;λ) := c− ZTF (Zc+ q, λ) = 0, (411)fq(c; q;λ) := QA−1F (Zc+ q, λ) = q. (412)

Es stellt sich heraus, dass man die Astverfolgung, wie wir sie in Abschnitt 3.3.1 kennenge-lernt haben, nur für das kleine Gleichungssystem (411) zu implementieren braucht, wennman nur dafür sorgt, dass

1. die Lösung q(c, λ) von (412) mit qk+1 = QA−1F (Zc + qk, λ) immer schön angepasstwird, und

2. eine aus der Astverfolgung mit (411) resultierende λ-Änderung ∆λ über

q ←− q +∆λ ∗ [I −QA−1Fu]−1QA−1Fλ

mit erster Ordnung an q weitergereicht wird.

Anmerkungen 8.1a. Die q-Anpassung aus 2. ergibt sich, indem man aus der

q(λ)−QA−1F (Zc+ q(λ), λ) = 0

durch implizite Differentiation

∂q

∂λ−QA−1Fu(Zc+ q, λ)

∂q

∂λ−QA−1Fλ(Zc+ q, λ) = 0

die Ableitung ∂q∂λ

gewinnt. Damit kann man dann anpassen gemäß

q(λ+∆λ) =≈ q(λ) +∂q

∂λ∆λ.

b. Normalerweise ist darin die Approximation

∂q

∂λ≈ QA−1Fλ(Zc+ q, λ)

ausreichend gut.

c. Natürlich sollten die Z-Vektoren bei der Bewegung entlang eines Lösungsastes mög-lichst duch simultane Vektor-Iteration verbessert werden.

d. Bei vielen Anwendungen stellt sich dabei übrigens heraus, dass sich die Eigenwerteµ1, . . . , µm entlang der Lösungsäste durchaus bemerkbar variieren311, dass sich dieEigenvektoren in Z aber erstaunlich wenig verändern.

311insbesondere kann es nötig werden, mehr Z-Vektoren zu bilden, wenn man die Kontraktivität derSP-Schritte erhalten will

277

Page 278: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

8.3 Recursive Projektion nach Shroff und Keller

Shroff und Keller haben eine CNSP-ähnliche Prozedur für die Astverfolgung des Lösungs-astes einer Gleichung

u = F (u, λ) (413)

entworfen. Sie gehen dabei auch von der Situation aus, dass die Iteration

uk+1 = F (uk, λ)

fast kontraktiv wäre, wenn nicht wenige Eigenwerte µ1, . . . , µm von Fu(u, λ) betragsmäßiggrößer als Null wären.A−1F aus dem CNSP-Abschnitt wäre hier ein geeignetes F . Situation.

Allerdings ist die Shroff-Keller-Methode allgemeiner als die CNSP-Methode, da hier kei-nerlei Symmetrievoraussetzungen getroffen werden. Man kann hier damit auch nicht vonder Möglichkeit einer Spektraldarstellung mit Eigenvektoren ausgehen.

Als Ersatz für die Eigenvektoren in Z wird eine orthonormale Basis des invarianten Un-terraumes zu den die Schranke γ betragsmäßig übersteigenden Eigenwerten312 gewählt.Als P und Q wählen Shroff und Keller die bezüglich des euklidischen inneren ProduktesOrthogonalen Projektoren

P = ZZT und Q = I −Qauf P = span(Z) und Q = P⊥, den bezüglich der normalen euklidischen Norm Orthogo-nalraum zu P. Mit diesen Projektoren teilen sie nun die Variable u wie bei CNSP auf

u = Pu+Qu = p+ q

und zerlegen damit die Gleichung (413) analog zu CNSP wie folgt

p = f(p, q, λ) := PF (p+ q, λ)q = g(p, q, λ) := QF (p+ q, λ)

(414)

Man beachte, dass die beiden Gleichungen nicht mehr lokal voll entkoppelt sind. ObwohlP ein invarianter Unterraum von F ′(u) ist, so dass

QFuP = 0,

ist Q in der Regel nicht invariant. Tatsächlich reicht aber die so getroffene Aufteilung doch,um das Verfahren

Algorithmus 8.2 (Shroff-Keller-Iteration)

p0 = Pu0, q0 = Qu0

Do until convergence:pk+1 = pk + (I − fp(pk, uk, λ))−1

(f(pk, qk, λ)− pk

)qk+1 = g(pk, qk, λ)

endu∗ = pfinal + qfinal.

mit dem Satz von Ostrowski als linear konvergent zu erkennen.

Zentral hierfür ist die Kontraktivität der q-Iteration, und diese folgt aus dem

312Dieser Raum wird von allen Eigen- und Hauptvektoren zu diesen Eigenwerten aufgespannt.

278

Page 279: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 8.3 (Kontraktivität der q-Iteration)Sei (u∗, λ∗) Lösung von (413). Spanne Z den invarianten Unterraum von Fu(u

∗, λ∗) zu allenEigenwerten kleiner als γ auf. Sei der Projektor Q damit wie oben erklärt.Dann liegen alle Eigenwerte von

QFu(u∗, λ∗)Q

im Kreis der komplexen Ebene um Null mit Radius γ.

Beweis: Siehe [SK]

Äußerst raffiniert - und auch bein CNSP-Algorithmus verwendbar . ist die Methode, mitder Shroff und Keller die Stützen berechnen bzw. aufdatieren.

Sie gewinnen sie aus der Iteration heraus. Wenn nämlich die Q-Iteration nicht ordentlichkonvergiert, wird sie in die Richtung des Eigenraumes zum größtehn Eigenwert ausbrechenwollen. Und damit verrät sich die Richtung.

9 Methoden der Reduzierten Basen.

9.1 Generelle Idee

Die vielen Vorgehensweisen, die alle unter dem Namen „Reduzierte Basen“-Ansätze segeln,haben alle gemeinsam, dass sie

1. Lösungsmengen glatter parameterabhängiger Systeme F (x, λ) = 0, F : Rn ×Rd −→Rn ausgehend von einem Startpunkt y0 = (x0, λ0) in einem affinen Unterraum y0+K,mit niederdimensionalen linearen Unterraum K ⊂ Rn+d zu approximieren versuchen,

2. dabei eine Petrov-Galerkin-Diskretisierung (der schon diskreten Systeme) verwendenund

3. die Basen der Ansatzräume K (die reduzierten Basen) dem Verlauf der Lösungsman-nigfaltigkeit anzupassen versuchen bzw.

4. die Ansatzräume so zu wählen versuchen, dass sich möglichst große Teile der Lösungs-mannigfaltigkeiten in diesen niederdimensionalen Ansatzräumen vermittels geeignetprojizierter Gleichungssysteme beschreiben lassen.

9.2 Tangenten-orientierte Reduzierte Basen

9.2.1 Grundlagen

Wie wir oben schon für den Fall eines eindimensionalen Parameters λ gesehen haben, machtes313 Sinn die Variablen x und λ wieder zusammenzufassen in eine Variable y ∈ Rn+d.

Ist dann y0 = (x0, λ0) ein Lösungspunkt aus der Regularitätsmenge

R(F ) := y ∈ Rn+d | rang(F ′(y)) = n,313z.B wegen auftretendet Umkehrpunkte

279

Page 280: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

so sagt der Satz über implizite Funktionen, dass F−1(0) nahe y0 eine d-dimensionale Man-nigfaltigkeitM durch y0 ist, die sich lokal über dem d-dimensionalen Tangentialraum

T = T ∈ Rn+d | F ′(y0)T = 0

parametrisieren lässt:y = y0 + T + S(T ), T ∈ T , ∥T∥ ≤ r.

Dabei ist S(T ) eine glatte Abbildung von T ∩Kr(y0) in einen komplementären Teilraum

S (z.B. den Orthogonalraum T ⊥ von T ) mit S(0) = 0 ist.

11.5

2

−2−1.8−1.6−1.4−1.2−1−0.8−0.6−0.4−0.20

TS

y0

Abbildung 118: Parametrisierung durch Tangentialraum

Obwohl man auch Resultate für d > 1 hat314 beschränken wir uns hier auf den einfacher zubehandelnden Fall der d = 1-dimensionalen Mannigfaltigkeiten, also Lösungskurven vonF (y) = 0.

Wir haben oben Lösungskurven mit Vorteil durch ihre Kurvenlänge parametrisiert. Wirwerden darauf zurückkommen. Für die Definition reduzierter Basen allerdings und dielokale Fehleranalyse ist es von Vorteil, für Lösungskurven auch ihre Parametrisierung durchdie Tangentialanteil-Komponente zu betrachten.

Sei daher schon einmal y(t) die nach ihren Tangentialkomponente parametrisierte Lösungs-kurve mit

y(0) = y(0) und y′(0) = T (415)

und F ′(y0)T = 0, T TT = 1, T geeignet orientiert.

Es ist auf jeden Fall vernünftig, den (geeignet orientierten) Tangential-Einheitsvektor Taus F ′(y0)T = 0, T TT = 1 in den approximierenden Unterraum K aufzunehmen.

Mit einer Matrix Z ∈ R(n+1,m), deren Spaltenvektoren z1, . . . , zm untereinander linearunabhängig und zugleich orthogonal zu T sind, suchen wir daher eine Approximation für

314vgl. [BR],[RB],[MH]

280

Page 281: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

den Lösungsast der Form

YR = y0 + Tt+ Zr, t ∈ R und r ∈ Rm, (416)

wobei die Idee ist - wie bei der Parametrisierung der Lösungsmannigfaltigkeit in Abbildung(118) - die Komponenten von r als Funktionen von t zu bestimmen: r = r(t).

Wenn man als z1, z2, . . . die konsekutiven Ableitungen der Lösungskurve y(t) in t=0 wählt

z1 = y′′(0), z2 = y(3)(0), ...

so bieten sich - ohne jede weitere Lösungsarbeit - als r1, r2... die Funktionen

r1(t) =t2

2, r2(t) =

t3

3!, . . .

an, denn dann wird aus (416) die Taylorentwicklung von y(s).

Leider wird man bei der numerischen Bestimmung dieser Ableitungen Fehler machen,und die Erfahrung315 zeigt, dass Fehler in den Ableitungen sich recht desaströs auswirkenkönnen.

Deshalb setzt man den Ansatz (416) in die Gleichung F (y) = 0 ein, „um F bei der Bestim-mung der r(t)-Werte zu beteiligen“. Natürlich hat F zu viele Gleichungen, und so müssenwir eine angemessene Anzahl von Petrov-Galerkin-Mitteln der Gleichungen auswählen316.

Um - genau wie im Vollraumproblem - einen eindimensionalen Lösungsraum zu bekommenprojizieren wir mit m linear unabhängigen Testvektoren v1, . . . , vm ∈ Rn, was uns mitV := (v1, . . . , vm) auf das reduzierte System

FR(r) := V TF (y0 + (T, Z)r)(= V TF (y0 + Tt+ Zr(t))) = 0 (417)

führt.Die Jacobi-Matrix hiervon im Punkt r = 0 ist

F ′R(0) = V T (F ′(y0)T, F ′(y0)Z) = V T (0, F ′(y0)Z).

Damit die Reduktion nach dem Satz über implizite Funktionen ebenfalls eine eindimenso-nale Lösungsmannigfaltigkeit hat, sollte der Rang von F ′

K(0) gleich m sein. Weil die ersteSpalte planmäßig verschwindet, bleibt die Forderung, dass

Rang V TF ′(y0)Z = m (418)

sein möge.Ist (418) erfüllt, so gibt es nach dem Satz über implizite Funktionen eine lokal eindeutigeLösung r(t), t ∈ (−α, α) die zu einer Approximation

yR(t) = y0 + Tt+ Zr(t)

führt.

9.2.2 Zulässige Testmatrizen

Testmatrizen V , die die Rangbedingung (418) erfüllen, sind durch die „Antwort des SystemsF auf Variationen in den Z-Richtungen“ bestimmt

315z.B. mit Prädiktoren höherer Ordnung bei der Kurvenverfolgung316Vgl. Anmerkung 2.7.

281

Page 282: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Lemma 9.1 (Zulässige Testmatrizen)Sei x0 ∈ R(F ), F ∈ Ck(Rn+1,Rn) mit k ≥ 2; Z = (z1, . . . , zm) ∈R(n+1)×m mit rang(Z) = m; zTi T = 0, wobei F ′(x0)T = 0, T TT = 1 ist. Dann ist je-de Testmatrix V ∈ R(n,m) mit (418), also

Rang V TF ′(y0)Z = m

darstellbar in der FormV = AF ′(x0)ZB, (419)

wobei A ∈ R(n,n) symmetrisch und positiv definit ist und B ∈ R(m,m) regulär.

Beweis: Mit U := F ′)x0)Z ∈ R(n,m) sagt (418), dass V TU ∈ R(m,m) regulär ist. Dann gibtes317 eine n× (n−m)-Matrix V+ mit

(V, V+) ∈ R(n,n) ist regulär (420)

undV T+ U = 0. (421)

Nach (420) istA := (V, V+)(V, V+)

T

symmetrisch und positiv definit. Mit B := (V TU)−1 erhält man dann mit (421), dass

AUB = (V, V+)(V, V+)TUB = (V, V+)

((V TU)(V T

+ U)

)B = (V, V+)

(I0

)= V.

2

Anmerkungen 9.21. Die Matrix B in (419) ist ohne Bedeutung, da sie nur zu einer Basistransformation

in span(Z) führt. Bei der Reduktion von F (x0 + Tt+ Zr) = 0 zu

0 = V TF (x0 + Tt+ Zr) = BTZTF ′(x0)TAF (x0 + Tt+ Zr)

hat B als reguläre Matrix keinerlei Einfluss auf die Lösungen.

2. Die Matrix A definiert ein inneres Produkt < y1, y2 >A= yT1 Ay2 auf dem BildraumRn von F . Durch

M := F ′(x0)TAF ′(x0) (422)

kann dieses innere Produkt „zurückgeholt“ werden auf das orthogonale Komplementvon T im Rn+1:

< x1, x2 >M= xT1 Mx2 für xi ∈ T⊥ .Durch

M =M(A) := M + TT T (423)

wird dieses innere Produkt auf ganz Rn+1 erweitert.

3. Verbunden mit M ist ein M -orthogonaler Projektor

P := TT TM + ZZTM

auf span(T, Z), mit dem sich nach [MH] für die RB-Appoximation eine Super-Approximations-Aussage zeigen lässt.

317Aufgabe: Beweisen Sie dies.

282

Page 283: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Satz 9.3 (Approximationsgüte von RB)Sei F ∈ Ck+1(Rn+1,Rn) mit k ≥ j + 1 ≥ 2, sei F (x0) = 0 und habe F ′(x0) ma-ximalen Rang. Sei Z = (z1, . . . , zm) ∈ R(n+1)×m mit rang(Z) = m; zTi T = 0, i =1, . . . ,m wobei F ′(x0)T = 0, T TT = 1 ist. Es sei K := span Z, T der durch die Reduzier-te Basis augespannte Raum . Sei weiter A ∈ R(n,n) symmetrisch und positiv, V = AF ′(x0)Zsowie P := TT TM+ZZTM mit M(A) gemäß (422) und (423) der M(A) orthogonale Pro-jektor von Rn+1 auf K.Es seien schließlich x(t) und xK(t) für t ∈ [−α, α], α > 0 die lokalen Parametrisierungendes Lösungspfades und seiner RB-Approximation bezüglich ihrer T -Konponenten tT .Ist dann

x(i)(0) ∈ K, i = 1, . . . , j

so geltenx(i)K (0) = x(i)(0), i = 1, . . . , j

undPx

(i)K (0) = x(i)(0), i = 1, . . . , j + 1

so dass es Konstanten C1, C2 ∈ R gibt mit

∥x(t)− xK(t)∥ ≤ C1|t|j+1, t ∈ [−α, α],

und∥P (x(t)− xK(t))∥ ≤ C1|t|j+2, t ∈ [−α, α].

Beweisidee: Expliziter Vergleich der Taylorentwicklungen von x(t) und xK(t) durch im-plizite Differentiation der definierenden Gleichungen.

9.2.3 Berechnung geeigneter Basen

Um einen Lösungsast x(t) einer impliziten Aufgabe F (x(t)) = 0 wie oben gut durch einereduzierte Basislösung approximieren zu können, ist es sicher nicht übel, Vektoren x(ti)−x(0), i = 1, 2, 3... in K zu integrieren, wenn man solche Werte zur Verfügung hat. Manhofft dann, dass man diese Werte mit dem approximativem Ast xk(t) reproduzieren wird.Auch wenn sicher

V TF (x(ti)) = 0

ist, kann man doch nicht grundsätzlich erwarten, dass der reduzierte Lösungsast, dieseLösungspunkte so verbinden wird, wie dies x(t) tut, wenn die ti-Werte zu groß sind.

Ableitungsinformation Wenn man die lokale Existenz einer RB-Näherung und dieZusicherung der Approximationsgüte von Satz 9.3 ausnutzen will, sollte man versuchen,die ersten Ableitungen von x(t) bei t = 0 in die reduzierte Basis einzubinden.

Die erste Ableitung T = x′(0) erhielten wir ja durch Differentiation von F (x(t)) = 0 nacht bei t = 0:

F ′(x(t))x′(t)|t=0 = 0

Es liegt nahe, diese Gleichung noch einmal zu differenzieren, um zu x′′(0) zu gelangen. Aus

d2

(dt)2F (x(t)) = F ′′(x(t))x′(t)2 + F ′(x(t))x′′(t)

283

Page 284: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

erhält man tatsächlich (unter Beachtung von ⟨x′′(0), T ⟩ = 0) über F ′(x0)x′′(0) = −F ′′(x0))T

2

den Ausdruckx′′(0) = − (F ′(x0))

†F ′′(x0))T

2. (424)

Schon zur Gewinnung der zweiten Ableitung ist bei großen Systeme die Erstellung desTensors F ′′(x0)) keine große Freude.

Die Gewinnung höherer Ableitungen wird, wie die Formel für x(3)(0) schon zeigt

d3

(dt)3F (x(t)) = F ′′′(x(t))x′(t)3 + 3F ′′(x(t)x′(t)x′′(t) + F ′(x(t))x′′′(t)

immer weniger erfreulich.

Tatsächlich können gute Approximationen aber mit Hilfe der oben angeführten Zusam-menhänge berechnet werden, ohne die Tensorausdrück wirklich zu berechnen.

Wir wollen das Prinzip zunächst einmal für eine Gewinnung von x′′(0) demonstrieren.

Hierzu leiten wir einmal die Funktion

g1(t) = F (x0 + tT )

zweimal nach t ab. Es ergeben sich

Erste Ableitung: g′1(t) = F ′(x0 + tT )T,Zweite Ableitung: g′′1(t) = F ′′(x0 + tT )T 2,

so dass g′′1(0) = F ′′(x0)T2 genau der Tensor-Term ist, den wir in (424) gebrauchen.

Die zweite Ableitung können wir aber leicht numerisch approximieren, indem wir z.B.

g′′1(0) =g1(−h)− 2g1(0)g1(h)

h2+O(h2)

ausrechneten. Da g1(0) = F (x0) = 0 ist, hat man sogar ganz einfach

x′′(0) =F (x0− hT ) + F (x0 + hT )

h2+O(h2)

Noch einfacher wird die Angelegenheit, wenn mn berücksichtigt, dass nicht nur g1(0) = 0ist sondern auch noch g′1(0) = F ′(x0)T = 0 ist. Man kann dann zeigen, dass

x′′(0) = 2F (x0 + hT )

h2+O(h)

ist.Höhere Ableitungen kann man genau so gewinnen, indem man die Funktionen

gj(t) = F (x0 +

j∑k=1

x(k)(0)tk

k!)

j+1 mal numerisch mit geeigneten Formeln differenziert. Dabei wir man in gj(t) anstelle derexakten Ableitungen x(k)(0), k = 1, . . . , j die schon gewonnene Approximationen einsetzen.Um die Approximationsordnung hierbei nicht durch Fehler in den Ableitungen zu zerstören,müssen diese Approximationen eine gewisse Güte haben.

Genaueres findet man in [M89]. Wir geben hier nur ein Schema für die Berechnung vonAbleitungen bis zur fünften Ordnung an.

284

Page 285: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

Algorithmus 9.4 (Ableitungen zur Integration in reduzierte Basen)Berechne sukzessiv

x1h := x(1)(0),

x2h := −F ′(x0)†S2,2,6

h g1,

x3h := −F ′(x0)†S3,3,4

h g2,

x4h := −F ′(x0)†S4,4,4

h g3,

x5h := −F ′(x0)†S5,5,4

h g4,

wobei

gi(t) := F (x0 +i∑

j=1

xjhtj

j!), i = 1, . . . , 4

ist und die Differenzenformeln wie folgt definiert sind

S2,2,6h := h−2

32∆+

1 − 320∆+

2 + 390∆+

3

,

S3,3,4h := h−3

4∆−

1 − 18∆−

2

,

S4,4,4h := h−4

16∆+

1 − 14∆+

2

,

S5,5,4h := h−5

5!2∆−

1

,

unter Verwendung von ∆+i = f(ih) + f(−ih) und ∆−

i = f(ih) + f(−ih).

Runge-Kutta-Information Wendet man Runge-Kutta-Formeln zur Integration von

x′(t) = T (x)

an mit dem Tangentenvektorfeld T (x), so werden Tangentenvektoren an verschiedenenPunkten in der Nähe von x0 berechnet, die sogeartet sind, dass sich die Entwicklung derLösung der Differentialgleichung zu einem gewissen Zeitpunkt damit gut voraussagen lässt.Es wird vermutet, dass das Lineare Erzeugnis dieser Richtungen ein guter RB-Unterraumist.

9.3 POD-Ansätze

Im Laufe der RB-Approximation eines Astes müssen RB-Basen nicht immer ganz neu ge-bildet werden. Man kann vielmehr neu gebildete Basisvektoren zu den alten hinzunehmen.Auf die Dauer wird dabei aber

1. die Basis zu groß werden und

2. die Vektoren fast linear abhängig werden.

Man wird deshalb aus dem durch die aktuellen Vektoren aufgespannten Raum eine Teil-raum einer vorgegebenen Dimension so auswählen wollen, dass der Raum durch dieseVektoren bestmöglich repräsentiert ist.

Es bietet sich hierfür die Singulärwertzerlegung an, mit der man die Matrix (T, Z) durcheine Matrix mit vorgegebenem Rang k bestmöglich approximiert. Die ersten k Links-Singulär-Vektoren u1, . . . , k der SVD

(T, Z) = UΣV T

werden dann in der Methode der Proper-Orthogonal-Decomposition als zu bewahrendeVektoren (plus aktuelle Tangente T ).

285

Page 286: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

10 Grundprinzipien bei der Lösung großer Gleichungs-systeme

• Löse nicht genauer als erforderlich.

• Versuche nie, genauer lösen zu wollen als möglich. Auf einem Rechner mit sechzehndezimalen Mantissenstellen ein Gleichungssystem bis auf ein Residuum von 10 − 5lösen zu wollen, wenn im Gleichungssystem Koeffizienten der Größenordnung 1020

stehen, ist - zumindest - gewagt und meistens zum Scheitern verurteilt. Warum?

• Prüfe bei linearen Gleichungssystemen, ob es einen verlässlichen und schnellen di-rekten Löser gibt. Iterative Methoden sind nicht von vornherein die Methoden derWahl, nur weil die Dimension groß ist.

• Bilde nur in absoluten Ausnahmefällen explizite Inverse einer Marix.

• Prüfe im Erstfall die Konditionen der in das Prozedere eingehenden Matrizen.

11 Software

http://www2.imm.dtu.dk/ pch/AIRtools/

12 Literatur

[AG] Eugene L. Allgower und Kurt Georg: Numerical continuation methods: an introduc-tion, Springer 1990

[Alt] http://www.iam.uni-bonn.de/ alt/ws2001/HTML/analysis3-hyp_41.html

[ARB] http://people.inf.ethz.ch/arbenz/MatlabKurs/matlabintro.pdf

[ARM] L. Armijo, Minimization of function having Lipschitz continuous first partial deri-vatives, Pacific J. Math., 16 (1966), 1-13.

[Atk] Kendall E. Atkinson: A Survey of Numerical Methods for the Solution of FredholmIntegral Equations of the Second Kind, SIAM 1976

[OA] Owe Axelsson: Iterative solution methods, Cambridge University Press 1996

[BEA] R. Barret et al. : Templates for the solution of linear systems: building blocks foriterative methods. SIAM 1994

[BR] Barret, A. and G. Reddien: On the Reduced Basis Method; ZAM 75 (1995) 543-549

[BT] Benzi, Michele and Tuma, Miroslav: A comparative study of sparse approximateinverse preconditioners, Applied Numerical Mathematics 30 (1999) 305û340

[BV] Timo Betcke und H. Voss: Eine interaktive MATLAB-Umgebeung für iterative Glei-chungslöser, Rep. 51, Institut für Numerische Simulation, TUHH,http://www.tu-harburg.de/ins/forschung/rep/rep51.pdf

[BL] W.-J.Beyn and J. Lorenz: Spurious SoLutions for Discrete Superlinear BoundaryValue Problems, Computing 28, 43–51 (1982)

[BG] J.W. Bruce und P.J. Giblin: Curves and Singularities, Cambridge University Press1984

286

Page 287: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

[BR] Ron Buckmire: On exact and numerical solutions of the one-dimensional planar Bratuproblem, 2003

[Ch] Chan, T.F.: An approximate Newton method for coupled nonlinear systems. Rapp.Rech. No. 294, Inst. Nat. Rech. Inform. Autom., Le Chesnay 1984

[CL] Coddington-Levinson

[CPR] A.R. Curtis, M.J.D. Powell and J.K. Reid: On the Estimation of Sparse JacobianMatrices, J. Inst. Applics (1974), 13, 117-119

[DW] Peter Deuflhard und Martin Weiser: Numerische Mathematik 3, Adaptive Lösungpartieller Differentialgleichungen, De Gruyter, 2011

[DES] RON S. DEMBO, STANLEY C. EISENSTAT AND TROND STEIHAUG: InexactNewton Methods, pp 400-408 in SIAM J. NUMER. ANAL.19, 1982 S

[DMY] David M. Young: Iterative Solution of Large Linear Systems, Academic Press, 1971,republished by Dover, 2003

[Dav] Davis,Timothy A.: Direct methods for sparse linear systems, SIAM 2006

[JM1] H. Jarausch und W.Mackens: Solving large nonlinear systems of equations by anadaptive condensation process, Numer. Math. 50 (1987) 633-653

[JM2] H. Jarausch und W.Mackens: Computing bifurcation diagrams for large nonlinearvariational Problems; Progress in Large Scale Scientific Computing (P.Deuflhard and B.Engquist, eds), Birkhäuser, Basel, 1986

[JWD] James W. Demmel: Appölied Numerical Linear Algebra, SIAM 1997

[Don] J. J. Dongarra. I.S Duff, D.C. Sorensen, H.A, van der Vorst: Numerical LinearAlgebra for High-Performance Computers, SIAM 1998

[DER] I. S. Duff, A. M. Erisman, J. K. Reid: Direct Methods for Sparse Matrices. Clarendon...

[DS] John E. Dennis,Robert B. Schnabel, Numerical methods for unconstrained optimiza-tion and nonlinear equations, SIAM Classics 1996

[FC] C. Fraley: Globally convergent Gauss-Newton Methods, TECHNICAL REPORT No.200, March 1991, Department of Statistics, GN-22, University of Washington

[GL] A. George, J. W. Liu: Computer Solution of Large Sparse Positive Definite ...

[AG] Anne Greenbaum: Iterative Methods for solving Linear Systems, SIAM 1979

[GvL] G. H. Golub and C. F. Van Loan. Matrix Computations. Johns Hopkins UniversityPress, Baltimore, 3rd edition, 1996.

[GH] D. David Francis Griffiths und D. Desmond J. Higham: „Numerical Methods forOrdinary Differential Equations: Initial Value Problems“, Springer, 2011

[Gub] Martin Gubisch, Mehrdimensionale Differenzial und Integralrechnung, Konstanz,Wintersemester 2009/2010; http://martingubisch.de/cms/upload/files/skripte/Tutorium%20Analysis.pdf

[WH1] W. Hackbusch: Iterative Lösung großer schwachbesetzter Gleichungssysteme, Teub-ner, 1991

[HNW]Ernst Hairer, Syverd Nørset und Gerhard Wanner; „Solving Ordinary DifferentialEquations I“ von ; Springer Verlag, 2009 (Neuauflage)

[HW] Ernst Hairer und Gerhard Wanner: „Solving Ordinary Differential Equations II“;Springer Verlag; 2009

287

Page 288: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

[WH2] Wolfgang Hackbusch: Iterative Lösung großer Gleichungssysteme, Nov 2004, www.mis.mpg.de/scicomp/Fulltext/ggl.ps

[HY] L. A. Hageman and D. M. Young. Applied Iterative Methods. Academic Press, NewYork, 1981. Unabridged republication of the 1981 original: Dover, Mineola, NY, 2004.

[HS] M. R. Hestenes and E. Stiefel. Methods of conjugate gradients for solving linearsystems. J. Res. Nat. Bur. Stand., 49:409û436, 1952.

[HoS] Hoyer, W., Schmidt, J.W.: Newton-type decomposition methods for equations arisingin network analysis. Z. Angew. Math. Mech.64, (1984)

[Gun] Roland Gunisch. Gewöhnliche Differentialgleichungen, SS 2006, Universität Ham-burg, http://www.math.uni-hamburg.de/home/gunesch/Vorlesung/SoSe2006/Vorl_ODE/Skript/ode.pdf

[LAO] Laotse, Tao te king, Reclam

[MH] Mackens, W.: Kondensation großer nichtlinearer Gleichungssysteme mit der Methodeder reduzierten Basis, Habilitationsschrift, RWTH Aachen 1988

[M89] Mackens, W.:Numerical differentiation of implicitly defined space curves, Computing1989, Volume 41, Issue 3, pp 237-260

[AM] A. Meister. Numerik linearer Gleichungssysteme. Eine Einf¿uhrung in moderneVerfahren. Mit MATLAB-Implementierungen von C. V¿olmel. Vieweg, Braunschweig, 2.,¿uberarb. Aufl., 2005.

[Meu] Gérard Meurant: Computer Solution Of Large Linear Systems. Elsevier, 1999

[Neu] J.W. Neuberger: The continuous Newton’s method, inverse functions ans Nash-Moser, Preprint, http://www.math.unt.edu/ jwn/maatopalka.pdf

[RB] Reinboldt, W.C.:

[Saup] Dietmar Saupe, Discrete Versus conrtinuous Newton Methods: A Case Study, ActaApplicandae Mathematicae 13 (1988), 59-80

[THW] T. H. White : The Once And Future King (Der König auf Camelot)

[HLT] NIM Gould, S Leyffer, PL Toint: A multidimensional filter algorithm for nonlinearequations and nonlinear least-squares, SIAM Journal on Optimization, 2004 - SIAM

[Gri] Andreas Griewank: Broyden Updating, the Good and the Bad! Documenta Mathe-matica, Extra Volume ISMP (2012) 301û315

[GrR] Andreas Griewank and G-W.Reddien: Characterization and Computation of Genera-lizes Turning Points, SIAM J. Numer. Analysis 21 (1984), 176-185 [GMP]: A.H. Gebremed-hin, F. Manne, A.Pothe: What Color is Your Jacobian? - Graph Coloring for ComputingDerivatives. SIAM Review 47 (2005) 629-705

[OR] James M. Ortega und Werner C.Rheinboldt, Iterative solution of nonlinear equationsin several variables, Reprint, SIAM 2000

[Urb] http://www.mathematik.uni-ulm.de/numerik/teaching/ss04/PartielleDgln/dgl.pdf

[HWN] Hairer-Wanner-Nørset:

[SHH] Jochen W. Schmidt, Wolfgang Hoyer, Christian Haufe: Consistent approximationsin Newton-type decomposition methods, Numerische Mathematik 47, 1985, pp 413-425

[JUL] http://de.wikipedia.org/wiki/Julia-Menge

[CTK] C.T. Kelley: Iterative Methods for Linear and Nonlinear Equations, SIAM 1995

[CTK] C.T. Kelley: Iterative Methods for Optimization, SIAM 1999, For personal use:http://www.caam.rice.edu/∼zhang/caam554/KelleyBooks/fr18_book.pdf

288

Page 289: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

[RSV] R. S. Varga. Matrix Iterative Analysis. Springer, Berlin, 2nd rev. and exp. Ed., 2000.

[Voss-DGL] Heinrich Voss: Numerische Simulation

[WM0] Wolfgang Mackens: Some Notes on Block-Gauss-Seidel Newton Iterations for theSolution of Sparse Nonlinear Systems, Bericht Nr. 37 des Instituts fur Geometrie undPraktische Mathematik der RWTH Aachen (1986).

[WM1] Wolfgang Mackens: Quadratic Convergence of the Recursive Block Gauss-SeidelNewton Iteration Volume 44 of Bericht. Institut für Geometrie und Praktische Mathematik,Technische Hochschule Aachen, Published 1987

[WM1] Wolfgang Mackens: Numerische Software, Vorlesung an der TUHH

[MAD] User Guide for Mad - a Matlab Automatic Differentiation Toolbox TOMLAB,/MADhttp://tomopt.com/docs/TOMLAB_MAD.pdf

[MV] Wolfgang Mackens und Heinrich Voß: Mathematik I, HECO Verlag, Aachen

[OR] James M. Ortega, Werner C. Rheinboldt: Iterative Solution of Nonlinear Equationsin Several Variables,

[Pis] Pissanetzky, Sergio (1984). Sparse Matrix Technology. Academic Press.

[SAE] http://www.youtube.com/watch?v=ZfbfwMQzl2E

[SHH] Jochen W. Schmidt, Wolfgang Hoyer, Christian Haufe: Consistent approximationsin Newton-type decomposition methods, Numerische Mathematik 47, 1985, pp 413-425

[SCHW] H. Schwetlick: Numerische Lösung nichtlinearer Gleichungen. Mathematik fürNaturwissenschaft und Technik 17. 346 Seiten, Deut. Verlag d. Wiss., Berlin, 1979. Auch:R. Oldenbourg Verlag, München-Wien, 1979.

[SchwTiLö] H.Schwetlick, G. Timmermann und R. Lösche: Path following for Large Non-linear Equations by Implicit Block Elimination Based on Recursive Projections, Lecturesin Applied Mathematics, Vol. 32, 1996

[STBU] Stoer, Bulirsch.

[Stetter] H.J. Stetter: Analysis of discretization methods for ordinary differential equati-ons J New York, Springer-Verlag New York, Inc. (Springer Tracts in Natural Philosophy.Volume 23), 1973.

[TB] Lloyd Nicholas Trefethen, David Bau: Numerical Linear Algebra, SIAM 1997

[CGT] Andrew R. Conn,Nicholas I. M. Gould,Philippe L. Toint: Trust-region methods

[SK] G. M. Shroff and H. B. Keller: Stabilization of unstable procedures: The recursiveprojection method; SIAM J. Numer. Anal. 30 (1993), 1099-1120

[Ulb] http://www.opt.tu-darmstadt.de/forschung/nichtlin/Team/ulbrich/opt/codes.html

[UEB] Christoph Überhuber: Computernumerik 2, Springer 1996

[HAVDV] Hank A. Van Der Vorst: Oterative Krylov-Methods for Large Linear Systems,Cambridge University Press 2003

[StrVer] T. Strohmer, R. Vershynin: A randomized Kaczmarz algorithm with exponentialconvergence, J. Fourier Anal. Appl. 15(1), 262-278, 2009

[WCR] Werner C. Rheinboldt: Numerical analysis of parametrized nonlinear equationsWiley-Interscience New York, NY, USA, 1986 ISBN:0-471-88814-1

[WCR2] Werner C. Rheinboldt : Quasi-Newton Methods, http://www-m2.ma.tum.de/foswiki/pub/M2/Allgemeines/SemWs09/quasi-newt.pdf

289

Page 290: Numerische Methoden für grosse nichtlineare ... · Numerische Methoden für grosse nichtlineare Gleichungssysteme SoSe 2013 Wolfgang Mackens Institut für Mathematik, TUHH 1. April

[WH] Helmut Werner: Anwendungen und Fehlerabschätzungen für das alternierende Ver-fahren von H. A. Schwarz;

[Wer] Dirk Werner: Einführung in die höhere Analysis, Springer-Verlag, 2. Auflage 2009,ISBN 978-3-540-79599-5

[YS] Saad, Youssef: Iterative Methods for Sparse Linear Systems, SIAM 2003

http://www.mathematik.uni-ulm.de/numerik/teaching/ws10/Num1/index.html Kapitel 4Ste-fan Funken, Markus Bandle

JoséMário Martinez: Solving systems of nonlinearequations by means of an acceleratedsuccessive orthogonal projections method Journal of Computational and Applied Mathe-matics,Volume 16, 1986, Pages 169û179

290