Nichtlineare Optimierung
Skript zur Vorlesung
im
FrĂŒhjahrsemester 2011
Helmut Harbrecht
Stand: 25. Mai 2011
3
Vorwort
Diese Mitschrift kann und soll nicht ganz den Wortlaut der Vorlesung wiedergeben. Sie sollals Lernhilfe dienen und das Nacharbeiten des Inhalts der Vorlesung erleichtern. Nebenden unten genannten BĂŒchern, diente mir auch das Vorlesungsskript Numerik nichtlinearer
Optimierung von Gerhard Starke (Uni Hannover) als fruchtbare Quelle.
Literatur zur Vorlesung:
â C. Geiger und C. Kanzow: Numerische Verfahren zur Lösung unrestringierter Op-
timierungsaufgaben, Springer-Verlag
â C. Geiger und C. Kanzow: Theorie und Numerik restringierter Optimierungsaufga-
ben, Springer-Verlag
â F. Jarre und J. Stoer: Optimierung, Springer-Verlag
4 Inhaltsverzeichnis
Inhaltsverzeichnis
1 Grundlagen 5
1.1 EinfĂŒhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.2 OptimalitĂ€tskriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 KonvexitĂ€t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2 Gradientenverfahren 10
2.1 Idealisierte Variante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2 Praktische Variante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
3 Newton-Verfahren 15
3.1 Lokales Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . 153.2 Globalisiertes Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 203.3 Inexaktes Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 223.4 Trust-Region-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4 Quasi-Newton-Verfahren 31
5 Verfahren der konjugierten Gradienten 37
5.1 CG-Verfahren fĂŒr lineare Gleichungssysteme . . . . . . . . . . . . . . . . . 375.2 Nichtlineares CG-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 405.3 Modifiziertes Verfahren von Polak und RibiĂšre . . . . . . . . . . . . . . . . 43
6 Nichtlineare Ausgleichsprobleme 48
6.1 GauĂ-Newton-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 486.2 Levenberg-Marquardt-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . 51
7 Optimierungsprobleme mit Nebenbedingungen 56
7.1 OptimalitÀtsbedingungen erster Ordnung . . . . . . . . . . . . . . . . . . . 567.2 OptimalitÀtsbedingungen zweiter Ordnung . . . . . . . . . . . . . . . . . . 62
8 Projiziertes Gradientenverfahren 65
8.1 Konvergenzeigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . . . . 658.2 Affine Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
9 SQP-Verfahren 76
9.1 Quadratische Minimierungsprobleme mit affinen Nebenbedingungen . . . . 769.2 Bestimmung aktiver Nebenbedingungen . . . . . . . . . . . . . . . . . . . . 78
5
1. Grundlagen
1.1 EinfĂŒhrung
Optimierungsaufgaben treten in zahlreichen Anwendungsproblemen in den Natur- undIngenieurwissenschaften, der Wirtschaft oder der Industrie auf. Beispielsweise versuchenTransportunternehmen, die Fahrt- oder Flugkosten zu minimieren und dabei sicherzustel-len, dass alle AuftrĂ€ge ausgefĂŒhrt werden. Ebenso fĂŒhrt die numerische Simulation vielerphysikalischer VorgĂ€nge in den Naturwissenschaften auf Optimierungsprobleme, da daszugrundeliegende mathematische Modell oftmals auf dem Prinzip der Energieminimierungberuht.
Unter einem endlichdimensionalen Minimierungsproblem wird die folgende Aufgabe ver-standen: Gegeben sei eine Zielfunktion f : Rn â R. Gesucht ist ein Punkt xâ â R, sodass
f(xâ) †f(x) fĂŒr alle x â Rn.
Dabei ist es ausreichend, sich nur mit Minimierungsproblemen zu beschĂ€ftigen, da einMaximierungsproblem fĂŒr f immer einem Minimierungsproblem fĂŒr âf entspricht.
Definition 1.1 Es sei f : Rn â R. Ein Punkt xâ â Rn heiĂt globales Minimum, fallsgilt
f(xâ) †f(x) fĂŒr alle x â Rn.
Das Minimum ist ein lokales Minimum, wenn es eine Umgebung U â Rn von xâ gibt,so dass
f(xâ) †f(x) fĂŒr alle x â U.
Das Minimim heiĂt strikt, wenn im Fall x 6= xâ jeweils die strenge Ungleichung f(xâ) <f(x) gilt.
In der Regel ist es mit vertretbarem Aufwand nur möglich, ein lokales Minimum von f ineiner Umgebung eines Startwertes x0 zu bestimmen.
1.2 OptimalitÀtskriterien
Um ein lokales Minimum numerisch zu finden, versucht man iterativ die Gleichung âf(x) =0 zu lösen.
6 Kapitel 1. Grundlagen
Definition 1.2 Seien U â Rn eine offene Menge und f : U â R eine stetig differenzier-bare Funktion. Ein Punkt xâ â U heiĂt stationĂ€rer Punkt, falls gilt
âf(xâ) = 0.
Wir wiederholen einige bekannte Eigenschaften lokaler Minima aus der Analysis:
Satz 1.3 (notwendige Bedingung 1. Ordnung) Ist xâ ein lokales Minimum von f und istf stetig differenzierbar in einer Umgebung von xâ, dann gilt âf(xâ) = 0. Der Punkt xâ
ist also ein stationÀrer Punkt.
Satz 1.4 (notwendige Bedingung 2. Ordnung) Ist xâ ein lokales Minimum von f undist die Hesse-Matrix â2f stetig in einer Umgebung von xâ, dann gilt âf(xâ) = 0 undâ2f(xâ) ist eine positiv semidefinite Matrix.
Satz 1.5 (hinreichende Bedingung 2. Ordnung) Die Hesse-Matrix â2f sei stetig in einerUmgebung von xâ mit âf(xâ) = 0. Ist â2f(xâ) eine positiv definite Matrix, dann ist xâ
ein striktes lokales Minimum.
1.3 KonvexitÀt
Wir wenden uns einem wichtigen und in der Praxis oft auftretenden Spezialfall zu, bei demwir mit einem lokalen zugleich ein globales Minimum gefunden haben. Dazu sei angemerkt,dass eine Menge D â Rn konvex ist, falls aus x,y â D auch λx+ (1â λ)y â D folgt fĂŒralle λ â (0, 1).
Definition 1.6 Es sei D â Rn eine konvexe Menge. Die Funktion f : D â R heiĂtkonvex auf D, wenn fĂŒr alle λ â (0, 1) und alle x,y â D gilt
f(λx+ (1â λ)y
)†λf(x) + (1â λ)f(y).
Gilt fĂŒr x 6= y sogar stets die strikte Ungleichung, dann heiĂt die Funktion strikt konvex.Gibt es ein ” > 0, so dass
f(λx+ (1â λ)y
)+ ”λ(1â λ)âxâ yâ22 †λf(x) + (1â λ)f(y)
fĂŒr alle λ â (0, 1) und alle x,y â D, dann heiĂt die Funktion f gleichmĂ€Ăig konvex.
Beispiele 1.7
1. Die Gerade f(x) := x ist konvex auf R, aber nicht strikt konvex.
1.3. KonvexitÀt 7
2. Die Exponentialfunktion f(x) := exp(x) ist strikt konvex auf R, dort aber nichtgleichmĂ€Ăig konvex.
3. Die Parabel f(x) := x2 ist gleichmĂ€Ăig konvex auf R. Hingegen ist die sehr Ă€hnlichaussehende Funktion f(x) := x4 zwar strikt konvex auf R, aber nicht gleichmĂ€Ăigkonvex.
âł
âą
âą
âą
âą
-x λx+ (1â λ)y y
6
f(λx+ (1â λ)y
)
f(x)
λf(x) + (1â λ)f(y)
f(y)
f
Bei einer eindimensionalen konvexen Funktion liegt die Verbindungslinie zweier Punkteoberhalb des Graphen.
Bemerkung Sei f : Rn â R eine quadratische Funktion, das heiĂt
f(x) =1
2xTAx+ bTx + c
mit einer symmetrischen Matrix A â RnĂn, b â Rn und c â R. Die Funktion f ist genaudann konvex, wenn A positiv semidefinit ist. Ist die Matrix A sogar positiv definit, so istf sogar gleichmĂ€Ăig konvex. âł
Satz 1.8 Seien D â Rn eine offene und konvexe Menge und f : D â R stetig differen-zierbar. Die Funktion f ist genau dann konvex auf D, wenn fĂŒr alle x,y â D gilt
f(x)â f(y) â„ âf(y)T (xâ y). (1.1)
Ist diese Ungleichung strikt fĂŒr alle x 6= y, dann ist f sogar strikt konvex. Die Funktionf ist genau dann gleichmĂ€Ăig konvex, wenn ein ” > 0 existiert, so dass
f(x)â f(y) â„ âf(y)T (xâ y) + ”âxâ yâ22 (1.2)
fĂŒr alle x,y â D.
Beweis. Es gelte zuĂ€chst (1.2). FĂŒr x,y â D und beliebiges λ â (0, 1) ergibt sich dannmit z := λx + (1â λ)y
f(x)â f(z) â„ âf(z)T (xâ z) + ”âxâ zâ22,f(y)â f(z) â„ âf(z)T (y â z) + ”ây â zâ22.
8 Kapitel 1. Grundlagen
Multipliziert man diese Gleichungen mit λ beziehungsweise 1âλ und addiert sie anschlie-Ăend, dann folgt
λf(x) + (1â λ)f(y)â f(λx+ (1â λ)y
)â„ 2”λ(1â λ)âxâ yâ22,
das heiĂt, f ist gleichmĂ€Ăig konvex.
Sei f nun als gleichmĂ€Ăig konvex auf D vorausgesetzt. FĂŒr alle x,y â D und λ â (0, 1)gilt dann mit einem ” > 0
f(y + λ(xâ y)
)= f
(λx+ (1â λ)y
)
†λf(x) + (1â λ)f(y)â ”λ(1â λ)âxâ yâ22
und daher
f(y + λ(xâ y)
)â f(y)
λ†f(x)â f(y)â ”(1â λ)âxâ yâ22.
Aufgrund der stetigen Differenzierbarkeit von f folgt somit fĂŒr λâ 0+
âf(y)T (xâ y) †f(x)â f(y)â ”âxâ yâ22,
dies bedeutet, es gilt (1.2). Da der soeben gefĂŒhrte Beweis auch im Fall ” = 0 seineGĂŒltigkeit behĂ€lt, folgt die Ăquivalenz von (1.1) zur KonvexitĂ€t von f .
Es verbleibt zu zeigen, dass die strikte KonvexitÀt von f die strikte Ungleichung
f(x)â f(y) > âf(y)T (xâ y)
fĂŒr alle x,y â D mit x 6= y impliziert. Als strikt konvexe Funktion ist f insbesonderekonvex, das heiĂt, es gilt (1.1). FĂŒr
z :=1
2(x+ y) =
1
2x+
(1â 1
2
)y
ergibt sich daher
âf(y)T (xâ y) = 2âf(y)T (zâ y) †2{f(z)â f(y)
}. (1.3)
Ist x 6= y, dann folgt wegen der strikten KonvexitÀt
f(z) <1
2f(x) +
1
2f(y).
Dies eingesetzt in (1.3) liefert die Behauptung
âf(y)T (xâ y) < f(x)â f(y).
Satz 1.9 Die Funktion f : D â Rn â R sei konvex. Dann ist jedes lokale Minimum xâ
auch ein globales Minimum von f . Ist f zusĂ€tzlich differenzierbar, so ist jeder stationĂ€rePunkt xâ ein globales Minimum.
1.3. KonvexitÀt 9
Beweis. Angenommen, der Punkt xâ ist ein lokales, aber kein globales Minimum. Danngibt es einen Punkt yâ â Rn mit f(yâ) < f(xâ). FĂŒr alle
x = λxâ + (1â λ)yâ, λ â (0, 1) (1.4)
gilt aufgrund der KonvexitÀt
f(x) †λf(xâ) + (1â λ)f(yâ) < f(xâ).
Da in jeder Umgebung von xâ Punkte der Form (1.4) liegen, steht dies im Widerspruchzur Annahme, dass xâ ein lokales Minimum ist. Folglich ist jedes lokale Minimum auchein globales Minimum.
Wir zeigen nun die zweite Aussage. Dazu sei f differenzierbar vorausgesetzt und xâ einstationĂ€rer Punkt. Wir fĂŒhren den Beweis wieder per Widerspruch und nehmen an, dassxâ kein lokales Minimum ist. Dann können wir ein yâ wie oben wĂ€hlen und erhaltenaufgrund der KonvexitĂ€t
âf(xâ)T (yâ â xâ) =d
dsf(xâ + t(yâ â xâ)
)âŁâŁâŁt=0
= limtâ0+
f(xâ + t(yâ â xâ)
)â f(xâ)
t
†limtâ0+
(1â t)f(xâ) + tf(yâ)â f(xâ)
t
= f(yâ)â f(xâ) < 0.
Deshalb ist âf(xâ) 6= 0 und folglich ist xâ kein stationĂ€rer Punkt.
10 Kapitel 2. Gradientenverfahren
2. Gradientenverfahren
2.1 Idealisierte Variante
Im folgenden setzen wir stets voraus, dass f : D â Rn â R stetig differenzierbar ist.ZunĂ€chst wollen wir das Gradientenverfahren betrachten, das auch Verfahren des steilsten
Abstiegs genannt wird. Die Idee dabei ist, die Iterierte xk in Richtung des Antigradientenââf(xk) aufzudatieren
xk+1 := xk â αkâf(xk),
so dass f(xk+1) < f(xk) ist. Dass dies im Fall âf(xk) 6= 0 immer möglich ist, zeigt unsdas nĂ€chste Lemma.
Lemma 2.1 Vorausgesetzt es ist âf(xk) 6= 0, dann gibt es ein ÎŽ > 0, so dass dieFunktion
Ï(α) = f(xk â αâf(xk)
)
fĂŒr alle 0 †α †Ύ streng monoton fĂ€llt. Insbesondere gilt
f(xk â ÎŽâf(xk)
)< Ï(0) = f(xk).
Beweis. Die Funktion Ï ist stetig differenzierbar und es gilt
ÏâČ(0) =d
dαf(xk â αâf(xk)
)âŁâŁâŁÎ±=0
= âââf(xk)â22 < 0.
Aus StetigkeitsgrĂŒnden folgt die Existenz eines ÎŽ > 0 mit ÏâČ(α) < 0 fĂŒr alle 0 †α †Ύund damit die Behauptung.
Algorithmus 2.2 (idealisiertes Gradientenverfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze k := 0
â berechne den Antigradienten dk = ââf(xk)
â löseαk = argmin
αâRf(xk + αdk) (2.1)
â setze xk+1 := xk + αkdk
2.1. Idealisierte Variante 11
â erhöhe k := k + 1 und gehe nach â
Satz 2.3 Die Funktion f : D â Rn â R sei gleichmĂ€Ăig konvex. Weiter sei f differen-zierbar mit Lipschitz-stetigem Gradienten:
ââf(x)ââf(y)â2 †Lâxâ yâ2 fĂŒr alle x,y â D.
Dann konvergiert das idealisierte Gradientenverfahren fĂŒr beliebige StartnĂ€herungen x0 âD gegen das eindeutige globale Minimum xâ und es gilt
f(xk+1)â f(xâ) â€(1â ”2
L2
){f(xk)â f(xâ)
}, k = 1, 2, . . . .
Beweis. Aufgrund von (2.1) gilt fĂŒr ein beliebiges ÎČ > 0, dass
f(xk+1) †f(xk â ÎČâf(xk)
)
= f(xk)â ÎČ
â« 1
0
âf(xk â tÎČâf(xk)
)Tâf(xk) dt
= f(xk)â ÎČââf(xk)â22 â ÎČ
â« 1
0
{âf
(xk â tÎČâf(xk)
)ââf(xk)
}Tâf(xk) dt
†f(xk)â ÎČââf(xk)â22 + ÎČ
â« 1
0
â„â„âf(xk â tÎČâf(xk)
)ââf(xk)
â„â„2ïžž ïž·ïž· ïžž
â€tÎČLââf(xk)â2
ââf(xk)â2 dt
†f(xk)â(ÎČ â ÎČ2L
2
)ââf(xk)â22.
FĂŒr ÎČ = 1/L schlieĂen wir also
f(xk+1)â f(xâ) †f(xk)â f(xâ)â 1
2Lââf(xk)ââf(xâ)ïžž ïž·ïž· ïžž
=0
â22. (2.2)
Die gleichmĂ€Ăige KonvexitĂ€t impliziert
”âxk â xââ22 â€{âf(xk)ââf(xâ)
}T(xk â xâ) †ââf(xk)ââf(xâ)â2âxk â xââ2.
Dies eingesetzt in (2.2) liefert
f(xk+1)â f(xâ) †f(xk)â f(xâ)â ”2
2Lâxk â xââ22.
12 Kapitel 2. Gradientenverfahren
Weiterhin erhalten wir aus der Lipschitz-Bedingung
f(xk)â f(xâ) =
â« 1
0
âf(xâ + t(xk â xâ)
)T(xk â xâ) dt
=
â« 1
0
{âf
(xâ + t(xk â xâ)
)ââf(xâ)
}T(xk â xâ) dt
â€â« 1
0
â„â„âf(xâ + t(xk â xâ)
)ââf(xâ)
â„â„2ïžž ïž·ïž· ïžž
â€tLâxkâxââ2
âxk â xââ2 dt
=L
2âxk â xââ22,
womit sich die gewĂŒnschte AbschĂ€tzung ergibt.
Bemerkung Im obigen Beweis haben wir
f(xk)â f(xâ) †L
2âxk â xââ22
gezeigt. Umgekehrt folgt aus der gleichmĂ€Ăigen KonvexitĂ€t aber auch
f(xk)â f(xâ) â„â« 1
0
âf(xâ + t(xk â xâ)
)T(xk â xâ) dt
â„â« 1
0
t”âxk â xââ22 dt
=”
2âxk â xââ22.
Daher folgt aus Satz 2.3, dass der Fehler des idealisierten Gradientenverfahrens
âxk â xââ22 â€2
”
{f(xk)â f(xâ)
}
†2
”
(1â ”2
L2
)k{f(x0)â f(xâ)
}
†L
”
(1â ”2
L2
)k
âx0 â xââ22.
Wir erhalten demnach eine lineare Konvergenzordnung
âxk â xââ2 †cÏkâx0 â xââ2mit Ï =
â1â ”2/L2 < 1. âł
2.2 Praktische Variante
Um einen praktikablen Algorithmus fĂŒr das Gradientenverfahren zu erhalten, mĂŒssen wirnoch das eindimensionale Minimierungsproblem (2.1) lösen. Die Bedingung
d
dαf(xk + αdk) = âf(xk + αdk)
Tdk = 0
stellt eine nichtlineare Gleichung fĂŒr α â R dar, deren exaktes Lösen viel zu teuer ist.Daher halbiert man die Schrittweite ausgehend von αk = 1 solange, bis ein Abstieg erzieltwurde.
2.2. Praktische Variante 13
Bemerkung Ist f(x) = 12xTAx+ bTx + c eine quadratische Funktion, dann kann (2.1)
exakt gelöst werden:
αk =dTkdk
dkAdk, wobei dk := bâAxk.
In diesem Fall ist das idealisierte Gradientenverfahren leicht durchfĂŒhrbar und konvergiertgemÀà Satz 2.3 linear. Der Kontraktionsfaktor Ï hĂ€ngt dabei stark von der Kondition derMatrix A ab, denn es gilt
Ï =cond2(A)â 1
cond2(A) + 1.
âł
Algorithmus 2.4 (Gradientenverfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: wĂ€hle Ï â (0, 1) und setze k := 0
â berechne den Antigradienten dk := ââf(xk) und setze αk := 1
â solangef(xk + αkdk) > f(xk)â Ïαkâdkâ22 (2.3)
setze αk := αk/2
â setze xk+1 := xk + αkdk
â erhöhe k := k + 1 und gehe nach â
Bemerkung Die Liniensuche â wird als Armijo-Schrittweitenregel bezeichnet. Sie ga-rantiert nicht nur Abbruchbedingung f(xk+1) < f(xk), sondern die Armijo-Goldstein-
Bedingung
f(xk â αkâf(xk)
)†f(xk)â Ïαkââf(xk)â22. (2.4)
Dabei bricht die Liniensuche mit einem αk > 0 ab, denn fĂŒr Ï(α) = f(xk â αâf(xk)
)
gilt nÀmlich
f(xk â αâf(xk)
)= Ï(α) = Ï(0) + αÏâČ(0) + O(α) = f(xk)â αââf(xk)â22 + O(α).
âłDer nachfolgende Satz liefert ein globales Konvergenzresultat fĂŒr das Gradientenverfah-ren unter der Verwendung der Armijo-Schrittweitenregel. Er benötigt nur die Lipschitz-stetigkeit von f , aber keine KonvexitĂ€t.
Satz 2.5 Es sei D â Rn eine offene Menge, in der f stetig differenzierbar, nach untenbeschrĂ€nkt und âf zudem Lipschitz-stetig ist. Ferner sei neben x0 auch die gesamteNiveaumenge {x â Rn : f(x) †f(x0)} in D enthalten. Dann gilt fĂŒr die Iterierten{xk}kâ„0 aus Algorithmus 2.4
âf(xk)kââââ 0.
14 Kapitel 2. Gradientenverfahren
Beweis. Da D die gesamte Niveaumenge enthĂ€lt, ist sichergestellt, dass die Iterierten{xk}kâ„0 alle in D enthalten sind. Nach Konstruktion ist dann die Folge {f(xk)}kâ„0 mono-ton fallend und nach unten beschrĂ€nkt. Daher folgt aus der Armijo-Goldstein-Bedingung(2.4), dass
f(x0) â„ f(x1) + Ïα0ââf(x0)â22 ℠· · · â„ f(xk+1) + Ï
kâ
â=0
αâââf(xâ)â22 â„ 0.
Da die Reihe auf der rechten Seite notwendigerweise fĂŒr k â â konvergent ist, folgt
αkââf(xk)â22kââââ 0. (2.5)
Es verbleibt zu zeigen, dass αk > Δ fĂŒr ein Δ > 0.
FĂŒr festes k ist aufgrund von Algorithmus 2.4 αk = 1 oder die Armijo-Goldstein-Bedingungist fĂŒr 2αk verletzt:
2Ïαkââf(xk)â22 > f(xk)â f(xk â 2αkâf(xk)
)= 2αkââf(xk)â22 â R2(xk, 2αk)
mit dem Taylor-Restglied
R2(xk, 2αk) = 2αk
(ââf(xk)â22 ââf
(xk â Οâf(xk)
)Tâf(xk)), Ο â (0, 2αk).
Da âf Lipschitz-stetig ist, ist das Taylor-Restglied R2(xk, 2αk) durch Μα2kââf(xk)â22 fĂŒr
ein geeignetes Îœ > 0 beschrĂ€nkt. Daher ist
Ïα2kââf(xk)â22 > 2αkââf(xk)â22 â 2Μαkââf(xk)â22 = 2αk(1â Îœ)ââf(xk)â22,
dies bedeutet
αk >2(1â Îœ)
Ï=: Δ > 0.
Somit bleibt αk fĂŒr alle k â„ 0 gröĂer als min{1, Δ} und daher folgt die Behauptung aus(2.5).
Beachte: Satz 2.5 besagt nicht, dass die Folge {xk}kâ„0 selber konvergiert. Selbst wenndie Folge {xk}kâ„0 konvergiert, braucht der Grenzwert darĂŒberhinaus kein Minimum vonf zu sein.
Beispiel 2.6 Gegeben sei die Funktion
f(Ο, η) = Ο2 + (η2 â 1)2 + Ο2(η2 â 1)2 â min .
Das Minimum von f ist 0 und wird offensichtlich fĂŒr Ο = 0 und η = ±1 angenommen.Hat eine Iterierte xk von Algorithmus 2.4 die Form xk = [Οk, 0]
T , dann gilt
âf(xk) =
[2Ο + 2Ο(η2 â 1)2
2η(η2 â 1)(1 + Ο2)
] âŁâŁâŁâŁ(Ο,η)=(Οk ,0)
=
[4Οk0
].
Daher hat die nĂ€chste Iterierte zwangslĂ€ufig wieder die Form xk+1 = [Οk+1, 0]T und nach
Satz 2.5 konvergiert âf(xk) = [4Οk, 0]T gegen Null. Deshalb streben auch Οk und xk gegen
Null fĂŒr k â â. Dennoch ist [0, 0]T lediglich ein Sattelpunkt von f , da f(0, η) fĂŒr η = 0ein lokales Maximum aufweist. âł
15
3. Newton-Verfahren
3.1 Lokales Newton-Verfahren
Sei f : Rn â R zweimal stetig differenzierbar. Beim Newton-Verfahren wird das Mini-mierungsproblem f(x) â min gelöst, indem sukzessive die quadratischen NĂ€herungen
qk(x) := f(xk) +âf(xk)T (xâ xk) +
1
2(xâ xk)
Tâ2f(xk)(xâ xk)
minimiert. Ist die Hesse-Matrix â2f(xk) positiv definit, so ist die neue Iterierte xk+1
genau die Lösung der Gleichung
âqk(x) = âf(xk) +â2f(xk)(xâ xk)!= 0.
Hieraus ergibt sich die Iterationsvorschrift
xk+1 = xk â(â2f(xk)
)â1âf(xk), k = 0, 1, 2, . . . . (3.1)
Algorithmus 3.1 (Newton-Verfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze k := 0
â berechne die Newton-Richtung durch Lösen des linearen Gleichungssystems
â2f(xk)dk = ââf(xk) (3.2)
â setze xk+1 := xk + dk
â erhöhe k := k + 1 und gehe nach â
Der mÀchtigste Satz zum Newton-Verfahren ist der Satz von Newton-Kantorovich. Erliefert nicht nur die Konvergenz des Newton-Verfahrens, sondern auch die Existenz einesstationÀren Punkts.
Satz 3.2 (Newton-Kantorovich) Sei D â Rn offen und konvex und f : D â Rn â R
zweimal stetig differenzierbar mit
ââ2f(x)ââ2f(y)â2 †Lâxâ yâ2
16 Kapitel 3. Newton-Verfahren
1x
0x
2 x
fâ(x)
Abbildung 3.1: Geometrische Interpretation des Newton-Verfahrens.
fĂŒr alle x,y â D. FĂŒr ein gegebenes x0 â D nehmen wir an, dass die Hesse-Matrixâ2f(x0) invertierbar ist mit α :=
â„â„(â2f(x0
)â1â„â„2. Ferner gelte
ÎČ :=â„â„(â2f(x0)
)â1âf(x0)â„â„2†1
2αL
und fĂŒr
γ± :=1
αL
(1±
â1â 2αÎČL
)â„ 0
sei S := {x â Rn : âxâx0â2 †γâ} â D. Dann sind die Iterierten des Newton-Verfahrens(3.1) wohldefiniert, liegen alle in S und konvergieren gegen ein xâ â S mit âf(xâ) = 0,welches eindeutig ist in D â© {x â Rn : âxâ x0â2 †γ+}. Insbesondere ist die Konvergenzquadratisch, falls 2αÎČL < 1 ist. Dies bedeutet, es existiert ein c > 0 so dass gilt
âxâ â xk+1â2 †câxâ â xkâ22.
Bevor wir den Beweis dieses Satzes erbringen, stellen wir drei hilfreiche Lemmata zurVerfĂŒgung. Dabei gelten stets die Voraussetzungen des Satzes von Newton-Kantorovich.
Lemma 3.3 Sei {yk}kâ„0 eine Folge im Rn und {tk}kâ„0 eine Folge nichtnegativer, monotonwachsender, reeller Zahlen mit tk â tâ <â. Gilt
âyk+1 â ykâ2 †tk+1 â tk, k = 0, 1, . . . ,
dann existiert ein eindeutig bestimmtes yâ â Rn mit yk â yâ und
âyâ â ykâ2 †tâ â tk, k = 0, 1, . . . .
Dies bedeutet, die Folge {tk}kâ„0 majorisiert {yk}kâ„0.
3.1. Lokales Newton-Verfahren 17
Beweis. Es gilt
âyk+p â ykâ2 =â„â„â„â„
k+pâ1â
â=k
(yâ+1 â yâ)
â„â„â„â„2
â€k+pâ1â
â=k
âyâ+1 â yââ2
â€k+pâ1â
â=k
tâ+1 â tâ
ïžž ïž·ïž· ïžž=tk+pâtk
†tâ â tk.
Folglich ist {yk}kâ„0 eine Cauchy-Folge im Rn, woraus die Behauptung folgt.
Lemma 3.4 FĂŒr alle x â T := {x â Rn : âx â x0â2 < 1/(αL)} ist die Hesse-Matrixâ2f(x) invertierbar mit
â„â„(â2f(x))â1â„â„
2†α
1â αLâxâ x0â2. (3.3)
Ist auĂerdem N(x) := xâ(â2f(x)
)â1âf(x) â T , dann gilt
â„â„N(N(x)
)âN(x)
â„â„2†1
2
αLâxâN(x)â21â αLâx0 âN(x)â2
.
Beweis. FĂŒr x â T gilt
â„â„(â2f(x0))â1(â2f(x0)ââ2f(x)
)â„â„2â€
â„â„(â2f(x0))â1â„â„
2ïžž ïž·ïž· ïžžâ€Î±
ââ2f(x0)ââ2f(x)â„â„2ïžž ïž·ïž· ïžž
â€Lâx0âxâ2
< 1.
Die Satz von der Neumann-Reihe liefert daher die Existenz von
{I â
(â2f(x0)
)â1(â2f(x0)ââ2f(x))}â1
=
ââ
k=0
{(â2f(x0)
)â1(â2f(x0)ââ2f(x))}k
.
Speziell folgt die AnschÀtzung
â„â„{Iâ(â2f(x0)
)â1(â2f(x0)ââ2f(x))}â1â„â„
2â€
ââ
k=0
{αLâx0âxâ2
}k=
1
1â αLâx0 â xâ2.
Die AbschÀtzung (3.3) ergibt sich nun aus der IdentitÀt
(â2f(x)
)â1=
{I â
(â2f(x0)
)â1(â2f(x0)ââ2f(x))}â1â2f(x0).
18 Kapitel 3. Newton-Verfahren
Die zweite Aussage des Lemmas sieht man wie folgt. Mit dem soeben gezeigten gilt
â„â„N(N(x)
)âN(x)
â„â„2=
â„â„â„N(x)â(â2f
(N(x)
))â1
âf(N(x)
)âN(x)
â„â„â„2
â€â„â„â„(â2f
(N(x)
))â1â„â„â„2
â„â„âf(N(x)
)â„â„2
†α
1â αLâN(x)â x0â2â„â„âf
(N(x)
)â„â„2.
Wir mĂŒssen also nur nochâ„â„âf
(N(x)
)â„â„2
abschÀtzen. Aufgrund der IdentitÀt
âf(x)ââ2f(x)(N(x)â x
)= 0
schlieĂen wirâ„â„âf
(N(x)
)â„â„2=
â„â„âf(N(x)
)ââf(x)ââ2f(x)
(N(x)â x
)â„â„2.
Mit
âf(y)ââf(x) =â« 1
0
â2f(x+ t(y â x)
)(yâ x) dt
und y := N(x) folgt
â„â„âf(N(x)
)â„â„2=
â„â„â„â„â« 1
0
{â2f(x+ t(y â x)
)ââ2f(x)
}(y â x) dt
â„â„â„â„2
â€â« 1
0
ââ2f(x+ t(y â x))ââ2f(x)
â„â„2ïžž ïž·ïž· ïžž
â€Ltâyâxâ2
ây â xâ2 dt
†L
2âN(x)â xâ22.
Damit ergibt sich schlieĂlich die Behauptung.
Lemma 3.5 Die Folge der Newton-Iterierten {xk}kâ„0 ist wohldefiniert und durch dieFolge {tk}kâ„0 mit
t0 := 0, tk+1 :=ÎČ â αL
2t2k
1â αLtk, k = 1, 2, . . . (3.4)
majorisiert. Insbesondere konvergiert tk monoton von unten gegen tâ := Îłâ.
Beweis. Wir zeigen zunĂ€chst induktiv, dass 0 = t0 < t1 < · · · < tk < tâ gilt. Da fĂŒr k = 0nichts zu zeigen ist, können wir annehmen, dass die Aussage fĂŒr ein k â N0 bewiesen ist.Mit quadratischer ErgĂ€nzung folgt die Gleichung
tk+1 â tk =ÎČ â αL
2t2k â tk + αLt2k1â αLtk
=αL2(tk â tkâ1)
2 +
=0ïž· ïžžïžž ïž·ÎČ â αL
2t2kâ1 â (1â αLtkâ1)tk
1â αLtk
=1
2
αL(tk â tkâ1)2
1â αLtk.
3.1. Lokales Newton-Verfahren 19
Wegen 1 â αLtk > 0 und tkâ1 < tk schlieĂen wir tk < tk+1. Um tk+1 < tâ zu zeigen,betrachten wir das Polynom p(t) := αL
2t2â t+ÎČ, welches die zwei Nullstellen Îłâ = tâ und
Îł+ besitzt. Wegen
tâ â tk+1 =tâ â αLtkt
â â ÎČ + αL2t2k
1â αLtk
=αL2(tâ â tk)
2 â=0ïž·ïžžïžžïž·p(tâ)
1â αLtk
=1
2
αL(tâ â tk)2
1â αLtkïžž ïž·ïž· ïžž>0
> 0
ist in der Tat tk+1 < tâ, womit ist der Induktionsschritt k 7â k + 1 erbracht ist. Ins-besondere folgt zwingend die Konvergenz tk â tâ, da Fixpunkte der Iteration (3.4) derBedingung 0 = p(t) genĂŒgen mĂŒssen und tâ = Îłâ < Îł+ gilt.
Wir zeigen nun, dass alle xk existieren, in S liegen und jeweils âxk â xkâ1â2 †tk âtkâ1 erfĂŒllen. FĂŒr k = 0 ist dies sicherlich richtig. Es möge also die Folge x1, . . . ,xk
das Behauptete erfĂŒllen. Wegen S â T folgt der Induktionsschritt k 7â k + 1 dann ausLemma 3.4 gemĂ€Ă
âxk+1 â xkâ2 =â„â„N
(N(xkâ1)
)âN(xkâ1)
â„â„2
†1
2
αLâxk â xkâ1â21â αLâxk â x0â2
†1
2
αL(tk â tkâ1)
1â αLtk= tk+1 â tk
und
âxk+1 â x0â2 â€kâ
â=0
âxâ+1 â xââ2 â€kâ
â=0
tâ+1 â tâ = tk+1 â t0 †tâ = Îłâ.
Wir sind nun in der Lage, den Satz von Newton-Kantorovich beweisen zu können, wobeiwir nur die Existenz eines stationĂ€ren Punktes xâ nachweisen und nicht dessen Eindeu-tigkeit.
Beweis des Satzes von Newton-Kantorovich. Nach Lemma 3.5 werden die Newton-Iterierten{xk}kâ„0 von {tk}kâ„0 majorisiert und konvergieren gemÀà Lemma 3.3 gegen ein eindeutigbestimmtes xâ â S. Wegen
ââf(xk)â2 = ââ2f(xk)(xk+1 â xk)â2â€
â„â„{â2f(xk)ââ2f(x0)}(xk+1 â xk)
â„â„2+ ââ2f(x0)(xk+1 â xk)â2
â€{Ltâ + ââ2f(x0)â2
}ïžž ïž·ïž· ïžž
<â
âxk+1 â xkâ2ïžž ïž·ïž· ïžžâ0
â 0
20 Kapitel 3. Newton-Verfahren
und der Stetigkeit von âf , ist auch die Gleichung âf(xâ) = 0 erfĂŒllt. Ist ferner 2αÎČL < 1,dann konvergiert aufgrund der AbschĂ€tzung
tâ â tk =αL2(tâ â tkâ1)
2
1â αLtkâ1†αL
2â 2αLtâ(tâ â tkâ1)
2
die Folge {tk}kâ„0 quadratisch. Dies impliziert sofort die quadratische Konvergenz derdurch {tk}kâ„0 majorisierten Folge {xk}kâ„0. ïżœ
Bemerkungen
1. Die Konvergenz des Newton-Verfahrens ist im allgemeinen nur lokal.
2. Der Satz von Newton-Kantorovich benutzt nirgendwo KonvexitÀt. Das Newton-Verfahren konvergiert folglich auch im Fall von Sattelpunkten.
âł
3.2 Globalisiertes Newton-Verfahren
Um das Newton-Verfahren zu globalisieren, mĂŒssen wir sicherstellen, dass die Suchrich-tung auch dann wohldefiniert ist, wenn sich das Gleichungssystem (3.2) nicht lösen lĂ€sstoder es gar keine Abstiegsrichtung beschreibt. In beiden FĂ€llen machen wir dann einfacheinen Gradientenschritt:
Algorithmus 3.6 (globalisiertes Newton-Verfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: wĂ€hle Ï â (0, 1), Ï > 0 und setze k := 0
â berechne, falls möglich, die Newton-Richtung durch Lösen des linearen Gleichungs-systems
â2f(xk)dk = ââf(xk)
â ist das Gleichungssystem nicht lösbar oder ist die Bedingung
âf(xk)Tdk †âÏââf(xk)â22 (3.5)
nicht erfĂŒllt, dann setze dk := ââf(xk)
â setze αk := 1
â solangef(xk + αkdk) > f(xk) + Ïαkâf(xk)
Tdk (3.6)
setze αk := αk/2
â setze xk+1 := xk + αkdk
â erhöhe k := k + 1 und gehe nach â
Die Bedingungen (3.5) und (3.6) garantieren zusammen die Armijo-Goldstein-Bedingung(2.4) und somit einen hinreichenden Abstieg. Die Konvergenz âf(xk) â 0 folgt daheranalog zum entsprechenden Satz 3.6 ĂŒber das Gradientenverfahren. Aus dem nachfol-
3.2. Globalisiertes Newton-Verfahren 21
genden Satz ergibt sich, dass das globalisierte Newton-Verfahren in der Umgebung einesMinimums zum lokalen Newton-Verfahren wird.
Satz 3.7 Seien f : Rn â R zweimal stetig differenzierbar und xâ â Rn ein stationĂ€rerPunkt, an dem die Hesse-Matrix â2f(xâ) positiv definit ist. Konvergiert die Folge {xk}kâ„0
der Newton-Iterierten gegen xâ, dann exitistiert ein k0 â N mit
f(xk + dk) > f(xk) + Ïâf(xk)Tâ2f(xk)âf(xk) (3.7)
fĂŒr alle k â„ k0 und jedes feste Ï â (0, 1/2).
Beweis. Aus den Voraussetzung folgt aus StetigkeitsgrĂŒnden zunĂ€chst
ââf(xk)â2 kââââ 0. (3.8)
Ferner ist â2f(xâ) invertierbar und aufgrund der Stetigkeit schlieĂen wir auf die Existenzeiner Umgebung U â Rn von xâ mit
â„â„(â2f(x))â1â„â„
2†c fĂŒr alle x â U.
Daher existiert ein k0 â N, so dass
â„â„(â2f(xk))â1â„â„
2†c fĂŒr alle k â„ k0.
Aus der Newton-Gleichung dk := â(â2f(xk)
)â1âf(xk) folgt deshalb
âdkâ2 â€â„â„(â2f(xk)
)â1â„â„2ââf(xk)â2 †cââf(xk)â2 kââââ 0.
Da mit â2f(xâ) auch(â2f(xâ)
)â1positiv definit ist, können wir k0 vergröĂern, so dass
âf(xk)T(â2f(xk)
)â1âf(xk) â„ cââf(xk)â22 fĂŒr alle k â„ k0. (3.9)
Nach dem Taylorschen Satz exitiert ein Οk auf der Verbindungsstrecke von xk und xk+dk,so dass gilt
f(xk + dk) = f(xk) +âf(xk)Tdk +
1
2dTkâ2f(Οk)dk.
Wegen xk â xâ und dk â 0 gilt auch Οk â xâ und folglich
ââ2f(Οk)ââ2f(xk)â2 kââââ 0.
Wegen Ï â (0, 1/2) ist daher
(Ï â 1
2
)c
ïžž ïž·ïž· ïžž<0
+1
2c2ââ2f(Οk)ââ2f(xk)â2 †0 (3.10)
22 Kapitel 3. Newton-Verfahren
fĂŒr alle k genĂŒgend groĂ. FĂŒr groĂes k folgt die Behauptung nun aus der Cauchy-SchwarzschenUngleichung, (3.8),(3.9) und (3.10):
f(xk + dk) = f(xk) +âf(xk)Tdk +
1
2dTkâ2f(xk)dkïžž ïž·ïž· ïžž=ââf(xk)Tdk
+1
2dTk
{â2f(Οk)ââ2f(xk)
}dk
†f(xk) +1
2âf(xk)
Tdk +1
2âdkâ22ââ2f(Οk)ââ2f(xk)â2
= f(xk) + Ïâf(xk)Tdk +
(Ï â 1
2
)dTkâ2f(xk)dkïžž ïž·ïž· ïžž
=âf(xk)T (â2f(xk))â1âf(xk)
+1
2âdkâ22ââ2f(Οk)ââ2f(xk)â2
†f(xk) + Ïâf(xk)Tdk
+
{(Ï â 1
2
)c +
1
2c2ââ2f(Οk)ââ2f(xk)â2
ïžž ïž·ïž· ïžžâ€0
}ââf(xk)â22
†f(xk) + Ïâf(xk)Tdk.
Sind die Voraussetzungen des Satzes 3.7 erfĂŒllt, dann zeigt AbschĂ€tzung (3.10), dass (3.5)fĂŒr ein genĂŒgend kleines Ï erfĂŒllt ist. Daher folgt dann aus (3.7), dass (3.6) stets gilt.
3.3 Inexaktes Newton-Verfahren
Beim inexakten Newton-Verfahren wird das Gleichungssystem (3.2) nicht exakt, sondernnur nĂ€herungsweise gelöst. Dies entspricht natĂŒrlich der numerischen Praxis.
Algorithmus 3.8 (inexaktes lokales Newton-Verfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze k := 0
â wĂ€hle eine Toleranz ηk > 0 und bestimme eine Suchrichtung dk mit
ââf(xk) +â2f(xk)dkâ2 †ηkââf(xk)â2 (3.11)
â setze xk+1 := xk + dk
â erhöhe k := k + 1 und gehe nach â
Die Konvergenzrate des inexakten Newton-Verfahrens ergibt sich aus dem nachfolgendenSatz. Speziell gibt er uns eine Bedingung an die Wahl der Toleranzen {ηk} an, so dass dasVerfahren dennoch quadratisch konvergiert.
3.3. Inexaktes Newton-Verfahren 23
Satz 3.9 Seien f : Rn â R zweimal stetig differenzierbar und xâ â Rn ein stationĂ€rerPunkt, an dem die Hesse-Matrix â2f(xâ) positiv definit ist. Dann existiert eine UmgebungU â Rn von xâ, so dass fĂŒr alle x0 â U gelten:
(i.) Ist ηk †η fĂŒr ein hinreichend kleines η, dann ist Algorithmus 3.8 wohldefiniert unddie durch ihn erzeugte Folge {xk}kâ„0 konvergiert mindestens linear gegen xâ.
(ii.) Die Konvergenzrate ist superlinear, falls ηk â 0 gilt.
(iii.) Die Konvergenzrate ist quadratisch, falls ηk = O(ââf(xk)â2) gilt und â2f lokalLipschitz-stetig ist.
Beweis. Da f zweimal stetig differenzierbar ist, ist âf lokal Lipschitz-stetig. Daher exis-tiert eine Umgebung U â Rn von xâ und ein L > 0 derart, dass
ââf(x)â2 = ââf(x)ââf(xâ)â2 †Lâxâ xââ2 fĂŒr alle x â U.
Da â2f(xâ) invertierbar ist, folgt, indem wir U eventuell verkleinern, aufgrund der Ste-tigkeit â„â„(â2f(x)
)â1â„â„2†c fĂŒr alle x â U.
Aus der Definition der Ableitung einer Funktion schlieĂen wir, indem wir wieder U even-tuell verkleinern, dass
ââf(xâ)ââf(x)ââ2f(x)(xâ xâ)â2ïžž ïž·ïž· ïžž=O(âxâxââ2)
†1
4câxâ xââ2.
Setze nun η := 1/(4cL) und wĂ€hle x0 â U . Dann ist â2f(x0) regulĂ€r und es lĂ€sst sich eind0 mit (3.11) berechnen. Somit ist x1 wohldefiniert und wegen
âx1 â xââ2 =â„â„x0 â xâ â
(â2f(x0)
)â1âf(x0) +(â2f(x0)
)â1{â2f(x0)d0 +âf(x0)}â„â„
2
â€â„â„(â2f(x0)
)â1â„â„2
{â„â„â2f(x0)(x0 â xâ)ââf(x0) +âf(xâ)â„â„2
+â„â„â2f(x0)d0 +âf(x0)
â„â„2ïžž ïž·ïž· ïžž
â€Î·ââ2f(x0)â2
}
†c
(1
4c+ ηL
)âx0 â xââ2
=1
2âx0 â xââ2
wieder in U enthalten. Mit vollstĂ€ndiger Induktion schlieĂen wir
âxk â xââ2 â€1
2kâx0 â xââ2,
was die lineare Konvergenz xk â xâ nachweist.
Zum Nachweis von (ii.) bemerken wir, dass analog zur obigen Ungleichungskette auch
âxk+1 â xââ2 †c{â„â„â2f(xk)(xk â xâ)ââf(xk) +âf(xâ)
â„â„2+ ηkââ2f(xk)â2
}
†c{â„â„â2f(xk)(xk â xâ)ââf(xk) +âf(xâ)
â„â„2+ ηkLâxk â xââ2
}
24 Kapitel 3. Newton-Verfahren
bewiesen werden kann. FĂŒr ηk â 0 ist daher
âxk+1 â xââ2 = O(âxk â xââ2),das heiĂt, {xk}kâ„0 konvergiert superlinear gegen xâ.
Die lokal quadratische Konvergenz wird ganz Àhnlich nachgewiesen: Mit
âf(xk)ââf(xâ) =
â« 1
0
â2f(xâ + t(xk â xâ)
)(xk â xâ) dt
folgt mittels der lokalen Lipschitzstetigkeitâ„â„â2f(xk)(xk â xâ)ââf(xk) +âf(xâ)
â„â„2
=
â„â„â„â„â« 1
0
{â2f(xk)â f
(xâ + t(xk â xâ)
)}(xk â xâ) dt
â„â„â„â„2
â€â« 1
0
â„â„â2f(xk)ââ2f(xâ + t(xk â xâ)
)â„â„2ïžž ïž·ïž· ïžž
â€tLâxkâxââ2
âxk â xââ2 dt
†L
2âxk â xââ22.
Setzt man dies zusammen mit ηk = O(ââf(xk)â2) = O(âxkâxââ2) in die obige AbschĂ€t-zung ein, dann ergibt sich
âxk+1 â xââ2 = O(âxk â xââ22),das ist Aussage (iii.).
3.4 Trust-Region-Verfahren
Die quadratische Approximation
f(xk + d) â f(xk) +âf(xk)Td+
1
2dTâ2f(xk)d = qk(d)
ist nur fĂŒr kleines âdâ2 genau. Man schrĂ€nkt daher den Bereich ein, in dem man derquadratischen Approximation qk(d) vertraut. Dies erklĂ€rt den Begriff trust region. ImZusammenhang mit dem Newton-Verfahren wird das Update dk beispielsweise aus
mindâRn
qk(d) unter der Nebenbedingung âdâ2 †âk (3.12)
bestimmt, wobei der Radius âk noch geeignet zu bestimmen ist. Wir haben also in jedemSchritt ein quadratisches Minimierungsproblem mit Nebenbedingungen zu lösen.
Wir wenden uns der Wahl des Radius âk zu. Dieser wird so gesteuert, dass eine mög-lichst gute Ăbereinstimmung der quadratischen NĂ€herung qk mit der Funktion f(xk + ·)sichergestellt ist. Liegt das QualitĂ€tsmaĂ
Ïk =f(xk)â f(xk + dk)
qk(0)â qk(dk)
nahe bei 1, stimmt die tatsĂ€chliche Reduktion (ZĂ€hler) mit der vorhergesagten Reduktion(Nenner) gut ĂŒberein und der Radius âk kann sogar vergröĂert werden. Ist das Quali-tĂ€tsmaĂ klein, dann sollte der Radius âk verkleinert und der Schritt wiederholt werden.Ansonsten behĂ€lt man âk bei.
3.4. Trust-Region-Verfahren 25
Algorithmus 3.10 (Trust-Region-Verfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: wĂ€hle 0 < Ïâ < Ï+ < 1 und setze â0 := 1 und k := 0
â bestimme dk durch nĂ€herungsweise Lösung von (3.12) und berechne
Ïk :=f(xk)â f(xk + dk)
qk(0)â qk(dk)
â falls Ïk > Ïâ setze xk+1 := xk + dk, sonst setze âk := âk/2 und gehe nach â
â falls Ïk > Ï+ setze âk+1 := 2âk, sonst setze âk+1 := âk
â erhöhe k := k + 1 und gehe nach â
Ausgangspunkt zur nÀherungsweisen Lösung von (3.12) ist der Cauchy-Punkt, dessenKonstruktion in zwei Schritten erfolgt.
1. Bestimme dk aus
mindâRn
f(xk) +âf(xk)Td unter der Nebenbedingung âdâ2 †âk.
Dieser Richtungsvektor lÀsst sich explizit angeben:
dk = â âk
ââf(xk)â2âf(xk).
2. Bestimme Ïk aus
minÏ>0
qk(Ïdk) unter der Nebenbedingung âÏdkâ2 †âk
und setze dâk := Ïkdk. FĂŒr die Berechnung von Ïk sind zwei FĂ€lle zu unterscheiden.
Falls âf(xk)Tâ2f(xk)âf(xk) †0 gilt, so folgt Ïk = 1. Ansonsten ist
Ïk = min
{1,
1
âk
ââf(xk)â32âf(xk)Tâ2f(xk)âf(xk)
}.
Unser Ziel ist es nun, eine Kombination zu finden, die fĂŒr kleine Werte âk mit dem Cauchy-Punkt ĂŒbereinstimmt und fĂŒr gröĂere Werte âk in das Newton-Verfahren ĂŒbergeht. Wirstellen dazu die sogenannte Dogleg-Strategie vor und verwenden zur AbkĂŒrzung statt(3.12)
q(d) := f + gTd+1
2dTHd unter der Nebenbedingung âdâ2 †âk.
FĂŒr kleine Werte âk fĂ€llt der quadratische Term nicht ins Gewicht und wir gehen inRichtung des Cauchy-Punktes dC := â âgâ2
2
gTHgg, fĂŒr groĂe Werte âk wollen wir hingegen
die Newton-Richtung dN := âHâ1g verwenden:
d(Ï) =
{ÏdC , falls 0 â€ Ï â€ 1,
dC + (Ï â 1)(dN â dC), falls 1 â€ Ï â€ 2.
26 Kapitel 3. Newton-Verfahren
Lemma 3.11 Es sei H postitiv definit und g 6= 0. Dann ist
(i.) die Funktion âd(Ï)â2 streng monoton wachsend in Ï , falls dN 6= dC , und
(ii.) die Funktion q(d(Ï)
)monoton fallend in Ï .
Beweis. Beide Aussagen im Fall 0 â€ Ï â€ 1 offensichtlich.
FĂŒr 1 â€ Ï := Ï + 1 †2 betrachten wir die Funktion
Ï(Ï) =1
2âd(1 + Ï)â22
=1
2âdC + Ï(dN â dC)â22
=1
2âdCâ22 + ÏdT
C(dN â dC) +1
2Ï2âdN â dCâ22
und zeigen ÏâČ(Ï) > 0 fĂŒr alle Ï â (0, 1):
ÏâČ(Ï) = dTC(dN â dC) + Ï âdN â dCâ22ïžž ïž·ïž· ïžž
>0 da dN 6=dC
> dTC(dN â dC)
=gTg
gTHggT
(Hâ1g â gTg
gTHgg
)
=gTg
gTHggTHâ1g
(1â (gTg)2
(gTHg)(gTHâ1g)
)
â„ 0,
wobei sich die letzte Ungleichung aus
(gTg)2 = (gTH1/2Hâ1/2g)2 †âH1/2gâ22âHâ1/2gâ22 = (gTHg)(gTHâ1g)
ergibt. Damit ist Aussage (i.) gezeigt.
Um Aussage (ii.) nachzuweisen, bilden wir Ï(Ï) = q(d(1 + Ï)
)und erhalten
ÏâČ(Ï) = (g +HdC)T (dN â dC) + Ï (dN â dC)
TH(dN â dC)ïžž ïž·ïž· ïžžâ„0
â€{g +HdC +H(dN â dC)
}T(dN â dC)
= (g +HdN)T (dN â dC) = 0.
Bemerkung Aus diesem Lemma folgt, dass es genau einen Punkt gibt, an dem derDogleg-Pfad den Kreis mit Radius âk schneidet, falls âdNâ2 â„ âk. Da q
(d(Ï)
)monoton
fĂ€llt, nimmt man diesen Schittpunkt als Update. Ist hingegen âdNâ2 †âk, dann verlĂ€uftder Pfad ganz im Innern des Trust-Region-Bereichs. Folglich wĂ€hlt man als Update
dk =
dN , falls âdNâ2 †âk,
dS, falls âdCâ2 < âk < âdNâ2,âk
âdCâ2dC , falls âdCâ2 â„ âk,
3.4. Trust-Region-Verfahren 27
wobei
dS := dC + (Ï â â 1)(dN â dC) mit Ï â = argminÏ>0
{(âdC + (Ï â 1)(dN â dC)â2 ââk)
2}.
Bei Implementierung muss man jedoch zuallererst ĂŒberprĂŒfen, ob ĂŒberhaupt
qk(dN ) < qk(0)
gilt. Denn ist â2f(xk) nicht positiv definit, muss dem nicht so sein. In diesem Fall ist dieNewton-Richtung von vornherein zu verwerfen und der Cauchy-Punkt zu nehmen. âłUnser Ziel ist der Nachweis globaler Konvergenz des Newton-Verfahrens mit der vorge-stellten Trust-Region-Technik. Ausgangspunkt dafĂŒr ist die Reduktion des Funktionalsdurch die Verwendung des Cauchy-Punktes.
Lemma 3.12 FĂŒr den Cauchy-Punkt dâk gilt
qk(dâk) †qk(0)â
1
2ââf(xk)â2min
{âk,
ââf(xk)â2ââ2f(xk)â2
}.
Beweis. Wir mĂŒssen drei FĂ€lle unterscheiden.
(i.) Falls âf(xk)Tâ2f(xk)âf(xk) †0 folgt
qk(dâk)â qk(0) = â âk
ââf(xk)â2ââf(xk)â22 +
1
2
â2kâf(xk)
Tâ2f(xk)âf(xk)
ââf(xk)â22†ââkââf(xk)â2
†â1
2ââf(xk)â2min
{âk,
ââf(xk)â2ââ2f(xk)â2
}.
(ii.) Im Fall 0 < âf(xk)Tâ2f(xk)âf(xk) †ââf(xk)â32/âk ergibt sich
qk(dâk)â qk(0) = â âk
ââf(xk)â2ââf(xk)â22 +
1
2
â2kâf(xk)
Tâ2f(xk)âf(xk)
ââf(xk)â22†ââkââf(xk)â2 +
1
2
â2k
ââf(xk)â22ââf(xk)â32
âk
= â1
2âkââf(xk)â2
†â1
2ââf(xk)â2min
{âk,
ââf(xk)â2ââ2f(xk)â2
}.
(iii.) Ist schlieĂlich âf(xk)Tâ2f(xk)âf(xk) > ââf(xk)â32/âk, so liegt der Cauchy-Punkt
im Innern des Trust-Region-Bereichs und ist durch
dâk = â ââf(xk)â22
âf(xk)Tâ2f(xk)âf(xk)âf(xk)
28 Kapitel 3. Newton-Verfahren
gegeben. Somit gilt
qk(dâk)â qk(0) = â ââf(xk)â42
âf(xk)Tâ2f(xk)âf(xk)
+1
2
ââf(xk)â42(âf(xk)Tâ2f(xk)âf(xk))2
âf(xk)Tâ2f(xk)âf(xk)
= â1
2
ââf(xk)â42âf(xk)Tâ2f(xk)âf(xk)
†â1
2
ââf(xk)â42ââf(xk)â22ââ2f(xk)â2
†â1
2ââf(xk)â2min
{âk,
ââf(xk)â2ââ2f(xk)â2
}.
Bemerkung Mit der Dogleg-Strategie erreicht man mindestens eine Reduktion des Funk-tionals qk(d) durch den Cauchy-Punkt, das heiĂt, es gilt
qk(dk) †qk(0)â1
2ââf(xk)â2min
{âk,
ââf(xk)â2ââ2f(xk)â2
}.
âł
Satz 3.13 Auf der Niveaumenge N := {x â Rn : f(x) †f(x0)} sei f zweimal stetig dif-ferenzierbar und nach unten beschrĂ€nkt. Ist â2f(x) beschrĂ€nkt auf der gesamten Niveau-menge N , dann erfĂŒllen die vom Trust-Region-Verfahren 3.10 mit der Dogleg-Strategieberechneten Iterierten {xk}kâ„0
âf(xk)kââââ 0.
Beweis. Wir vollziehen den Beweis des Satzes in vier Schritten.
(i.) FĂŒr das MaĂ Ïk zur Anpassung des Trust-Region-Radius gilt
|Ïk â 1| =âŁâŁâŁâŁf(xk)â f(xk + dk)â {qk(0)â qk(dk)}
qk(0)â qk(dk)
âŁâŁâŁâŁ =âŁâŁâŁâŁf(xk + dk)â qk(dk)
qk(0)â qk(dk)
âŁâŁâŁâŁ.
Die Taylor-Entwicklung von f um xk liefert
f(xk + dk) = f(xk) +âf(xk)Tdk +
1
2dTkâ2f(xk + Οdk)dk
fĂŒr ein Ο â (0, 1). Damit ergibt sich
|qk(dk)â f(xk + dk)| =âŁâŁâŁâŁ1
2dTkâ2f(xk)dk â
1
2dTkâ2f(xk + Οdk)dk
âŁâŁâŁâŁ
†1
2
{ââ2f(xk)â2 + max
0â€tâ€1ââ2f(xk + tdk)â2
}âdkâ22
†câdkâ22,
3.4. Trust-Region-Verfahren 29
wobei c > 0 eine obere Schranke fĂŒr â2f(x) auf der Niveau-Menge N sei. Da nachLemma 3.12 gilt
qk(dk) †qk(0)â1
2ââf(xk)â2min
{âk,
ââf(xk)â2c
}, (3.13)
erhalten wir folglich die AbschÀtzung
|Ïk â 1| †câdkâ22ââf(xk)â2min{âk,
ââf(xk)â2c
}†2câ2
k
ââf(xk)â2{âk,ââf(xk)â2
c}. (3.14)
(ii.) Bei erfolgreichem Iterationsschritt ist f(xk)â f(xk + dk) â„ Ïâ{qk(0)â qk(dk)
}, das
heiĂt, gemÀà (3.13) gilt
f(xk)â f(xk + dk) â„Ïâ
2ââf(xk)â2min
{âk,
ââf(xk)â2c
}. (3.15)
Da die Folge {f(xk)}kâ„0 nach Konstruktion streng monoton fĂ€llt und nach unten be-schrĂ€nkt ist, muss gelten
min
{âk,
ââf(xk)â2c
}kââââ 0. (3.16)
(iii.) Wir zeigen nun, dass {ââf(xk)â2}kâ„0 fĂŒr eine unendliche Teilfolge {kâ}ââ„0 gegenNull konvergiert. Angenommen, die Behauptung gilt nicht, dann folgt
ââf(xk)â2 ℠Δ > 0 fĂŒr alle k â„ K(Δ).
Aus (3.16) ergibt sich unmittelbar
âkkââââ 0,
weshalb (3.14) impliziert |Ïk â 1| â 0 fĂŒr k â â, beziehungsweise
Ïkkââââ 1.
Demnach existiert ein M(Δ) â„ K(Δ), so dass Ïk â„ Ï+ fĂŒr alle k â„M(Δ). Ab dem M(Δ)-tenSchritt wird folglich âk in jedem Schritt von Algorithmus 3.10 verdoppelt, was jedoch imWiderspruch zu (3.16) steht.
(iv.) Wir beweisen nun die Aussage des Satzes. Dazu nehmen wir an, dass eine Teilfolgevon {ââf(xk)â2}kâ„0 nicht gegen Null konvergiert. Nach Aussage (iii.) existiert dann einΔ > 0 und zwei Indizes â < m, so dass
ââf(xâ)â2 â„ 2Δ, ââf(xm)â2 †Δ, ââf(xk)â2 > Δ, k = â+ 1, . . . , mâ 1.
Da {f(xk)}kâ„0 eine Cauchy-Folge ist, kann â dabei so groĂ gewĂ€hlt werden, dass
f(xâ)â f(xm) <Δ2Ïâ
2c. (3.17)
Wegen âxk+1 â xkâ2 = âdkâ2 †âk, folgt aus (3.15), dass
f(xk)â f(xk+1) â„ΔÏâ
2min
{âxk+1 â xkâ2,
Δ
c
}, k = â, â+ 1, . . . , mâ 1.
30 Kapitel 3. Newton-Verfahren
Summation ergibt wegen (3.17)
ΔÏâ
2
mâ1â
k=â
min
{âxk+1 â xkâ2,
Δ
c
}†f(xâ)â f(xm) <
Δ2Ïâ
2c,
was nur erfĂŒllt sein kann, wenn
min
{âxk+1 â xkâ2,
Δ
c
}= âxk+1 â xkâ2, k = â, â+ 1, . . . , mâ 1,
und insgesamtmâ1â
k=â
âxk+1 â xkâ2 <Δ
c
gilt. Da âf(x) auf der Niveaumenge N Lipschitz-stetig zur Konstante c ist, ergibt diesschlieĂlich
ââf(xm)ââf(xâ)â2 †câxm â xââ2 †c
mâ1â
k=â
âxk+1 â xkâ2 < Δ
im Widerspruch zur Annahme. Damit ist der Satz bewiesen.
31
4. Quasi-Newton-Verfahren
Beim Newton-Verfahren ist das Update dk durch die Newton-Gleichung â2f(xk)dk =ââf(xk) gegeben. Da das Berechnen der Hesse-Matrix und das Lösen dieses Gleichungs-systems oftmals zu teuer ist, versucht man,
(â2f(xk)
)â1durch einfach zu berechnende
Matrizen Hk zu ersetzen und die Suchrichtung
dk := âHkâf(xk)
zu benutzen. Man spricht von einem Quasi-Newton-Verfahren, wenn fĂŒr alle k â„ 0 dieMatrix Hk+1 der Quasi-Newton-Gleichung
Hk+1
{âf(xk+1)ââf(xk)
}= xk+1 â xk (4.1)
genĂŒgt. Diese Bedingung stellt sicher, dass sich Hk+1 in der Richtung xk+1 â xk Ă€hnlichwie die Newton-Matrix
(â2f(xk)
)â1verhĂ€lt, fĂŒr die gilt
âf(xk+1)ââf(xk) = â2f(xk)(xk+1 â xk) +O(âxk+1 â xkâ22).FĂŒr eine quadratische Funktion q(x) = 1
2xTAx+ bTx+ c mit positiv definiter Matrix A
gilt (4.1) wegen âq(x) = Ax + b sogar exakt. Ferner erscheint es sinnvoll, als Hk nurpositiv definite Matrizen zu wĂ€hlen. Dies garantiert, dass fĂŒr âf(xk) 6= 0 die Richtungdk = âHkâf(xk) eine Abstiegsrichtung von f wird
âf(xk)Tdk = ââf(xk)
THkâf(xk) < 0.
Beide Forderungen lassen sich erfĂŒllen: Mit den AbkĂŒrzungen
pk = xk+1 â xk, qk = âf(xk+1)ââf(xk)
und frei wĂ€hlbaren ParameternÎłk > 0, Îœk â„ 0
ist Hk+1 rekursiv gegeben durch
Hk+1 := Ί(Hk,pk,qk, Îłk, Îœk),
Ί(H,p,q, Îł, Îœ) := ÎłH+
(1 + ÎłÎœ
qTHq
pTq
)ppT
pTqâ Îł
1â Îœ
qTHqHqqTH (4.2)
â ÎłÎœ
pTq(pqTH+HqpT ).
Die Update-Funktion Ί ist nur fĂŒr pTq 6= 0 und qTHq 6= 0 erklĂ€rt. Man beachte, dassman Hk+1 aus Hk dadurch erhĂ€lt, dass man zur Matrix ÎłkHk eine Korrekturmatrix vomRang †2 addiert:
rang(Hk+1 â ÎłkHk) †2.
Man nennt dieses Verfahren daher auch Rang-2-Verfahren.
Folgende SpezialfÀlle sind in (4.2) enthalten:
32 Kapitel 4. Quasi-Newton-Verfahren
1. Îłk ⥠1, Îœk ⥠0: Verfahren von Davidon, Fletcher und Powell (DFP-Verfahren).
2. Îłk ⥠1, Îœk ⥠1: Rang-2-Verfahren von Broydon, Fletcher, Goldfarb und Shanno(BFGS-Verfahren).
3. Îłk ⥠1, Îœk = pTk qk/(p
Tk qk â pT
kHkqk): symmetrisches Rang-1-Verfahren von Broy-
don.
Letzteres Verfahren ist nur fĂŒr pTk qk 6= pT
kHkqk definiert; Îœk < 0 ist möglich: in diesem Fallkann Hk+1 auch indefinit werden, auch wenn Hk positiv definit ist (vergleiche Satz 4.2).Setzt man den gewĂ€hlten Wert in (4.2) ein, erhĂ€lt man fĂŒr Hk eine Rekursionformel, dieden Namen Rang-1-Verfahren erklĂ€rt:
Hk+1 := Hk +zkz
Tk
αk, zk := pk âHkqk, αk := pT
k qk â qTkHkqk.
Algorithmus 4.1 (Quasi-Newton-Verfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze H0 := I und k := 0
â berechne die Quasi-Newton-Richtung dk = âHkâf(xk)
â löseαk â argmin
αâRf(xk + αdk)
â setze xk+1 := xk + αkdk, pk := xk+1 â xk und qk := âf(xk+1)ââf(xk)
â wĂ€hle Îłk > 0, Îœk â„ 0 und berechne Hk+1 := Ί(Hk,pk,qk, Îłk, Îœk) gemÀà (4.2)
â erhöhe k := k + 1 und gehe nach â
Das Verfahren ist eindeutig durch die Wahl der Parameter Îłk, Îœk und die Minimierung inSchritt â fixiert. Die Minimierung xk 7â xk+1 und ihre QualitĂ€t kann man mit Hilfe einesParameters Ïk beschreiben, der durch
âf(xk+1)Tdk = Ïkâf(xk)
Tdk = âÏkâf(xk)THkâf(xk)
definiert ist. Falls dk eine Abstiegsrichtung ist, das heiĂt âf(xk)Tdk < 0, dann ist Ïk
eindeutig bestimmt. Bei exakter Liniensuche ist Ïk = 0 wegen
âf(xk+1)Tdk = ÏâČ
k(αk) = 0, wobei Ïk(α) := f(xk + αdk).
Wir setzen fĂŒr das folgendeÏk < 1 (4.3)
voraus. Falls âf(xk) 6= 0 und Hk positiv definit ist, folgt aus (4.3) αk > 0 und deshalb
qTkpk = αk{âf(xk+1)ââf(xk)}Tdk
= αk(Ïk â 1)âf(xk)Tdk
= âαk(Ïk â 1)âf(xk)THkâf(xk)
> 0,
also auch qk 6= 0 und qTkHkqk > 0. Die Matrix Hk+1 ist damit durch (4.2) wohldefiniert.
33
Die Forderung (4.3) kann nur dann nicht erfĂŒllt werden, wenn
ÏâČk(α) = âf(xk + αdk)
Tdk †âf(xk)Tdk = ÏâČ
k(0) < 0
fĂŒr alle α â„ 0 gilt. Dann ist aber
f(xk + αdk)â f(xk) =
⫠α
0
ÏâČk(t) dt †αâf(xk)
Tdk < 0 fĂŒr alle α â„ 0,
so dass f(xk +αdk) fĂŒr α â â nicht nach unten beschrĂ€nkt ist. Die Forderung (4.3) be-deutet also keine wesentliche EinschrĂ€nkung. Damit ist bereits der erste Teil des folgendenSatzes gezeigt, der besagt, dass das Quasi-Newton-Verfahren 4.1 unsere oben aufgestelltenForderungen erfĂŒllt.
Satz 4.2 Falls im Quasi-Newton-Verfahren 4.1 die Matrix Hk fĂŒr ein k â„ 0 positivdefinit ist, âf(xk) 6= 0 und Ïk < 1 ist, dann ist fĂŒr alle Îłk > 0, Îœk â„ 0 die MatrixHk+1 := Ί(Hk,pk,qk, Îłk, Îœk) wohldefiniert und wieder positiv definit. Insbesondere erfĂŒlltsie die Quasi-Newton-Gleichung
Hk+1qk = pk.
Beweis. Die Wohldefiniertheit von Hk+1 haben wir bereits gezeigt, so dass wir nur nochdie positive Definitheit nachweisen mĂŒssen. Sei y â Rn \ {0} ein beliebiger Vektor undHk = LLT die Cholesky-Zerlegung von Hk. Mit Hilfe der Vektoren
u := LTy, v := LTqk
lÀsst sich yTHk+1y wegen (4.2) so schreiben:
yTHk+1y = ÎłkuTu+
(1 + ÎłkÎœk
vTv
pTk qk
)(pT
k y)2
pTk qk
â Îłk1â ÎœkvTv
(uTv)2 â 2ÎłkÎœkpTk qk
(pTk y)(u
Tv)
= Îłk
(uTuâ (uTv)2
vTv
)+
(pTk y)
2
pTk qk
+ ÎłkÎœk
(âvTv
pTk y
pTk qk
â uTvâvTv
)2
â„ Îłk
(uTuâ (uTv)2
vTv
)+
(pTk y)
2
pTk qk
.
Die Cauchy-Schwarzsche Ungleichung ergibt
uTuâ (uTv)2
vTvâ„ 0,
mit Gleichheit genau dann, wenn u = λv fĂŒr ein λ 6= 0 (wegen y 6= 0). FĂŒr u 6= λvist also yHk+1y > 0. FĂŒr u = λv folgt aus der NichtsingularitĂ€t von Hk und L auch0 6= y = λqk, so dass
yHk+1y â„ (pTk y)
2
pTk qk
= λ2pTk qk > 0.
Da y â Rn \ {0} beliebig war, muss Hk+1 positiv definit sein.
Die Quasi-Newton-Gleichung Hk+1qk = pk verifiziert man schlieĂlich sofort mittels (4.2).
34 Kapitel 4. Quasi-Newton-Verfahren
Ein wesentliches Resultat ist, dass das Quasi-Newton-Verfahren im Fall einer quadrati-schen Funktion f : Rn â R das Minimum nach höchstens n Schritten liefert, sofern dieMinimierung in â exakt sind. Da sich jede genĂŒgend oft differenzierbare Funktion f inder NĂ€he ihres Minimums beliebig genau durch eine quadratische Funktion approximierenlĂ€sst, lĂ€sst diese Eigenschaft vermuten, dass das Verfahren auch bei der Anwendung aufnichtquadratische Funktionen rasch konvergiert.
Satz 4.3 Sei
f(x) =1
2xTAx+ bTx + c
eine quadratische Funktion mit einer positiv definiten Matrix A â RnĂn. Wendet mandas Quasi-Newton-Verfahren 4.1 zur Minimierung von f mit den Startwerten x0 und H0
an, wobei man die Minimierungen in â exakt durchfĂŒhrt, so liefert das Verfahren Folgen{xk}kâ„0, {Hk}kâ„0, {âf(xk)}kâ„0, {pk}kâ„0 und {qk}kâ„0 mit den Eigenschaften:
(i.) Es gibt ein kleinstes m †n mit xm = xâ = âAâ1b, das heiĂt, xm ist das eindeutigeMinimum von f , insbesondere gilt also âf(xm) = 0.
(ii.) Es ist pTk qk > 0 und pT
k qâ = pTkApâ = 0 fĂŒr alle 0 †k 6= â < m. Die Vektoren pk
sind demnach A-konjugiert.
(iii.) Es gilt pTkâf(xâ) = 0 fĂŒr alle 0 †k < â †m.
(iv.) Es ist Hâqk = λk,âpk fĂŒr alle 0 †k < â †m mit
Îłk,â :=
{ÎłkÎłk+1 · · · Îłââ1, fĂŒr k < ââ 1,
1, fĂŒr k = ââ 1.
(v.) Falls m = n, so gilt zusÀtzlich
Hm = Hn = PDPâ1Aâ1,
wobeiD = diag(Îł0,n, Îł1,n, . . . , Îłnâ1,n), P = [p0,p1, . . . ,pnâ1].
FĂŒr Îłk ⥠1 folgt Hn = Aâ1.
Beweis. Wir zeigen zunĂ€chst induktiv, dass die Bedigungen (ii.)â(iv.) fĂŒr ein beliebigesm â„ 0 gelten, falls fĂŒr alle j < m Hj positiv definit und âf(xj) 6= 0 ist. Da die AussagenfĂŒr m = 0 trivialerweise erfĂŒllt sind, können wir annehmen, dass sie fĂŒr ein beliebigesm â„ 0 gelten. Der Induktionsschritt m 7â m+ 1 ergibt sich nun wie folgt.
Da Hm positiv definit ist, folgt aus âf(xm) 6= 0 sofort dm = âHmâf(xm) 6= 0 undâf(xm)
THmâf(xm) > 0. Weil exakt minimiert wird, ist αm die Nullstelle von
0 = âf(xm+1)Tdm =
{âf(xm) + αmAdm
}Tdm, αm =
âf(xm)Hmâf(xm)
dTAdm,
also pm = αmdm und
âf(xm+1)Tpm = αmâf(xm+1)
Tdm = 0. (4.4)
35
Deshalb gilt
pTmqm = αmd
Tm
{âf(xm+1)ââf(xm)
}
= âαmdTmâf(xm)
= αmâf(xm)THmâf(xm)
> 0
und folglich ist Hm+1 nach Satz 4.2 positiv definit. Weiter ist fĂŒr k < m wegen Apk = qk
pTk qm = pT
kApm = qTkpm = âαmq
TkHmâf(xm)
(iv.)= âαmÎłk,mp
Tkâf(xm)
(iii.)= 0. (4.5)
Das ist der Induktionsschritt fĂŒr Aussage (ii.).
Weiter gilt fĂŒr k < m
pTkâf(xm+1) = pT
k
(âf(xk+1) +
mâ
j=k+1
qj
)= 0
nach dem eben bewiesenen und Aussage (iii.). Zusammen mit (4.4) ergibt dies Aussage(iii.) fĂŒr m+ 1.
Den Induktionsschritt fĂŒr Aussage (iv.) sieht man wie folgt ein. Anhand von (4.2) verifi-ziert man sofort
Hm+1qm = pm.
Wegen Aussage (ii.) fĂŒr m+1 und der Induktionsvoraussetzung hat man ferner fĂŒr k < m
pTmqk
(ii.)= 0, qT
mHmqk(iv.)= Îłk,mq
Tmpm
(ii.)= 0,
so dass fĂŒr k < m aus (4.2) folgt
Hm+1qk = ÎłmHmqk(iv.)= ÎłmÎłk,mpk = Îłk,m+1pk.
Der restliche Beweis ist nun einfach. Die Aussagen (ii.)â(iv.) können nur fĂŒr m †nrichtig sein, da die Vektoren p0,p1, . . . ,pmâ1 linear unabhĂ€ngig sind. Aus 0 =
âmâ1â=0 λâpâ
folgt nĂ€mlich durch Multiplikation mit pTkA, k = 0, 1, . . . , m â 1, wegen Aussage (ii.)
λkpTkApk = 0, das heiĂt, λk = 0.
Da wir bewiesen haben, dass die Aussagen (ii.)â(iv.) fĂŒr beliebiges m gelten, solangeâf(xm) 6= 0 ist, muss es also einen ersten Index m †n geben mit
âf(xm) = 0, xm = âAâ1b,
dies bedeutet, es gilt Aussage (i.).
FĂŒr den Fall m = n gilt wegen Aussage (iv.) zusĂ€tzlich HnQ = PD fĂŒr die Matrizen
D = diag(Îł0,n, Îł1,n, . . . , Îłnâ1,n), P = [p0,p1, . . . ,pnâ1], Q = [q0,q1, . . . ,qnâ1].
Wegen AP = Q ergibt sich schlieĂlich wegen der NichtsingularitĂ€t der Matrix P dieBeziehung
Hn = PDPâ1Aâ1,
Damit ist der Satz vollstÀndig bewiesen.
36 Kapitel 4. Quasi-Newton-Verfahren
Es stellt sich nun die Frage, wie man die Parameter Îłk und Îœk wĂ€hlen soll, um ein mög-lichst gutes Verfahren zu erhalten. Aussage (v.) aus Satz 4.3 legt die Wahl Îłk ⥠1 nahe,weil dies D = I und folglich limm Hm =
(â2f(xâ)
)â1vermuten lĂ€sst, weshalb das Verfah-
ren voraussichtlich Ă€hnlich schnell wie ein Newton-Verfahren konvergiert. Im allgemeinenist diese Vermutung fĂŒr nichtquadratische Funktionen aber nur unter zusĂ€tzlichen Vor-raussetzungen richtig. Nach praktischen Erfahrungen ist die Wahl
Îłk ⥠1, Îœk ⥠1 (BFGS-Verfahren)
am besten.
Bemerkungen
1. Sowohl das DFP-Verfahren als auch das BFGS-Verfahren konvergieren superline-ar in der Umgebung eines lokalen Minimus xâ, falls f : Rn â R zweimal stetigdifferenzierbar ist und die Hesse-Matrix in der Umgebung von xâ Lipschitz-stetigist.
2. Eine andere Startmatrix H0 6= I ist denkbar, solange sie symmetrisch und positivdefinit ist.
3. In der Praxis macht man gelegentlich Restarts, setzt also Hk := H0, falls k â mZ
mit festem m â N, beispielsweise m = 100.
4. Gerade bei groĂen Optimierungsproblemen stellt man die Matrix Hk nicht direktauf, sondern berechnet sie rekursiv aus den Vektoren {(Îłk, Îœk,pk,qk)}kâ„0. Damitauch bei vielen Schritten der Speicherplatz nicht ĂŒberhand nimmt, speichert mannur die höchstens letzten m Vektoren. Man erlaubt also ein âGedĂ€chtnisâ von mUpdates und ersetzt die unbekannte Matrix Hkâm durch H0. Man spricht von einemLimited-Memory-Quasi-Newton-Verfahren.
âł
37
5. Verfahren der konjugierten Gradi-
enten
5.1 CG-Verfahren fĂŒr lineare Gleichungssysteme
Es sei A â RnĂn eine symmetrische und positive definite Matrix und b â Rn. Das Verfah-
ren der konjugierten Gradienten oder CG-Verfahren zur Lösung des linearen Gleichungs-systems Ax = b geht davon aus, dass die Lösung xâ eindeutiges Minimum Ï(xâ) = 0 desFunktionals
Ï(x) =1
2(bâAx)TAâ1(bâAx) =
1
2xTAxâ xTb+
1
2bTAâ1b â„ 0
ist.
Ausgehend von einer StartnĂ€herung x wollen wir Ï in die Richtung d minimieren
Ï(x+ αd) = Ï(x) +α2
2dTAdâ αdT (bâAx) â min
뱉R.
AusâÏ(x + αd)
âα= αdTAdâ dT (bâAx)
!= 0
folgt daher
α =dT (bâAx)
dTAd. (5.1)
Lemma 5.1 Die Vektoren d0,d1, . . . ,dk seien A-konjugiert , das heiĂt, es gelte dTi Adj =
0 fĂŒr alle i 6= j. Istxk = arg min
xâx0+span{d0,d1,...,dkâ1}Ï(x)
und setzt man
xk+1 = xk + αkdk, αk =dTk rk
dTkAdk
, rk = bâAxk, (5.2)
so folgtxk+1 = arg min
xâx0+span{d0,d1,...,dk}Ï(x).
Beweis. Die A-Konjugiertheit der Vektoren {dâ} impliziert dTkA(xk â x0) = 0. Daher
38 Kapitel 5. Verfahren der konjugierten Gradienten
folgt
Ï(xk + αdk) = Ï(xk) +α2
2dTkAdk â αdT
k (bâAxk)
= Ï(xk) +α2
2dTkAdk â αdT
k (bâAx0)
=: Ï(xk) + Ï(α),
das heiĂt, das Minimierungsproblem entkoppelt. Da nach Voraussetzung xk das Funktio-nal Ï ĂŒber x0+span{d0,d1 . . . ,dkâ1} minimiert, wird das eindeutige Minimum angenom-men, wenn Ï(α) minimal ist. Dies ist aber nach (5.1) genau dann der Fall, wenn
αk =dTk (bâAxk)
dTkAdk
=dTk (bâAx0)
dTkAdk
. (5.3)
Die Idee des CG-Verfahrens ist es nun, ausgehend von einer StartnĂ€herung x0, sukzessiveĂŒber die konjugierten Richtungen dk zu minimieren. Die Folge der Residuen
r0 = bâAx0, rk+1 = bâAxk+1(5.2)= rk â αkAdk, k â„ 0, (5.4)
erfĂŒllt dann fĂŒr alle â < k
dTâ rk = dT
â (bâAxk) = dTâ
(bâAx0â
kâ1â
i=0
αiAdi
)= dT
â (bâAx0)âαâdTâ Adâ
(5.3)= 0. (5.5)
Da die Richtungen dk paarweise A-konjugiert und folglich linear unabhĂ€ngig sind, ergibtsich rn = 0, das heiĂt, das CG-Verfahren liefert die Lösung Aâ1b nach höchstens nSchritten. Zu beantworten bleibt daher nur die Frage, wie die Suchrichtungen dk geschicktgewĂ€hlt werden können.
Lemma 5.2 FĂŒr beliebiges d0 = r0 erzeugt die Rekursion
rk+1 = rk â αkAdk, dk+1 = rk+1 â ÎČkdk, ÎČk =dTkArk+1
dTkAdk
(5.6)
solange eine Folge nichtverschwindender A-konjugierter Vektoren d0,d1, . . . ,dk+1 bisrk+1 = 0 ist.
Beweis. SeiKk(A, r0) := span{r0,Ar0, . . . ,A
kâ1r0}.Wir zeigen zunĂ€chst induktiv, dass stets gilt
Kk(A, r0) = span{r0, r1, . . . , rkâ1} = span{d0,d1, . . . ,dkâ1}.
Da fĂŒr k = 1 die Aussage klar ist, nehmen wir an, sie gilt fĂŒr ein k â„ 1. Dann folgt
rk(5.6)= rkâ1ïžžïž·ïž·ïžž
âKk(A,r0)
âαk Adkïžžïž·ïž·ïžžâKk+1(A,r0)
â Kk+1(A, r0).
5.1. CG-Verfahren fĂŒr lineare Gleichungssysteme 39
GemÀà (5.5) ist rk â„ span{d0,d1, . . . ,dkâ1} = Kk(A, r0), dies bedeutet
Kk(A, r0) ( span{r0, r1, . . . , rk} â Kk+1(A, r0).
Da die Dimension von Kk+1(A, r0) höchstens um 1 höher ist als die von Kk(A, r0), mussgelten
Kk+1(A, r0) = span{r0, r1, . . . , rk}.
Aus rk(5.6)= dk + ÎČkâ1dkâ1 folgt
span{d0,d1, . . . ,dk} = span{d0,d1, . . . ,dkâ1, rk}= span{r0, r1, . . . , rkâ1, rk} = Kk+1(A, r0).
Insbesondere muss aus DimensionsgrĂŒnden dk 6= 0 sein.
Es verbleibt, die A-Konjugiertheit zu zeigen: Angenommen, d0,d1, . . . ,dk sind A-konjugiert.Der Induktionsschritt folgt dann aus
dTkAdk+1
(5.6)= dT
kA(rk+1 â ÎČkdk)(5.6)= dT
kArk+1 âdTkArk+1
dTkAdk
dTkAdk = 0
und fĂŒr alle â < k
dTâ Adk+1
(5.6)= dT
â Ark+1 âdTkArk+1
dTkAdk
dTâ Adkïžž ïž·ïž· ïžž=0
= (Adâ)T rk+1 = 0
wegen Adâ â Kk+1(A, r0) â„ rk+1.
Bemerkung Der Raum Kk(A, r0) heiĂt Krylov-Raum. Die Iterierte xk des CG-Verfahrensminimiert demnach das Funktional Ï(x) unter allen x aus dem verschobenen Krylov-Raumx0 +Kk(A, r0). âłUm den CG-Algorithmus endgĂŒltig zu formulieren, bemerken wir zunĂ€chst, dass gilt
αk(5.3)=
dTk rk
dTkAdk
(5.6)=
(rk â ÎČkâ1dkâ1)T rk
dTkAdk
(5.5)=
ârkâ22dTkAdk
. (5.7)
Wegen rk â Kk+1(A, r0) â„ rk+1 folgt ferner
dTkArk+1 = (Adk)
T rk+1(5.6)=
1
αk
(rk â rk+1)T rk+1
(5.7)= âdT
kAdk
ârkâ22ârk+1â22
und damit
ÎČk(5.6)=
dTkArk+1
dTkAdk
= âârk+1â22ârkâ22
. (5.8)
Die Kombination von (5.2) und (5.6)â(5.8) liefert schlieĂlich:
Algorithmus 5.3 (CG-Verfahren)input: Matrix A â RnĂn, rechte Seite b â Rn und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze d0 = r0 := bâAx0 und k := 0
40 Kapitel 5. Verfahren der konjugierten Gradienten
â berechne
αk :=ârkâ22dTkAdk
xk+1 := xk + αkdk
rk+1 := rk â αkAdk
ÎČk :=ârk+1â22ârkâ22
dk+1 := rk+1 + ÎČkdk
â falls ârk+1â2 > Δ erhöhe k := k + 1 und gehe nach â
Das CG-Verfahren wird generell als Iterationsverfahren verwendet, das heiĂt, man brichtdie Iteration ab, falls die Residuennorm ârkâ2 kleiner als eine Fehlertoleranz Δ ist. ProIterationsschritt wird nur eine Matrix-Vektor-Multiplikation benötigt. Allerdings hĂ€ngtdie Konvergenz des Verfahrens stark von der Kondition der Matrix ab. Man kann zeigen,dass die Iterierten {xk} des CG-Verfahrens bezĂŒglich der Energienorm
âxâA :=â
ăx,xăA =âxTAx
der FehlerabschÀtzung
âxk â xââA †2
(âcond2Aâ 1âcond2A+ 1
)k
âx0 â xââA
genĂŒgen.
5.2 Nichtlineares CG-Verfahren
In Anlehnung an das CG-Verfahren 5.3 ist das nichtlineare CG-Verfahren zur Lösung vonnichtlinearen Optimierungsproblemen f(x) â min definiert.
Algorithmus 5.4 (Nichtlineares CG-Verfahren)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze d0 = ââf(x0) und k := 0
â löseαk â argmin
αâRf(xk + αdk)
â berechne
xk+1 := xk + αkdk
ÎČk :=ââf(xk+1)â22ââf(xk)â22ïžž ïž·ïž· ïžž
Verfahren von Fletcher und Reeves
oder ÎČk :=âf(xk+1)
T{âf(xk+1)ââf(xk)}ââf(xk)â22ïžž ïž·ïž· ïžž
Verfahren von Polak und RibiĂšre
dk+1 := ââf(xk+1) + ÎČkdk
5.2. Nichtlineares CG-Verfahren 41
â erhöhe k := k + 1 und gehe nach â
Bemerkung Ist f(x) = 12xTAx â bTx + c eine quadratische Funktion, dann fallen bei
exakter Minimierung in â sowohl das Verfahren von Fletcher und Reeves als auch dasVerfahren von Polak und RibiĂšre mit dem CG-Verfahren zusammen. Ersteres folgt ausâf(xk) = Axk â b = ârk, zweiteres aus âf(xk)
Tâf(xk+1) = rTk rk+1 = 0. âł
Lemma 5.5 Die Funktion f : D â Rn â R sei gleichmĂ€Ăig konvex. Weiter sei fdifferenzierbar mit Lipschitz-stetigem Gradienten:
ââf(x)ââf(y)â2 †Lâxâ yâ2 fĂŒr alle x,y â D.
Dann gilt fĂŒr das Verfahren von Polak und RibiĂšre bei exakter Liniensuche in â
âdTkâf(xk) â„
”
”+ Lââf(xk)â2âdkâ2.
Beweis. Bei exakter Liniensuche gilt im k-ten Schritt des Verfahrens von Polak und Ri-biĂšre
0 = âf(xâ + αâdâ)Tdâ = âf(xâ+1)
Tdâ fĂŒr alle â †k. (5.9)
Daher können wir den Nenner in
ÎČk =âf(xk+1)
T{âf(xk+1)ââf(xk)}ââf(xk)â22
folgendemaĂen umformen:
ââf(xk)â22 = (ÎČkâ1dkâ1 â dk)Tâf(xk)
(5.9)= âdT
kâf(xk)
(5.9)= dT
k
{âf(xk+1)ââf(xk)
}
=1
αk
(xk+1 â xk)T{âf(xk+1)ââf(xk)
}.
Aufgrund der gleichmĂ€Ăigen KonvexitĂ€t und der Lipschitz-Bedingung erhalten wir
|ÎČk| â€L
”|αk|
ââf(xk+1)â2âxk+1 â xkâ2âxk+1 â xkâ22
=L
”
ââf(xk+1)â2âdkâ2
.
Dies fĂŒhrt auf
âdk+1â2 †ââf(xk+1)â2 + |ÎČk|âdkâ2 â€(1 +
L
”
)ââf(xk+1)â2,
42 Kapitel 5. Verfahren der konjugierten Gradienten
woraus dann die Behauptung folgt
â dTk+1âf(xk+1)
âdk+1â2ââf(xk+1)â2=
{âf(xk+1)â ÎČkdk}Tâf(xk+1)
âdk+1â2ââf(xk+1)â2(5.9)=
ââf(xk+1)â22âdk+1â2ââf(xk+1)â2
℠”
”+ L.
Bemerkung Die geometrische Interpretation von Lemma 5.5 ist, dass beim Verfah-ren von Polak und RibiĂšre die Suchrichtung dk und die Richtung des steilsten Abstiegsââf(xk) stets den Winkel Ξ mit cos Ξ > ”/(”+ L) einschlieĂen. âł
Satz 5.6 Die Funktion f : D â Rn â R sei gleichmĂ€Ăig konvex. Weiter sei f differen-zierbar mit Lipschitz-stetigem Gradienten:
ââf(x)ââf(y)â2 †Lâxâ yâ2 fĂŒr alle x,y â D.
Dann konvergiert das Verfahren von Polak und RibiĂšre mit exakter Liniensuche in â fĂŒrbeliebige StartnĂ€herungen x0 â D gegen das eindeutige globale Minimum xâ und es gilt
f(xk+1)â f(xâ) â€(1â ”4
L2(”+ L)2
){f(xk)â f(xâ)
}, k = 1, 2, . . . .
Beweis. Der Beweis ist Ă€hnlich zu dem von Satz 2.3. Aufgrund der Minimierungsbedin-gung gilt wieder fĂŒr ein Îł > 0
f(xk+1) †f(xk + γdk)
= f(xk) + Îł
â« 1
0
âf(xk + Îłtdk)Tdk dt
= f(xk) + Îłâf(xk)Tdk + Îł
â« 1
0
{âf(xk + Îłtdk)ââf(xk)
}Tdk dt
†f(xk) + Îłâf(xk)Tdk + Îł
â« 1
0
ââf(xk + Îłtdk) +âf(xk)â2ïžž ïž·ïž· ïžžâ€tÎłLâdkâ2
âdkâ2 dt
†f(xk) + Îłâf(xk)Tdk + Îł2
L
2âdkâ22.
FĂŒr die Wahl
Îł := ââf(xk)Tdk
Lâdkâ22
5.3. Modifiziertes Verfahren von Polak und RibiĂšre 43
folgern wir mit Lemma 5.5
f(xk+1)â f(xâ) †f(xk)â f(xâ)â (âf(xk)Tdk)
2
2Lâdkâ22†f(xk)â f(xâ)â ”2
2L(”+ L)2ââf(xk)ââf(xâ)ïžž ïž·ïž· ïžž
=0
â22.
Aus der gleichmĂ€Ăigen KonvexitĂ€t ergibt sich
”âxk â xââ22 â€{âf(xk)ââf(xâ)
}T(xk â xâ) †ââf(xk)ââf(xâ)â2âxk â xââ2,
wÀhrend die Lipschitz-Stetigkeit impliziert
f(xk)â f(xâ) =
â« 1
0
âf(txk + (1â t)xâ
)T(xk â xâ) dt †L
2âxk â xââ22.
Setzen wir diese beiden AbschÀtzungen in die obige ein, so erhalten wir das Behauptete.
Bemerkungen
1. Die KonvergenzabschĂ€tzung aus Satz 5.6 ist schlechter als die das Gradientenver-fahren betreffende aus Satz 2.3. Dies spiegelt jedoch nicht die Tatsache wieder, dassdas CG-Verfahren im Fall quadratischer Funktionen viel schneller konvergiert alsdas Gradientenverfahren. Die Ursache liegt in der Beweistechnik begrĂŒndet, die dasVerfahren von Polak und RibiĂšre als Störung des Gradientenverfahrens auffasst.
2. Das Verfahren von Polak und RibiĂšre konvergiert im allgemeinen schneller als dasVerfahren von Fletcher und Reeves.
3. In der Praxis verwendet man Restarts: Wird der Winkel zwischen dem Antigradi-enten und der Suchrichtung zu groĂ, etwa
â âf(xk)Tdk
ââf(xk)â2âdkâ2< Îł
fĂŒr kleines Îł â (0, 1), dann startet das Verfahren durch einen Gradientenschritt neu.
âł
5.3 Modifiziertes Verfahren von Polak und RibiĂšre
Nichtlineare CG-Verfahren fallen, wie auch das BFGS-Verfahren, im Fall einer konvexenquadratischen Funktion mit dem CG-Verfahren zusammen. Allerdings sind die Quasi-Newton-Verfahren robuster hinsichtlich der Schrittweitensteuerung. Die nichtlinearen CG-Verfahren funktionieren umso besser, je genauer die Liniensuche in â von Algorithmus 5.4durchgefĂŒhrt wird. Eine direkt zu implementierende Schrittweitensteuerung stellen wir imfolgenden modifizierten Verfahren von Polak und RibiĂšre vor.
Algorithmus 5.7 (modifiziertes Verfahren von Polak und RibiĂšre)input: Funktion f : Rn â R und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâN
44 Kapitel 5. Verfahren der konjugierten Gradienten
â Initialisierung: wĂ€hle Ï â (0, 1), 0 < Îł < 1 < Îł und setze d0 = ââf(x0), k := 0
â setze
αk :=|âf(xk)
Tdk|âdkâ22
â berechne
xk+1 := xk + αkdk
ÎČk :=âf(xk+1)
T{âf(xk+1)ââf(xk)}ââf(xk)â22
dk+1 := ââf(xk+1) + ÎČkdk
â ist eine der Bedingungen
f(xk+1) †f(xk)â Ïα2kâdkâ22 (5.10)
âÎłââf(xk+1)â22 †âf(xk+1)Tdk+1 †âÎłââf(xk+1)â22 (5.11)
verletzt, dann halbiere αk und gehe nach â
â ist âf(xk+1) 6= 0, dann erhöhe k := k + 1 und gehe nach â
Lemma 5.8 Ist f : Rn â R stetig differenzierbar, so ist Algorithmus 5.7 wohldefiniert.
Beweis. Wir bemerken zunĂ€chst, dass stets dk 6= 0 ist und somit der Faktor αk in â exis-tiert. WĂ€re nĂ€mlich dk = 0 fĂŒr ein k â N0, so wĂŒrde aus â im Fall k = 0 beziehungsweiseaus (5.11) im Fall k > 0 sofort âf(xk) = 0 folgen.
Es ist also nur zu zeigen, dass die Liniensuche âââ in jedem Iterationschritt k â N0
erfolgreich ist. Zu diesem Zweck nehmen wir an, dass k â N0 ein fester Iterationsindexmit âf(xk)
Tdk < 0 ist. Als erstes stellen wir fest, dass die Bedingung (5.10) wegen
f(xk + αdk) = f(xk) + αâf(xk)Tdk + O(α)
nach endlich vielen erfolglosen Schritten der Liniensuche immer erfĂŒllt ist.
Als nĂ€chstes zeigen wir, dass die Bedingung (5.11) ebenfalls nach endlich vielen erfolglosenSchritten stets erfĂŒllt ist. Denn angenommen, dem ist nicht so. Dann gibt es eine Teilfolge{kâ}â>0, so dass fĂŒr jedes
yâ = xk + 2âkâ|âf(xk)
Tdk|âdkâ22
dk, â â N
zumindest eine der beiden Bedingungen
âf(yâ)T
{ââf(yâ) +
âf(yâ)T{âf(yâ)ââf(xk)}ââf(xk)â22
dk
}> âÎłââf(yâ)â22,
âf(yâ)T
{ââf(yâ) +
âf(yâ)T{âf(yâ)ââf(xk)}ââf(xk)â22
dk
}< âÎłââf(yâ)â22
5.3. Modifiziertes Verfahren von Polak und RibiĂšre 45
nicht erfĂŒllt ist. Der GrenzĂŒbergang ââ â liefert yâ â xk und folglich gilt
âââf(xk)â22 â„ âÎłââf(xk)â22 oder â ââf(xk)â22 †âÎłââf(xk)â22.
Aus 0 < Îł < 1 < Îł folgt dann aber ââf(xk)â2 = 0 im Widerspruch zu unserer Voraus-setzung âf(xk)
Tdk < 0.
Damit ist gezeigt, dass Algorithmus 5.7 wohldefiniert ist, sofern die Abstiegsbedingungâf(xk)
Tdk < 0 fĂŒr alle k â N0 erfĂŒllt ist. FĂŒr k = 0 gilt sie aber nach Definition von d0
und fĂŒr k > 0 folgt sie dann aus Bedingung (5.11).
Lemma 5.9 Es sei D â Rn eine offene, beschrĂ€nkte und konvexe Menge, in der f stetigdifferenzierbar, nach unten beschrĂ€nkt und âf zudem Lipschitz-stetig ist. Ferner sei nebenx0 auch die gesamte Niveaumenge N := {x â Rn : f(x) †f(x0)} in D enthalten. Danngelten die folgenden Aussagen:
(i.) Alle Iterierten xk liegen in der Niveaumenge N .
(ii.) Die Folge {f(xk)}kâN ist konvergent.
(iii.) Es gilt limkââ αkâdkâ2 = 0.
(iv.) Es ist αkâdkâ22 †γc2, wobei c < â eine obere Schranke von ââf(x)â2 auf derNiveaumenge N sei.
(v.) Es existiert eine Konstante Ξ > 0 mit
αk ℠Ξ|âf(xk)
Tdk|âdkâ22
fĂŒr alle k â N0.
Beweis.
(i.) Diese Aussage ergibt sich unmittelbar aus der Bedingung (5.10).
(ii.) Die Folge {f(xk)}kâN ist streng monoton fallend und aufgrund der Voraussetzungnach unten beschrĂ€nkt. Hieraus ergibt sich das Behauptete.
(iii.) Aus (5.10) folgtÏα2
kâdkâ22 †f(xk)â f(xk+1)
fĂŒr alle k â N0. Der GrenzĂŒbergang k â â liefert daher unter BerĂŒcksichtigungder schon bewiesenen Aussage (ii.) die Behauptung.
(iv.) Aus den Schritten âââ von Algorithmus 5.7 folgt
αkâdkâ22 â€|âf(xk)
Tdk|âdkâ22
âdkâ22 †γââf(xk)â22 †γc2
fĂŒr alle k â N0.
(v.) Zum Nachweis dieser Aussage fĂŒhren wir eine Fallunterscheidung durch.
Fall 1: αk = |âf(xk)Tdk|/âdkâ22.
Dann ist offensichtlich
αk â„|âf(xk)
Tdk|âdkâ22
. (5.12)
Fall 2: αk < |âf(xk)Tdk|/âdkâ22.
46 Kapitel 5. Verfahren der konjugierten Gradienten
Dann verletzt die Schrittweite 2αk zumindest eine der Bedingungen in â. Der Punktzk := xk + 2αkdk genĂŒgt also (5.10) oder (5.11) nicht. Nach Aussage (iii.) existiertein K â N, so dass zk â D fĂŒr alle k â„ K. Im folgenden zeigen wir Aussage (v.)zunĂ€chst nur fĂŒr solche k.
Fall 2A: Der Punkt zk â D verletzt (5.10).
Dann giltf(zk) > f(xk)â Ï(2αk)
2âdkâ22. (5.13)
Aufgrund des Mittelwertsatzes existiert ein Οk auf der Verbindungsstrecke von xk
und zk, so dass
f(zk) = f(xk) +âf(Οk)T (zk â xk) = f(xk) + 2αkâf(Οk)Tdk. (5.14)
Aus (5.13) und (5.14) folgt daher
f(xk) + 2αkâf(xk)Tdk + 2αk
{âf(Οk)Tdk ââf(xk)
Tdk
}> f(xk)â Ï(2αk)
2âdkâ22.
Aus der Lipschitz-Stetigkeit von âf in D ergibt sich
2αkâf(xk)Tdk + 2αkL âΟk â xkâ2ïžž ïž·ïž· ïžž
=2αkâdkâ2
âdkâ2 > âÏ(2αk)2âdkâ22.
Dies liefert unmittelbar
αk â„1
2(L+ Ï)
|âf(xk)Tdk|
âdkâ22. (5.15)
Fall 2B: Der Punkt zk â D verletzt die linke Ungleichung in (5.11).
Wegen
âf(zk)T{ââf(zk) +
âf(zk)T{âf(zk)ââf(xk)}ââf(xk)â22
dk
}< âÎłââf(zk)â22
ergibt sich mit Hilfe der Cauchy-Schwarzschen Ungleichung
âââf(zk)â22 â ââf(zk)â22ââf(zk)ââf(xk)â2
ââf(xk)â22âdkâ2 < âÎłââf(zk)â22,
das heiĂt, es ist
1 +ââf(zk)ââf(xk)â2
ââf(xk)â22âdkâ2 > Îł.
Aus der Lipschitz-Stetigkeit von âf und der Tatsache, dass die Schrittweite αk derBedingung (5.11) genĂŒgt, folgt daher nach kurzer Rechnung
αk â„(Îł â 1)ââf(xk)â22
2Lâdkâ22â„ Îł â 1
2ÎłL
|âf(xk)Tdk|
âdkâ22. (5.16)
Fall 2C: Der Punkt zk â D verletzt die linke Ungleichung in (5.11). Es ist
âf(zk)T{ââf(zk) +
âf(zk)T{âf(zk)ââf(xk)}ââf(xk)â22
dk
}> âÎłââf(zk)â22.
5.3. Modifiziertes Verfahren von Polak und RibiĂšre 47
Analog zum Fall 2B erhÀlt man hieraus
αk â„1â Îł
2ÎłL
|âf(xk)Tdk|
âdkâ22. (5.17)
Wegen (5.12), (5.15), (5.16), (5.17) folgt Aussage (v.) mit
Ξ := min
{1,
1
2(L+ Ï),Îł â 1
2ÎłL,1â Îł
2ÎłL
},
und zwar zunĂ€chst fĂŒr alle k â„ K. Da nur endlich viele k ĂŒbrigbleiben, folgt Aussage(v.) nach eventueller Verkleinerung von Ξ aber auch fĂŒr alle k â N0.
Satz 5.10 Unter den Voraussetzungen von Lemma 5.9 gilt fĂŒr die Iterierten {xk}kâ„0 desmodifizierten Verfahren von Polak und RibiĂšre 5.7
âf(xk)kââââ 0.
Beweis. Angenommen, die Aussage des Satzes ist falsch. Dann existieren ein Δ > 0 undeine Teilfolge {xkâ}, so dass
ââf(xkââ1)â2 > Δ
fĂŒr alle â â N. Aus der Aufdatierungsvorschrift fĂŒr dkâ und Lemma 5.9 (iv.) folgt dann
âdkââ2 †ââf(xkâ)â2 +ââf(xkâ)â2ââf(xkâ)ââf(xkââ1)â2
ââf(xkââ1)â22âdkââ1â2 †c + Îł
Lc3
Δ2
fĂŒr alle â â N. Zusammen mit Lemma 5.9 (iii.) ergibt sich hieraus
limâââ
αkââdkââ22 = 0
und weiter aus Lemma 5.9 (v.)
limâââ
|âf(xkâ)Tdkâ| = 0.
Die rechte Ungleichung in (5.11) liefert daher
limâââ
ââf(xkâ)â2 = 0.
Weil nach Lemma 5.9 (iii.) gilt
limâââ
âxkâ â xkââ1â2 = limâââ
αkââ1âdkââ1â2 = 0,
schlieĂen wir
ââf(xkââ1)â2 †ââf(xkâ)ââf(xkââ1)â2 + ââf(xkâ)â2†Lâxkâ â xkââ1â2 + ââf(xkâ)â2âââââ 0.
Dies steht aber im Widerspruch zur Annahme, dass {ââf(xkââ1)â2}â>0 nicht nach Nullkonvergiert.
48 Kapitel 6. Nichtlineare Ausgleichsprobleme
6. Nichtlineare Ausgleichsprobleme
6.1 GauĂ-Newton-Verfahren
Ein nichtlineares Ausgleichsproblem liegt vor, falls zu gegebenen Daten und Funktionen
y =
y1y2...ym
â Rm, f(x) =
f1(x1, x2, . . . , xn)f2(x1, x2, . . . , xn)
...fm(x1, x2, . . . , xn)
: Rn â Rm
dasjenige xâ = [xâ1, xâ2, . . . , x
ân]
T gesucht wird, das die Minimierungsaufgabe
Ï(x) :=1
2âyâ f(x)â22 =
mâ
i=1
|yi â fi(x1, x2, . . . , xn)|2 â minxâRn
(6.1)
löst.
Nichtlineare Ausgleichsprobleme können im allgemeinen nur iterativ gelöst werden. Dahierzu Gradienteninformationen benötigt wird, setzen wir f als stetig differenzierbar vor-aus. Die Ableitung f âČ sei zusĂ€tzlich sogar Lipschitz-stetig.
NatĂŒrlich kann man das nichtlineare Ausgleichsproblem (6.1) mit dem Gradientenverfah-ren oder dem Quasi-Newton-Verfahren zu lösen. Besser ist es jedoch, es mit dem Newton-Verfahren zu lösen, was auf die Iteration
xk+1 = xk â ÏâČâČ(xk)âÏ(xk), k = 0, 1, 2, . . .
fĂŒhrt. Hierzu wird jedoch neben dem Gradienten
âÏ(x) = â(f âČ(x)
)T (y â f(x)
), f âČ(x) =
âf1âx1
(x) âf1âx2
(x) . . . âf1âxn
(x)âf2âx1
(x) âf2âx2
(x) . . . âf2âxn
(x)...
......
âfmâx1
(x) âfmâx2
(x) . . . âfmâxn
(x)
auch die Hesse-Matrix benötigt, das ist
ÏâČâČ(x) =(f âČ(x)
)Tf âČ(x)â
(y â f(x)
)Tf âČâČ(x).
In der Praxis will man die Berechnung des Tensors f âČâČ(x) â RmĂ(nĂn) jedoch vermei-den. Daher vernachlĂ€ssigt man den Term
(yâ f(x)
)Tf âČâČ(x) und erhĂ€lt das GauĂ-Newton-
Verfahren.
6.1. GauĂ-Newton-Verfahren 49
Zu dessen Herleitung linearisieren wir die Funktion f
f(x + d) = f(x) + f âČ(x)d+ O(âdâ2).
Ist nun xk eine NÀherungslösung des Ausgleichsproblems (6.1), so erwartet man, dass dieOptimallösung xk+1 = xk + dk des linearisierten Problems
mindâRn
âyâ f(xk)â f âČ(xk)dâ22 = ârk â f âČ(xk)dkâ22, rk := yâ f(xk)
eine bessere Lösung des Ausgleichsproblems ist. GemÀà Definition muss das Update dk
die Normalengleichungen(f âČ(xk)
)Tf âČ(xk)dk =
(f âČ(xk)
)Trk
lösen. Dies fĂŒhrt auf folgenden Algorithmus:
Algorithmus 6.1 (GauĂ-NewtonâVerfahren)input: Funktion f : Rn â Rm, Datenvektor y â Rm und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: setze k = 0
â löse die Normalengleichungen
(f âČ(xk)
)Tf âČ(xk)dk =
(f âČ(xk)
)T (yâ f(xk)
)(6.2)
â setze xk+1 := xk + dk
â erhöhe k := k + 1 und gehe nach â
Satz 6.2 Sei D â Rn offen und f : D â Rm eine stetig differenzierbare Abbildung. DasMinimierungsproblem (6.1) habe eine Lösung xâ â D mit rang
(f âČ(xâ)
)= n †m. Sei
λ > 0 der kleinste Eigenwert von(f âČ(xâ)
)Tf âČ(xâ). Ferner gelte die Lipschitz-Bedingung
âf âČ(x)â f âČ(z)â2 †αâxâ zâ2 (6.3)
und â„â„(f âČ(x)â f âČ(xâ))T (
y â f(xâ))â„â„
2†ÎČâxâ xââ2 (6.4)
mit ÎČ < λ fĂŒr alle x, z aus einer Umgebung von xâ. Dann existiert ein Δ > 0, so dassfĂŒr jeden Startvektor x0 â BΔ(x
â) := {x â Rn : âx â xââ2 < Δ} die Folge der Iterierten{xk}kâ„0 mindestens linear gegen xâ konvergiert.
Beweis. Nach Voraussetzung gibt es ein Δ1 > 0, so dass (6.3) und (6.4) fĂŒr alle x â BΔ1(xâ)
gelten. Aus StetigkeitsgrĂŒnden folgt auĂerdem die Existenz von Îł > 0, so dass
âf âČ(x)â2 †γ fĂŒr alle x â BΔ1(xâ).
Wegen rang(f âČ(xâ)
)= n, ist die Matrix
(f âČ(xâ)
)Tf âČ(xâ) regulĂ€r mit
â„â„â„â„((
f âČ(xâ))T
f âČ(xâ))â1
â„â„â„â„2
=1
λ. (6.5)
50 Kapitel 6. Nichtlineare Ausgleichsprobleme
Daher gibt es zu beliebigem ÎŽ > 1 ein Δ2 > 0 derart, dass(f âČ(x)
)Tf âČ(x) regulĂ€r ist und
â„â„â„â„(f âČ(x)
)Tf âČ(x)
)â1â„â„â„â„2
†Ύ
λfĂŒr alle x â BΔ2(x
â). (6.6)
Wir wÀhlen Ύ > 1 so, dass zusÀtzlich gilt
Ύ <λ
ÎČ. (6.7)
Weiter gibt es ein Δ3 > 0, so dass fĂŒr jedes xk â BΔ3(xâ) folgt
âf(xâ)â f(xk)â f âČ(xk)(xâ â xk)â2
=
â„â„â„â„â« 1
0
f âČ(xk + t(xâ â xk)
)(xâ â xk) dtâ f âČ(xk)(x
â â xk)
â„â„â„â„2
=
â„â„â„â„â« 1
0
(f âČ(xk + t(xâ â xk)
)â f âČ(xk)
)(xâ â xk) dt
â„â„â„â„2
â€â« 1
0
â„â„â„f âČ(xk + t(xâ â xk)
)â f âČ(xk)
â„â„â„2ïžž ïž·ïž· ïžž
â€Î±tâxkâxââ2
âxk â xââ2 dt
†α
2âxk â xââ22.
Wir setzen nun
Δ := min
{Δ1, Δ2, Δ3,
λâ ÎČÎŽ
αγΎ
}> 0.
Aus (6.2) folgt dann fĂŒr xk â BΔ(xâ) dass
xk+1 â xâ = xk + dk â xâ
=((
f âČ(xk))T
f âČ(xk))â1[(
f âČ(xk))T (
y â f(xk))â(f âČ(xk)
)Tf âČ(xk)(x
â â xk)]
=((
f âČ(xk))T
f âČ(xk))â1[(
f âČ(xk))T (
y â f(xâ))
+(f âČ(xk)
)T (f(xâ)â f(xk)â f âČ(xk)(x
â â xk))].
Hieraus folgt dann mit (6.5) und (6.6)
âxk+1 â xââ2 â€â„â„â„â„((
f âČ(xk))T
f âČ(xk))â1
â„â„â„â„2
[â„â„(f âČ(xk))T (
yâ f(xâ))â„â„
2
+ âf âČ(xk)â2âf(xâ)â f(xk)â f âČ(xk)(xâ â xk)â2
]
†Ύ
λ
[â„â„(f âČ(xk))T (
y â f(xâ))â„â„
2+αγ
2âxk â xââ22
]. (6.8)
Wegen 0 = âÏ(xâ) = â(f âČ(xâ)
)T (y â f(xâ)
)ergibt sich mit (6.4)
â„â„(f âČ(xk))T (
y â f(xâ))â„â„
2=
â„â„(f âČ(xk)â f âČ(xâ))T (
y â f(xâ))â„â„
2†ÎČâxk â xââ2,
dies bedeutet,
âxk+1 â xââ2 â€ÎŽ
λ
[ÎČ +
αγ
2âxk â xââ2ïžž ïž·ïž· ïžž
â€Î”â€(λâÎČÎŽ)/(αγΎ)
]âxk â xââ2 â€
[ÎČÎŽ
λ+λâ ÎČÎŽ
2λ ïž·ïž· ïžž=(λ+ÎČÎŽ)/(2λ)
]âxk â xââ2.
6.2. Levenberg-Marquardt-Verfahren 51
Wegen (6.7) ist die Konstante (λ+ ÎČÎŽ)/(2λ) < 1, das heiĂt, alle Iterierten {xk}kâ„0 liegenin BΔ(x
â) und konvergieren mindestens linear gegen xâ.
Bemerkung Die Voraussetzung (6.4) besagt im Prinzip, dass das Residuum r(xâ) =y â f(xâ) klein genug sein soll. Dies sieht man insbesondere, wenn man sie durch diestĂ€rkere Bedingung
ây â f(xâ)â2 â€Î»
α
ersetzt. Dann folgt nĂ€mlich (6.4):â„â„(f âČ(x)â f âČ(xâ)
)T (y â f(xâ)
)â„â„2†âf âČ(x)â f âČ(xâ)â2ïžž ïž·ïž· ïžž
â€Î±âxâxââ2
ây â f(xâ)â2ïžž ïž·ïž· ïžžâ€Î»/α
†λâxâ xââ2.
âł
Korollar 6.3 ZusĂ€tzlich zu den Voraussetzungen aus Satz 6.2 gelte f(xâ) = y. Dannexistiert ein Δ > 0, so dass fĂŒr jeden Startvektor x0 â BΔ(x
â) die Folge der Iterierten{xk}kâ„0 quadratisch gegen xâ konvergiert.
Beweis. Aus Satz 6.2 folgt die lineare Konvergenz der Iterierten {xk}kâ„0 gegen xâ. ZumNachweis der quadratischen Konvergenz bemerken wir, dass aufgrund der Voraussetzung(6.4) mit ÎČ = 0 gilt. Daher folgt aus (6.8)
âxk+1 â xââ2 â€Î±ÎłÎŽ
2λâxk â xââ22.
6.2 Levenberg-Marquardt-Verfahren
Das Levenberg-Marquardt-Verfahren ist ein Trust-Region-Verfahren, also ein Verfahren,bei dem der Linearisierung nur im Bereich âdkâ2 †âk vertraut wird. Demnach wollenwir das restringierte Optimierungsproblem
mindâRn:âdâ2â€âk
Ï(d) = mindâRn:âdâ2â€âk
1
2ârk â f âČ(xk)dâ22, (6.9)
lösen, um die Iterierte dann mit der Lösung dk aufzudatieren: xk+1 = xk + dk.
Da die Menge Bâk(0) kompakt ist, existiert ein Minimum dk. Es treten dabei zwei FĂ€lle
auf:
1. Das Minimum dk liegt im Inneren der Kugel Bâk(0) und erfĂŒllt
âÏ(dk) =(f âČ(xk)
)T (f âČ(xk)dk â rk
)= 0. (6.10)
2. Das Minimum liegt auf dem Rand, erfĂŒllt also âdkâ2 = âk. In diesem Fall muss dieHöhenlinie von Ï in dk genau den Kreis âBâk
(0) tangieren, das heiĂt, der GradientâÏ(dk) zeigt in Richtung des Nullpunkts:
âÏ(dk) =(f âČ(xk)
)T (f âČ(xk)dk â rk
)= âλkdk fĂŒr ein λk â„ 0. (6.11)
52 Kapitel 6. Nichtlineare Ausgleichsprobleme
Der Parameter λk wird Lagrange-Parameter genannt. Da die Gleichung (6.10) als Spezi-alfall λk = 0 von (6.11) angesehen werden kann, erhalten wir:
Lemma 6.4 Die Lösung dk des restringierten Problems (6.9) genĂŒgt der Gleichung((
f âČ(xk))T
f âČ(xk) + λkI)dk =
(f âČ(xk)
)Trk (6.12)
fĂŒr ein λk â„ 0. Dabei ist der Wert λk genau dann positiv, wenn âÏ(dk) 6= 0 und daherdie Nebenbedingung âdkâ2 = âk > 0 gilt.
Der Vorteil des regularisierten Systems (6.12) liegt darin, dass es stets eindeutig lösbarist, sofern λk > 0 ist. Die zugehörige Lösung
dk =((
f âČ(xk))T
f âČ(xk) + λkI)â1(
f âČ(xk))T
rk = â((
f âČ(xk))T
f âČ(xk) + λkI)â1
âÏ(xk)
erfĂŒllt offenbar die Abstiegsbedingung dTkâÏ(xk) < 0, es sei denn, der Punkt xk ist
stationÀr.
Bemerkung Ist λk = 0, dann ergibt sich ein GauĂ-Newton-Schritt, wĂ€hrend dk fĂŒrλk â â der Richtung des steilsten Abstiegs entspricht. âłWir mĂŒssen uns noch ein Kriterium ĂŒberlegen, wie wir âk wĂ€hlen. Eine neue NĂ€herungxk+1 = xk + dk können wir anhand der Armijo-Goldstein-Bedingung (vergleiche (2.4))bewerten:
Ï =Ï(xk + dk)â Ï(xk)
dTkâÏ(xk)
=1
2
ây â f(xk)â22 â âyâ f(xk + dk)â22dTk
(f âČ(xk)
)T (yâ f(xk)
) .
Wir wĂ€hlen zwei Toleranzgrenzen 0 < Ïâ < Ï+ < 1 und akzeptieren den Iterationsschritt,wenn Ï > Ïâ gilt. Dann war der Trust-Region-Radius âk geeignet gewĂ€hlt. Ist Ï â„Ï+, so können wir âk sogar vergröĂern. Ist hingegen Ï â€ Ïâ, dann verwerfen wir denIterationsschritt und verkleinern âk. Dies fĂŒhrt auf den folgenden Algorithmus:
Algorithmus 6.5 (Levenberg-Marquardt-Verfahren)input: Funktion f : Rn â Rm, Datenvektor y â Rm und StartnĂ€herung x0 â Rn
output: Folge von Iterierten {xk}kâNâ Initialisierung: wĂ€hle 0 < Ïâ < Ï+ < 1 und setze â0 := 1 und k := 0
â bestimme die Lösung dk des restringierten Optimierungsproblems (6.9)
â berechne
Ïk =1
2
âyâ f(xk)â22 â ây â f(xk + dk)â22dTk
(f âČ(xk)
)T (y â f(xk)
) (6.13)
â falls Ïk > Ïâ setze xk+1 := xk + dk, sonst setze âk := âk/2 und gehe nach â
â falls Ïk > Ï+ setze âk+1 := 2âk, sonst setze âk+1 := âk
â erhöhe k := k + 1 und gehe nach â
6.2. Levenberg-Marquardt-Verfahren 53
Satz 6.6 Es sei D â Rn eine kompakte Menge, in der f stetig differenzierbar und f âČ
zudem Lipschitz-stetig ist. Ferner sei neben x0 auch die gesamte Niveaumenge {x â Rn :Ï(x) †Ï(x0)} in D enthalten. Dann gilt fĂŒr die Iterierten {xk}kâ„0 aus Algorithmus 6.5
âÏ(xk)kââââ 0.
Beweis. (i) ZunĂ€chst beweisen wir eine obere Schranke fĂŒr den Lagrange-Parameter λkaus (6.12). Dazu nehmen wir ohne BeschrĂ€nkung der Allgemeinheit an, dass λk > 0 unddaher âdkâ2 = âk ist. Aus (6.12) folgt
dTk
((f âČ(xk)
)Tf âČ(xk) + λkI
)dk = dT
k
(f âČ(xk)
)Trk †âdkâ2
â„â„(f âČ(xk))T
rkâ„â„2.
Da(f âČ(xk)
)Tf âČ(xk) positiv semidefinit ist, kann die linke Seite nach unten durch λk abge-
schÀtzt werden, so dass folgt
λk â€â„â„(f âČ(xk)
)Trkâ„â„2
âk
=ââÏ(xk)â2
âk
. (6.14)
(ii) Als nĂ€chstes leiten wir eine untere Schranke fĂŒr den Nenner Îœk in (6.13) her. Im Fallλk > 0 ist
(f âČ(xk)
)Tf âČ(xk) + λkI positiv definit, weshalb eine Cholesky-Zerlegung LLT
existiert. Dabei gilt
âLTLâ2 = âLLTâ2 =â„â„(f âČ(xk)
)Tf âČ(xk) + λkI
â„â„2= âf âČ(xk)â22ïžž ïž·ïž· ïžž
â€c fĂŒr alle xâD
+λk(6.14)
†c+ââÏ(xk)â2
âk.
Setzen wir w = Lâ1âÏ(xk), so folgt unter Beachtung von (6.12) hieraus
Îœk =(âÏ(xk)
)T(LLT )â1âÏ(xk) = wTw
ââÏ(xk)â22(âÏ(xk)
)TâÏ(xk)=
âwâ22ââÏ(xk)â22wTLTLw
â„ âwâ22ââÏ(xk)â22âwâ22
(c+ ââÏ(xk)â2/âk
) â„ ââÏ(xk)â21 + c
min{âk, ââÏ(xk)â2}. (6.15)
Im Fall λk = 0 folgtΜk = rTk f
âČ(xk)(f âČ(xk)
)+rk = âPkrkâ22,
wobei Pk = f âČ(xk)(f âČ(xk)
)+den Orthogonalprojektor auf img
(f âČ(xk)
)bezeichnet. Wegen
img(f âČ(xk)
)= kern
((f âČ(xk)
)T)â„
folgt daher
ââÏ(xk)â22 =â„â„(f âČ(xk)
)Trkâ„â„2
2=
â„â„(f âČ(xk))T
Pkrkâ„â„2
2â€
â„â„(f âČ(xk))Tâ„â„2
2âPkrkâ22 †cÎœk,
das heiĂt, (6.15) ist auch im Fall λk = 0 gĂŒltig.
(iii) Wir beweisen nun, dass die rechte Seite von (6.15) gegen Null konvergiert. Bei er-folgreichem Iterationsschritt ist Ïk > Ïâ und aus (6.13) und (6.15) folgt
Ï(xk)â Ï(xk+1) > ÏâÎœk â„ ÏâââÏ(xk)â21 + c
min{âk, ââÏ(xk)â2}. (6.16)
54 Kapitel 6. Nichtlineare Ausgleichsprobleme
Da nach Konstruktion {Ï(xk)}kâ„0 eine monoton fallende, nach unten beschrĂ€nkte Folgeist, muss gelten
min{âk, ââÏ(xk)â2} kââââ 0. (6.17)
(iv) Als nĂ€chstes zeigen wir, dass ââÏ(xk)â2 fĂŒr eine Teilfolge {kn}nâN mit kn â â gegenNull konvergiert. Angenommen, die Behauptung gilt nicht, dann folgt
ââÏ(xk)â2 ℠Δ > 0 fĂŒr alle k â„ K(Δ).
Aus (6.17) ergibt sich damit unmittelbar
âkkââââ 0. (6.18)
Taylor-Entwicklung von Ïk liefert jedoch
Ïk =Ï(xk+1)â Ï(xk)
dTkâÏ(xk)
=dTkâÏ(xk) +O(âdkâ22)
dTkâÏ(xk)
= 1 +O(â2
k
Îœk
)(6.15)= 1 +O
(âk
ââÏ(xk)â2ïžž ïž·ïž· ïžžâ„Δ>0
)= 1 +O(âk) fĂŒr k â â.
Demnach existiert ein M(Δ) â„ K(Δ), so dass Ïk > Ï+ fĂŒr alle k â„M(Δ). Ab dem M(Δ)-tenSchritt wird folglich âk in jedem Schritt von Algorithmus 6.5 verdoppelt, was jedoch imWiderspruch zu (6.18) steht.
(v) Wir beweisen nun die Aussage des Satzes. Dazu nehmen wir an, dass eine Teilfolgevon {ââÏ(xk)â2}kâ„0 nicht gegen Null konvergiert. Nach Aussage (iv) existiert dann einΔ > 0 und zwei Indizes â < m, so dass
ââÏ(xâ)â2 â„ 2Δ, ââÏ(xm)â2 †Δ, ââÏ(xk)â2 > Δ, k = â+ 1, . . . , mâ 1.
Da {Ï(xk)}kâ„0 eine Cauchy-Folge ist, kann â dabei so groĂ gewĂ€hlt werden, dass
Ï(xâ)â Ï(xm) <Δ2Ïâ
(1 + c)L, (6.19)
wobei L > 1 eine Lipschitz-Konstante von âÏ in D bezeichne. Wegen âxk+1âxkâ2 †âk
folgt aus (6.16) dass
Ï(xk)â Ï(xk+1) â„ΔÏâ
1 + cmin{âxk+1 â xkâ2, Δ}, k = â, â+ 1, . . . , mâ 1.
Summation ergibt
ΔÏâ
1 + c
mâ1â
k=â
min{âxk+1 â xkâ2, Δ} †Ï(xâ)â Ï(xm)(6.19)<
Δ2Ïâ
(1 + c)L,
was wegen L > 1 nur erfĂŒllt sein kann, wenn
min{âxk+1 â xkâ2, Δ} = âxk+1 â xkâ2, k = â, â+ 1, . . . , mâ 1,
und insgesamtmâ1â
k=â
âxk+1 â xkâ2 <Δ
L
6.2. Levenberg-Marquardt-Verfahren 55
gilt. Dies ergibt
ââÏ(xm)ââÏ(xâ)â2 †Lâxm â xââ2 †L
mâ1â
k=â
âxk+1 â xkâ2 < Δ
im Widerspruch zur Annahme. Damit ist der Satz bewiesen.
Wir kommen nun zur Implementierung. Um das restringierte Minimierungsproblem (6.9)zu lösen, berechnen wir zunĂ€chst die Lösung dk bezĂŒglich des unrestringierten Minimie-rungsproblems und akzeptieren den Schritt, falls âdkâ2 †âk. Ist hingegen âdkâ2 > âk,so wissen wir, dass das Minimum von (6.9) auf dem Rand liegt. Wir suchen dann dasjenigeTupel (λk,dk), das (6.12) und âdkâ2 = âk löst.
Es bezeichne z1 ℠· · · â„ zn â„ 0 die Eigenwerte von(f âČ(xk)
)Tf âČ(xk) und {vi}ni=1 die
zugehörigen orthonormalen Eigenvektoren. Entwickeln wir die rechte Seite von (6.12) indiese Eigenbasis
(f âČ(xk)
)Trk =
nâ
i=1
Οivi,
dann folgt
dk(λk) =((
f âČ(xk))T
f âČ(xk) + λkI)â1
nâ
i=1
Οivi =
nâ
i=1
Οizi + λk
vi.
Die Forderung âdk(λk)â2 = âk fĂŒhrt auf die nichtlineare Gleichung
r(λk) :=nâ
i=1
|Οi|2|zi + λk|2
!= â2
k.
Diese kann mit dem Hebden-Verfahren gelöst werden, einem Newton-Verfahren fĂŒr dieGleichung
1âr(λ)
â 1
âk
!= 0.
Ausgehend vom Startwert λ(0) = 0 konvergiert die zugehörige Iteration
λ(i+1) = λ(i) + 2r3/2(λ(i))
râČ(λ(i))
(râ1/2(λ(i))â 1
âk
), i = 0, 1, 2, . . . .
sehr schnell gegen die Lösung λk. Die explizite Spektralzerlegung kann vermieden werden,indem man r(λ) = âdk(λ)â22 und
râČ(λ) = â2rTk fâČ(xk)
((f âČ(xk)
)Tf âČ(xk) + λI
)â3(f âČ(xk)
)Trk = â2dk(λ)
Tg(λ)
mit((
f âČ(xk))T
f âČ(xk) + λI)g(λ) = dk(λ)
benutzt.
FĂŒr jede Hebden-Iterierte sind zwei Gleichungssysteme mit derselben Systemmatrix zulösen. Diese entsprechen genau den Normalengleichungen zu den Ausgleichsproblemen
â„â„â„â„[f âČ(xk)âλI
]dk(λ)â
[rk0
]â„â„â„â„2
2
â min,
â„â„â„â„[f âČ(xk)âλI
]g(λ)â
[0
dk(λ)/âλ
]â„â„â„â„2
2
â min .
Verwendet man die QR-Zerlegung QR = f âČ(xk), so können letztere durch Anwendungvon jeweils n(n + 1)/2 Givens-Rotationen effizient gelöst werden.
56 Kapitel 7. Optimierungsprobleme mit Nebenbedingungen
7. Optimierungsprobleme mit Neben-
bedingungen
7.1 OptimalitÀtsbedingungen erster Ordnung
Wir betrachten im folgenden Optimierungsprobleme mit Nebenbedingungen, das heiĂt,Probleme der Form
minxâRn
f(x) unter den Nebenbedingungen
ci(x) = 0 fĂŒr alle i â JG,
ci(x) â„ 0 fĂŒr alle i â JU .
(7.1)
Dabei seien JG und JU Indexmengen fĂŒr Gleichungs- und Ungleichungsnebenbedingun-gen.
Definition 7.1 Es bezeichne
G := {x â Rn : ci(x) = 0 fĂŒr i â JG und ci(x) â„ 0 fĂŒr i â JU} â Rn
die Menge der zulĂ€ssigen Punkte des Minimierungsproblems unter Nebenbedingungen(7.1). Dann verstehen wir unter einem lokalen Minimum des Problems (7.1) einen Punktxâ â G, fĂŒr den fĂŒr alle x â U â© G gilt f(xâ) †f(x) mit einer Umgebung U â Rn vonxâ.
Als generelle Voraussetzung fĂŒr das folgende seien sowohl f als auch ci fĂŒr alle i â JGâȘJU
stetig differenzierbar im betrachteten Bereich.
Definition 7.2 Es sei xâ â G ein lokales Minimum des Minimierungsproblems (7.1).Die Folge {xk}kâN â Rn heiĂt zulĂ€ssige Folge fĂŒr das Problem (7.1), falls folgendeEigenschaften erfĂŒllt sind:
(i.) Es gilt limkââ xk = xâ â G.
(ii.) Es ist xk 6= xâ fĂŒr alle k â N.
(iii.) Es existiert ein K â N, so dass xk â G fĂŒr alle k â„ K.
Die Richtung d â Rn heiĂt Grenzrichtung einer zulĂ€ssigen Folge, falls
limâââ
xkâ â xâ
âxkâ â xââ2= d (7.2)
7.1. OptimalitÀtsbedingungen erster Ordnung 57
fĂŒr eine Teilfolge {xkâ}ââN gilt.
Satz 7.3 Ist xâ â G ein lokales Minimum des Minimierungsproblems (7.1), so gilt
âf(xâ)Td â„ 0
fĂŒr alle Grenzrichtungen d â Rn zu zulĂ€ssigen Folgen mit Grenzwert xâ.
Beweis. Angenommen, es gibt eine zulĂ€ssige Folge {xk}kâN mit âf(xâ)Td < 0 fĂŒr eineGrenzrichtung d. Es sei {xkâ}ââN eine zur Grenzrichtung gehörende Teilfolge mit (7.2).Dann gilt
f(xkâ) = f(xâ) +âf(xâ)T (xkâ â xâ) + O(âxkâ â xââ2)= f(xâ) + âxkâ â xââ2âf(xâ)Td+ O(âxkâ â xââ2).
Wegen âf(xâ)d < 0 gibt es ein L â N, so dass
f(xkâ) < f(xâ) +1
2âxkâ â xââ2âf(xâ)Td
fĂŒr alle â â„ L gilt. In jeder Umgebung von xâ finden wir daher ein xkâ mit f(xkâ) < f(xâ)im Widerspruch zur Voraussetzung.
Mit Hilfe dieses Satzes können wir den Begriff des stationÀren Punktes auf das Minimie-rungsproblem mit Nebenbedingungen (7.1) verallgemeinern.
Definition 7.4 Der Punkt xâ â G wird als stationĂ€rer Punkt des Minimierungspro-blems mit Nebenbedingungen (7.1) bezeichnet, falls
âf(xâ)Td â„ 0 (7.3)
fĂŒr alle Grenzrichtungen d â Rn zulĂ€ssiger Folgen mit Grenzwert xâ gilt.
Man beachte, dass die Bedingung (7.3) im Fall eines unrestringierten Minimierungspro-blems mit der ĂŒblichen Bedingung âf(xâ) = 0 zusammenfĂ€llt.
Definition 7.5 Zu gegeben Punkt xâ â G sei
JA(xâ) := JG âȘ {i â JU : ci(x
â) = 0}.
die Menge der aktiven Nebenbedingungen. Sind die zu dieser Menge gehörigenGradienten
{âci(xâ) : i â JA(xâ)}
linear unabhĂ€ngig, so sagen wir, der Punkt xâ erfĂŒllt die LICQ-Bedingung.
58 Kapitel 7. Optimierungsprobleme mit Nebenbedingungen
Bemerkung LICQ steht abkĂŒrzend fĂŒr linear independence constraint qualification. âł
Lemma 7.6 Sei xâ ein lokales Minimum des Minimierungsproblems (7.1). Ist d â Rn
eine Grenzrichtung einer zulÀssigen Folge, so gilt
âci(xâ)Td = 0 fĂŒr alle i â JG,
âci(xâ)Td â„ 0 fĂŒr alle i â JU â© JA.
Gelten umgekehrt fĂŒr eine Richtung d â Rn mit âdâ2 = 1 diese beiden Bedingungen undist zusĂ€tzlich die LICQ-Bedingung fĂŒr xâ erfĂŒllt, dann ist d eine Grenzrichtung zu xâ.
Beweis. (i.) Es sei {xk}kâN eine zulĂ€ssige Folge, fĂŒr die d eine Grenzrichtung ist. Wirerhalten, gegebenfalls durch Ăbergang zu einer Teilfolge,
limkââ
xk â xâ
âxk â xââ2= d.
Daraus folgtxk = xâ + âxk â xââ2d+ O(âxkâ â xââ2).
Ist i â JG, so haben wir fĂŒr alle k â„ K
0 =ci(xk)
âxk â xââ2=ci(x
â) + âxk â xââ2âci(xâ)Td+ O(âxk â xââ2)âxk â xââ2
= âci(xâ)Td+O(âxk â xââ2)âxk â xââ2
.
Durch den GrenzĂŒbergang k â â schlieĂen wir in diesem Fall âci(xâ)Td = 0.
Ist i â JU âȘ JA(xâ), dann erhalten wir fĂŒr alle k â„ K
0 †ci(xk)
âxk â xââ2=
O(âxk â xââ2)âxk â xââ2
und analog zum obigen Vorgehen âci(xâ)Td â„ 0. Damit ist die erste Aussage des Satzesgezeigt.
(ii.) Wir setzen A := [âci(xâ)T ]iâJA(xâ) und beachten, dass diese Matrix aufgrund derLICQ-Bedingung vollen Rang m := |JA(x
â)| †n besitzt. Ohne BeschrĂ€nkung der Allge-meinheit können wir annehmen, dass alle Nebenbedingungen aktiv sind, also JG âȘ JU =JA(x
â) ist. Zur Matrix A â RmĂn können wir eine Matrix B â RnĂ(nâm) mit vollem Randnâm finden, so dass AB = 0 gilt. Dabei bilden die Spalten von B eine Basis des Kernsvon A.
FĂŒr t > 0 und d â Rn mit âdâ2 = 1 definieren wir die Abbildung Ï : Rn ĂR â Rn durch
Ï(x, t) =
[c(x)â tAd
BT (xâ xâ â td)
]mit c(x) = [ci(x)]iâJA(xâ)
7.1. OptimalitÀtsbedingungen erster Ordnung 59
und betrachten die Lösung des Gleichungssystems Ï(x, t) = 0. FĂŒr t = 0 ist x = xâ dieLösung dieses Gleichungssystems und die Jakobi-Matrix
âxÏ(xâ, 0) =
[âc(xâ)T
BT
]=
[A
BT
]â RnĂn
ist nichtsingulĂ€r. Nach dem Satz ĂŒber implizite Funktionen besitzt dieses Gleichungssys-tem also fĂŒr hinreichend kleines t > 0 eine eindeutige Lösung x = x(t).
Sei {tk}kâN â (0, 1] eine Folge mit tk â 0 und fĂŒr k â„ K sei xk die eindeutige Lsoungvon Ï(x, tk) = 0. Wir zeigen, dass {xk}kâN eine zulĂ€ssige Folge mit Grenzrichtung d ist.ZunĂ€chst folgern wir xk â G fĂŒr alle k â N aus
i â JG â ci(xk) = tkâci(xâ)Td = 0,
i â JU â© JA â ci(xk) = tkâci(xâ)Td â„ 0.
Aufgrund des Satzes ĂŒber implizite Funktionen hĂ€ngt die Lösung xk des Gleichungssys-tems Ï(x, t) = 0 stetig von tk ab. Dies impliziert
limkââ
xk = xâ.
Als nĂ€chstes zeigen wir, dass xk 6= xâ gilt. Angenommen, es ist xk = xâ fĂŒr ein k â N,dann wĂŒrde gelten
Ï(xâ, tk) =
[c(xâ)â tkAd
BT (xâ â xâ â tkd)
]= 0.
Da alle Nebenbedingungen als aktiv angenommen wurden, gilt c(xâ) = 0 und es folgt[A
BT
]d = 0.
Daraus ergibt sich d = 0 im Widerspruch zu âdâ2 = 1. Folglich ist {xk}kâN eine zulĂ€ssigeFolge.
Wir mĂŒssen noch nachweisen, dass d eine Grenzrichtung ist.
0 = Ï(xk, tk)
=
[c(xk)â tkAd
BT (xk â xâ â tkd)
]
=
[c(xâ) +A(xk â xâ) + O(âxk â xââ2)â tkAd
BT (xk â xâ â tkd)
]
=
[A
BT
](xk â xâ â tkd) + O(âxk â xââ2).
Durch die spezielle Wahl von
dk :=xk â xâ
âxk â xââ2erhalten wir hieraus
limkââ
{dk â
tkd
âxk â xââ2
}= 0.
Wegen âdkâ2 = 1 fĂŒr alle k â N und âdâ2 = 1 folgt
limkââ
tkâxk â xââ2
= 1
und damit limkââ dk = d. Dies beweist die zweite Aussage des Satzes.
60 Kapitel 7. Optimierungsprobleme mit Nebenbedingungen
Definition 7.7 Zu einem Punkt xâ â G und aktiven Nebenbedingungen JA(xâ) bezeich-
nen wir
K(xâ) := {d â Rn : âci(xâ)Td = 0 fĂŒr i â JG und
âci(xâ)Td â„ 0 fĂŒr i â JU â© JA(xâ)}
als Linearisierungskegel an xâ.
Lemma 7.8 Genau dann gibt es keine Richtung d â K(xâ) mit âf(xâ)Td < 0, wennein Vektor λ = [λi]iâJA(xâ) existiert mit
âf(xâ) =â
iâJA(xâ)
λiâci(xâ) = ATλ
und λi â„ 0 fĂŒr i â JU â© JA(xâ).
Beweis. (i.) Wir betrachten den Kegel
K :=
{y â Rn : y =
â
iâJA(xâ)
λiâci(xâ), λi â„ 0 fĂŒr i â JU â© JA(xâ)
}.
Da K offensichtlich abgeschlossen ist, lautet die Aussage des Lemmas also:
âf(xâ)Td â„ 0 fĂŒr alle Richtungen d â K(xâ) ââ âf(xâ) â K.
(ii.) Seien âf(xâ) â K und d â K(xâ), dann gilt
âf(xâ)Td =â
iâJA(xâ)
λiâci(xâ)Td
=â
iâJG
λiâci(xâ)Td+â
iâJUâ©JA(xâ)
λiâci(xâ)Td
â„ 0
wegen λi â„ 0 und âci(xâ)Td â„ 0 fĂŒr alle i â JU â© JA(xâ).
(iii.) Angenommen, es gilt âf(xâ) 6â K, dann sei y â K der Punkt mit minimalenAbstand zu âf(xâ), das heiĂt, die Lösung des Minimierungsproblems
minyâRn
âyââf(xâ)â2 unter der Nebenbedingung y â K.
Da K ein Kegel ist, liegt mit y auch ty fĂŒr alle t â„ 0 in K. Insbesondere muss y alsoerfĂŒllen:
0 =d
dtâty ââf(xâ)â22
âŁâŁâŁâŁt=1
= 2tâyâ22 â 2yTâf(xâ)âŁâŁt=1
= 2yT(y ââf(xâ)
).
7.1. OptimalitÀtsbedingungen erster Ordnung 61
FĂŒr beliebiges y â K folgt aus der KonvexitĂ€t von K, dass
ây + Ξ(y â y)ââf(xâ)â22 â„ ây ââf(xâ)â22 fĂŒr alle Ξ â (0, 1).
Deshalb ist2Ξ(y â y)T
(y ââf(xâ)
)+ Ξ2ây â yâ22 â„ 0,
was fĂŒr Ξ â 0 auf
0 †(yâ y)T(y ââf(xâ)
)= yT
(y ââf(xâ)
)(7.4)
fĂŒhrt.
Wir zeigen nun, dass d := yââf(xâ) 6= 0 die Bedingungen d â K(xâ) und âf(xâ)Td < 0erfĂŒllt. Zweiteres folgt sofort aus
dTâf(xâ) = dT (y â d) =(y ââf(xâ)
)Ty â dTd = ââdâ22 < 0.
Ersteres sieht man hingegen wie folgt ein. Durch geeignete Wahl von λi, i â JA(xâ),
erreicht man
i â JG =â âci(xâ) â K und ââci(xâ) â K,
i â JU â© JA(xâ) =â âci(xâ) â K.
Setzen wir in (7.4) die spezielle Wahl y = ±âci(xâ) falls i â JG und y = âci(xâ) fallsi â JU â© JA(x
â) ein, so erhalten wir
i â JG =â ±âci(xâ)Td â„ 0 also âci(xâ)Td = 0,
i â JU â© JA(xâ) =â âci(xâ)Td â„ 0.
Daraus folgt d â K(xâ).
Definition 7.9 Die zum Minmierungsproblem mit Nebenbedingungen (7.1) gehörigeLagrange-Funktion lautet
L(x,λ) := f(x)ââ
iâJGâȘJU
λici(x).
Die Parameter λ = [λi]iâJGâȘJGwerden Lagrange-Parameter genannt.
Mit Hilfe der Lagrange-Funktion kann man nur ein Minimium von (7.1) charakterisieren.
Satz 7.10 (Karush, Kuhn und Tucker) Es sei xâ â G eine lokales Minimum des Minimie-rungsproblems mit Nebenbedingungen (7.1) und xâ erfĂŒlle die LICQ-Bedingung. Danngibt es genau einen Vektor von Lagrange-Parametern λâ, so dass die folgenden KKT-
Bedingungen erfĂŒllt sind:
âxL(xâ,λâ) = 0,
ci(xâ) = 0 fĂŒr alle i â JG,
ci(xâ) â„ 0 fĂŒr alle i â JU ,
λâi â„ 0 fĂŒr alle i â JU ,
λâi ci(xâ) = 0 fĂŒr alle i â JG âȘ JU .
62 Kapitel 7. Optimierungsprobleme mit Nebenbedingungen
Beweis. (i.) Angenommen, xâ â G ist ein lokales Minimum von (7.1), an dem die LICQ-Bedingung erfĂŒllt ist. Dann gilt nach Satz 7.3 âf(xâ)Td â„ 0 fĂŒr alle dazugehörigenGrenzrichtungen d. Nach Lemma 7.6 sind alle Richtungen, fĂŒr die die Bedingungen
âci(xâ)Td = 0 fĂŒr alle i â JG,
âci(xâ)Td â„ 0 fĂŒr alle i â JU â© JA(xâ).
efĂŒllt sind, auch Grenzrichtungen und erfĂŒllen somit âf(xâ)Td â„ 0. Mit anderen Worten,fĂŒr alle d â K(xâ) gilt âf(xâ)Td â„ 0. Dies impliziert nach Lemma 7.8 die Existenz vonλi â R, so dass
âf(xâ) =â
iâJA(xâ)
λiâci(xâ) mit λi â„ 0 fĂŒr i â JU â© JA(xâ).
Hierin sind die Lagrange-Parameter λi aufgrund der LICQ-Bedingung eindeutig be-stimmt.
(ii.) Wir definieren
λâi :=
{λi, i â JA(x
â)
0, sonst
und weisen nach, dass damit die KKT-Bedingungen erfĂŒllt sind. Es gilt nach (i.)
âxL(xâ,λâ) = âf(xâ)â
â
iâJGâȘJU
λiâci(xâ)
= âf(xâ)ââ
iâJA(xâ)
λiâci(xâ)
= 0.
Die Bedingungen ci(xâ) = 0 fĂŒr alle i â JG und ci(x
â) â„ 0 fĂŒr alle i â JU folgen ausxâ â G. Weiter gilt λâi = 0 fĂŒr i â JU \JA(x
â) und λâi â„ 0 fĂŒr i â JU â©JA(xâ), das heiĂt,
es ist λâi â„ 0 fĂŒr i â JU . SchlieĂlich gilt λâi = 0 fĂŒr i â JU \ JA(xâ), sowie ci(xâ) = 0 fĂŒr
alle i â JA(xâ), und somit λâi ci(x
â) = 0 fĂŒr alle i â JG âȘ JU . Weil ci(xâ) > 0 ist fĂŒr allei â JU \ JA, folgt die Eindeutigkeit der λâi aus der letzten KKT-Bedingung.
7.2 OptimalitÀtsbedingungen zweiter Ordnung
Wir wenden uns nun Bedingungen zweiter Ordnung zu, wobei wir voraussetzen, dass fund ci fĂŒr alle i â JG âȘ JU zweimal stetig differenzierbar seien.
Definition 7.11 Zu gegebenen Lagrange-Parametern λâ sei
K(xâ,λâ) = {d â K(xâ) : âci(xâ)Td = 0 fĂŒr alle i â JU â© IA(xâ) mit λâi > 0}.
7.2. OptimalitÀtsbedingungen zweiter Ordnung 63
Bemerkung Wegen K(xâ,λâ) â K(xâ) gilt offensichtlich
d â K(xâ,λâ) ââ
âci(xâ)Td = 0, i â JG,
âci(xâ)Td = 0, i â JU â© JA(xâ) mit λâi > 0,
âci(xâ)Td â„ 0, i â JU â© JA(xâ) mit λâi = 0.
Deshalb folgt aus der ersten KKT-Bedingung aus Satz 7.10 die Aussage
d â K(xâ,λâ) =â âf(xâ)Td =â
iâJGâȘJU
λâiâci(xâ)Td = 0.
âł
Satz 7.12 (hinreichende Bedingung 2. Ordnung) FĂŒr einen zulĂ€ssigen Punkt xâ â G gebees einen Vektor von Lagrange-Parametern λâ, so dass die KKT-Bedingungen erfĂŒllt sind.Weiter sei
dTâ2xL(x
â,λâ)d > 0 fĂŒr alle d â K(xâ,λâ) \ {0}.Dann ist xâ Lösung des Minimierungsproblems mit Nebenbedingungen (7.1).
Beweis. Der Satz ist bewiesen, wenn wir zeigen können, dass zu jeder zulĂ€ssigen Folge{xk} ein M â N existiert, so dass f(xk) > f(xâ) fĂŒr alle k â„M ist.
Zu einer beliebigen zulĂ€ssigen Folge {xk} sei d eine beliebige Grenzrichtung. Nach Lem-ma 7.6 gilt d â K(xâ). Nach der Definition der Grenzrichtung gibt es eine Teilfolge {xkâ},welche
xkâ â xâ = âxkâ â xââ2d+ O(âxkâ â xââ2) (7.5)
erfĂŒllt. Wegen den KKT-Bedingungen gilt fĂŒr die Lagrange-Funktion
L(xkâ ,λâ) = f(xkâ)â
â
iâJA(xâ)
λâi ci(xkâ) †f(xkâ).
Taylor-Entwicklung ergibt
L(xkâ ,λâ) = L(xâ,λâ)ïžž ïž·ïž· ïžž
=f(xâ)
+âxL(xâ,λâ)ïžž ïž·ïž· ïžž
=0
T (xkâ â xâ)
+1
2(xkâ â xâ)Tâ2
xL(xâ,λâ)(xkâ â xâ) + O(âxkâ â xââ22)
= f(xâ) +1
2(xkâ â xâ)Tâ2
xL(xâ,λâ)(xkâ â xâ) + O(âxkâ â xââ22),
wobei wieder die KKT-Bedingungen verwendet wurden.
Wir unterscheiden nun zwei FĂ€lle: d 6â K(xâ,λâ) und d â K(xâ,λâ).
FĂŒr d 6â K(xâ,λâ) gibt es ein iâ â JU â© IA(xâ), fĂŒr welches
λâiââciâ(xâ)Td > 0
gilt. Eine Taylor-Entwicklung fĂŒhrt auf
λâiâciâ(xkâ) = λâiâciâ(xâ)ïžž ïž·ïž· ïžž
=0
+λâiââciâ(xâ)T (xkâ â xâ) + O(âxkâ â xââ2)
(7.5)= λâiââxkâ â xââ2âciâ(xâ)Td+ O(âxkâ â xââ2).
64 Kapitel 7. Optimierungsprobleme mit Nebenbedingungen
FĂŒr die Lagrange-Funktion gilt somit
L(xkâ ,λâ) = f(xkâ)â
â
iâJA(xâ)
λâi ci(xkâ)
†f(xkâ)â λâiâciâ(xkâ)
= f(xkâ)â λâiââxkâ â xââ2âciâ(xâ)Td+ O(âxkâ â xââ2).
Andererseits wurde oben gezeigt, dass
L(xkâ ,λâ) = f(xâ) + O(âxkâ â xââ2).
Daraus ergibt sich nun
f(xkâ) â„ f(xâ) + λâiââxkâ â xââ2âciâ(xâ)Td+ O(âxkâ â xââ2)
und wegen λiââciâ(xâ)Td > 0 impliziert dies f(xkâ) > f(xâ), falls nur kâ genĂŒgend groĂist.
FĂŒr d â K(xâ,λâ) erhalten wir direkt
f(xkâ) â„ L(xkâ ,λâ)
= f(xâ) +1
2(xkâ â xâ)Tâ2
xL(xâ,λâ)(xkâ â xâ) + O(âxkâ â xââ22)
(7.5)= f(xâ) +
1
2âxkâ â xââ22dTâ2
xL(xâ,λâ)d+ O(âxkâ â xââ22),
woraus sich wegen dTâ2xL(x
â,λâ)d > 0 wiederum f(xkâ) > f(xâ) fĂŒr genĂŒgend groĂe kâergibt.
Bemerkung Die notwendige Bedingung zweiter Ordnung fĂŒr ein Minimum von (7.1)lautet: Ist xâ â G ein Minimum von (7.1), an dem die LICQ-Bedingung erfĂŒllt ist, undgenĂŒgen die zugehörigen Lagrange-Parameter λâ den KKT-Bedingungen, dann gilt
dTâ2xL(x
â,λâ)d â„ 0 fĂŒr alle d â K(xâ,λâ).
âł
65
8. Projiziertes Gradientenverfahren
8.1 Konvergenzeigenschaften
Ziel dieses Kapitels ist es, das Gradientenverfahren aus Kapitel 2 auf das Minimierungs-problem mit Nebenbedingungen (7.1) zu verallgmeinern. Dazu sei neben der stetigenDifferenzierbarkeit der Funktion f : Rn â R vorausgesetzt, dass die zulĂ€ssige MengeG â Rn konvex ist.
Grundlage des projizierten Gradientenverfahren ist die orthogonale Projektion:
Definition 8.1 Es sei G â Rn eine abgeschlossene, konvexe Menge. Dann ist die ortho-
gonale Projektion PG : Rn â G definiert durch die Bedingung
âPG(x)â xâ2 = minyâG
ây â xâ2.
Der Punkt PG(x) â G besitzt also die Eigenschaft, den kĂŒrzesten Abstand zu einemgegebenen Punkt x â Rn zu besitzen.
Die Berechnung des projizierten Punktes PG(x) lĂ€sst sich fĂŒr viele spezielle Nebenbedin-gungen relativ einfach umsetzen. Beispielsweise gilt dies fĂŒr affine Nebenbedingungen, diespĂ€ter genauer behandelt werden.
Die Grundversion des projizierten Gradientenverfahren ist im folgenden Algorithmus be-schrieben:
Algorithmus 8.2 (projiziertes Gradientenverfahren)input: Funktion f : Rn â R, konvexe zulĂ€ssige Menge G â Rn und
StartnĂ€herung x0 â Goutput: Folge von Iterierten {xk}kâN
â Initialisierung: wĂ€hle Ï â (0, 1) und setze k := 0
â berechne den Antigradienten dk := ââf(xk) und setze αk := 1
â solangef(PG(xk + αkdk)
)> f(xk)â ÏdT
k
(PG(xk + αkdk)â xk
)(8.1)
setze αk := αk/2
â setze xk+1 := PG(xk + αkdk)
â erhöhe k := k + 1 und gehe nach â
66 Kapitel 8. Projiziertes Gradientenverfahren
FĂŒr den Fall der Minimierung ohne Nebenbedingungen, das heiĂt G = Rn, stellt obi-ger Algorithmus genau das bekannte Gradientverfahren 2.4 dar. Insbesondere geht dieBedingung an die Reduktion des Funktionals ĂŒber in die Armijo-Goldstein-Bedingung
f(xk+1) †f(xk)â Ïαkââf(xk)â22.
Ăhnlich wie frĂŒher kann man zeigen, dass auch fĂŒr das projizierte Gradientenverfahrenein αk > 0 existiert, fĂŒr das die Reduktionsbedingung erfĂŒllt ist.
Lemma 8.3 Ist die zulĂ€ssige Menge G â Rn konvex, so erfĂŒllt die orthogonale ProjektionPG die folgenden Eigenschaften:
(i.) Es gilt(PG(x)â x
)T (PG(x)â y
)†0 fĂŒr alle x â Rn, y â G.
(ii.) Es gilt(PG(y)âPG(x)
)T(y â x) â„ âPG(y)âPG(x)â22 â„ 0 fĂŒr alle x,y â Rn, das
heiĂt, PG ist monoton.
(iii.) Es gilt âPG(y) â PG(x)â2 †ây â xâ2 fĂŒr alle x,y â Rn, das heiĂt, PG ist nichtexpandierend.
Beweis. (i.) Wegen der KonvexitĂ€t folgt aus y â G auch y := (1â t)PG(x) + ty â G fĂŒralle t â [0, 1]. Aus
ây â xâ22 = ây âPG(x) +PG(x)â xâ22= ây âPG(x)â22 + âPG(x)â xâ22 â 2
(PG(x)â x
)T (PG(x)â y
)
folgt aufgrund der Minimierungseigenschaft von PG, dass
ây âPG(x)â22 â 2(PG(x)â x
)T (PG(x)â y
)= âyâ xâ22 â âPG(x)â xâ22 â„ 0.
Einsetzen von PG(x)â y = t(PG(x)â y
)fĂŒhrt auf
t2ây âPG(x)â22 â 2t(PG(x)â x
)T (PG(x)â y
)â„ 0,
was fĂŒr tâ 0 die gewĂŒnschte Aussage liefert.
(ii.) Die bereits bewiesene Aussage (i.) impliziert(PG(x)â x
)T (PG(x)âPG(y)
)†0,
(PG(y)â y
)T (PG(y)âPG(x)
)†0.
Zusammen fĂŒhrt dies auf(PG(y)â y + xâPG(x)
)T (PG(y)âPG(x)
)†0,
das ist Aussage (ii.).
(iii.) Diese Aussage folgt sofort aus Aussage (ii.) durch Anwenden der Cauchy-Schwarz-schen Ungleichung.
Bemerkung Aus der Monotonieeigenschaft (ii.) folgt wegen xk = PG(xk) fĂŒr die neueIterierte xk+1 = PG
(xk â αkâf(xk)
)des projizierten Gradientenverfahrens, dass
âxk+1 â xkâ22 †(xk+1 â xk)T (xk â αkâf(xk)â xk
).
8.1. Konvergenzeigenschaften 67
Wir erhalten daher
ââf(xk)T (xk+1 â xk) â„
1
αkâxk+1 â xkâ22. (8.2)
Dies bedeutet, dass durch die Abstiegsbedingung (8.1) des Algorithmus 8.2 tatsĂ€chlichf(xk+1) < f(xk) erreicht wird. âł
Lemma 8.4 Ist die zulĂ€ssige Menge G â Rn konvex, so ist fĂŒr beliebige x â Rn undd â Rn die Funktion
Ï(α) :=âPG(x + αd)â xâ2
α
fĂŒr alle α > 0 monoton fallend.
Beweis. (i.) FĂŒr 0 < α < ÎČ setzen wir
u := PG(x + αd)â x, v := PG(x + ÎČd)â x
und erhalten unter Verwendung von Lemma 8.3 (i.)
uT (uâ v) = {PG(x+ αd)â (x+ αd) + αd}T{PG(x+ αd)âPG(x+ ÎČd)}†αdT{PG(x+ αd)âPG(x + ÎČd)}
und analogvT (v â u) †ÎČdT{PG(x + ÎČd)âPG(x+ αd)}.
Zusammen ergibt diesuT (uâ v)
α†vT (uâ v)
ÎČ. (8.3)
(ii.) Weiter erhalten wir mit Lemma 8.3 (ii.)
uT (uâ v) †αdT{PG(x+ αd)âPG(x+ ÎČd)}= â α
ÎČ â α(ÎČdâ αd)T{PG(x + ÎČd)âPG(x+ αd)}
†â α
ÎČ â αâPG(x+ ÎČd)âPG(x+ αd)â22
†0.
Aus der Cauchy-Schwarzschen Ungleichung ergibt sich
uTv(âuâ2 + âvâ2) †âuâ2âvâ2(âuâ2 + âvâ2),
woraus
âuâ2vT (uâ v) = âuâ2(uTv â âvâ22) †âvâ2(âuâ22 â uTv) = âvâ2uT (uâ v) (8.4)
folgt.
(iii.) Wir unterscheiden nun zwei FĂ€lle: FĂŒr uT (uâv) = 0 gilt PG(x+αd) = PG(x+ÎČd)und somit u = v. Hieraus folgt unmittelbar auch
Ï(α) =âuâ2α
â„ âvâ2ÎČ
= Ï(ÎČ).
68 Kapitel 8. Projiziertes Gradientenverfahren
FĂŒr den Fall uT (uâ v) < 0 folgt aus (8.3)
ÎČ
α℠vT (uâ v)
uT (uâ v)
und aus (8.4)
âvâ2 †âuâ2vT (uâ v)
uT (uâ v).
Kombiniert man diese zwei Ungleichungen, so erhÀlt man wieder
Ï(α) =âuâ2α
â„ âvâ2ÎČ
= Ï(ÎČ).
Satz 8.5 Die zulĂ€ssige Menge G â Rn sei konvex und die Funktion f : Rn â R seiauf G stetig differenzierbar und nach unten beschrĂ€nkt. Weiter sei âf auf G gleichmĂ€Ăigstetig. Dann gilt fĂŒr die Iterierten {xk}kâN des projizierten Gradientenverfahrens
limkââ
âxkâ+1 â xkâ2αk
= 0.
Beweis. Wir fĂŒhren einen Widerspruchsbeweis. Angenommen, es existiert zu jedem Δ > 0eine unendliche Teilfolge {kâ}ââN, so dass
âxkâ+1 â xkââ2αkâ
℠Δ.
Dann gilt insbesondere auch
âxkâ+1 â xkââ22αkâ
℠Δmax{Δαkâ, âxkâ+1 â xkââ2}. (8.5)
Da die Folge {f(xkâ)}ââN monoton fallend und nach unten beschrĂ€nkt ist, folgt aus derAbstiegsbedingung (8.1) des projizierten Gradientenverfahrens
limâââ
âf(xkâ)T (xkâ+1 â xkâ) = 0,
was wiederum gemÀà (8.2)
limâââ
âxkâ+1 â xkââ22αkâ
= 0.
nach sich zieht. Aufgrund von (8.5) erhalten wir hieraus
limkââ
αkâ = 0 und limkââ
âxkâ+1 â xkââ2 = 0.
FĂŒr ykâ+1 := PG(xkâ + 2αkâdkâ) gilt aufgrund der algorithmischen Umsetzung des proji-zierten Gradientenverfahrens
f(ykâ+1) > f(xkâ) + Ïâf(xkâ)T (ykâ+1 â xkâ),
8.1. Konvergenzeigenschaften 69
also auchf(xkâ)â f(ykâ+1) < Ïâf(xkâ)
T (xkâ â ykâ+1). (8.6)
Aus Lemma 8.4 folgt
âxkâ+1 â xkââ22αkâ
â„ âxkâ+1 â xkââ2âykâ+1 â xkââ2
2αkâ
℠αkâΔâykâ+1 â xkââ2
2αkâ
=Δ
2âykâ+1 â xkââ2.
Weiter ergibt sich mit Lemma 8.3 (ii.)
(xkâ+1 â xkâ)T{xkâ â αkââf(xkâ)â xkâïžž ïž·ïž· ïžž
=âαkââf(xkâ
)
}â„ âxkâ+1 â xkââ22,
(ykâ+1 â xkâ+1)T{xkâ â 2αkââf(xkâ)â
(xkâ â αkââf(xkâ)
)ïžž ïž·ïž· ïžž
=âαkââf(xkâ
)
}â„ 0.
Zusammen fĂŒhrt dies auf
(xkâ â ykâ+1)Tâf(xkâ) â„ (xkâ â xkâ+1)
Tâf(xkâ)
â„ âxkâ+1 â xkââ22αkâ
℠Δ
2âykâ+1 â xkââ2,
woraus sich speziell auch âykâ+1âxkââ2 â 0 fĂŒr ââ â ergibt. Die gleichmĂ€Ăige Stetigkeitvon âf impliziert nun
âŁâŁâŁâŁ1âf(xkâ)â f(ykâ+1)
(xkâ â ykâ+1)Tâf(xkâ)
âŁâŁâŁâŁ =O(âykâ+1 â xkââ2)
(xkâ â ykâ+1)Tâf(xkâ)
†2
Δ
O(âykâ+1 â xkââ2)âxkâ â ykâ+1â2
âââââ 0.
Dies steht jedoch im Widerspruch zu der aus (8.6) folgenden AbschÀtzung
f(xkâ)â f(ykâ+1)
(xkâ â ykâ+1)Tâf(xkâ)< Ï < 1.
Bemerkung Da αk †1 ist, folgt aus Satz 8.5 speziell âxk+1âxkâ2 â 0 fĂŒr k â â, dasheiĂt, die Iterierten aus Algorithmus 8.2 konvergieren gegen einen Punkt xâ â G. âł
Definition 8.6 Die zulĂ€ssige Menge G â Rn sei konvex. FĂŒr jeden Punkt x â G ist derTangentialkegel TG(x) definiert als kleinster abgeschlossener Kegel, der die Menge
{d = y â x : y â G}
enthÀlt.
70 Kapitel 8. Projiziertes Gradientenverfahren
Bemerkung Der Tangentialkegel TG(xâ) ist die Menge aller Grenzrichtungen zulĂ€ssigerFolgen fĂŒr das Minimierungsproblem (7.1), skaliert mit einem beliebigen positiven Faktor.Wir erinnern an den Begriff des Linearisierungskegels K(xâ) aus dem vorigen Kapitel. Erbesteht aus allen Richtungen d â Rn mit dTâci(xâ) = 0 fĂŒr i â JG und dTâci(xâ) â„ 0fĂŒr i â JU â© JA(x
â). Nach Lemma 7.6 gilt TG(xâ) â K(xâ) und fĂŒr den Fall, dass dieLICQ-Bedingung erfĂŒllt ist, sogar TG(xâ) = K(xâ). âł
Lemma 8.7 Die zulĂ€ssige Menge G â Rn sei konvex. FĂŒr jeden Punkt x â G erfĂŒlltdie orthogonale Projektion PTG(x)
(ââf(x)
)der Richtung des steilsten Abstiegs auf den
Tangentialkegel TG(x) die folgenden Eigenschaften:
(i.) Es giltâf(x)TPTG(x)
(ââf(x)
)= â
â„â„PTG(x)
(ââf(x)
)â„â„2
2.
(ii.) Es ist
min{âf(x)Td : d â TG(x),â„â„dâ2 †1} = ââPTG(x)
(ââf(x)
)â„â„2.
(iii.) Der Punkt x ist genau dann ein stationÀrer Punkt des Minimierungsproblems mitNebenbedingungen (7.1), wenn PTG(x)
(ââf(x)
)= 0.
Beweis. (i.) Nach Definition der Orthogonalprojektion besitzt die Funktion
g(λ) :=1
2
â„â„λPTG(x)
(ââf(x)
)+âf(x)
â„â„2
2
ein Minimum bei λ = 1. Daher gilt
gâČ(1) :=â„â„PTG(x)
(ââf(x)
)â„â„2
2+âf(x)TPTG(x)
(ââf(x)
)= 0.
(ii.) Wegen Aussage (i.) gilt
â„â„PTG(x)
(ââf(x)
)+âf(x)
â„â„2
2= ââf(x)â22 â
â„â„PTG(x)
(ââf(x)
)â„â„2
2.
FĂŒr alle d â TG(x) mit âdâ2 â€â„â„PTG(x)
(ââf(x)
)â„â„2
gilt nach Definition der orthogonalenProjektion
â„â„PTG(x)
(ââf(x)
)+âf(x)
â„â„2
2†âd+âf(x)â22â€
â„â„PTG(x)
(ââf(x)
)â„â„2
2+ 2âf(x)Td+ ââf(x)â22.
Zusammen ergibt dies
âf(x)Td â„ ââ„â„PTG(x)
(ââf(x)
)â„â„2
2.
Das Behauptete erhĂ€lt man, indem man d = d/â„â„PTG(x)
(ââf(x)
)â„â„2
setzt.
(iii.) DefinitionsgemÀà ist x â G genau dann ein stationĂ€rer Punkt, wenn âf(x)Td â„ 0ist fĂŒr alle Grenzrichtungen zulĂ€ssiger Folgen mit Grenzwert x. Dies ist gleichbedeutenddamit, dass âf(x)Td â„ 0 fĂŒr alle d â TG(x) ist. Aussage (ii.) impliziert, dass dies genaudann der Fall ist, wenn PTG(x)
(ââf(x)
)= 0 erfĂŒllt ist.
8.1. Konvergenzeigenschaften 71
Bemerkung Aussage (ii.) des obigen Lemmas kann auch als
min{âf(xâ)Td : d â TG(xâ),
â„â„dâ2 = 1} = ââPTG(xâ)
(ââf(xâ)
)â„â„2. (8.7)
geschrieben werden, da das Minimum fĂŒr âdâ2 = 1 angenommen wird. âł
Satz 8.8 Die zulĂ€ssige Menge G â Rn sei konvex und die Funktion f : Rn â R seiauf G stetig differenzierbar und nach unten beschrĂ€nkt. Weiter sei âf auf G gleichmĂ€Ăigstetig. Dann gilt fĂŒr die Iterierten {xk}kâN des projizierten Gradientenverfahrens
limkââ
PTG(xk)
(ââf(xk)
)= 0.
Beweis. Zu beliebigen Δ > 0 gibt es nach Lemma 8.7 (ii.) zu jeder Iterierten xk eindk â TG(xk) mit âdkâ2 = 1, so dass
âf(xk)Tdk †â
â„â„PTG(xk)
(ââf(xk)
)â„â„2+ Δ (8.8)
gilt. Da dk Grenzrichtung einer zulĂ€ssigen Folge ist, gibt es ein yk â G mitâ„â„â„â„
yk â xk
âyk â xkâ2â dk
â„â„â„â„2
†Δ.
Aus Lemma 8.3 (i.) folgt{xk+1 â
(xk â αkâf(xk)
)}T(xk+1 â yk+1)
={PG
(xk â αkâf(xk)
)â(xk â αkâf(xk)
)}T{PG
(xk â αkâf(xk)
)â yk+1
}
†0,
was aufαkâf(xk)
T (xk+1 â yk+1) †âxk+1 â xkâ2âxk+1 â yk+1â2,beziehungsweise
ââf(xk)T (yk+1 â xk+1)
âxk+1 â yk+1â2†âxk+1 â xkâ2
αk,
fĂŒhrt. Insgesamt erhalten wir deshalb
ââf(xk)Tdk+1 †ââf(xk)â2
â„â„â„â„yk+1 â xk+1
âyk+1 â xk+1â2â dk+1
â„â„â„â„2
â âf(xk)T (yk+1 â xk+1)
âyk+1 â xk+1â2†Δââf(xk)â2 +
âxk+1 â xkâ2αk
.
Die Kombination mit (8.8) ergibtâ„â„PTG(xk+1)
(ââf(xk+1)
)â„â„2
†ââf(xk+1)Tdk+1 + Δ
†ââf(xk)Tdk+1 + ââf(xk+1)ââf(xk)â2 âdk+1â2ïžž ïž·ïž· ïžž
=1
+Δ
†Δââf(xk)â2 +âxk+1 â xkâ2
αk+ ââf(xk+1)ââf(xk)â2 + Δ.
72 Kapitel 8. Projiziertes Gradientenverfahren
Weil Δ > 0 beliebig war, folgt hieraus schlieĂlich
limkââ
â„â„PTG(xk+1)
(ââf(xk+1)
)â„â„2†lim
kââ
âxk+1 â xkâ2αk
+ limkââ
ââf(xk+1)ââf(xk)â2 = 0
wobei Satz 8.5 und die gleichmĂ€Ăige Stetigkeit von âf zur Anwendung kommt.
In der Regel folgt aus der Stetigkeit von âf nicht, dass auch PTG(x)
(ââf(x)
)stetig ist.
Um sicherzustellen, dass die Iterierten des projizierten Gradientenverfahrens tatsÀchlichgegen einen stationÀren Punkt konvergieren, benötigen wir daher das folgende Resultat.
Satz 8.9 Die zulĂ€ssige Menge G â Rn sei konvex und die Funktion f : Rn â R sei aufG stetig differenzierbar. Dann folgt fĂŒr jede Folge {xk}kâN â G mit xk â xâ â G
â„â„PTG(xâ)
(ââf(xâ)
)â„â„2†lim inf
kââ
â„â„PTG(xk)
(ââf(xk)
)â„â„2.
Beweis. Aus Lemma 8.7 (ii.) folgt fĂŒr jedes y â G
ââf(xk)T (yâ xk) â€
â„â„PTG(xk)
(ââf(xk)
)â„â„2âyâ xkâ2,
woraus sich fĂŒr k â â die Ungleichung
ââf(xâ)T (y â xâ) â€â„â„PTG(xk)
(ââf(xk)
)â„â„2âyâ xââ2
ergibt. Jedes d â TG(xâ) mit âdâ2 = 1 ist Grenzrichtung einer zulĂ€ssigen Folge {yk}kâN â
G, das heiĂt, es gilt
d = limkââ
yk â xâ
âyk â xââ2und lim
kââyk = xâ.
Somit erhalten wir
ââf(xâ)Td †lim infkââ
â„â„PTG(xk)
(ââf(xk)
)â„â„2
und daraus wegen (8.7) die Behauptung:â„â„PTG(xâ)
(ââf(xâ)
)â„â„2= max{ââf(xâ)Td : d â TG(x
â),â„â„dâ2 = 1}
†lim infkââ
â„â„PTG(xk)
(ââf(xk)
)â„â„2.
Bemerkung Die Kombination der SĂ€tze 8.5, 8.8 und 8.9 liefert die folgende Aussage:Ist die zulĂ€ssige Menge G â Rn konvex und ist die Funktion f : Rn â R auf G stetigdifferenzierbar mit gleichmĂ€Ăig stetigem Gradienten und nach unten beschrĂ€nkt, dannkonvergieren die Iterierten {xk}kâN des projizierten Gradientenverfahrens 8.2 gegen einxâ â G mit
PTG(xâ)
(ââf(xâ)
)= 0.
GemÀà Lemma 8.7 (iii.) bedeutet dies, dass xâ ein stationĂ€rer Punkt ist. âł
8.2. Affine Nebenbedingungen 73
8.2 Affine Nebenbedingungen
Bei Anwendungsproblemen treten hÀufig affine Ungleichungsnebenbedingungen auf, wes-halb wir diesen Spezialfall eingehender untersuchen wollen. Wir nehmen demnach an, dassdas Minimierungsproblem unter Nebenbedingungen von der speziellen Form
minxâRn
f(x) unter den Nebenbedingungen
aTi x †bi fĂŒr alle i = 1, 2, . . . , m
(8.9)
mit ai â Rn und bi â R fĂŒr alle i = 1, 2, . . . , m ist. Dies ist also ein Spezialfall von (7.1),fĂŒr den JG = â , JU = {1, 2, . . . , m} und ci(x) := bi â aT
i x gesetzt wird. Die Menge derzulÀssigen Punkte ist in diesem Fall gegeben durch
G = {x â Rn : aTi x †bi fĂŒr alle i = 1, 2, . . . , m}.
FĂŒr x â G betrachten wir die Menge der aktiven Indizes
JA(x) :={i â {1, 2, . . . , m} : aT
i x = bi}.
Die LICQ-Bedingung bedeutet hier gerade die lineare UnabhĂ€ngigkeit der Vektoren ai fĂŒri â JA(x).
Wir wenden uns der Charakterisierung von stationĂ€ren Punkten zu, die fĂŒr den Spezialfallaffiner Nebenbedingungen besonders handlich ist.
Lemma 8.10 FĂŒr den Punkt xâ â G sei die Menge {ai : i â JA(xâ)} linear unabhĂ€ngig.
Dann ist xâ genau dann ein stationĂ€rer Punkt fĂŒr das Minimierungsproblem unter affinenNebenbedingungen (8.9), wenn es fĂŒr jedes i â JA(x
â) eine eindeutige Zahl λâi â„ 0 gibt,so dass
âf(xâ) +â
iâJA(xâ)
λâiai = 0 (8.10)
gilt.
Beweis. Nach Lemma 8.7 (iii.) ist xâ â G genau dann ein stationĂ€rer Punkt des Problems(8.9), wenn fĂŒr die orthogonale Projektion auf den Tangentialkegel PTG(xâ)
(ââf(xâ)
)= 0
gilt. Dies ist nach Lemma 8.7 (ii.) genau dann der Fall, wenn
ââf(xâ)Td †0 fĂŒr alle d â TG(xâ).
gilt. Da die LICQ-Bedingung erfĂŒllt ist, gilt nun nach Lemma 7.6
TG(xâ) = K(xâ) = {d â Rn : dTai †0 fĂŒr alle i â JA(x
â)}.SchlieĂlich ist nach Lemma 7.8 die Aussage
ââf(xâ)Td †0 fĂŒr alle d â K(xâ)
Ă€quivalent zur Existenz und Eindeutigkeit nichtnegativer Zahlen λâi â R, i â JA(xâ), mit
âf(xâ) = ââ
iâJA(xâ)
λâiai.
74 Kapitel 8. Projiziertes Gradientenverfahren
Bemerkung Die Notwendigkeit der Bedingung (8.10) ergibt sich auch direkt aus denKKT-Bedingungen (vergleiche Satz 7.10). Lemma 8.10 sagt jedoch zusĂ€tzlich aus, dassdiese Bedingung bei Vorliegen affiner Nebenbedingungen auch hinreichend fĂŒr das Vorlie-gen eines stationĂ€ren Punktes ist. âł
Definition 8.11 Ein stationĂ€rer Punkt heiĂt nicht entartet, wenn die Menge {ai : i âJA(x
â)} linear unabhĂ€ngig ist und fĂŒr die Lagrange-Parameter in (8.10) λâi > 0 fĂŒr allei â JA(x
â) gilt.
Satz 8.12 Die Funktion f : Rn â R sei stetig differenzierbar auf der zulĂ€ssigen Menge
G = {x â Rn : aTi x †bi fĂŒr alle i = 1, 2, . . . , m}.
Die Folge {xk}kâN â G konvergiere gegen den nicht entarteten stationĂ€ren Punkt xâ â Gund es gelte
limkââ
PTG(xk)
(ââf(xk)
)= 0.
Dann gibt es ein L â N mit JA(xk) = JA(xâ) fĂŒr alle k â„ L, das heiĂt, die Menge der
aktiven Indizes Ă€ndert sich fĂŒr genĂŒgend groĂe k nicht mehr.
Beweis. Aus xk â xâ und xk â G folgt JA(xk) = JA(xâ) fĂŒr genĂŒgend groĂe k. Wir neh-
men nun das Gegenteil der Aussage des Satzes an, nĂ€mlich dass eine unendliche Teilfolge{xkâ}ââN und ein Index p â JA(x
â) existieren, so dass p 6â JA(xkâ) fĂŒr alle â â N. Wirverwenden den orthogonalen Projektor PH auf den Unterraum
H :={x â Rn : aT
i x = 0 fĂŒr alle i â JA(xâ) \ {p}
}.
FĂŒr i â JA(xâ) \ {p} gilt insbesondere aT
i PHai = 0, woraus PHai = 0 folgt.
Aufgrund der Eigenschaft der orthogonalen Projektion steht ap â PHap senkrecht aufdem Unterraum H , was wiederum bedeutet, dass ap â PHap im Raum span
{ai : i â
JA(xâ) \ {p}
}enthalten ist. Angenommen, es wĂŒrde PHap = 0 gelten, dann lieĂe sich ap
als Linearkombination der Vektoren ai, i â JA(xâ) \ {p}, schreiben. Die Menge {ai : i â
JA(xâ)} ist aber linear unabhĂ€ngig, da der stationĂ€re Punkt xâ nicht entartet ist. Somit
muss PHap 6= 0 gelten.
Wegen PHap â H , das heiĂt, aTi PHap = 0 fĂŒr i â JA(x
â) \ {p} â JA(xkâ) schlieĂen wirinsbesondere PHap â TG(xkâ) fĂŒr alle â â N. Aus Lemma 8.7 (ii.) erhalten wir
âf(xk)TPHap â„ â
â„â„PTG(xk)
(ââf(xk)
)â„â„2âPHapâ2.
FĂŒr k â â ergibt sich wegen xk â xâ damit
âf(xâ)TPHap â„ 0. (8.11)
Andererseits gilt, da der stationĂ€re Punkt xâ nicht entartet ist,
âf(xâ) +â
iâJA(xâ)
λâiai = 0
8.2. Affine Nebenbedingungen 75
mit λâi > 0 fĂŒr i â JA(xâ). Dies impliziert
âf(xâ)TPHap =(PHâf(xâ)
)Tap
= â( â
iâJA(xâ)
λâiPHai
)T
ap
= âλâp(PHap)Tap
= âλâpâPHapâ22< 0
im Widerspruch zur AbschÀtzung (8.11).
76 Kapitel 9. SQP-Verfahren
9. SQP-Verfahren
9.1 Quadratische Minimierungsprobleme mit affinen Ne-
benbedingungen
Das Prinzip des SQP-Verfahrens (kurz fĂŒr sequential quadratic programs) ist die RĂŒck-fĂŒhrung allgemeiner Minimierungsprobleme auf eine Folge von Minimierungsproblemenmit quadratischer Zielfunktion und affinen Nebenbedingungen.
Ersetzen wir das allgemeine Minimierungsproblem (7.1) durch eine quadratische Zielfunk-tion und affine Nebenbedingungen, so erhalten wir folgende Aufgabenstellung:
minxâRn
1
2xTHx+ gTx unter den Nebenbedingungen
aTi x = bi fĂŒr alle i â JG, (9.1)
aTi x †bi fĂŒr alle i â JU .
Dabei wird die quadratische Zielfunktion durch die quadratische Matrix H â RnĂn undden Vektor g â Rn beschrieben. Eine eventuell hinzukommende additive Konstante hatkeine Konstante auf das Minimierungsproblem. FĂŒr i â JG âȘJU sind weiter ai â Rn undbi â R vorgegeben, um die Nebenbedingungen festzulegen.
Um (9.1) zu lösen, wird zunÀchst iterativ die Menge der aktiven Indizes bestimmt. Hierzuwerden im nÀchsten Abschnitt geeignete Techniken vorgestellt. Als Teilaufgabe resultie-ren quadratische Minimierungsprobleme mit affinen Gleichungsnebenbedingungen. Wirbetrachten also zuerst im Detail die Lösung solcher Probleme:
minxâRn
1
2xTHx+ gTx unter den Nebenbedingungen
aTi x = bi fĂŒr alle i = 1, 2, . . . , m.
(9.2)
Um (9.2) zu lösen, stellen wir die KKT-Bedingungen auf. Die Lagrange-Funktion lautet
L(x,λ) :=1
2xTHx+ gTxâ
mâ
i=1
λi(bi â aTi x).
Zur AbkĂŒrzung schreiben wir
A =[a1 a2 · · · am
]â RnĂm, b =
b1b2...bm
â Rm, λ =
λ1λ2...λm
â Rm
9.1. Quadratische Minimierungsprobleme mit affinen Nebenbedingungen 77
und erhalten
L(x,λ) :=1
2xTHx+ gTxâ λT (bâATx).
Als notwendige Bedingung ergibt sich gemÀà Satz 7.10
âxL(x,λ) = Hx+ g +Aλ = 0,
âyL(x,λ) = ATxâ b = 0.
Daher erfĂŒllt die Lösung (xâ,λâ) der notwendigen Bedingung erster Ordnung das Sattel-punktproblem [
H A
AT 0
] [xâ
λâ
]=
[âg
b
]. (9.3)
Wir wenden uns nun der Frage zu, wann dieses lineare Gleichungssystem eindeutig lösbarist.
Wir stellen fest, dass A â RnĂm vollen Rang besitzen muss. Wegen m < n ist jedochkern(AT ) 6= {0}. Sei p â Rn ein solcher Vektor, fĂŒr den ATp = 0 gilt. Dann ist fĂŒrbeliebiges q â Rm
[pT qT
] [ H A
AT 0
] [p
q
]= pTHp+ qTATp+ pTAq
= pTHp+ qTATpïžž ïž·ïž· ïžž=0
+(ATpïžžïž·ïž·ïžž=0
)Tq
= pTHp. (9.4)
Folglich mĂŒssen wir vermeiden, dass der Nullraum der Matrix H einen Vektor des Null-raums von der Matrix AT enthĂ€lt, was die Voraussetzungen des nachfolgenden Satzesmotiviert.
Satz 9.1 Es sei H â RnĂn und A â RnĂm, wobei m < n. Besitzt A vollen Rangm und ist H auf dem Kern von AT positiv definit, das heiĂt, ist pTHp > 0 fĂŒr allep â kern(AT ) \ {0}, so ist die KKT-Matrix
K :=
[H A
AT 0
]
regulÀr und folglich (9.3) eindeutig lösbar.
Beweis. Sei p â Rn und q â Rm derart, dass
K
[p
q
]=
[H A
AT 0
] [p
q
]= 0
gilt. Aus der zweiten Zeile folgt ATp = 0 und daher ist
0 =[pT qT
] [ H A
AT 0
] [p
q
](9.4)= pTHp.
Dies kann aber nach Voraussetzung nur fĂŒr p = 0 erfĂŒllt sein. Wegen Hp+Aq = 0 folgtschlieĂlich Aq = 0 und aufgrund des vollen Spaltenrangs von A ist auch q = 0. Folglichist K regulĂ€r und das Behauptete bewiesen.
78 Kapitel 9. SQP-Verfahren
Bemerkung Man kann sogar zeigen, dass die Matrix K genau n positive und m negativeEigenwerte besitzt. Die Lösung indefiniter Systeme kann mit geeigneten Erweiterungender Cholesky-Zerlegung oder aber bei sehr groĂen Systemen auch iterativ, etwa mit demMINRES-Verfahren oder dem Bramble-Pasciak-CG, geschehen. âłDer nĂ€chste Satz besagt, dass die Lösung von (9.3) die Lösung von (9.2) liefert.
Satz 9.2 Es gelten die Voraussetzungen von Satz 9.1. Dann ist die Lösung xâ â Rn von(9.3) die eindeutige Lösung von (9.2).
Beweis. Sei x 6= xâ derart, dass ATx = b und setze p := xâ â x. Dann ist ATp = 0 undp 6= 0. FĂŒr q(x) := 1
2xTHx+ gTx gilt dann offensichtlich mit x = xâ â p
q(x) =1
2pTHpâ pTHxâ â gTp+ q(xâ). (9.5)
Aus (9.3) folgt, dass âHxâ = Aλ+ g, so dass
âpTHxâ = pT (Aλ+ g) = gTp
ist. Eingesetzt in (9.5) ergibt sich
q(x) =1
2pTHp+ q(xâ) > q(xâ),
dies bedeutet, xâ ist das eindeutige Minimum von (9.2).
9.2 Bestimmung aktiver Nebenbedingungen
Wir wenden uns nun der Lösung der Minimierungsaufgabe (9.1) zu, wobei wir annehmen,dass die Vektoren ai linear unabhĂ€ngig sind. Indem wir wie bisher fĂŒr jeden Punkt x â Rn
die Menge der aktiven Indizes bezeichnen als
JA(x) = {i â JG âȘ JU : aTi x = bi} = JG âȘ {i â JU : aT
i x = bi},
können wir (9.1) umschreiben gemĂ€Ă
minxâRn
1
2xTHx+ gTx unter den Nebenbedingungen
aTi x = bi fĂŒr alle i â JA(x),
aTi x †bi fĂŒr alle i â JU \ JA(x).
FĂŒr jede lokale Lösung xâ â Rn des Minimierungsproblems (9.1) gelten somit nachSatz 7.10 die folgenden KKT-Bedingungen
Hxâ + g +â
iâJA(xâ)
λâiai = 0,
aTi x
â = bi fĂŒr i â JA(xâ),
aTi x
â †bi fĂŒr i â JU \ JA(xâ),
λi â„ 0 fĂŒr i â JU \ JA(xâ).
9.2. Bestimmung aktiver Nebenbedingungen 79
Die Grundidee des folgenden Vorgehens ist die Beobachtung, dass bei Kenntnis der IndizesJA(x
â) der aktiven Nebenbendigungen am Lösungspunkt die Lösung von (9.1) gleichzeitigdie Lösung des quadratischen Minimierungsproblem unter Gleichungsnebenbedingungen
minxâRn
1
2xTHx+ gTx unter den Nebenbedingungen
aTi x = bi fĂŒr alle i â JA(x
â)
ist. Die aktiven Indizes werden ĂŒber ein iteratives Vorgehen gefunden, ausgehend von ei-nem Sattelpunkt x0, der zulĂ€ssiger Punkt fĂŒr das Problem (9.1) ist, und einer IndexmengeJ0 mit JG â J0 â JA(x0).
Ausgehend von einem zulĂ€ssigem Punkt xk und einer aktuellen Indexmenge Jk mit JG âJk â JA(xk) besteht ein Schritt dieses iterativen Vorgehens aus den folgenden beidenHalbschritten:
1. Löse das quadratische Minimierungsproblem mit Gleichungsnebenbedingungen ander aktuellen Indexmenge:
mindâRn
1
2(xk + d)TH(xk + d) + gT (xk + d) unter den Nebenbedingungen
aTi (xk + d) = bi fĂŒr alle i â Jk.
(9.6)
2. Konstruiere aus dem aus dem ersten Halbschritt erhaltenen Punkt xk + dk einenPunkt xk+1, der in der zulÀssigen Menge
G = {x â Rn : aTi x = bi fĂŒr alle i â JG und aT
i x †bi fĂŒr alle i â JU}enthalten ist.
Die Lösung von (9.6) ist offenbar Àquivalent zu
mindâRn
1
2dTHd+ (g +Hxk)
Td+1
2xTkHxk + gTxk unter den Nebenbedingungen
aTi d = bi â aT
i xk fĂŒr alle i â Jk.
Mit gk := g + Hxk und unter der Beachtung von aTi xk = bi sowie der Tatsache, dass
Konstanten in der zu minimierenden Funktion keine Rolle spielen, lÀsst sich dies auchumschreiben in
mindâRn
1
2dTHd+ gT
k d unter den Nebenbedingungen
aTi d = 0 fĂŒr alle i â Jk.
(9.7)
Dieses quadratische Minimierungsproblem unter Gleichungsnebenbedingungen hat dieForm (9.2) und kann entsprechend gelöst werden.
Bei der DurchfĂŒhrung des zweiten Halbschritts wird wie folgt vorgegangen. ErfĂŒllt xk+dk
auch die Nebenbedingungen
aTi (xk + dk) †bi fĂŒr alle i â JU \ Jk,
dann wird xk+1 := xk + dk gesetzt. Falls nicht alle Nebenbedingungen erfĂŒllt sind, be-stimmen wir xk+1 := xk + αkdk mit αk â [0, 1) gröĂtmöglich, so dass noch alle Nebenbe-dingungen
aTi (xk + αkdk) †bi fĂŒr alle i â JU \ Jk
erfĂŒllt sind. Die Bestimmung von αk geschieht durch eine Fallunterscheidung:
80 Kapitel 9. SQP-Verfahren
1. FĂŒr alle i â JU \ Jk mit aTi dk †0 gilt
aTi (xk + αkdk) †aT
i xk †bi
fĂŒr alle αk â„ 0. Somit verursachen diese Nebenbedingungen keine EinschrĂ€nkungan αk.
2. FĂŒr alle i â JU \ Jk mit aTi dk > 0 haben wir jedoch die EinschrĂ€nkung
αk â€bi â aT
i xk
aTi dk
.
Insgesamt erhalten wir daher
αk = min
{1, min
i 6âJk,aTi dk>0
bi â aTi xk
aTi dk
}.
Alle Nebenbedingungen, fĂŒr die das Minimum angenommen wird, bezeichnen wir als blo-
ckierende Nebenbedingungen. Falls αk < 1, legen wir zu xk+1 := xk + αkdk eine neueIndexmenge Jk+1 fest, indem wir eine oder mehrere blockierende Nebenbedingungen hin-zufĂŒgen.
Diese Iteration wird solange durchgefĂŒhrt, bis wir an einem Punkt x angelangt sind, derdas quadratische Minimierungsproblem mit Gleichungsnebenbedingungen an der aktuel-len Indexmenge J löst. Dies ist leicht daran zu erkennen, dass das zugehörige quadratischeMinimierungsproblem (9.7) die Lösung d = 0 besitzt.
Aufgrund der Minimierungseigenschaft gilt nach Satz 7.10 fĂŒr das Problem (9.7) die ersteKKT-Bedingung
Hx+ g +â
iâJ
λiai = 0
mit Lagrange-Parametern λi, ĂŒber deren Vorzeichen aber keine Aussage möglich ist. Set-zen wir λi = 0 fĂŒr i â JU \ J , so haben wir auch die erste KKT-Bedingung fĂŒr dasMinimierungsproblem (9.1) erfĂŒllt:
Hx+ g +â
iâJGâȘJU
λiai = 0.
Die zweite und dritte KKT-Bedingungen lauten
aTi x = bi fĂŒr i â JG,
aTi x †bi fĂŒr i â JU .
Sie sind nach Konstruktion ebenfalls erfĂŒllt. Ferner ist λi = 0 fĂŒr alle i â JU \ J , weshalbauch die fĂŒnfte KKT-Bedingung
λi(bi â aTi x) = 0 fĂŒr i â JG âȘ JU
gilt.
FĂŒr die vierte KKT-Bedingung ist noch das Vorzeichen der Lagrange-Parameter λi fĂŒri â J â© JU zu bestimmen. Sind diese sĂ€mtlich nichtnegativ, dann ist auch die vierteKKT-Bedingung erfĂŒllt und es gelten alle fĂŒr das Minimierungsproblem (9.1) notwendigen
9.2. Bestimmung aktiver Nebenbedingungen 81
Bedingungen aus Satz 7.10. FĂŒr den Fall, dass H positiv definit ist, folgt insbesonderesogar, dass x tatsĂ€chlich eine lokale Lösung des Minimierungsproblems (9.1) ist.
Tritt dagegen ein negativer Lagrange-Parameter λj mit j â J â© JU auf, so ist die vierteKKT-Bedingung verletzt. Daher kann x keine Lösung des Minimierungsproblems (9.1)sein. In diesem Fall lĂ€sst sich der Wert des quadratischen Funktionals verkleinern, indemman die zu j gehörige Nebenbedingung aus der Indexmenge J streicht. Dies folgt aus demBeweis von Lemma 7.8. Man kann zeigen, dass sich auf diese Weise alle Nebenbedingungenmit negativen Lagrange-Parametern entfernen lassen und am Ende ein Punkt x resultiert,der alle KKT-Bedingungen erfĂŒllt.
Beispiel 9.3 Wir illustrieren das beschriebene Vorgehen an folgendem konkreten Mini-mierungsproblem
min(x1,x2)âR2
(x1 â 1)2 +
(x2 â
5
2
)2
unter den Nebenbedingungen
x1 â 2x2 + 2 â„ 0
âx1 â 2x2 + 6 â„ 0
âx1 + 2x2 + 2 â„ 0
x1 â„ 0
x2 â„ 0.
In der Notation (9.1) haben wir also
H =
[2 00 2
], g =
[â2â5
], x =
[x1x2
]
a1 =
[â12
], a2 =
[12
], a3 =
[1â2
], a4 =
[â10
], a5 =
[0â1
]
b1 = 2, b2 = 6, b3 = 2, b4 = 0, b5 = 0.
Wir starten das Verfahren mit
x0 =
[20
]und J0 = {3, 5}.
Das Minimierungsproblem (9.6) liefert fĂŒr k = 0 als Lösung x1 = x0, da nur dieser Punktin der zulĂ€ssigen Menge liegt und die beiden Gleichungsnebenbedingungen erfĂŒllt. Diezugehörigen Lagrange-Parameter erhalten wir aus dem linearen Gleichungssystem
0 = Hx1 + g + λ3a3 + λ5a5 =
[2 + λ3
â5 â 2λ3 â λ5
],
dessen Lösung λ3 = â2 und λ5 = â1 ist. Wir streichen die Nebenbedingungen zumkleineren Lagrange-Parameter und erhalten J1 = {5}.Das Minimierungsproblem (9.6) fĂŒr k = 1 liefert als Lösung
x2 =
[10
]
82 Kapitel 9. SQP-Verfahren
und der Lagrange-Parameter λ5 errechnet sich aus
0 = Hx2 + g + λ5a5 =
[0
â5â λ5
],
das heiĂt, λ5 = â5. Wir streichen folglich auch diese Nebenbedingung und landen beiJ2 = â .Nun lösen wir das Minimierungsproblem (9.7) fĂŒr k = 2, das heiĂt, ein Minimierungspro-blem ohne Nebenbedingungen, was auf
d2 =
[05/2
]und somit x3 = x2 +
3
5d2 =
[13/2
]
fĂŒhrt. Wir addieren die blockierende Nebenbedingung zu unserer leeren Indexmenge J2
hinzu und erhalten J3 = {1}.Die Lösung des Minimierungsproblems (9.7) fĂŒr k = 3 ergibt
d3 =
[2/51/5
]und somit x4 = x3 + d3 =
[7/517/10
],
wobei keine weitere blockierende Nebenbedingung auftritt. Der zugehörige Lagrange-Parameter folgt aus
0 = Hx4 + g + λ1a1 =
[4/5â λ1
â8/5 + 2λ1
],
also λ1 = 4/5. Folglich erfĂŒllt x4 alle KKT-Bedingungen des Minimierungsproblems (9.1)und ist die gesuchte Lösung. âł
Index
AlgorithmusCG-Verfahren, 39GauĂ-NewtonâVerfahren, 49Gradientenverfahren, 10, 13, 65Levenberg-Marquardt-Verfahren, 52modifiziertes Verfahren von Polak und
RibiĂšre, 43Newton-Verfahren, 15, 20, 22nichtlineares CG-Verfahren, 40, 43Quasi-Newton-Verfahren, 32Trust-Region-Verfahren, 25Verfahren von Fletcher und Reeves,
40Verfahren von Polak und RibiĂšre, 40
Armijo-Goldstein-Bedingung, 13, 66Armijo-Schrittweitenregel, 13
BFGS-Verfahren, 32
Cauchy-Punkt, 25CG-Verfahren, 39
nichtlineares, 40, 43
DFP-Verfahren, 32Dogleg-Strategie, 25
Energienorm, 40
FolgezulÀssige, 56
Funktionkonvexe, 6Lagrange-, 61quadratische, 7
GauĂ-Newton-Verfahren, 48Gradientenverfahren, 10Grenzrichtung, 56
Hebden-Verfahren, 55
KKT-Bedingungen, 61
KonvexitĂ€t, 6gleichmĂ€Ăige, 6strikte, 6
Krylov-Raum, 39
Lagrange-Funktion, 61-Parameter, 52, 61
LICQ-Bedingung, 57Linearisierungskegel, 60
Minimumglobales, 5lokales, 5, 56striktes, 5
Nebenbedingung, 56affine, 73aktive, 57blockierende, 80Gleichungs-, 56Ungleichungs-, 56
Newton-Verfahren, 15globalisiertes, 20inexaktes, 22
NormEnergie-, 40
Projektionorthogonale, 65
PunktCauchy-, 25stationÀrer, 6, 57
nicht entarteter, 74zulÀssiger, 56
Quasi-Newton-Gleichung, 31Quasi-Newton-Verfahren
BFGS-Verfahren, 32DFP-Verfahren, 32Limited-Memory-, 36
83
84 Index
Rang-2-Verfahren, 31symmetrisches Rang-1-Verfahren von
Broydon, 32
Satzvon Karush, Kuhn und Tucker, 61von Newton-Kantorovich, 15
SQP-Verfahren, 76
Tangentialkegel, 69Trust-Region-Verfahren, 25, 51
Vektorenkonjugierte, 34, 37
Verfahrender konjugierten Gradienten, 39des steilsten Abstiegs, 10GauĂ-Newton-, 48globalisiertes Newton-, 20Gradienten-, 10Hebden-, 55inexaktes Newton-, 22Levenberg-Marquardt-, 52modifiziertes Verfahren von Polak und
RibiĂšre, 43Newton-, 15Quasi-Newton-, 31
BFGS-Verfahren, 32DFP-Verfahren, 32Limited-Memory-, 36Rang-2-Verfahren, 31symmetrisches Rang-1-Verfahren von
Broydon, 32SQP-, 76Trust-Region-, 25, 51von Fletcher und Reeves, 40von Polak und RibiĂšre, 40
Zielfunktion, 5