138
Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister 1 1. Februar 2015 1 Dies sind Aufzeichnungen, die kritisch zu lesen sind, da sie noch nicht endgültig korrigiert sind, und daher auch nicht zitierfähig sind (Not for quotation without permission of the author). Hinweise auf Fehler und Verbesserungsvorschläge an [email protected]

Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Konvexe Analysis und Optimierung

WiSe 2014/15

J. Baumeister1

1. Februar 2015

1Dies sind Aufzeichnungen, die kritisch zu lesen sind, da sie noch nicht endgültig korrigiert sind, unddaher auch nicht zitierfähig sind (Not for quotation without permission of the author). Hinweiseauf Fehler und Verbesserungsvorschläge an [email protected]

Page 2: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Inhaltsverzeichnis

Vorwort iLiteratur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . v

Bezeichnungen i

1 Konvexität in Vektorräumen 11.1 Affine Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Konvexe Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Der Satz von Helly . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.4 Kegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.5 Hyperebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.6 Algebraisch innere Punkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91.7 Das Minkowski-Funktional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.8 Algebraische Trennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.10 Bibliographische und historische Anmerkungen . . . . . . . . . . . . . . . . . . . 17Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Topologische Trennung 192.1 Lokalkonvexe Räume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192.2 Trennungssätze in normierten Räumen . . . . . . . . . . . . . . . . . . . . . . . . 242.3 Stützpunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 Schwache Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.5 Schwach∗–Topologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.6 Spezialisierung auf Hilberträume . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.7 Extremalpunkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.8 Strikte und gleichmäßige Konvexität . . . . . . . . . . . . . . . . . . . . . . . . . 412.9 Anhang: Stützkegel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.10 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 472.11 Bibliographische und historische Anmerkungen . . . . . . . . . . . . . . . . . . . 49Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

3 Konvexe Funktionen 513.1 Definition und einfache Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . 513.2 Existenzergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 543.3 Stetigkeitseigenschaften konvexer Funktionen . . . . . . . . . . . . . . . . . . . . 573.4 Fenchel-Konjugierte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593.5 Dualitätssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 643.6 Anhang: Stützfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 673.7 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

1

Page 3: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

3.8 Bibliographische und historische Anmerkungen . . . . . . . . . . . . . . . . . . . 71Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4 Anwendungen in der Optimierung 734.1 Lineare Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 734.2 Der Kegel der positiv semidefiniten Matrizen . . . . . . . . . . . . . . . . . . . . 814.3 Semidefinite Optimierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 844.4 Anhang: Lineare Ausgleichsprobleme – der endlichdimensionale Fall . . . . . . . . 904.5 Anhang: Regularisierte Ausgleichsprobleme . . . . . . . . . . . . . . . . . . . . . 934.6 Anhang: Tschebyscheff–Approximation . . . . . . . . . . . . . . . . . . . . . . . . 954.7 Anhang: Extremaleigenschaft von Splines . . . . . . . . . . . . . . . . . . . . . . 1014.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1034.9 Bibliographische und historische Anmerkungen . . . . . . . . . . . . . . . . . . . 106Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

5 Differenzierbarkeit konvexer Funktionen 1095.1 Konvexität in der Analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1095.2 Einseitige Richtungsableitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.3 Subdifferenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1155.4 Subdifferenzierbarkeit und Normalenkegel . . . . . . . . . . . . . . . . . . . . . . 1175.5 Subdifferenzierbarkeit–Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1185.6 Stabilität und Dualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1215.7 Lagrange-Multiplikatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1235.8 Anhang: Die Bregman-Distanz . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.9 Anhang: Existenz kritischer Punkte . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.10 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1265.11 Bibliographische und historische Anmerkungen . . . . . . . . . . . . . . . . . . . 127Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128

2

Page 4: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Vorwort

Was immer in der Welt passiert, in seinem Innerem hates die Bedeutung von Maximum oder Minimum. Somitist kein Zweifel, dass alle Naturphänomene über dieMethode des Maximierens oder Minimierens erklärtwerden können.

L. Euler, 1707 – 1783

Die Konvexe Analysis kann man als Bindeglied zwischen der linearen und nichtlinearen(Funktional–)Analysis ansehen. Zur Entwicklung der Theorie sind im wesentlichen nur Hilfs-mittel aus der linearen Funktionalanalysis nötig, die Ergebnisse der Theorie beantworten auchFragen der nichtlinearen (Funktional–)Analysis. In der Verbindung mit der Optimierungs- undSteuerungstheorie hat sich eine dynamische Entwicklung von grundlegenden Ergebnissen und mo-tivierenden Anwendungen vollzogen. Andererseits hat die allgemeine Optimierung insbesondereim unendlichdimensionalen Kontext enormen Gewinn aus der Weiterentwicklung der konvexenAnalysis gezogen.

Konvexe Analysis kann in großen Teilen, insbesondere in ihren ersten Entwicklungen, alsTeilgebiet der Reinen Mathematik zugeordnet werden. Ab etwa 1960 nimmt jedoch die Bedeutungder Konvexität bei anwendungsbezogenen Theorien und Themen enorm zu. Die wesentlichenImpulse kommen aus

• Ökonomie (Systeme von Ungleichungen, lineare Programmierung)

• Approximationstheorie (Funktionsersatz auf Computern, Charakterisierung, Stabilität)

• Mechanik (Hamilton–Systeme, Steuerung)

• Variationsrechnung und Steuerungstheorie (Maximumsprinzip)

• Nichtlineare Gleichungen (Partielle Differentialgleichungen, Monotone Operatoren)

• Fixpunkttheorie (auch für mengenwertige Abbildungen)

Was macht das Studium der Konvexität so speziell und interessant? Es sind u. a. folgendeFeststellungen:

• Konvexe Mengen sind zusammenhängend

• Konvexe Mengen haben oft eine einfache Beschreibung (polyhedral, . . . )

• Konvexe Mengen haben nichtleeres relatives Inneres

• Konvexe Mengen stehen in engem Zusammenhang mit geometrischen Überlegungen

• Konvexe Funktionen haben keine lokalen Minima, die nicht global sind

• Konvexe Funktionen haben „angenehme“ Differenzierbarkeitseigenschaften

• Nichtkonvexe Funktionen können konvexifiziert werden unter Beibehaltung ihrer globalenMinima

i

Page 5: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

• Konvexe Optimierungsaufgaben lassen sich gewinnbringend dualisieren• Die Synergie von „Konvexität, Dualität, Differenzierbarkeit“ lässt sich bei der Algorithmik

ausschlachten

Die (mathematische) Optimierung befasst sich mit Aufgaben, die dadurch charakterisiert sind,dass aus einer Menge von zur Konkurrenz zugelassenen Objekten das nach einem vorgegebenenBewertungskriterium beste Objekt herauszufinden ist. Die so beschriebene Aufgabenklasse hateine Vielzahl von sehr unterschiedlichen Ausprägungen. Bei der Ausarbeitung einer Vorlesungauch über Optimierung besteht daher die Gefahr, in der Vielfalt der verschiedenene Typen vonOptimierungsaufgaben zu „ertrinken“. Schon die „Ordnungsinstrumente“, die man heranziehenkann, sind vielfältig. Wir geben die Stichworte dazu:

• endlich - unendlich• kontinuierlich - diskret• linear - nichtlinear• mit Beschränkungen - ohne Beschränkungen• skalare Optimierung - vektorielle Optimierung• theoriebezogen - anwendungsorientiert• lokal - global• konvex - nichtkonvex• differenzierbar - nichtdifferenzierbar• glatt - nichtglatt• deterministisch - stochastisch

Alle diese Stichworte werden irgendwo auftauchen. In besonderer Beziehung zur konvexen Ana-lysis steht die nichtglatte Analysis (nonsmooth analysis), denn Konvexität gestattet es,einen Differentialkalkül zu entwickeln, der weiter greift als der klassische Kalkül.

Wir widmen uns in erster Linie Aufgaben und Resultaten im unendlichdimensionalen Kon-text unter Einbeziehung von Werkzeugen aus der Konvexen Analysis. Unter dem Titel „KonvexeAnalysis und Optimierung“ wollen wir aber mehr verstehen als das Betreiben „Konvexer Opti-mierung“.

In der Angewandten Mathematik wird die Analyse mathematischer Modelle für eine realeAufgabe meist auf das Studium (linearer) Gleichungen reduziert. Das mathematische Modellstellt dann eine Abbildung A : X −→ Y dar, wobei der Raum X die Ursachen, Y die Mengeder Wirkungen beschreiben mag. Eine Gleichung

A(x) = y (1)

legt dann die Aufgabe vor, zu vorgegebenem y ∈ Y die Lösung x ∈ X zu finden. In einer„physikalischen Situation“ ist die Größe y meist in der Folge von Modell- und/oder Meßfehlernnicht exakt gegeben, was es schwierig oder unmöglich macht, die Gleichung zu lösen. Als Ersatzkann man mit der Idee der besten Approximation herangehen. Dann versucht man die Aufgabe

Minimiere d(A(x), y) unter den Nebenbedingungen x ∈ Xad (2)

zu lösen. Dabei ist die Abstandsfunktion d geeignet zu wählen und aus den Gegebenheiten desModells eine zulässige MengeXad abzuleiten;Xad := X wäre die naheliegenste Wahl. Hier ordnensich Approximationsprobleme ein.

ii

Page 6: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

In einer linearen Modellierung sind X,Y meist (unendlichdimensionale) Hilberträume und Aeine lineare stetige Abbildung. Dann wird die Optimierungsaufgabe (2) zur Aufgabe

Minimiere ‖Ax− y‖2Y unter den Nebenbedingungen x ∈ Xad (3)

wobei ‖ ·‖Y die Norm im Hilbertraum Y ist. Die Quadrierung des Abstands ist in Hilberträumennatürlich und hat den analytischen Vorteil, dass dann, wie wir noch sehen werden, die Diffe-renzierbarkeit des Optimalitätskriteriums x 7−→ ‖Ax − y‖2Y einfacher zu nutzen ist. SolcheProbleme nennt man Ausgleichsprobleme. In endlichdimensionalen Räumen ist die Analysedieser Aufgabe mehr oder minder eine Anwendung der (numerischen) Linearen Algebra.

Eine wesentliche Schwierigkeit bei der Lösung der Aufgabe (3) ergibt sich dann, wenn sichdie Abbildung A nicht stetig invertieren lässt. Dies ist generisch der Fall bei den sogenannteninversen Problemen, da dort Ameist ein kompakter Operator ist. Prominente Beispiele für sol-che Aufgaben findet man bei der Bildverarbeitung (Bildrekonstruktion, Computer-Tomographie,Impedanztomographie, . . . ). Dies hat dann die Konsequenz, dass „beliebig große Abweichungen“bei der Lösung in Kauf zu nehmen sind. Dies kann man durch eine geschickte Wahl von Xad

vermeiden.Will man in der Aufgabe (3) die Optimierung unter Nebenbedingungen vermeiden, kann man

die Nebenbedingungen mit Hilfe eines „Strafterms“ an das Optimalitätskriterium ankoppeln. Diesführt dann zu einer Aufgabe der Art

Minimiere ‖Ax− y‖2Y + αf(x) , x ∈ X, (4)

wobei f : X −→ R die Qualität, α die quantitative Gewichtung des Strafterms beschreibt. Inden meisten Fällen ist f eine Norm in einem dem Modell angepassten Raum. Wir werden dieAufgabe (4) als eine Art Standardaufgabe für die Anwendbarkeit unserer Ergebnisse ansehenund bezeichnen sie auch als regularisierte Ausgleichsaufgabe.

In (2),(3)(4) sind wir bei Optimierungsaufgaben angelangt, die die wesentlichen Fragestel-lungen/Facetten von Optimierungstheorie aufwerfen: Aussagen zur Existenz und Ein-deutigkeit einer Lösung, notwendige und hinreichende Bedingungen für das Vorliegeneiner Lösung, Ideen für Lösungsberechnungsverfahren. Große Bedeutung erlangen beimStudium dieser Aufgaben die Konvexität und Differenzierbarkeit der beteiligten Kriteri-en X 3 x 7−→ ‖Ax− y‖2Y ∈ R und f : X −→ R .

Im Kapitel 4 betrachten wir (historisch) bedeutsame Anwendungen der Aufgaben (2),(3),(4)aus der (linearen) Optimierung, der Approximationstheorie und der inversen Probleme.

Es lassen sich geschichtlich grob folgende zeitliche Abschnitte der Entwicklung der KonvexenAnalysis und Optimierung erkennen (siehe [17]):

Bis etwa 1900 Entwicklung von ad hoc-Ergebnissen zu notwendigen Bedingungen in der ma-thematischen Physik, der Approximationstheorie und der Variationsrechnung

1900 – Ende der 1930er Jahre Algebraisch-geometrische Überlegungen stehen im Vorder-grund, wie zum Beispiel konvexe Funktionen, Ungleichungssysteme, konvexe Körper, Kon-vexität in normierten Räumen.

Anfang der 1940er Jahre – Anfang der 1960er Jahre Lineare Optimierung, Spieltheorie,Funktionalanalytische Begriffsbildung und Strukturtheorie.

Anfang der 1960er Jahre - Anfang der 1970er Jahre Konvexität und konvexe Funktio-nen in lokalkonvexen Räumen mit Anwendungen in der Approximations– und Optimie-rungstheorie, Maximumprinzip in der Kontrolltheorie.

iii

Page 7: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Anfang der 1970er Jahre – Mitte der 1990er Jahre Weiterentwicklungen im Studium kon-vexer Funktionen, Nichtglatte Analysis, Anwendungen in der nichtlinearen Analysis.

Ab Mitte der 1990er Jahre Weiterentwicklung der Nichtlinearen Analysis, Semidefinite Op-timierung, neue Sicht der Variationsrechnung bei der Betrachtung nichtlinearer partiellerDifferentialgleichungen.

Der Stoff der Vorlesung ist etwa folgendermaßen gegliedert:

Kapitel 1,2,3: Algebraische Hilfsmittel, konvexe Mengen, Trennungssätze, konvexe FunktionenKapitel 4: Allgemeine AnwendungsbeispieleKapitel 5: Differenzialkalkül für konvexe Funktionen

Hier ist eine Liste von Büchern und Monographien zur allgemeinen Darstellung der Konve-xen Analysis [6, 7, 13, 14, 15, 16] und der Optimierung [2, 4, 5, 8, 10, 18]. In den einzelnenKapiteln werden wir spezielle Referenzen anführen. Der funktionalanalytische Hintergrung wirdausgeleuchtet etwa in [1, 3, 9, 11, 12, 19]. Verwendung fanden bei der Abfassung des Skriptumsauch Skripten, die eine thematische Verwandschaft haben und zum Teil im Internet zu findensind, etwa von A. Bossavit, M. Brokate und T. Lorenz.

Danksagung Das Skriptum ist aus mehreren Vorlesungen für Studierende der Mathematikhervorgegangen. Der Mitarbeit und Kritik dieser Hörer gebührt mein Dank. Frau H. von Hase–Koehler danke ich herzlich für die Abfassung von Teilen in LATEX.

Frankfurt, im September 2014 Johann Baumeister

iv

Page 8: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Literaturverzeichnis

[1] H.W. Alt. Lineare Funktionalanalysis. Springer, 2002.

[2] W. Alt. Nichtlineare Optimierung. Vieweg, 2002.

[3] J. Baumeister. Lineare Funktionalanalysis, 2012. Skriptum Universität Frankfurt/Main.

[4] J.M. Borwein and A.S. Lewis. Convex Analysis and Nonlinear Optimization. Theory and Examples.Springer, New York, 2006.

[5] F. Clarke. Optimization and nonsmooth analysis. Wiley, 1985.

[6] P.L. Combettes and H.H. Bauschke. Convex Analysis and Monotone Operator Theory in HilbertSpaces. Springer, 2011.

[7] I. Ekeland and R. Temam. Convex analysis and variational problems. SIAM, Philadelphia, 1999.

[8] J.-B. Hiriart-Urruty and C. Lemarechal. Fundamentals of Convex Analysis. Springer, Berlin, 2001.

[9] F. Hirzebruch and W. Scharlau. Einführung in die Funktionalanalysis. Bibliographisches Institut,1970.

[10] R. Holmes. A Course on Optimization and Best Approximation. Springer, 1971.

[11] R. Holmes. Geometric functional analysis and its applications. Springer, 1975.

[12] W. Kaballo. Grundkurs Funktionalanalysis. Spektrum/Akademischer Verlag, Heidelberg, 2010.

[13] J.T. Marti. Konvexe Analysis. Birhäuser, Basel, 1977.

[14] M.J. Panik. Fundamentals of Convex Analysis. Springer, 1993.

[15] R.T. Rockafellar. Convex analysis. Princeton University press, Princeton, 1970.

[16] R.T. Rockafellar and R. Wets. Variational analysis. Springer, New York, 2009.

[17] R. Tichatschke. Auf den Schultern von Giganten. Zur Geschichte der MathematischenOptimierung. Technical report, Universität Trier, 2008. Vortrag anlässlich des Jahres derMathematik 2008.

[18] M. Ulbrich and S. Ulbrich. Nichtlineare Optimierung. Birkhäuser, Berlin, 2012.

[19] D. Werner. Funktionalanalysis. Springer, 2002.

v

Page 9: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Bezeichnungen

POT(X) Potenzmenge einer Menge XX\A Komplement von A in XC Abschluss der Menge C (in einem topologischen Raum)int(C) Inneres der Menge C (in einem topologischen Raum)∂C Rand der Menge C (in einem topologischen Raum)f(A) Bild von A unter der Abbildung f−1f (B) Urbild von B unter der Abbildung f−1f (y) Urbild von y unter der Abbildung ff(A) Bild von A unter der Abbildung fd(·, ·) Metrik in einem metrischen Raumdist(x,M) Abstand von x zur Menge M in einem metrischen Raum‖ · ‖ Norm in einem normierten Raumθ Nullvektor in einem VektorrraumBr(x) Offene Kugel in einem normierten Raum mit Radius r und Mittelpunkt xBr(x) Abgeschlossene Kugel in einem normierten Raum mit Radius r und Mittelpunkt xBr Offene Kugel in einem normierten Raum mit Radius r und Mittelpunkt θBr Abgeschlossene Kugel in einem normierten Raum mit Radius r und Mittelpunkt θaff(C) Affine Hülle einer Menge Clin(C) Linear von Punkten in C aus erreichbare Punkterint(C) Relativ innere Punkte einer Menge Caint(C) Algebraisch innere Punkte einer Menge Cco(C) Konvexe Hülle der Menge Ccone(C) Kegelhülle der Menge Cco(C) Abgeschlossene konvexe Hülle der Menge Ccone(C) Abgeschlossene Kegelhülle der Menge CX ′ Raum der linearen Funktionale auf einem normierten RaumX∗ Raum der stetigen linearen Funktionale auf einem normierten Raum〈λ, x〉 Duale Paarung λ(x) für λ ∈ X ′, x ∈ XH(λ, α) Hyperebene beschrieben durch λ ∈ X ′ und α ∈ RH+(λ, α) Positiver Halbraum beschrieben durch die Hyperebene H(λ, α)H−(λ, α) Negativer Halbraum beschrieben durch die Hyperebene H(λ, α)〈x|y〉 Inneres Produkt von x, y in einem (Prä-)Hilbertraumw − limn xn Grenzwert der Folge (xn)n∈N bezüglich der schwachen Konvergenz

i

Page 10: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

id oder I IdentitätsabbildungB(X,Y ) Raum der stetigen linearen Abbildungen von X nach Y ; X,Y normierte Räume‖T‖X→Y Norm von T ∈ B(X,Y )T ∗ Duale Abbildung in B(Y ∗, X∗) von T ∈ B(X,Y )T ∗ Adjungierte Abbildung in B(Y,X) von T ∈ B(X,Y ), falls X,Y Hilberträume sindran(T ) Bild des linearen Operators Tker(T ) Kern (Nullraum) des linearen Operators Tcoker(T ) Vektorraum Y/ran(T ) eines linearen Operators T : X −→ Ydim(U) (Algebraische) Dimension eines Vektorrraums Ucodim(V ) Dimension des Vektorraums X/V , wobei V ⊂ X,V,X Vektorräumelp Banachraum der skalaren Folgen mit Norm ‖ · ‖p, 1 ≤ p ≤ ∞c0 Banachraum der skalaren Nullfolgen mit Norm ‖ · ‖∞Lp(Ω) Banachraum der skalaren p-integrierbaren Funktionen auf Ω mit Norm ‖ · ‖p, 1 ≤ p ≤ ∞f1#f2 Infimale Faltungf∗ Fenchel-Konjugierte der konvexen Funktion fg+ Fenchel-Konjugierte der konkaven Funktion gδA Charakteristische Funktion der konvexen Analysis einer Menge ARn+ Kegel der nichtnegativen Vektoren in Rn

Rn++ int(Rn

+)Sn Raum der symmetrischen Matrizen in Rn,n

· • · Inneres Produkt in Sn

‖ · ‖F Frobeniusnorm in Sn

Sn+ Kegel der positiv semidefiniten Matrizen

Sn++ int(Sn

+)Df(x) Fréchet-Ableitung von f in x∂f∂v

(x0) Richtungsableitung von f in x0 in Richtung vf ′+(x

0, v) (Einseitige) Richtungsableitung von f in x0 in Richtung vT (x0;K) Tangentialkegel in x0 an K

ii

Page 11: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Kapitel 1

Konvexität in Vektorräumen

Wer das erste Knopfloch verfehlt, kommt mit demZuknöpfen nicht zu Rande

J.W. Goethe

Wir führen die Begriffe affin, konvexe Mengen, Kegel und Hüllenbildung ein. Unter Verwen-dung dieser Begriffe gelingt es, erste Trennungsergebnisse für konvexe Mengen zu beweisen. Die„Struktur“, die dies möglich macht, ist die des Vektorraums, topologische Überlegungen spielenhierbei keine Rolle.

In diesem Kapitel seien Vektorräume stets Vektorräume mit Skalarkörper R . Liegt so einVektorraum X vor, so heißt X ′ := f : X −→ R|f linear der zugehörige algebraischeDualraum. Die Abbildung 〈·, ·〉 : X ′×X 3 (f, x) 7−→ 〈f, x〉 := f(x) ∈ R heißt die kanonischePaarabbildung.

1.1 Affine Mengen

Definition 1.1 Sei X ein Vektorraum. Eine Menge A ⊂ X heißt affin, falls gilt:

y + t(x− y) = tx+ (1− t)y ∈ A für alle x, y ∈ A, t ∈ R .

Eine affine Menge enthält also zu je zwei Punkten x, y die Verbindungsgerade, die durchdie beiden Punkte verläuft; manchmal schreibt man dafür x ∨ y . Beispiele für affine Mengen Ain einem Vektorraum X sind: A = ∅, A = x, A = X, jeder lineare Teilraum U von X .

Bezeichnungen Seien X,Y Vektorräume, T : X −→ Y eine Abbildung. Für A,B ⊂ X,C ⊂Y, t ∈ R setzen wir:

A+B := z ∈ X|z = x+ y, x ∈ A, y ∈ BtA := z ∈ X|z = tx, x ∈ A

A\B := z ∈ A|z /∈ BT (A) := y ∈ Y |y = T (x) mit x ∈ A−1T (C) := x ∈ X|T (x) ∈ C

1

Page 12: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Regel 1.2 Seien X,Y Vektorräume, T : X −→ Y linear.

A ⊂ X affin, t ∈ R =⇒ tA affin (1.1)A,B ⊂ X affin =⇒ A+B affin (1.2)

AI ⊂ X affin, i ∈ I, =⇒ ∩i∈IAi affin (1.3)A ⊂ X affin =⇒ T (A) affin (1.4)

B ⊂ Y affin =⇒−1T (B) affin (1.5)

Diese Rechenregeln lassen sich einfach verifizieren. Wir beweisen etwa (1.4).Seien y, y′ ∈ T (A) und sei t ∈ R. Es gibt x, x′ ∈ A mit T (x) = y, T (x′) = y′ . Mit der Linearitätvon T folgt

ty + (1− t)y′ = tT (x) + (1− t)T (x′) = T (tx) + T ((1− t)x′) = T (tx+ (1− t)x′) ,

also tx+ (1− t)x′ ∈ T (A), da tx+ (1− t)x′ ∈ A gilt auf Grund der Affinität von A .

Definition 1.3 Sei X ein Vektorraum und seien A,B ⊂ X affin. A heißt parallel B, falls esx ∈ X gibt mit A = x+B := x+B .

Die Schreibweise A‖B verwenden wir für die Aussage, dass A parallel B ist. Offenbar ist ·‖·eine Äquivalenzrelation.

Lemma 1.4 Sei X ein Vektorraum und sei A ⊂ X affin; A 6= ∅ . Dann ist A parallel zu einemeindeutig bestimmten linearen Teilraum U ⊂ X; es gilt:

U = A− y für alle y ∈ A,U = A−A := A+ (−1)A .

Beweis:Seien V,W lineare Teilräume mit A‖V,A‖W . Dann gilt V ‖W, d. h. V = x+W mit x ∈ X . Daθ in V ist, ist −x ∈ W und daher x ∈ W . Also V = x +W ⊂ W . Analog folgt W ⊂ V . Wirhaben also V =W . Damit ist die Eindeutigkeit gezeigt.Sei y′ ∈ A beliebig, V := A− y′ . Dann gilt A‖V, θ ∈ V, und V ist offenbar ein linearer Teilraum,zu dem A parallel ist. Setze U := A− y′ . Wegen der Eindeutigkeit ist U = A− y für alle y ∈ Aund es gilt U = A−A .

Das obige Lemma besagt zweierlei: Erstens, affine Mengen entstehen durch Translation vonUnterräumen. Zweitens, eine Menge A in einem Vektorraum ist ein linearer Teilraum genau dann,wenn A eine affine Menge mit θ ∈ A ist.

Auf Grund von Lemma 1.4 macht die folgende Definition einen Sinn.

Definition 1.5 Sei X ein Vektorraum und sei A ⊂ X affin; A 6= ∅ . Dann setzen wir

dimA := dimU falls U‖A,U linearer Teilraum.

Definition 1.6 Sei X ein Vektorraum und sei A ⊂ X . Dann heißt

aff(A) :=⋂

B ⊂ X|B affin,A ⊂ B

die affine Hülle von A . Die Zahl dim(aff(A)) heißt die affine Dimension von A und wirschreiben dafür kurz dimA .

2

Page 13: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beispiel 1.7Für A := [0, 1]× 0 ⊂ R2 erhalten wir aff(A) = R× 0 und dimA = 1 , da R× 0 parallel Rist.Für A := x ∈ R3|x21 + x22 ≤ 1, x3 = 0 erhalten wir aff(A) = R2 × 0 und dimA = 2 , daR2 × 0 parallel R2 ist.

Hilfreich bei der Berechnung einer affinen Hülle ist das folgende Lemma.

Lemma 1.8 Sei X ein Vektorraum und sei A ⊂ X . Dann ist aff(A) gegeben durch

aff(A) = A∗ :=⋃m∈N

Bm

mit Bm := x ∈ X|x =∑m

i=1 tixi, x1 . . . , xm ∈ A, t1, . . . , tm ∈ R,

∑mi=1 ti = 1,m ∈ N .

Beweis:Man zeigt leicht, dass A∗ affin ist und dass A ⊂ A∗ gilt. Also wissen wir schon affA ⊂ A∗ .Sei B ⊂ X,B affin und sei A ⊂ B . Wir zeigen durch vollständige Induktion über m, dassBm ⊂ B für alle m ∈ N . Dann ist A∗ ⊂ B und daher A∗ ⊂ aff(A) .Der Induktionsbeginn B1 ⊂ B ist trivial. Sei x ∈ Bm+1, d. h. x =

∑m+1i=1 tix

i, x1 . . . , xm+1 ∈A, t1, . . . , tm+1 ∈ R,

∑m+1i=1 ti = 1 . Sicherlich gibt es j mit tj 6= 1 . O.E. j = m + 1 . Setze

y := 11−tm+1

∑mi=1 tix

i . Da y eine affine Linearkombination von m Elementen ist, ist y in Bm

und damit in B auf Grund der Induktionsvoraussetzung. Wegen xm+1 ∈ A ⊂ B und x =(1− tm+1)y + tm+1x

m+1 ist x ∈ B, da B affin ist.

Lemma 1.9 Sei X ein Vektorraum, sei A ⊂ X,u ∈ X . Dann gilt stets aff(A) = u+ aff(A− u)und falls u ∈ A ist, gilt sogar aff(A) = u+ span(A− u) .

Beweis:Die zweite Behauptung folgt aus der ersten, da dann aff(A − u) ein linearer Teilraum ist. Wirbeweisen nun die erste Behauptung.Zu aff(A) ⊂ u+ aff(A− u) .Sei B affin und A− u ⊂ B . Dann ist A ⊂ u+B und u+B affin, also auch aff(A) ⊂ u+B undaff(A)− u ⊂ B . Da B beliebig war, folgt aff(A)− u ⊂ aff(A− u) .Zu u+ aff(A− u) ⊂ aff(A) .Nach dem eben Bewiesenem gilt aff(A− u) ⊂ −u+ aff(A− u+ u), d. h. u+ aff(A− u) ⊂ aff(A) .

Im Spezialfall A = x0, . . . , xm erhalten wir

aff(x0, . . . , xm) = x0 + span(x1 − x0, . . . , xn − x0) . (1.6)

Definition 1.10 Sei X ein Vektorraum. Eine Teilmenge x0, . . . , xn heißt affin unabhängig,wenn dim aff(x0, . . . , xn) = n gilt.

Satz 1.11 Sei X ein Vektorraum und sei A := x0, . . . , xn affin unabhängig. Dann lässt sichjedes x ∈ aff(A) eindeutig darstellen in der Form

x =

n∑i=0

tixi ,

n∑i=0

ti = 1 . (1.7)

3

Page 14: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Da x0, . . . , xn affin unabhängig sind, sind x1 − x0, . . . , xn − x0 linear unabhängig; siehe Lemma1.9. Also haben wir eine Darstellung

x− x0 =

n∑i=1

ti(xi − x0) mit t1, . . . , tn ∈ R .

Mit der Wahl t0 := 1−∑n

i=1 ti folgt eine Darstellung der Form (1.7).Sei x =

∑ni=0 six

i,∑n

i=0 si = 1 eine weitere Darstellung. Dann ist x − x0 = (s0 − 1)x0 +∑ni=1 six

i =∑n

i=1 si(xi−x0) und aus der linearen Unabhängigkeit von x1−x0, . . . , xn−x0 folgt

ti = si, i = 1, . . . , n . Schließlich folgt nun t0 = s0 .

Die Koeffizienten t0, . . . , tn aus (1.7) heißen baryzentrische Koordinaten bezüglich x0, . . . , xn .

1.2 Konvexe Mengen

Bezeichnungen Sei X ein Vektorraum und x, y ∈ X . Wir setzen:

[x, y] := z ∈ X|z = tx+ (1− t)y, t ∈ [0, 1]]x, y[ := z ∈ X|z = tx+ (1− t)y, t ∈ (0, 1)[x, y[ := [x, y]\y , ]x, y] := [x, y]\x ,

Definition 1.12 Sei X ein Vektorraum und A ⊂ X .

(a) A heißt sternförmig bezüglich x ∈ A genau dann, wenn [x, y] ⊂ A für alle y ∈ A .

(b) A heißt konvex genau dann, wenn [x, y] ⊂ A für alle x, y ∈ A .

Eine Menge ist also konvex, wenn sie sternförmig ist bezüglich all ihrer Punkte. Wir setzen[x, x[:= x . Beispiele konvexer Mengen sind: ∅, einpunktige Mengen, Verbindungsstrecken[x, y], |x, y[, ]x, y], lineare Teilräume, der Vektorraum selbst. In X := Rn sind etwa Kugeln, El-lipsoide, Quader konvex.

Regel 1.13 Seien X,Y Vektorräume, T : X −→ Y linear.

A ⊂ X konvex, t ∈ R =⇒ tA konvex (1.8)A,B ⊂ X konvex =⇒ A+B konvex (1.9)

AI ⊂ X konvex, i ∈ I, =⇒ ∩i∈IAi konvex (1.10)A ⊂ X konvex =⇒ T (A) konvex (1.11)

B ⊂ Y konvex =⇒−1T (B) konvex (1.12)

Die Beweise sind offensichtlich, wir übergehen sie daher.

Sei X ein Vektorraum und seien x1, . . . , xn ∈ X . Eine Linearkombination x =∑n

i=1 tixi

heißt konvexe Linearkombination, wenn∑n

i=1 ti = 1 und ti ∈ [0, 1], i = 1, . . . , n gilt. Mitvollständiger Induktion zeigt man schnell, dass eine Menge A ⊂ X konvex genau dann ist, wennjede konvexe Linearkombination mit Vektoren x1, . . . xn ∈ A (n beliebig) wieder in A liegt.

4

Page 15: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Definition 1.14 Sei X ein Vektorraum und sei A ⊂ X . Dann heißt

co(A) :=⋂

K ⊂ X|K konvex, A ⊂ K

die konvexe Hülle von A .

Ist A = x1, . . . , xn, so schreiben wir kurz co(x1, . . . , xn) für co(x1, . . . , xn) . Offenbar istco(A) stets konvex (siehe Rechenregel (1.10)). Hilfreich bei der Berechnung einer konvexen Hülleist das folgende Lemma.

Lemma 1.15 Sei X ein Vektorraum und sei A ⊂ X . Dann ist co(A) gegeben durch

co(A) = K∗ :=⋃m∈N

Km

mit Km := x ∈ X|x =∑m

i=1 tixi, x1 . . . , xm ∈ A, t1, . . . , tm ∈ [0, 1],

∑mi=1 ti = 1,m ∈ N .

Beweis:Zu K∗ ⊂ co(A) . Ist K konvex und A ⊂ K, so gilt offensichtlich Km ⊂ K für alle m ∈ N. AlsoK∗ ⊂ K und daher K∗ ⊂ co(A) .Zu co(A) ⊂ K∗ . Da A ⊂ K∗ ist, genügt es zu zeigen, dass K∗ konvex ist. Seien also x, x′ ∈ K∗,

x =n∑

i=1

tixi ∈ Kn , x

′ =m∑j=1

sjuj ∈ Km .

O.E. m = n, xi = ui, i = 1, . . . , n, (Verlängerung der Darstellungen durch Nullterme). Dann giltfür t ∈ [0, 1]

tx+ (1− t)x′ =

n∑i=1

ttixi +

n∑i=1

(1− t)sixi ∈ Kn ⊂ K∗ ,

da die Koeffizienten die an eine Konvexlinearkombination gestellten Bedingungen erfüllen.

Beispiel 1.16 Ist X = R2 und A = x, y ⊂ X, so ist co(A) = [x, y] . Ist X = R3 undA = x, y, z ⊂ X, so ist co(A) = co([x, y]∪ [x, z]) . Man mache sich diesen Sachverhalt an einerSkizze klar (Strecken und Dreieck!).

Ist A eine endliche Menge in einem Vektrorraum X, also etwa A = x0, . . . , xm, so nennen wirco(A) ein konvexes Polyeder. Ist A von der Form x0, x0+x1, . . . , x0+xm, wobei x1, . . . , xm

linear unabhängig sind, so nennen wir das Polyeder co(A) einen m–Simplex. x0, x0+x1, . . . , x0+xm heißen dann Ecken des Simplex.Beobachtung:

co(x0, x0 + x1, . . . , x0 + xm) = x0 + co(θ, x1, . . . , xm) (1.13)

Ein erstes wichtiges Ergebnis ist der Satz von Carathéodory.

Satz 1.17 (Carathéodory, 1911) Ist A ⊂ Rn und x ∈ co(A), so gibt es m ≤ n+1 verschiedenePunkte x1, . . . , xm ∈ A, mit x ∈ co(x1, . . . , xm) .

Beweis:Nach Lemma 1.15 gibt es m ∈ N, x1 . . . , xm ∈ A mit x ∈ co(x1, . . . , xm) , also x =

∑mi=1 tix

i mitti ∈ [0, 1], i = 1, . . . ,m . m kann minimal mit dieser Eigenschaft gewählt werden, d. h.

x /∈ co(x1, . . . , xi−1, xi+1, . . . , xm) , i = 1, . . . ,m . (1.14)

5

Page 16: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Wegen (1.14) sind alle ti strikt positiv.Annahme: m > n+ 1 .Seien yi := xi − x, i = 1, . . . ,m− 1 . Da y1, . . . , ym−1 wegen m− 1 ≥ n+ 1 linear abhängig sind,gibt es s1, . . . , sm−1 ∈ R mit

θ =

m−1∑i=1

siyi ,

m−1∑i=1

s2i 6= 0 .

Setze sm := 0. Dann gilt für alle s ∈ Rm∑i=1

(ti + ssi)yi =

m∑i=1

tiyi + s

m∑i=1

siyi =

m∑i=1

tixi −

m∑i=1

tix = θ .

Sei s∗ := minti|si|−1|si 6= 0, i = 1, . . . ,m . Dann gilt s∗ > 0, ti + ssi ≥ 0, i = 1, . . . ,m, für s ∈[−s∗, s∗] ; beachte ti ≥ 0, i = 1, . . . ,m, sm = 0 . Es kann s∗∗ ∈ ±s∗ so gewählt werden, dasstk + s∗∗sk = 0 für mindestens ein k ∈ 1, . . . ,m− 1 ; Man erhält

θ =

m∑i=1,i6=k

(ti + s∗∗si)yi =

m∑i=1,i 6=k

(ti + s∗∗si)xi −

m∑i=1,i6=k

(ti + s∗∗si)x

=

m∑i=1,i6=k

(ti + s∗∗si)xi − qx

mit q :=∑m

i=1,i 6=k(ti + s∗∗si) ≥ tm + s∗∗sm = tm > 0 . Dann gilt

x =

m∑i=1,i 6=k

q−1(ti + s∗∗si)xi ∈ co(x1, . . . , xk−1, xk+1, . . . xm),

was der Minimalität von m widerspricht.

1.3 Der Satz von Helly

Satz 1.18 (Helly, 1913) Seien A1, . . . , Am ⊂ Rn konvex und sei m ≥ n+1 . Für jede (n+1)-elementige Teilmenge J von 1, . . . ,m gelte ∩j∈JAj 6= ∅. Dann gilt⋂

i∈IAi 6= ∅.

Beweis:Wir beweisen das Resultat durch Induktion nach m.Induktionsvoraussetzung m = n+ 1: Siehe Voraussetzung.Induktionsschluss: Sei m = k + 1 > n+ 1 . Nach Induktionsvoraussetzung gilt:

Für i = 1, . . . ,m gibt es yi ∈ ∩mj=1,j 6=iAj .

Betrachte das Gleichungssystemm∑i=1

αiyi = θ ,

m∑i=1

αi = 0 (1.15)

Dies sind n+ 1 Gleichungen für die m Unbekannten α1, . . . , αm, welches zumindest eine trivialeLösung besitzt. Da m > n+ 1 ist, existiert eine nichttriviale Lösung a = (α1, . . . , αm) . Setze

α+i := max(0, αi), α

−i := −min(0, αi), i = 1, . . . ,m .

6

Page 17: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Dann gilt αi = α+i − α−

i , i = 1, . . . ,m, und aus (1.15) folgt, da α 6= θ gilt

m∑i=1

α+i =

m∑i=1

α−i ,

m∑i=1

α+i y

i =m∑i=1

α−i y

i

undm∑i=1

α+i 6= 0 ,

m∑i=1

α−i 6= 0,

Also

z := (m∑i=1

α+i )

−1m∑i=1

α+i y

i = (m∑i=1

α−i )

−1m∑i=1

α−i y

i .

Es istz ∈ co(yi|α+

i 6= 0) , z ∈ co(yi|α−i 6= 0) .

Sei α+i 6= 0 . Dann ist yi ∈ ∩m

j=1,j 6=iAj ⊂ A := ∩mj=1,α+

j =0Aj . Da z ∈ co(yi|α+

i 6= 0) liegt und

A konvex ist, folgt z ∈ A . Analog zeigt man z ∈ B := ∩mj=1,α−

j =0Aj . Da entweder α+

i = 0 oder

α−i = 0 gilt, folgt z ∈ ∩m

j=1Aj , also ∩mj=1 Aj 6= ∅.

Wir ergänzen den Satz von Helly noch durch ein Resultat, das die euklidische Topologie(induziert durch die euklidische Metrik) von Rn benutzt, nämlich die Eigenschaften „offen, abge-schlossen, kompakt“Wir fügen dieses Resultat trotzdem hier an, da die Leser mit der euklidischenTopologie in Rn vertraut sein sollten und weil es sehr gut hierher passt.

Folgerung 1.19 Seien Ai ⊂ Rn, i ∈ I, konvex und abgeschlossen und sei mindestens ein Ai∗

beschränkt. Ferner gelte ∩j∈JAj 6= ∅ für jede (n+ 1)-elementige Teilmenge J von I . Dann gilt⋂i∈I

Ai 6= ∅.

Beweis:O.E. können wir wegen Satz 1.18 annehmen, dass I unendlich ist.Annahme: ∩i∈IAji = ∅ .Dann gilt Ai∗ ∩ (∩i∈I,i6=i∗Ai) = ∅ . Sei Ui := Rn\Ai, i ∈ I . Dann ist jedes Ui offen und Ai∗ ⊂∪i∈I,i6=i∗Ui . Da Ai∗ abgeschlossen und beschränkt, also kompakt ist, gibt es i1, . . . , im ∈ I\i∗mit Ai∗ ⊂ ∪m

l=1Uil . Daraus folgt

Ai∗ ∩m⋂l=1

Ail = ∅ . (1.16)

Da o. E. angenommen werden kann, dass m ≥ n gilt, ist dies ein Widerspruch zur Voraussetzung.

1.4 Kegel

Definition 1.20 Sei X ein Vektorraum und A ⊂ X .

(a) A heißt Kegel genau dann, wenn tA ⊂ A für alle t ≥ 0 .

(b) A heißt konvexer Kegel genau dann, wenn A ein Kegel ist und als Menge konvex ist.

(c) K ⊂ X heißt konvexe Kegelhülle von A, falls K der (bezüglich der Mengeninklusion)kleinste konvexe Kegel ist, der A enthält; wir schreiben K = cone(A) .

7

Page 18: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beispiele konvexer Kegel sind: ∅, lineare Teilräume, der ganze Vektorraum. In X := Rn istjede Gerade durch den Ursprung und etwa der „positive Quadrant“

Rn+ := x = (x1, . . . , xn)|x1, . . . , xn ≥ 0

ein konvexer Kegel. In C[a, b] := x : [a, b] −→ R|x stetig ist x ∈ C[a, b]|x(t) ≥ 0 für alle t ∈[a, b] ein konvexer Kegel.

Liegt ein konvexer Kegel K vor, so gilt K +K = K, denn θ ist in K und mit x, y ∈ K liegtauch 1

2(x + y), x + y ∈ K . Beachte aber, dass nicht K ∩ (−K) = θ gelten muss (Beispiel: Klinearer Teilraum).

Definition 1.21 Sei X ein Vektorraum. Ein konvexer Kegel K ⊂ X heißt spitz (positiv), falls

K ∩ (−K) = θ

gilt.

Die Bedeutung spitzer Kegel wir klar durch

Satz 1.22 Sei X ein Vektorraum und sei K ⊂ X ein spitzer, konvexer Kegel. Dann wird durch

x ≥ y : ⇐⇒ x− y ∈ K

eine Halbordnung auf X definiert.

Beweis:Zur Transitivität: Seien x,y, z ∈ X mit x ≥ y, y ≥ z, d. h. x− y ∈ K, y − z ∈ K . Da K konvexist, folgt 1

2(x− z) = 12(x− y) + 1

2(y − z) ∈ K . Da 2K ⊂ K ist, folgt x− z ∈ K, also x ≥ z .Zur Reflexivität: Da θ ∈ K gilt x ≥ x für alle x ∈ X .Zur Antisymmetrie: Seien x, y in X mit x ≥ y, y ≥ x, d. h. x− y ∈ K, y − x ∈ K . Da K spitzerKegel ist, folgt x− y = θ, d. h. x = y .

Satz 1.22 findet in vielfältiger Weise Anwendung. Etwa:

1. Einheitliche Formulierung der Restriktionen bei Optimierungsaufgaben:

g(u) ≤ θ oder g(u) ∈ K

wobei g = (g1, . . . , gn) : U −→ Rn, U ⊂ X, und K := x = (x1, . . . , xn)|x1, . . . , xn ≤ 0 .

2. Formulierung von vektoriellen Kriterien in der Vektoroptimierung.

3. Einschließungsaussagen bei Iterationsverfahren.

1.5 Hyperebenen

Definition 1.23 Sei X ein Vektorraum und sei A ⊂ X affin; A 6= ∅ . A heißt Hyperebene,falls es lineare Teilräume U, V von X gibt mit A‖U,dimV = 1, X = U ⊕ V .

Satz 1.24 Sei X ein Vektorraum und sei A ⊂ X , A 6= ∅ . Dann sind aquivalent:

(a) A ist Hyperebene.

8

Page 19: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(b) Es gibt λ ∈ X ′\θ und α ∈ R mit A = x ∈ X|〈λ, x〉 = α .

(a) =⇒ (b) Wir wissen: Es gibt lineare Teilräume U, V von X mit U‖A, d. h. A = y + U, mity ∈ A, V = span(v), v 6= θ,X = U ⊕ V . Wir definieren λ : X −→ R durch

〈λ, x〉 := β , falls x = u+ βv, u ∈ U, β ∈ R .

Offenbar gilt λ ∈ X ′, 〈λ, u〉 = 0 für alle u ∈ U und 〈λ, v〉 = 1 . Daraus folgt 〈λ, x〉 = 〈λ, y〉 füralle x ∈ A . Mit α := 〈λ, y〉 ist die Behauptung gezeigt.(b) =⇒ (a) Sei z ∈ X mit 〈λ, z〉 6= 0 . Sicherlich ist A affin. Sei y ∈ A . Für jedes x ∈ X gilt mitv := −〈λ, x〉〈λ, z〉−1z + y

〈λ, v + x〉 = 〈λ, y〉 = α, v + x ∈ A,

d. h. x ∈ A − y + span(z) . Definiert man U := A − y und V := span(z), so ist die Behauptunggezeigt, da auch 〈λ, u〉 = 0, u ∈ U, und 〈λ, z〉 = 1 gilt.

Sei H eine Hyperebene. Nach Satz 1.24 gibt es λ ∈ X ′, λ 6= θ, und α ∈ R mit

H = x ∈ X|〈λ, x〉 = α .

Wir schreiben daher H = H(λ, α) . Durch H(λ, α) werden zwei „Halbräume“

H+(λ, α) = x ∈ X|〈λ, x〉 ≥ α , H−(λ, α) = x ∈ X|〈λ, x〉 ≤ α

definiert, die eine disjunkte Zerlegung von X erzeugen:

X = H(λ, α) ∪ (H−(λ, α)\H(λ, α)) ∪ (H+(λ, α)\H(λ, α))

1.6 Algebraisch innere Punkte

Definition 1.25 Sei X Vektorraum und sei A,B ⊂ X .

(a) corB(A) := x ∈ A|∀y ∈ B\x∃z ∈]x, y[([x, z] ⊂ A) .

(b) aint(A) := corX(A) .

(c) rint(A) := coraff(A)(A) .

In corB(A) haben wir die algebraisch inneren Punkte (Kornpunkte) von A bezüglich Bzusammengefasst. aint(A) nennt man das algebraisch Innere von A . Die Menge rint(A) heißtdas Relativ-Innere von A .

Satz 1.26 Sei X Vektorraum und sei A ⊂ X konvex. Dann gilt:

(a) Es sind äquivalent für x ∈ X:

(1) x ∈ aint(A) .

(2) ∀ y′ ∈ X\θ ∃ δ > 0 ([x, x+ δy′] ⊂ A) .

(b) Ist x ∈ aint(A) und x′ ∈ A, so gilt [x, x′[⊂ aint(A) .

(c) aint(A) ist konvex.

(d) Ist x ∈ rint(A) und x′ ∈ A, so gilt [x, x′[⊂ rint(A) .

(e) rint(A) ist konvex.

9

Page 20: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Zu (a)(1) =⇒ (2) Sei y′ ∈ X, y′ 6= θ, y := y′+x ∈ X . Dann gibt es δ ∈ (0, 1) mit z := (1−δ)x+δy ∈ A,d. h. x+ δy′ ∈ A . Daraus folgt [x, x+ δy′] ⊂ A, da A konvex ist.(2) =⇒ (1) Sei y ∈ X, y 6= x, y′ := y − x ∈ X . Also [x, x + δy′] ⊂ A für ein δ ∈ (0, 1), d. h.[x, z] ⊂ A für z := δy + (1− δ)x ∈]y, x[ .Zu (b) und (c) Die Beweise sind analog zu den Beweisen zu (d) bzw. (e) .Zu (d) Sei y ∈ aff(A)\x und sei xt := tx+ (1− t)x′, t ∈ (0, 1).1. Fall: y = xDann ist [y, xt] ⊂ A und nichts ist mehr zu zeigen.2. Fall: y 6= xDann ist y ∈ aff\x und es gibt daher (x ∈ rint(A)!) z ∈]x, y[ mit [x, z] ⊂ A . Wir haben zuzeigen, dass es w ∈ A∩]xt, y[ gibt. Dazu genügt es zu zeigen, dass [z, x′]∩]xt, y[6= ∅ ist.Es ist z = δx+ (1− δ)y mit δ ∈ (0, 1) . Mit

α :=1− t

1− t+ δt, r :=

δ

1− t+ δt

giltw := αz + (1− α)x′ = rxt + (1− r)y ∈ A ∩ [xt, y[ .

Also [xt, w] ⊂ A .Zu (e) Seien x, x′ ∈ rint(A) . Dann ist nach (d) [x, x′] ⊂ rint(A) .

Beispiel 1.27 Aus A ⊂ B folgt nicht notwendigerweise rint(A) ⊂ rint(B) . Dies sieht man anfolgendem Beispiel:

A := x = (x1, x2) ∈ R2|x1 = 0, 0 ≤ x2 ≤ 1 , B := x = (x1, x2) ∈ R2|x1 ≥ 0, x2 ≥ 0, x1+x2 ≤ 1 .

Satz 1.28 Sei X Vektorraum, A ⊂ X konvex, A 6= ∅,dim(A) <∞ . Dann gilt rint(A) 6= ∅ .

Beweis:Ist n := dim(A) = 0, dann besteht A aus einem Punkt x und offenbar ist dann rint(A) = x .Sei nun n ≥ 1 .Es gilt: aff(A) = e0 + span(A − e0), n := dim(span(A − e0)) < ∞ . Also gibt es e1, . . . , en ∈ Amit span(A− e0) = span(e1 − e0, . . . , en − e0) . Da A konvex ist, gilt S = co(e0, e1, . . . , en) ⊂ A .Wir zeigen nun, dass der Schwerpunkt

x :=1

n+ 1

n∑i=0

ei

zu rint(A) gehört.Sei dazu y ∈ aff(A)\x, also y = e0 +

∑ni=1 di(e

i − e0) . Sei xt := x + t(y − x) = ty + (1 − t)xmit t > 0 . Wir haben

xt = (1

n+ 1+ t(

n

n+ 1−

n∑i=1

di))e0 +

n∑i=1

(1

n+ 1+ t(di −

1

n+ 1))ei .

Falls t ∈ (0, 1) so gewählt ist, dass

1

n+ 1+ t(

n

n+ 1−

n∑i=1

di) ≥ 0 ,1

n+ 1+ t(di −

1

n+ 1) ≥ 0, i = 1, . . . , n ,

gilt, folgt xt ∈ S ⊂ A .

10

Page 21: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

1.7 Das Minkowski-Funktional

Definition 1.29 Sei X ein Vektorraum. Eine Abbildung p : X −→ R heißt sublinear, fallsgilt:

p(tx) = tp(x) , p(x+ x′) ≤ p(x) + p(x′) für alle t ≥ 0, x, x′ ∈ X .

Definition 1.30 Sei X ein Vektorraum und A ⊂ X . Dann wird durch

pA(x) := infs|s > 0, s−1x ∈ A.

eine Abbildung pA : X −→ [0,∞] definiert; diese Abbildung heißt Minkowski-Funktional(Eich-Funktional) von A .

Das Minkowski-Funktional dient uns hier in der algebraischen „Welt“ als Ersatz für eine Norm.Wie wir unten sehen werden, hat es auch Teileigenschaften einer Norm.

Definition 1.31 Sei X ein Vektorraum und A ⊂ X . Dann heißt A absorbierend, falls gilt:pA(x) <∞ für alle x ∈ X .

Lemma 1.32 Sei X ein Vektorraum und sei A ⊂ X konvex und absorbierend. Dann gilt θ ∈ Aund das Minkowski-Funktional pA ist sublinear.

Beweis:Da A absorbierend ist, ist für x ∈ X auch tx und −sx = s(−x) in A für geeignete t > 0, s > 0 .Da A konvex ist, ist θ ∈ A und daher pA(θ) = 0 .Seien x, x′ ∈ X, t > 0 .pA(tx) = tpA(x) folgt unmittelbar aus der Definition von pA .Sei ε > 0 . Wir wählen s, s′ > 0 mit

s ≤ pA(x) + ε, s−1x ∈ A , s′ ≤ pA(x′) + ε, s′−1x ∈ A .

Dann ist, da A konvex ist,

(s+ s′)−1(x+ x′) = s(s+ s′)−1s−1x+ s′(s+ s′)−1s′−1x′ ∈ A,

alsopA(x+ x′) ≤ s+ s′ ≤ pA(x) + pA(x

′) + 2ε .

Da ε > 0 beliebig war, folgt pA(x+ x′) ≤ pA(x) + pA(x′) .

Lemma 1.33 Sei X ein Vektorraum und sei A ⊂ X konvex. Dann sind äquivalent:

(a) A ist absorbierend.

(b) θ ∈ aint(A .

Beweis:Zu (a) =⇒ (b) Sei y ∈ X\θ dann gibt es s > 0 mit z := s−1y ∈ A . Also ist [θ, z] ⊂ A, daθ ∈ A (siehe Lemma 1.32) und A konvex ist.Zu (b) =⇒ (a) Sei x ∈ X\θ . Dann gibt es z ∈]θ, x[ mit [θ, z] ⊂ A . Also ist z = tθ+(1− t)x =s−1x mit s = (1− t)−1 ∈ (0,∞) .

11

Page 22: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 1.34 Sei X ein Vektorraum, A ⊂ X konvex und sei θ ∈ aint(A) . Dann gilt

x ∈ X|pA(x) < 1 = aint(A) ⊂ A ⊂ x ∈ X|pA(x) ≤ 1 .

Beweis:Ist x ∈ A, so ist pA(x) ≤ 1 nach Definition von pA .Ist pA(x) < 1, so ist s−1x ∈ A für ein s < 1 . Dann ist [θ, s−1x[⊂ aint(A) nach Satz 1.26 (b) . Dax ∈ [θ, s−1x[, ist x ∈ aint(A) .Ist x ∈ aint(A), so ist z := s−1x ∈ A für ein s < 1, und damit pA(x) < 1 .

1.8 Algebraische Trennung

Wir beginnen die „Trennungsproblematik“ mit einem klassischen Resultat.

Satz 1.35 (Stone, 1946) Sei X ein Vektorraum und seien A,B ⊂ X konvex. Es gelte A∩B =∅ . Dann gibt es konvexe Mengen C,D ⊂ X mit

A ⊂ C,B ⊂ D,C ∩D = ∅, D = X\C . (1.17)

Beweis:Sei C := K ⊂ X|K konvex,K ∩ B = ∅, A ⊂ K . Beachte A ∈ C . C ist halbgeordnet bezüglichder Mengen-Inklusion. Eine nach oben geordnete Teilmenge von C besitzt eine obere Schranke,nämlich die Vereinigung. Dann besitzt C nach dem Lemma von Zorn ein maximales Element C .In analoger Argumentation besitzt D := K ⊂ X|K konvex,K ∩ C = ∅, B ⊂ K ein maximalesElement D ; beachte: C ∈ D . Wir zeigen: C ∪D = X .Annahme: Es gibt x ∈ X\(C ∪D) .Dann ist

A ⊂ C ⊂ C := co(C ∪ x), C 6= C .

Da C maximales Element in C ist, gilt C ∩B 6= ∅ . Also gilt (siehe unten)

∃w ∈ C(]w, x[∩B 6= ∅) (1.18)

In analoger Weise erhalten wir∃ v ∈ C(]v, x[∩A 6= ∅) (1.19)

Wir beweisen davon nur (1.18). Sei u ∈ C ∩B . Dann gibt es c1, . . . , cm ∈ C mit

u =m∑i=1

tici + tm+1x mit

m+1∑i=1

ti = 1, ti ∈ [0, 1], i = 1, . . . ,m+ 1 .

Da C ∩ B = ∅ gilt, ist tm+1 > 0 . Ist tm+1 = 1, dann ist u = x ∈ B ⊂ D im Widerspruch zux /∈ D . Also ist nun tm+1 ∈ (0, 1) und daher

u = (1− tm+1)

m∑i=1

ti(1− tm+1)−1ci + tm+1x ∈]w, x[∩B mit w :=

m∑i=1

ti(1− tm+1)−1ci ∈ C .

Wähle nun x′ ∈]w, x[∩B, x′′ ∈]v, x[∩A gemäß (1.18), (1.19). Dann rechnet man nach (sieheBeweis zu Satz 1.26 (d)), dass es z ∈]x′, v[∩ ]x′′, w[⊂ C ∩ D gibt. Dies ist ein Widerspruch zuC ∩D = ∅ .

Hier haben wir die disjunkten Mengen A,B durch die komplementären disjunkten MengenC,D getrennt. Der Nachteil dieser Trennung ist, dass C,D keine beschreibbare Struktur besitzen.Im Folgenden (hier und im folgenden Kapitel) werden wir „bessere“ Trennungsresultate beweisen.Dabei benutzen wir die geometrisch einsichtigen Hyperebenen und Halbräume.

12

Page 23: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Definition 1.36 Sei X ein Vektorraum und seien A,B ⊂ X . Sei H = H(λ, α) eine Hyperebenein X . Wir sagen, dass A,B durch die Hyperebene H getrennt werden, wenn gilt:

A ⊂ H+(λ, α) , B ⊂ H−(λ, α) oder A ⊂ H−(λ, α) , B ⊂ H+(λ, α) .

Beachte, dass wir o. E . immer von der ersten Art der Trennung in Definition 1.36 ausgehenkönnen. Als Vorbereitung für Trennungssätze folgender Fortsetzungssatz. Beachte dabei, dass füreinen linearen Teilraum U in einem Vektorraum X der algebraische Dualraum U ′ stets definiertist.

Satz 1.37 (Fortsetzungssatz) Sei X ein Vektorraum und sei p : X −→ R sublinear. Sei Uein linearer Teilraum und sei µ ∈ U ′ mit 〈µ, u〉 ≤ p(u) für alle u ∈ U . Dann gibt es λ ∈ X ′ mit

λ|U = µ , 〈λ, x〉 ≤ p(x) für alle x ∈ X .

Beweis:Wir betrachten zunächst den Spezialfall

X = span(U ∪ y), y ∈ X\U .

Jedes x ∈ X hat dann eine eindeutige Darstellung x = z + αy mit z ∈ U und α ∈ R . Wirdefinieren nun damit den Kandidaten für die Fortsetzung durch

〈λ, x〉 := 〈µ, z〉+ αr,

wobei die Wahl von r zunächst offenbleibt. Klar, λ ∈ X ′ und λ|U = µ . Die verlangte Ungleichung

〈λ, z〉+ αr ≤ p(z + αy) , z ∈ U,α ∈ R,

ist für α = 0 trivialerweise erfüllt. Sie ist für α > 0 erfüllt, wenn

r ≤ α−1(p(z + αy)− 〈λ, z〉) = p(α−1z + y)− 〈λ, α−1z〉,

gilt und sie ist für α < 0 erfüllt, wenn

r ≥ α−1(p(z + αy)− 〈λ, z〉) = −p(−α−1z − y) + 〈λ,−α−1z〉,

gilt. Ein solches r existiert dann, wenn

supu∈U

(〈λ, u〉 − p(u− y)) ≤ infu∈U

(p(u+ y)− 〈λ, u〉)

gilt. Dies folgt aber aus der Beobachtung

〈λ, u〉+ 〈λ, u′〉 = 〈λ, u+ u′〉 ≤ p(u+ u′) ≤ p(u− y) + p(u′ + y) , u ∈ U .

Damit ist der Satz für den Spezialfall bewiesen.Zum Beweis des allgemeinen Falles verwenden wir das Zornsche Lemma. Wir definieren dazu dieMenge der möglichen Fortsetzungen

M := (V, ρ)|V linearer Teilraum mit U ⊂ V ⊂ X, ρ ∈ V ′, ρ|V = µ, 〈ρ, v〉 ≤ p(v), v ∈ V

M versehen wir mit der Halbordnung , definiert durch

(V1, ρ1) (V2, ρ2) : ⇐⇒ V1 ⊂ V2, ρ2|V1= ρ1

13

Page 24: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Es ist (U, µ) ∈ M, also M 6= ∅. Sei nun N eine vollständig geordnete Teilmenge von M . Danndefinieren wir (V∗, ρ∗) durch

V∗ := ∪(V,ρ)∈NV , ρ : V∗ −→ R, ρ∗(x) := 〈ρ, x〉 falls x ∈ V, (V, ρ) ∈ N .

Aus der Definition von N folgt nun sehr schnell, dass der Wert ρ∗(x) nicht von der Wahl von (V, ρ)abhängt, dass V∗ ein linearer Teilraum und ρ∗ linear ist. Also ist (V∗, ρ∗) eine obere Schranke vonN in M . Nach dem Zornschen Lemma hat M ein maximales Element (W,λ) . Es muss W = Xgelten, da wir andernfalls nach dem schon bewiesenen Spezialfall ein (V, ρ) ∈ M konstruierenkönnten mit V = span(W ∪ y), y ∈ X\W, im Widerspruch zur Maximalität von (W,λ).

Das in Satz 1.37 konstruierte Funktional λ heißt Fortsetzung von µ . Wichtig ist dabei, dass λdie mit p beschriebenen oberen Schranken, die ursprünglich nur für µ gegeben ist, auch erfüllt.

Satz 1.38 (1. Trennungssatz) Sei X ein Vektorraum, sei A ⊂ X konvex, es gelte aint(A) 6= ∅und sei y ∈ X\aint(A) . Dann gibt es λ ∈ X ′\θ mit

〈λ, x〉 ≤ 〈λ, y〉 für alle x ∈ A , 〈λ, x〉 < 〈λ, y〉 für alle x ∈ aint(A) .

Beweis:Sei o. E. θ ∈ aint(A) (Kann durch Verschieben von A und y erreicht werden). Auf dem eindi-mensionalen linearen Teilraum U := span(y) definieren wir µ durch µ(αy) := α, α ∈ R . Dannist µ(y) = 1 ≤ pA(y) nach Satz 1.34. Nach Satz 1.37 können wir µ zu einem λ ∈ X ′ fortsetzenmit 〈λ, x〉 ≤ pA(x), x ∈ X . Ferner 〈λ, x〉 < 1 für x ∈ aint(A) und pA(x) ≤ 1 für x ∈ A .

Bemerkung 1.39 Man sagt, dass zwei Mengen A,B strikt durch die Hyperebene H getrenntwerden, wenn A ⊂ H− und B ⊂ H+\H gilt.

Satz 1.40 (2. Trennungssatz) Sei X ein Vektorraum, seien A,B ⊂ X konvex und nichtleer.Es gelte aint(A) 6= ∅, aint(A) ∩B = ∅ . Dann gibt es λ ∈ X ′ und α ∈ R mit

〈λ, u〉 ≤ α ≤ 〈λ, v〉 für alle u ∈ A, v ∈ B , 〈λ, u〉 < α für alle u ∈ aint(A) .

Insbesondere ist λ 6= θ .

Beweis:Setze K := aint(A)−B = x = u− v|u ∈ aint(A), v ∈ B . Dann ist K nichtleer und konvex, daaint(A) und B konvex sind. Ferner ist θ /∈ K wegen aint(A)∩B = ∅ . Da aint(A)− v ⊂ aint(K)ist für alle v ∈ B, ist aint(K) nichtleer. Nach Satz 1.38 gibt es λ ∈ X ′\θ mit 〈λ, x〉 < 〈λ, θ〉 = 0für alle x ∈ K = aint(K) . Es folgt

〈λ, u〉 − 〈λ, v〉 = 〈λ, u− v〉 < 0 für alle u ∈ aint(A), v ∈ B .

Wir setzen α := supu∈aint(A)〈λ, u〉 . Es folgt B ⊂ H+(λ, α) und aint(A) ⊂ aint(H−(λ, α)) =H−(λ, α)\H(λ, α) . Daraus folgt A ⊂ H−(λ, α) .

Bemerkung 1.41 Der Satz 1.40 bleibt gültig für einen Vektorraum X mit dimX < ∞ auchohne die Voraussetzung an das algebraische Innere: man hat nur zu fordern: A,B ⊂ X konvexund nichtleer, A ∩ B = ∅ . Wir könnten dieses Resultat aus den obigen Ergebnissen entwickeln,wir verzichten aber darauf, denn im nächsten Kapitel fällt der Beweis unter Einbeziehung dereuklidischen Struktur des Rn sehr viel leichter. Beachte, dass jeder Vektorraum X mit dimX = nin diesem Zusammenhang als Rn angesehen werden kann.

14

Page 25: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beispiel 1.42 Sei

X := c0 := (xn)n∈N|xn ∈ R für alle n ∈ N, xn = 0 für fast alle n ∈ N ,

A := (xn)n∈N ∈ X| ist xj 6= 0, xk = 0 für alle k > j, dann ist xj > 0 .

Offensichtlich ist X ein Vektorraum über R, A konvex, θ /∈ A, d. h. A∩θ = ∅ und θ konvex.Aber A und B := θ können nicht getrennt werden. Dies ist eine Konsequenz der fehlendenVoraussetzung für die Anwendung von Satz 1.40: es fehlt aint(A) 6= ∅ .

Satz 1.43 (3. Trennungssatz) Sei X ein Vektorraum, seien A,B ⊂ X konvex und nichtleer.Dann sind äquivalent:

(a) Es gibt λ ∈ X ′\θ mit infu∈A〈λ, u〉 > supv∈B〈λ, v〉 .

(b) Es gibt eine konvexe, absorbierende Menge W ⊂ X mit A ∩ (B +W ) = ∅ .

Beweis:Zu (a) =⇒ (b) Setze r := infu∈A〈λ, u〉−supv∈B〈λ, v〉 ; beachte dabei, dass A 3 u 7−→ 〈λ, u〉 ∈ Rnach unten und B 3 v 7−→ 〈λ, v〉 ∈ R nach oben beschränkt ist. Setze W := x ∈ X|〈λ, x〉 < r .W ist offenbar konvex. W ist auch absorbierend, da r > 0 und daher θ ∈ aint(W ) . Ferner giltA ∩ (B +W ) = ∅ , denn für u ∈ A ∩ (B +W ), u = v + w, v ∈ B,w ∈W folgt aus

r > 〈λ,w〉 = 〈λ, u− v〉 = 〈λ, u〉 − 〈λ, v〉 ≥ infu∈A

〈λ, u〉 − supv∈B

〈λ, v〉 = r

ein Widerspruch.Zu (b) =⇒ (a) Es ist θ /∈ B +W − A und aint(B +W − A) 6= ∅, denn aint(W ) 6= ∅ undaint(W ) + v − u ⊂ aint(B + W − A) für alle u ∈ A, v ∈ B . Also gibt es nach Satz 1.38λ ∈ X ′\θ mit

〈λ, θ〉 = 0 ≥ supz∈B+W−A

〈λ, z〉 d. h. infu∈A

〈λ, u〉 ≥ supv∈B

〈λ, v〉+ supw∈W

〈λ,w〉 .

Da W absorbierend ist, gibt es w ∈ W mit 〈λ,w〉 > 0 . Dies folgt so: Es gibt z ∈ X mit〈λ, z〉 6= 0 . Da θ ∈ aint(W ) ist, gibt es α > 0, β > 0 mit w1 := αz ∈W,w2 := β(−z) ∈W . Danngilt 〈λ,w1〉 > 0 oder 〈λ,w2〉 > 0 . Damit gilt nun supw∈W 〈λ,w〉 > 0 und (a) ist gezeigt.

Das obige Resultat kann natürlich in eine Trennung mit Hyperebenen umformuliert werden,denn (a) kann man so aufschreiben: Es gibt λ ∈ X ′\θ, α ∈ R mit

A ⊂ H+(λ, α)\H(λ, α) , B ⊂ H−(λ, α)\H(λ, α) .

1.9 Übungen

1.) Seien X,Y Vektorräume, T : X −→ Y linear. Zeige: Ist B ⊂ Y affin, so ist−1T (B) affin .

2.) Sei X ein Vektorraum und sei A ⊂ X eine affine, nichtleere Menge. Zeige: U := A − Aist ein linearer Teilraum von X .

3.) Sei A ⊂ Rn affin und sei dimA = d . Zeige: Es gibt eine Matrix Q ∈ Rm,n und y ∈ Rm

mit A = x ∈ Rn|Qx = y, wobei m = n− d ist.

4.) SeiX ein Vektorraum und seien x0, . . . , xn ∈ X affin unabhängig, d. h. dim aff(x0, . . . , xn) =n . Zeige: x1 − x0, . . . , xn − x0 sind linear unabhängig.

15

Page 26: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

5.) Sei X ein Vektorraum und sei A eine endliche Menge. Zeige: dim(cone(A)) ≤ #A . (Mit#A wird die Anzahl der Elemente von A bezeichnet.)

6.) Sei X ein Vektorraum und sei T : X −→ Y linear. Zeige: Ist A ein (konvexer) Kegel, soauch T (A) .

7.) Seien

A := (x = (x1, x2, x3) ∈ R3|x1 + 2x2 = 2B := (x = (x1, x2, x3) ∈ R3|3x1 − x2 + 3x3 = −3

Zeige: A,B sind affine Teilmengen in R3 . Berechne dim(A ∩B) .

8.) Seien X,Y Vektorräume. Eine Abbildung S : X −→ Y heißt affin, wenn gilt:

S(tx+ (1− t)x′) = tS(x) + (1− t)S(x′) für alle x, x′ ∈ X, t ∈ R .

Zeige, dass eine Abbildung S : X −→ Y affin genau dann ist, wenn es eine lineareAbbildung T : X −→ Y und ein u ∈ Y gibt mit S(x) = T (x) + u für alle x ∈ X .Hinweis: S − S(θ) ist eine lineare Abbildung.

9.) Sei A ⊂ R2 definiert durch

A = ∪t∈(0,2π]co(0, x)|x = (2π)−1t(cos(t), sin(t))

Skizziere A und zeige: A ist abgeschlossen und absorbierend.

10.) Betrachte in R2 die Teilmenge A := (x, y) ∈ R2|x, y ∈ Z, y ≥√2x . Berechne co(A) .

11.) Sei X ein Vektorraum und sei A ⊂ X . Wir sagen, dass x ∈ X ein algebraischerAbschlusspunkt ist, falls es x′ ∈ A gibt mit ]x, x′] für ein x′ ∈ A ; wir schreiben dannx ∈ aclo(A) . Gilt aclo(co(A)) = aclo(A)?

12.) Sei A ⊂ Rn konvex. Zeige (siehe vorhergehende Aufgabe): aclo(A) = A, wobei A dertopologische Abschluss von A ist.

13.) Sei X ein Vektorraum und C ⊂ X ein Kegel. Dann ist C konvex genau dann, wennC + C ⊂ C .

14.) Betrachte in X := C1[0, 1] := x : [0, 1] −→ R|x stetig differenzierbar die Mengen

C := x ∈ X|x(t) ≥ 0, t ∈ [0, 1] , D := x ∈ X|x′(t) ≥ 0, t ∈ [0, 1] .

Zeige: C,D sind konvexe Kegel. Ist C bzw. D spitz?

15.) Betrachte in X := (xn)n∈N|xn ∈ R, n ∈ N die Teilmengen

X+ := (xn)n∈N|xn ≥ 0, n ∈ N , X++ := (xn)n∈N|xn > 0, n ∈ N

Zeige:

(a) X+ ist ein spitzer Kegel.(b) span(X++ − 1) = X, wobei 1 die Folge ist, deren Glieder konstant gleich 1 sind.(c) aff(X++) = X .

(d) aint(X++) = ∅ .

16.) Sei X ein Vektorraum mit Dualraum X ′ und sei C eine nichtlineare Teilmenge von X .Zeige:

C∗ := λ ∈ X ′|〈λ, x〉 ≥ 0 für alle x ∈ C

ist ein konvexer Kegel.

16

Page 27: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

17.) Betrachte die Abbildung (Perspektiv-Funktion) D 3 (x, q) 7−→ 1qx ∈ Rn, wobei D :=

Rn × (0,∞) ⊂ Rn+1 ist. Zeige:

(a) D ist konvexe Teilmenge von Rn+1 .

(b) P bildet Segmente ([(x, p), (y, q)] ⊂ D !) auf Segmente in Rn ab.

18.) Sei X ein Vektorraum und sei A ⊂ X . Ist A absorbierend, dann ist auch co(A) absor-bierend.

19.) Sei Aε := [−ε, ε] × Rn−1 ⊂ Rn, ε > 0 . Zeige, Aε ist konvex und absorbierend, undberechne das Minkowski-Funktional pAε(x) für jedes x ∈ Rn .

20.) Sei X ein Vektorraum und seien A1, . . . , Ak konvexe absorbierende Teilmengen von X .Zeige: ∩k

i=1Ai ist absorbierend.Gilt das Resultat auch, wenn man die Eigenschaft „konvex“ weglässt?

21.) Sei X ein Vektorraum und sei A ⊂ X . A heißt offen absorbierend, wenn für alle x ∈ XT (x) := t > 0|tx ∈ A nichtleer und offen in (0,∞) ist.Zeige: A ist offen absorbierend genau dann, wenn mit dem Minkowski-Funktional pA vonA gilt: A = x ∈ X|pA(x) < 1 .

22.) Sei X ein Vektorraum und sei A ⊂ X . Ist A offen absorbierend (siehe vorhergehendeAufgabe), so ist auch co(A) offen absorbierend.

23.) Sei X ein Vektorraum und seien Ai ⊂ X, i ∈ I, offen absorbierend (siehe vorhergehendeAufgaben), so ist auch ∪i∈IAi offen absorbierend.

24.) Sei X ein unendlichdimensionaler Vektorraum. Zeige: X ′ ist unendlichdimensionaler Vek-torraum.

25.) Sei X := R[t] der Vektorraum der Polynome in einer Variablen t und sei A die Teilmengealler Polynome mit strikt positivem Leitkoeeffizient. Zeige: Die Teilmenge A ist konvexund aint(A) 6= A . Gibt es eine Hyperebene H, die das Nullpolynom θ strikt von A trennt?

1.10 Bibliographische und historische Anmerkungen

Der Stoff, der in diesem Kapitel behandelt wurde, ist vollständig fast in jedem Buch über lineareFunktionalanalysis zu finden. Als Referenz seien daher nur [2, 3, 4, 5] angeführt. Ihren vollen Wertentfalten die Ergebnisse im nächsten Kapitel, wenn wir die Topologie hinzunehmen. AllgemeinePrinzipien der Hüllenbildung sind dargestellt in [1].

17

Page 28: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Literaturverzeichnis

[1] J.J.M. Evers and H. van Maaren. Duality principles in mathematics and their relations toconjugate functions. Nieuw Archief voor Wiskunde, 3:23–68, 1985.

[2] R. Holmes. Geometric functional analysis and its applications. Springer, 1975.

[3] J.T. Marti. Konvexe Analysis. Birhäuser, Basel, 1977.

[4] D. Werner. Funktionalanalysis. Springer, 2002.

[5] J. Werner. Optimization Theory and Applications. Vieweg, 1984.

18

Page 29: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Kapitel 2

Topologische Trennung

Give me a support point and I will move the world

Archimedes

Wir wollen uns nun mit konvexen Mengen in normierten Räumen beschäftigen. Damit unter-scheidet sich die Situation von der im ersten Kapitel dadurch, dass wir nun topologische Eigen-schaften in unsere Betrachtungen miteinbeziehen. Die Grundkenntnisse über normierte Räume(Normen, Topologie, Stetigkeit) setzen wir voraus. Wir vervollständigen die Trennungsproble-matik durch topologische Trennungssätze in lokalkonvexen Räumen. Damit lässt sich auch dasKonzept der schwachen Topologien einführen.

2.1 Lokalkonvexe Räume

Wir wissen, dass in einem endlichdimensionalen normiertem Raum X alle linearen Funktionaleschon auch stetige lineare Funktionale sind, d. h. X ′ = X∗ . Im Unendlichdimensionalen ist derSachverhalt drastisch davon verschieden, X ′ ist „größer“ als X∗ und X ′ ist schwerer zu beschrei-ben als X∗ . In unendlichdimensionalen Räumen wollen wir uns daher bei Trennungssätzen auftrennende stetige lineare Funktionale stützen. Der Begriff des lokalkonvexen Raumes liefert denangemessenen Rahmen für solche Trennungssätze.

Zunächst eine Vorbemerkung zu topologischen Räumen. Sei M eine Menge. Bekanntlich isteine Topologie auf M eine Teilmenge T von M, die folgende Bedingungen erfüllt: M, ∅ ∈ T , istA,B ∈ T , so ist auch A ∩ B ∈ T , ist Ai ∈ T , i ∈ I, so ist auch ∪i∈I ∈ T . Die Elemente in Theißen offene Mengen, ihre Komplemente abgeschlossene Mengen.

Für eine Menge A ⊂M setzen wir

int(A) := ∪O|O offen, O ⊂ AA := ∩B|B abgeschlossen, A ⊂ B∂A := A\int(A)

int(A) heißt das (topologisch) Innere von A, A der Abschluss von A, ∂A der Rand von A .Jedes x ∈ int(A) heißt innerer Punkt von A, jedes x ∈ A heißt Berührungspunkt von A .Aus den Eigenschaften der Topologie ergibt sich, dass int(A) offen und A abgeschlossen ist. Alsoist A ⊂ M offen genau dann, wenn int(A) = A und A abgeschlossen genau dann, wenn A = Agilt.

Eine Menge U ⊂ M ist eine Umgebung von x ∈ M, falls es eine offene Menge O gibtmit x ∈ O ⊂ A . Alle Umgebungen eines Punktes x fassen wir zusammen im so genannten

19

Page 30: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Umgebungsfilter U(x) . Damit können wir die Menge der Berührungspunkt A von A auch soaufschreiben:

A = A := x ∈M |U ∩A 6= ∅ for all U ∈ U(x) . (2.1)

Dies folgt so:Sei x ∈ A . Sei U ∈ U(x) ; o. E. U offen. Annahme U ∩ A = ∅ . Dann ist A ⊂ B := M\U und Bist abgeschlossen. Also gilt x ∈ A ⊂ B, was ein Widerspruch ist. Also ist x ∈ A .Sei x ∈ A . Annahme x /∈ A, . Dann gibt es B ⊂ M, B abgeschlossen, mit x /∈ B . Dann istx ∈ U := M\B und U ∈ U(x) . Also gilt dann U ∩ A 6= ∅, was wegen M\B ⊂ M\A nichtmöglich ist. Also gilt x ∈ A .

Definition 2.1 Seien (M, T ), (M ′, T ′) topologische Räume und sei f :M −→ M ′ .f heißt stetig in x0 ∈ M genau dann, wenn für alle Umgebungen V von f(x0) eine UmgebungU von x0 existiert mit f(U) ⊂ V .f heißt stetig, wenn f stetig ist in jedem x0 ∈M .

Man kann sehr leicht zeigen, dass f : M −→ M ′ in der Situation von Definition 2.1 stetig istgenau dann, wenn das Urbild einer jeden offenen Teilmenge von M ′ eine offene Teilmenge vonM ist.

Das Zusammenspiel von stetigen Abbildungen mit der Kompaktheit von Mengen ist ziemlichwesentlich. Dazu die Umgebungsdefinition der Kompaktheit.

Definition 2.2 Sei (M, T ) ein topologischer Raum und sei A ⊂ M . A heißt kompakt genaudann, wenn aus jeder offenen Überdeckung A ⊂ ∪i∈IOi, also Oi offen für alle i ∈ I, eine endlichegemacht werden kann, d. h. dass es i1, . . . , ik ∈ I gibt mit A ⊂ Oi1 ∪ · · · ∪Oik .

Nun wollen wir Topologien auf Vektorräumen betrachten und gehen einen Schritt weiter,indem wir die Topologie in einer speziellen Ausprägung annehmen; später lockern wir dies wiederetwas.

Sei X ein Vektorraum mit Skalarkörper R . Eine Abbildung ‖·‖ : X −→ R heißt eine Norm,falls folgende drei Eigenschaften erfüllt sind:

Definitheit ‖x‖ = 0 genau dann, wenn x = θ .

Homogenität ‖ax‖ = |a|‖x‖ für alle x ∈ X, a ∈ R .

Dreiecksungleichung ‖x+ x′‖ ≤ ‖x‖+ ‖x′‖ für alle x, x′ ∈ X .

Ein Vektorraum X, auf dem eine Norm definiert ist, nennen wir einen normierten Raum undschreiben kurz (X, ‖ · ‖) . Beachte, dass wir immer darauf achten müssen, welche Norm geradebetrachtet wird, denn auf einem Vektorraum kann es „viele“ verschiedene Normen geben.Bezeichnungen:

Br(x) := z ∈ X|‖x− z‖ < r , Br := Br(θ) .

Br(x) := z ∈ X|‖x− z‖ ≤ r , Br := Br(θ) .

Halten wir schon fest: Br(x), Br, Br(x), Br sind konvexe Mengen; man nutze die Homogenitätund Dreiecksungleichung für den Beweis.

Ein normierter Raum X ist mit einer Topologie versehen, die von der Norm erzeugt ist. Dazuerklären wir die offenen Teilmengen von X wie folgt:

A ⊂ X ist offen genau dann, wenn es für jedes x ∈ A ein r > 0 gibt mit Br(x) ⊂ A .

20

Page 31: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Wir haben bei dieser Definition also die „Kugeln“ Br(x), r > 0, als „Basis“ für die Umgebungeneines Punktes x eingeführt. Dazu sollten wir wissen, dass diese Kugeln offen sind. Dies folgtmit der Dreiecksungleichung ganz leicht. Damit werden Br(x), Br zurecht als offene Kugelnbezeichnet. Wiederum mit der Dreiecksungleichung folgt, dass die Kugeln Br(x) abgeschlossensind und sie daher zurecht als abgeschlossene Kugeln bezeichnet werden. Man rechnet nun leichtnach, dass das System der so definierten offenen Mengen in der Tat eine zum normierten Raumassoziierte Topologie T = T‖·‖ auf X ist. Die Umgebungen in einem normierten Raum X ineinem x0 ∈ X sind also die Obermengen der offenen Kugeln Br(x

0), r > 0 .Wir schreiben die Stetigkeit von Abbildungen zwischen normierten Räumen etwas angepasst

erneut auf und sehen dabei die übliche ε− δ-Definition.

Definition 2.3 Seien (X, ‖·‖), (Y, ‖·‖) normierte Räume und sei f : X −→ Y eine Abbildung.f heißt stetig in x0 ∈ X, falls gilt:

∀ ε > 0∃ δ > 0 (x ∈ Bδ(x0) =⇒ f(x) ∈ Bε(f(x

0))

f heißt stetig, falls f stetig ist in jedem x0 ∈ X .

Beachte, dass wir für die Normen im Allgemeinen keine unterschiedliche Bezeichnung verwenden.

In normierten Räumen ist der Abschluss einer Menge und die Kompaktheit einfacher zuhandhaben. Ohne Beweis geben wir an:

Satz 2.4 Sei (X, ‖ · ‖) ein normierter Raum und sei A ⊂ X . Dann gilt:

(a) A ist abgeschlossen genau dann, wenn für jede Folge (xn)n∈N mit xn ∈ A,n ∈ N, undGrenzwert x gilt: x ∈ A .

(b) A ist kompakt genau dann, wenn jede Folge (xn)n∈N mit xn ∈ A,n ∈ N, eine konvergenteTeilfolge mit Grenzwert in A enthält.Insbesondere ist eine kompakte Menge stets abgeschlossen.

Die rellen Zahlen, die uns als Skalare in einem normierten Raum (X, ‖ · ‖) dienen, tragen dieBetragsfunktion | · | als Norm. Damit werden auch X × R und X ×X in offensichtlicher Weisezu normierten Räumen:

‖ · ‖ : R× R 3 (a, x) 7−→ ‖x‖+ |a| ∈ R‖ · ‖ : X ×X 3 (x, x′) 7−→ ‖x‖+ ‖x′‖ ∈ R

Nun können wir über die Stetigkeit der Addition und skalaren Multiplikation in X reden. Wirstellen unter Nutzung der Normeigenschaften fest, dass gilt:

(1) Die Addition + : X ×X −→ X und die skalare Multiplikation · : R×X −→ X ist stetig.

(2) Zu je zwei verschiedenen Punkten x, x′ in X gibt es disjunkte offene Mengen in X, die xbzw. x′ enthalten.

(3) Jede offene Umgebung von θ enthält eine konvexe offene Umgebung von θ .

Dies motiviert die folgende Definition.

21

Page 32: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Definition 2.5 Sei X ein Vektorraum über R versehen mit einer Topologie. Dann heißt X,versehen mit dieser Topologie ein lokalkonvexer Raum, wenn in X die obigen Aussagen (1)− (3)gelten.

Offenbar stellt jeder normierte Raum zusammen mit der assoziierten Topologie T‖·‖ einen lokal-konvexen Raum dar.

In einem lokalkonvexem Raum X nehmen die Umgebungen des Nullvektors θ auf Grund derVektorraumstruktur eine Sonderrolle ein: sie beschreiben in gewissem Sinne die Umgebungenaller Punkte in X . Dies sieht man so:Ist U ∈ U(θ), so ist x+U ∈ U(θ) für alle x ∈ X . Dies folgt aus der Tatsache, dass für x ∈ X dieAbbildung f : X 3 z 7−→ x+ z ∈ X stetig ist und daher alle Mengen x+U offen sind, wenn Uoffen ist. Beachte auch, dass wegen der Stetigkeit der Abbildungen g : X 3 z 7−→ tz ∈ X, t ∈ R,alle Mengen aU, a 6= 0, offen sind, falls U offen ist.

Wie wir aus der Eigenschaft (2) eines lokalkonvexen Raumes wissen, hat jedes x ∈ X offeneUmgebungen. Insbesondere gilt dies auch für x = θ . Die offenen Umgebungen von θ bezeichnenwir als Nullumgebungen. Dann lautet die Eigenschaft (3) so: Jede Nullumgebung hat eine kon-vexe Nullumgebung. Das folgende Lemma zeigt, dass die Existenz von konvexen Nullumgebungenin einem lokalkonvexen Raum etwas weiter gefasst werden kann. Dazu die folgende

Definition 2.6 Sei X ein lokalkonvexer Raum, A ⊂ X .

(a) Eine Menge A ⊂ X heißt kreisförmig, wenn für alle x ∈ A und alle t ∈ [−1, 1] gilt:tx ∈ A .

(b) Eine Menge A ⊂ X heißt absolut konvex, wenn für alle x, x′ ∈ A und alle t, t′ ∈ R mit|t|+ |t′| ≤ 1 gilt: tx+ t′x′ ∈ A .

Offenbar enthält eine absolutkonvexe Menge, die nichtleer ist, stets θ .

Lemma 2.7 Sei X ein lokalkonvexer Raum und A ⊂ X nichtleer. Dann ist A absolutkonvexgenau dann, wenn sie konvex und kreisförmig ist.

Beweis:Eine absolutkonvexe Menge ist offenbar konvex und kreisförmig. Sei nun A konvex und kreisför-mig. Seien x, x′ ∈ A und t, t′ ∈ R mit |t| + |t′| ≤ 1 . Zu zeigen: tx + t′x′ ∈ A . Für t = 0 odert′ = 0 ist dies klar. Anderenfalls schließen wir dies aus

tx+ t′x′ = (|t|+ |t′|)( |t||t|+ |t′|

t

|t|x+

|t′||t|+ |t′|

t′

|t′|x′

Satz 2.8 Sei X ein lokalkonvexer Raum. Dann gilt: Jede konvexe Nullumgebung enthält eineabsolutkonvexe Nullumgebung.

Beweis:Sei W eine konvexe Nullumgebung. Dann ist V := W ∩ (−W ) eine konvexe Nullumgebung. Sieist auch kreisförmig und damit nach Lemma 2.7 sogar absolutkonvex, wie folgende Überlegungzeigt.Wir wissen θ ∈ V . Sei v ∈ V, t ∈ [−1, 1] . Dann liest man aus

tv = tv + (1− t)θ ∈W , −tv = t(−v) = t(−v) + (1− t)θ ∈W, falls t ≥ 0 ,

tv = (−t)(−v) + (1− (−t))θ ∈W , −tv = (−t)v + (1− (−t))θ ∈W, falls t ≤ 0

ab.

22

Page 33: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 2.9 Sei X ein lokalkonvexer Raum und A ⊂ X konvex. Dann gilt: Ist x ∈ int(A)und x′ ∈ A, so ist [x, x′[⊂ int(A) .

Beweis:Sei u ∈ [x, x′[, also u = tx+ (1− t)x′ mit t ∈ (0, 1] . Sei V eine Nullumgebung mit x+ V ⊂ A .Dann gilt

u ∈ u+ tV = t(x+ V ) + (1− t)x′ ⊂ A

und wir stellen fest u ∈ int(A), da nun u+ tV offenbar eine Umgebung von u ist.

Satz 2.10 Sei X ein lokalkonvexer Raum und A ⊂ X konvex mit int(A) 6= ∅ . Dann gilt int(A) =aint(A) .

Beweis:Zu int(A) ⊂ aint(A) .Sei x ∈ int(A) und u ∈ X . Da t 7−→ x+tu stetig ist und int(A) offen ist, gilt [x, x+δu] ⊂ int(A),falls δ hinreichend klein ist.Zu aint(A) ⊂ int(A) .Sei x ∈ aint(A) . Wir wählen z ∈ int(A) und δ > 0 so, dass x′ := x− δ(z − x) ∈ A gilt. Dann istx ∈ [z, x′[ und damit x ∈ int(A) nach Folgerung 2.11.

Folgerung 2.11 Sei X ein lokalkonvexer Raum und U ⊂ X eine konvexe Nullumgebung. Dannist U absorbierend.

Beweis:Ist U konvexe Nullumgebung, dann ist θ ∈ int(U), also θ ∈ aint(U) . Damit ist A absorbierendnach Lemma 1.33.

Bemerkung 2.12 Satz 2.10 bleibt nicht gültig ohne die Voraussetzung int(A) 6= ∅ . Ein Beispieldazu ist das folgende:Wir wählen X := c00 := (xn)n∈N|xn ∈ R, n ∈ N, xn = 0 für fast alle n ∈ N, versehen mit derNorm ‖(xn)n∈N‖∞ := supn∈N |xn| . Wir setzen B := x ∈ X|x = ±k−1ek, k ∈ N, A := co(B),wobei ek := (xn)n∈N mit xn = δkn, k ∈ N . Offensichtlich ist A konvex.θ ∈ aint(A), denn: Sei x = (xn)n∈N ∈ X,x 6= θ . Dann hat x eine Darstellung x =

∑mi=1 xie

i undes folgt

x · (m∑j=1

j|xj |)−1 =m∑i=1

(m∑j=1

j|xj |)−1i|xi|)i−1sign(xi)ei ∈ co(B) = A .

θ /∈ int(A), denn: Annahme θ ∈ int(A), Dann existiert r > 0 mit B2r ⊂ A, insbesondererek ∈ Br ⊂ B2r ⊂ A für alle k ∈ N . Aber rek /∈ A, falls k > ε−1. Damit ist ein Widersprucherreicht.

Bei endlichdimensionalen normierten Räume (X, ‖ · ‖) können wir stets X = Rn annehmenund als Norm irgendeine Norm in Rn verwenden, denn alle Normen in Rn sind äquivalent: Zu jezwei Normen ‖ · ‖+, ‖ · ‖∗ gibt es Konstanten c1 > 0, c2 > 0, mit

c1‖x‖+ ≤ ‖x‖∗ ≤ c2‖x‖+ für alle x ∈ Rn (2.2)

Drei Kandidaten von Normen in Rn, die interessant beim „Rechnen“ sind, sind die l1-Norm, diel∞-Norm und die euklidische Norm l2 . Siehe hierzu etwa [2, 7]

23

Page 34: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 2.13 Ist X endlichdimensionaler normierter Raum und ist A ⊂ X konvex. Dann giltint(A) = aint(A) .

Beweis:Wir betrachten X = Rn versehen mit der l1-Norm; siehe oben. Wir haben zu zeigen aint(A) ⊂int(A) . Sei x ∈ aint(A) ; o. E. x = θ . Dann gibt es ε > 0 mit ±εek ∈ A, k = 1, . . . , n , wo-bei ek die üblichen Einheitsvektoren in Rn sind. Dann ist co(±εe1, . . . ,±εen) ⊂ A . Nun istco(±εe1, . . . ,±εen) aber offenbar die Kugel Bε bezüglich der l1-Norm. Daher Bε ⊂ A .

In einem lokalkonvexen Raum X können wir den stetigen Dualraum definieren:

X∗ := λ ∈ X ′|λ : X −→ R stetig

Das folgende Lemma ist hilfreich beim Nachweis, dass für ein λ ∈ X ′ sogar λ ∈ X∗ gilt.

Lemma 2.14 Sei X ein lokalkonvexer Raum, sei λ ∈ X ′, und sei O ⊂ X offen und nichtleer.Dann gilt λ ∈ X∗, falls 〈λ, x〉 ≥ 0 für alle x ∈ O .

Beweis:Wir betrachten Aα := x ∈ X|〈λ, x〉 > α, α ∈ R . Es ist aint(Aα) = Aα, da 〈λ, x + th〉 =〈λ, x〉 + t〈λ, h〉 > α für x ∈ Aα, falls h ∈ X und dazu t hinreichend klein ist. Aα ist offenbarkonvex und x + O ⊂ Aα, falls x ∈ Aα . Aus Satz 2.10 folgt int(Aα) = aint(Aα), d. h. Aα istoffen. Da −〈λ,−x〉 = 〈λ, x〉 ≥ 0 für alle x ∈ O ist, sind die Mengen x ∈ X|〈λ, x〉 < β = x ∈X|〈−λ, x〉 > −β, β ∈ R, ebenfalls offen. Also ist x ∈ O|〈λ, x〉 ∈ (α, β) offen für alle offenenIntervalle (α, β) ⊂ R . Damit ist λ stetig.

2.2 Trennungssätze in normierten Räumen

Hier sei X stets ein reeller Vektorraum, der mit einer Norm ‖ · ‖X : X −→ R versehenist. Die Ergebnisse über lokalkonvexe Räume bleiben anwendbar, da jeder normierte Raum einlokalkonvexer Raum ist. Bedeutend ist, dass der Dualraum X∗ nun selbst ein normierter Raumist vermöge der Norm

‖ · ‖ = ‖ · ‖X∗ : X∗ 3 λ 7−→ sup|〈λ, x〉||x ∈ B1 ;

der Beweis, dass eine Norm vorliegt ist trivial. Beachte die folgende Abschätzung, die unmittelbaraus der Definition der Norm in X∗ folgt und die immer wieder hilfreich ist:

〈λ, x〉 ≤ |〈λ, x〉| ≤ ‖λ‖‖x‖ , λ ∈ X∗, x ∈ X . (2.3)

Diese Abschätzung werden wir häufig verwenden werden.Hat man einen linearen Teilraum U von X, so ist U selbst ein normierter Raum und U ′ und

U∗ sind erklärt, insbesondere auch die Norm in U∗ .

Satz 2.15 Sei X ein normierter Raum, sei U ⊂ X ein linearer Teilraum und sei µ ∈ U∗ . Danngibt es λ ∈ X∗ mit λ|U = µ, ‖λ‖ = ‖µ‖ .

Beweis:Betrachte die sublineare Abbildung p : X 3 x 7−→ ‖µ‖‖x‖ ∈ R . Dann gilt

〈µ, u〉 ≤ ‖µ‖‖u‖ = p(u) , u ∈ U .

Nach Satz 1.37 gibt es λ ∈ X ′ mit

λ|U = µ, |〈λ, x〉| ≤ p(x) = ‖µ‖‖x‖ , x ∈ X .

Da p stetig ist in θ, ist λ stetig in θ und damit überall stetig. Ferner ist ‖λ‖ ≤ ‖µ‖ wegen|〈λ, x〉| ≤ ‖µ‖‖x‖, x ∈ X . Da λ eine Fortsetzung von µ ist, ist offenbar ‖λ‖ ≥ ‖µ‖ .

24

Page 35: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 2.16 Sei X ein normierter Raum, und sei x ∈ X\θ . Dann gibt es λ ∈ X∗ mit‖λ‖ = 1, 〈λ, x〉 = ‖x‖ .

Beweis:Sei U := span(x) und µ ∈ U ′ mit 〈µ, u〉 = a‖x‖, falls u = ax ∈ U . Offenbar µ ∈ U∗ und ‖µ‖ = 1 .Nach Satz 2.15 gibt es λ ∈ X∗ mit ‖λ‖ = 1 und 〈λ, x〉 = ‖x‖ .

Folgerung 2.17 Sei X ein normierter Raum und seien x, x′ ∈ X mit x 6= x′ . Dann gibt esλ ∈ X∗ mit 〈λ, x〉 6= 〈λ, x′〉 .

Beweis:Sei z := x− x′ . Nach Folgerung 2.16 gibt es λ ∈ X∗ mit

〈λ, x〉 − 〈λ, x′〉 = 〈λ, z〉 = ‖z‖ > 0 .

Folgerung 2.18 Sei X ein normierter Raum, X 6= θ . Dann ist auch X∗ 6= θ .

Beweis:Es gibt ein x 6= x′ := θ . Aus Folgerung 2.17 ergibt sich die Existenz von λ ∈ X∗\θ .

Folgerung 2.19 Sei X ein normierter Raum. Dann gilt:

‖x‖ = sup|〈λ, x〉||λ ∈ X∗, ‖λ‖ ≤ 1 , x ∈ X .

Beweis:Sei x ∈ X . Für x = θ ist die Behauptung trivial. Sei x 6= θ. Setze ‖x‖+ = sup|〈λ, x〉||λ ∈X∗, ‖λ‖ ≤ 1 . Offenbar ‖x‖+ ≤ ‖x‖ . Wähle nach Folgerung 2.16 λ ∈ X∗ mit ‖λ‖ = 1, 〈λ, x〉 =‖x‖ . Dann ist ‖x‖+ ≥ |〈λ, x〉| = ‖x‖ .

Kommen wir nun zu Trennungssätzen in normierten Räumen. Sie sind die Interpretation derFortsetzungssätze in geometrische Form. Als Vorbereitung:

Lemma 2.20 Sei X ein normierter Raum und sei A ⊂ X konvex. Dann gilt:

(a) A ist konvex.

(b) Ist x ∈ int(A) und x′ ∈ A, so gilt: [x, x′[⊂ int(A) .

(c) int(A) ist konvex.

Beweis:Zu (a) Seien x, x′ ∈ A, z := tx+ (1− t)x′, ε > 0 . Dann gibt es u ∈ A ∩ Bε(x), u

′ ∈ A ∩ Bε(x′) .

Da A konvex ist, ist tu+ (1− t)u′ ∈ A . Ferner

tu+ (1− t)u′ − z = t(u− x) + (1− t)(u′ − x′) ∈ Btε +B(1−t)ε = Bε .

Also tu+ (1− t)u′ ∈ A ∩Bε(z) .Zu (b) Sei z = tx + (1 − t)x′ ∈ [x, x′[ ; also t ∈ (0, 1] . Wähle r > 0 mit B2rt−1(x) ⊂ A, wasmöglich ist, da x ∈ int(A) ist. Sei ε := r. Wir zeigen Bε(z) ⊂ A .Sei z′ ∈ Bε(z) . Wähle u ∈ Br(x

′)∩A, was möglich ist, da x′ ∈ A ist. Setze v := t−1(z′−(1−t)u) .Dann gilt

‖v−x‖ = ‖t−1(z′−z)+t−1(1−t)(x′−u)‖ ≤ t−1‖z′−z‖+t−1‖x′−u‖ ≤ t−1r(1+(1−t)) < t−12r ,

also v ∈ B2rt−1(x), d. h. v ∈ A . Da z′ = tv + (1− t)u ist, folgt z′ ∈ A .Zu (c) Wende (b) an.

Wir verwenden die Bezeichnungen zu Hyperebenen und Halbräumen wie in Abschnitt 1.5.Bei den Resultaten beschränken wir uns darauf, sie in normierten Räumen zu formulieren.

25

Page 36: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 2.21 (Eidelheit,1936) Sei X ein normierter Raum und seien A,B ⊂ X konvex. Es gelte:

A,B 6= ∅, int(A) 6= ∅, int(A) ∩B = ∅ (2.4)

Dann gibt es λ ∈ X∗\θ, α ∈ R mit

(a) 〈λ, x〉 ≤ α ≤ 〈λ, y〉 für alle x ∈ A, y ∈ B .

(b) 〈λ, z〉 < α für alle z ∈ int(A) .

Beweis:Die Existenz von λ ∈ X ′ mit den verlangten Eigenschaften folgt aus Satz 1.40, da aint(A) =int(A) nach Satz 2.10. Allerdings müssen wir noch nachbessern, was den Abschluss von A,Bbetrifft. Die Stetigkeit von λ folgt durch Anwendung von Lemma 2.14 so. O′ := int(A) ist offenund nichtleer. Wähle u ∈ H(λ, α) und setze O := −O′+u . Dann rechnet man 〈λ, v〉 ≥ 0 für allev ∈ O nach; beachte O ist offen.

Nun kann man wegen der Abgeschlossenheit der Halbräume die Trennungseigenschaft auf denAbschluss von A,B ausdehnen.

Folgerung 2.22 Sei X ein normierter Raum, sei A ⊂ X konvex, nichtleer und abgeschlossen,und sei u ∈ X\A . Dann gibt es λ ∈ X∗\θ, α ∈ R mit

〈λ, x〉 ≤ α < 〈λ, u〉 für alle x ∈ A

Beweis:Da X\A offen ist, gibt es eine konvexe Nullumgebung V mit A ∩ (u + V ) = ∅. Nach Satz 2.21gibt es ein λ ∈ X∗, α ∈ R, mit

〈λ, x〉 ≤ α < 〈λ, z〉 für alle x ∈ A, z ∈ u+ V , also auch α < 〈λ, u〉 .

Worin ist der Unterschied zwischen reellen und komplexen Räumen in diesem Zusammenhangbegründet? Es liegt an Trennungseigenschaften: in einem reellen Kontext hat man eine Anord-nung für die Werte von linearen Funktionalen, in komplexen Räumen nicht. Die Formulierungvon Trennungssätzen ist eine andere, die die Anwendung schwieriger macht.

Ordnen wir die Trennungsresultate etwas:

Definition 2.23 Seie X ein normierter Raum und seien A,B ⊂ X konvex und nichtleer. SeiH = H(λ, α), λ ∈ X∗, α ∈ R, eine Hyperebene. Wir sagen:

(a) H trennt A,B, wenn A ⊂ H+(λ, α) und B ⊂ H−(λ, α) .

(b) H trennt A,B eigentlich, wenn H die Mengen A und B trennt und es u ∈ A, v ∈ B gibtmit 〈λ, u〉 < 〈λ, v〉 .

(c) H trennt A,B strikt, wenn A ⊂ int(H+(λ, α)) und B ⊂ int(H−(λ, α)) .

(d) H trennt A,B stark, wenn supu∈A〈λ, u〉 < α < infv∈B〈λ, v〉 .

Die Grundaussagen zu diesen Trennungseigenschaften sind in den obigen Resultaten enthalten.Es gibt Beispiele, die die Unterschiede der Trennungseigenschaften belegen.

26

Page 37: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Lemma 2.24 Sei X ein normierter Raum und seien A,B ⊂ X konvex und nichtleer. Dann sindäquivalent:

(a) A,B können stark getrennt werden.

(b) θ /∈ A−B .

Beweis:(a) =⇒ (b) Einfach einzusehen.(b) =⇒ (a) Trenne θ und A−B; siehe Folgerung 2.22.

Satz 2.25 Seien A,B ⊂ Rn konvex und nichtleer. Dann sind äquivalent:

(a) A,B können eigentlich getrennt werden.

(b) rint(A) ∩ rint(B) = ∅ .

Beweis:(a) =⇒ (b)(b) =⇒ (a)

Bisher haben wir konvexe Mengen als Vereinigung von Punkten betrachtet. Nun können wirdie Tatsache belegen, dass sich konvexe Mengen auch als Durchschnitt von Halbräumen betrach-ten lassen.

Folgerung 2.26 Sei X ein normierter Raum und sei A ⊂ X nichtleer, konvex, abgeschlossenund A 6= X . Dann gibt es Familien (λi)i∈I , (αi)i∈I in X∗ bzw. R mit

A =⋂i∈I

H−(λi, αi)

Beweis:Zu jedem x /∈ A gibt es nach Folgerung 2.22 eine Hyperebene H(λx, αx) mit A ⊂ H−(λx, αx)und x ∈ H+(λx, αx)\H(λx, αx) . Offenbar gilt nun A = ∩x/∈AH+(λx, αx) .

2.3 Stützpunkte

Definition 2.27 Sei X ein normierter Raum und sei A ⊂ X .

(a) Eine Hyperebene H = H(λ, α), λ ∈ X∗, α ∈ R, heißt Stützhyperebene von A, falls gilt:

A ∩H(λ, α) 6= ∅ , A ⊂ H+(λ, α) oder A ⊂ H−(λ, α) .

Das Funktional λ heißt Stützfunktional von A .

(b) Ein Punkt x ∈ A heißt Stützpunkt von A, falls es eine Stützhyperebene H von A gibt mitx ∈ A ∩H .

Der Begriff der „Stützhyperebene“ ist zunächst unabhängig von topologischen Gegebenheiten.Er lässt sich daher auch schon mit algebraischen Mitteln diskutieren. Wir beziehen die Topologiealso nun vorneherein mit ein.

Satz 2.28 Sei X ein normierter Raum und sei A ⊂ X konvex, abgeschlossen und nichtleer. Esgelte: int(A) 6= ∅ oder dim(X) <∞ . Dann ist jedes x ∈ A\int(A) ein Stützpunkt von A .

27

Page 38: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:1. Fall: int(A) 6= ∅A\int(A) ist nichtleer, da A abgeschlossen ist. Sei x ∈ A\int(A), B := x . Nach Satz 2.21 gibtes λ ∈ X∗\θ, α ∈ R, mit A ⊂ H−(λ, α), x ⊂ H+(λ, α) . Also A ⊂ H−(λ, α), x ∈ A∩H(λ, α) .2. Fall dim(X) <∞ .Ist int(A) 6= ∅, ist die Behauptung schon bewiesen. Sei int(A) = ∅ . Dann gilt aff(A) ⊂ X, aff(A) 6=X , da sonst nach Satz 2.13 und 1.28 gilt:

int(A) = rint(A) = aint(A) 6= ∅

Sei x ∈ X\aff(A) . Dann gibt es eine bezüglich der Inklusion maximale affine Menge H mitaff(A) ⊂ H und x /∈ H . Diese Menge H muss eine Hyperebene sein. Dann gilt A ⊂ aff(A) ⊂H,A ∩H = A = A\int(A) .

Bei den nachfolgenden Ergebnissen spielt mitunter die Vollständigkeit eines normierten Raum-es eine Rolle. Dazu

Definition 2.29 Sei X ein normierter Raum.

(a) Eine Folge (xn)n∈N heißt Cauchyfolge, wenn gilt:

∀ ε > 0 ∃N ∈ N ∀n,m ≥ N (‖xn − xm‖ < ε)

(b) X heißt vollständig oder ein Banachraum, wenn jede Cauchyfolge in X einen Grenzwertin X besitzt.

Beispiele von Banachräumen sind:Rn in jeder Norm, der Folgenraum l∞, versehen mit der Supremumsnorm, der Raum der Null-folgen c0 als abgeschlossener Teilraum von l∞, C[a, b], versehen mit der Supremumsnorm, jederDualraum X∗ eines normierten Raumes. Kein Banachraum ist C[a, b], wenn wir die Integralnormnutzen wollen.

Das Hauptergebnis über Stützpunkte ist der Satz von Bishop-Phelps, der im Anhang 2.9bewiesen wird.

Satz 2.30 (Bishop-Phelps,1961) Sei X ein Banachraum und sei A ⊂ X konvex, abgeschlos-sen und nichtleer. Dann ist die Menge der Stützpunkte von A dicht im Rand von A .

Dabei ist der Begriff der Dichtheit in einem normiertem Raum folgendermaßen definiert:

Definition 2.31 Sei X ein normierter Raum und sei B ⊂ X . Eine Menge A ⊂ X heißt dichtin B, falls B ⊂ A gilt.

2.4 Schwache Topologie

In einem normiertem Raum X – übrigens auch in einem lokalkonvexem Raum – können wirneben der gegebenen Topologie eine weitere mit Hilfe des Dualraums X∗ einführen. Im Mittel-punkt steht die Frage, ob es eine gröbere lokalkonvexe Topologie auf X gibt, bezüglich der alleFunktionale in X∗ auch stetig sind. Dies hätte den Vorteil, dass möglicherweise dann bezüg-lich dieser Topologie mehr kompakte Mengen existieren. Dies wird sich in der Tat als zuteffendherausstellen.

28

Page 39: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Eine solche weitere lokalkonvexe Topologie auf X existiert als gröbste Topologie Tσ auf X,bezüglich der alle λ ∈ X∗ stetig sind:

Tσ :=⋂

T |T lokalkonvexe Topologie, jedes λ ∈ X∗ ist stetig

Offenbar gilt Tσ ⊂ T‖·‖ .Diese Konstruktion von Tσ hat den Nachteil, dass wir die offenen Mengen in dieser Topologie

nicht wirklich kennen. Daher kommen wir nun zu einer beschreibenden Konstruktion. Dazuhaben wir ein „System von geeigneten Nullumgebungen“ anzugeben. Dabei lassen wir uns vonUrbildern von offenen Mengen in R von Funktionalen in X∗ leiten. Solche müssen ja als offenerkannt werden, wenn das Ziel ist, dass alle λ ∈ X∗ stetig werden.

Dies geschieht nun so:

Uε,M := x ∈ X| |〈λ, x〉| < ε für alle λ ∈M ,

wobei ε > 0,M ⊂ X∗ endlich ist. Umgebungen für x0 ∈ X ergeben sich dann durch Verschiebung:x0 + Uε,M . Die Umgebungen von x0 sind dann die Obermengen von x0 + Uε,M , ε > 0,M ⊂ X∗

endlich. Beachte: Jede Menge Uε,M und damit auch x0+Uε,M muss in Tσ enthalten sein. Offenheiteiner Menge O in X ist bezüglich dieser Umgebungen erklärt wie üblich:

A ⊂ X offen genau dann, wenn gilt:∀x ∈ A∃Uε,M (x ∈ x+ Uε,M ⊂ A)

Es ist nun leicht nachzurechnen, dass jedes Uε,M offen gemäß dieser Definition ist und man stelltfest, dass damit eine Topologie auf X definiert wir. Die so erhaltene Topologie auf X heißt dieσ(X,X∗)-Topologie oder kurz die schwache Topologie auf X . Damit ist auch die Bezeichnungstarke Topologie für die Norm-Topologie T‖·‖ angebracht.

Offenbar sind alle λ ∈ X∗ stetig, wenn man X mit dieser Topologie versieht. Nun ist abernoch zu klären, ob die σ(X,X∗)-Topologie lokalkonvex ist. Auf die Verifikation, dass Additionund skalare Multiplikation stetig sind, verzichten wir. Die Hausdorff-Eigenschaft folgt aus derTatsache, dass X∗ die Punkte trennt; siehe Folgerung 2.17. Da auch die Nullumgebungen Uε,M

konvex sind, ist die Topologie σ(X,X∗)-Topologie lokalkonvex und daher Tσ gleich der σ(X,X∗)-Topologie.

Beispiele σ(X,X∗)-offener Mengen sind die KugelnBε und die „offenen Halbräume“ H(λ, α)\H(λ, α).Letzteres sieht man so: ist x0 ∈ H(λ, α)\H(λ, α), so gilt 0 < ε := α − 〈λ, x0〉 und damitUε,λ(x

0) ⊂ H(λ, α)\H(λ, α) .Damit ist nun der HalbraumH(λ, α) eine σ(X,X∗)-abgeschlosseneMenge und damit auch H+(λ, α),H(λ, α) .

Bemerkung 2.32 Lokalkonvexe Topologien auf Vektorräumen X kann man – wie oben – übergeeignete (absorbierende) Nullumgebungen definieren. Dazu gehören dann die Minkowskifunktio-nale dieser Nullumgebungen, welche sich als Halbnormen darstellen; siehe Folgerung 2.11. Manerhält so eine Familie von Halbnormen pi, i ∈ I, die über die „Kugeln“

Bε,i := x ∈ X|pi(x) < ε , i ∈ I, ε > 0,

auch die Topologie beschreiben. Umgekehrt kann man ausgehend von einer Familie von Halb-normen pi, i ∈ I, über die Kugeln Bε,i, i ∈ I, ε > 0, die offenen Mengen in der üblichen Weiseerklären. Die schwache Topologie kann man sich daher aus den Halbnormen

pλ : X 3 x 7−→ |〈λ, x〉| , λ ∈ X∗,

abgeleitet vorstellen.

Satz 2.33 Ist der normierte Raum X endlichdimensional, dann stimmen schwache und starkeTopologie überein.

29

Page 40: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Sei e1, . . . , en eine Basis von X . Wir haben zu zeigen T‖·‖ ⊂ Tσ . Sei U ∈ T‖·‖, x0 ∈ U . O.E.U = Bε(x

0) . Seien λi, i = 1, . . . , n, die Koordinatenfunktionale:

λi : X 3 x =n∑

i=1

xiei 7−→ xi ∈ R .

Setze V := x0 + Uε′,λ1,...,λn, ε′ > 0 . Offenbar V ∈ Tσ ., Es gilt

‖x− x0‖ ≤ ‖n∑

i=1

(xi − x0i )ei‖

≤ maxi=1,...,n

‖ei‖n∑

i=1

|xi − x0i |

≤ maxi=1,...,n

‖ei‖n∑

i=1

|〈λi, xi − x0i 〉|

≤ maxi=1,...,n

‖ei‖nε′

Mit der Wahl ε′ := εmaxi=1,...,n ‖ei‖n gilt V ⊂ U = Bε(x

0) .

Im normierten Raum X haben wir damit die Begriffe „Offenheit, Abgeschlossenheit, Kom-paktheit, Folgenkompaktheit, Konvergenz von Folgen, Stetigkeit einer Funktion“ bezüglich zwei-er Topologien zur Verfügung. Man beachte, dass für einen normierten Raum X oder selbst füreinen Banachraum X die Begriffe für die beiden Topologien auseinanderfallen, nur im endlichdi-mensionalen Fall ist die schwache Topologie identisch mit der gegebenen Topologie; siehe oben.Beachte auch, dass im Allgemeinen Kompaktheit in der Überdeckungsdefinition nicht mit derFolgenkompaktheit übereinstimmt.

Konvergenz einer Folge (xn)n∈N in X gegen x0 bezüglich der schwachen Topologie ist sodefiniert:

limnxn = x0 : ⇐⇒ ∀ ε > 0 ∀M ⊂ X∗,#M <∞∃N ∈ N ∀n ≥ N(x− x0 ∈ Uε,M )

Wir verwenden für die Konvergenz bezüglich der starken Topologie das Symbol xn −→ x0 undbezüglich der schwachen Topologie xn x0 .

Nun sind noch einige Details zu klären, insbesondere die Sonderrolle der Konvexität in Bezugauf die schwache Topologie.

Lemma 2.34 Sei X ein normierter Raum. Betrachte Folgen (xn)n∈N, (λn)n∈N in X bzw. X∗

und x0 ∈ X,λ0 ∈ X∗ . Dann gilt:

1. xn x0 ⇐⇒ 〈λ, xn〉 −→ x0 für alle λ ∈ X∗ .

2. xn −→0 =⇒ xn x0 .

Ist X sogar ein Banachraum, dann gilt zusätzlich

(a) Gilt xn x0, dann ist die Folge (‖xn‖)n∈N beschränkt in R und ‖x0‖ ≤ lim infn ‖xn‖ <∞ .

(b) Gilt xn x0, λn −→ λ0, dann folgt 〈λn, xn〉 −→ 〈λ0, x0〉 .

30

Page 41: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Zu (1) Folgt direkt aus der Definition der schwachen Topologie.Zu (2) Folgt aus der Ungleichung

|〈λ, xn〉 − 〈λ, x0〉| ≤ ‖λ‖‖xn − x0‖ , n ∈ N .

Zu (a) Für jedes µ ∈ X∗ ist die Folge (〈µ, xn〉)n∈N beschränkt in R, denn (〈µ, xn〉)n∈N konvergiertwegen der schwachen Konvergenz von (xn)n∈N . Wir betrachten die Abbildungen

Tn : X∗ 3 µ 7−→ 〈µ, xn〉 ∈ R , n ∈ N .

Dann ist Tn ∈ X∗∗ für alle n ∈ N . Wir wissen schon, dass

supn

|Tn(µ)| = supn

|〈µ, xn〉| <∞ .

Nach dem Prinzip der gleichmäßigen Beschränktheit1 gibt es m > 0 mit ‖Tn‖ ≤ m für allen ∈ N . Dies bedeutet supn ‖xn‖ ≤ m, denn

‖Tn‖ = supµ∈X∗,‖µ‖≤1

|Tn(µ)| = supµ∈X∗,‖µ‖≤1

|〈µ, xn〉| = ‖xn‖ , n ∈ N ,

Nun folgt für µ ∈ X∗

|〈µ, xn〉| ≤ ‖µ‖‖xn‖, n ∈ N, und daher |〈µ, x0〉| ≤ lim infn

‖µ‖‖xn‖ .

Also‖x0‖ = sup

‖µ‖≤1|〈µ, x0〉| ≤ lim inf ‖xn‖ .

Zu (b) Folgt aus der Beobachtung

|〈λn, xn〉 − 〈λ0, x0〉| ≤ |〈λn, xn − x0〉|+ |〈λ0 − λn, x0〉| ≤ ‖λn − λ0‖‖xn‖+ |〈λ0, xn − x0〉| .

Satz 2.35 Sei X ein normierter Raum und sei A ⊂ X nichtleer und konvex. Dann sind äqui-valent:

(a) A ist abgeschlossen.

(b) A ist schwach abgeschlossen.

Beweis:Ist A = X, dann ist nichts zu beweisen. Sei nun X 6= X . Zu (a) =⇒ (b)Nach Folgerung 2.26 gilt A = ∩i∈IH(λi, αi) . Da alle H(λi, αi) schwach abgeschlossen sind, istauch A schwach abgeschlossen. Zu (b) =⇒ (a)Jede schwach abgeschlossene Menge ist offenbar abgeschlossen.

Beispiel 2.36 Ohne die Voraussetzung „A konvex“ ist der Satz 2.35 im Allgemeinen falsch. Daim Endlichdimensionalen die starke und die schwache Topologie zusammenfallen, hat man nachBeispielen im Unendlichdimensionalen zu suchen. Ein klassisches Beispiel ist:

X := l2 , A := B1\B1 .

1Siehe etwa [7]

31

Page 42: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Betrachte nun die Folge (en)n∈N mit enk = δnk, n, k ∈ N , in A . Dann ist θ schwacher Grenzwertder Folge (en)n∈N . Dies folgt aus der Kenntnis, dass der Dualraum X∗ der Raum x ist (sieheSatz 2.54) so:

〈λ, ek〉 = 〈y|ek〉 =∞∑n=1

ynekn = yk , lim

k〈λ, ek〉 = 0,

wobei (yn)n∈N das Funktional λ ∈ X∗ darstellt.

Satz 2.37 Sei X ein normierter Raum und dimX = ∞ . Dann gilt:

(1) S1 := B1\B1 ist abgeschlossen in der starken Topologie.

(2) Der Abschluss von S1 := B1\B1 in der schwachen Topologie ist B1 .

(3) Das Innere in der schwachen Topologie der offenen Kugel B1 ist leer.

Beweis:Den Beweis verschieben wir in die Übungen. Dort stellen wir als Vorbereitung das Ergebnisbereit, dass jede offene Umgebung Uε,M eine Gerade der Form x0 + ty|t ∈ R enthält.

Definition 2.38 Sei X ein normierter Raum und sei A ⊂ X . Die Menge

co(A) :=⋂

K|A ⊂ K,K konvex,K = K

heißt die abgeschlossene konvexe Hülle von A .

Folgerung 2.39 Sei X ein normierter Raum und sei A ⊂ X . Es gilt:

(a) co(A) ist konvex und abgeschlossen.

(b) co(A) = co(A) = co(A) .

Beweis:(a) ist sofort einzusehen, (b) überlassen wir dem Leser als Übung.

Satz 2.40 (Mazur, 1933) Sei X ein Banachraum und sei (xn)n∈N eine Folge in X . Konver-giert (xn)n∈N schwach gegen x0, so gilt

x0 ∈ co(xk|k ∈ N) .

Beweis:Sei B := xk|k ∈ N, A := co(B) . A ist konvex und abgeschlossen, also nach Satz 2.35 auchschwach abgeschlossen. Also gilt x0 ∈ A wegen B ⊂ A .

IstX ein normierter Raum, so istX∗ ebenfalls ein normierter Raum, ja sogar ein Banachraum,da der Bildraum R der Funktionale aus X∗ vollständig ist. Dazu kann man den Dualraum (X∗)∗

betrachten; wir setzen X∗∗ := (X∗)∗ und nennen X∗∗ den Bidualraum von X . Dazu haben wirnun eine Abbildung

JX : X −→ X∗∗ , 〈JX(x), λ〉 := 〈λ, x〉 , x ∈ X,λ ∈ X∗ .

Sie heißt kanonische Einbettung von X in X∗∗ . Dies Bezeichnungsweise erklärt sich aus

Lemma 2.41 Sei X ein normierter Raum. Dann ist die kanonische Einbettung JX linear,injektiv,stetig und eine Isometrie, d. h.

‖JX(x)‖ = supλ∈X∗,‖λ‖≤1

|〈λ, x〉| = ‖x‖ , x ∈ X .

32

Page 43: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Die linearität ist klar, Stetigkeit und Injektivität folgen offenbar aus der Isometrieeigenschaft.Zur Isometrieeigenschaft (mit Folgerung 2.19):

‖JX(x)‖ = supλ∈X∗,‖λ‖≤1

|〈JX(x), λ〉| = supλ∈X∗,‖λ‖≤1

|〈λ, x〉| = ‖x‖ , x ∈ X .

Definition 2.42 Sei X ein normierter Raum. X heißt reflexiv genau dann, wenn die AbbildungJX surjektiv ist.

Beispiele reflexiver Räume sind: X = Rn (in jeder Norm), X = l2 (siehe später). Nicht reflexivist der Raum c0 der reellen Nullfolgen; wir haben c∗0 = l1, l

∗1 = l∞ .

Eine notwendige Bedingung für die Reflexivität von X ist zusammen mit Lemma 2.41, dass Xein Banachraum ist, da ja ein Dualraum stets vollständig und damit auch X∗∗ ein Banachraumist. Zwei wichtige Sätze, die wir ohne Beweis anführen, in diesem Zusammenhang sind:

Satz 2.43 (Eberlein, 1940, Smulian, 1947) Sei X ein Banachraum und sei A ⊂ X . Dannsind äquivalent:

(a) A ist kompakt in der schwachen Topologie.

(b) A ist folgenkompakt in der schwachen Topologie.

Satz 2.44 (Kakutani) Sei X ein Banachraum. Dann ist X reflexiv genau dann, wenn dieEinheitskugel B1 in X kompakt in der schwachen Topologie ist.

Eine wichtige Konsequenz der angeführten Resulate berührt wieder die Konvexität.

Folgerung 2.45 Sei X ein reflexiver Banachraum und sei A ⊂ X nichtleer, beschränkt, abge-schlossen und konvex. Dann ist A schwach kompakt.

Beweis:Wir wissen aus Satz 2.35, dass A schwach abgeschlossen ist. Da A beschränkt ist, ist A in einerKugel αB1 enthalten und daher als abgeschlossene Teilmenge in der schwach kompakten MengeαB1 selbst schwach kompakt.

Damit ist das Versprechen, dass die gröbere schwache Topologie mehr kompakte Mengen imunendlichdimensionalen Fall erlaubt, ist nun eingelöst: nichtleere, beschränkte, abgeschlossenekonvexe Mengen sind schwach kompakt. Beachte, dass dies in der starken Topologie im Allge-meinen nicht gilt; siehe etwa [2, 7].

2.5 Schwach∗–Topologie

In einem normiertem Raum X mit Dualraum X∗ kennen wir nun auf X∗ die Norm-Topologie(starke Topologie) und die σ(X∗, X∗∗) (schache Topologie). Dabei ist X∗∗ der Bidualraum vonX, d. h. der Dualraum des normierten Raumes X∗, welches wiederum ein Banachraum ist. Nunkönnen wir dazu eine weitere mit Hilfe des Ausgangsraumes X einführen. Dazu haben wir einSystem einer Nullumgebungsbasis anzugeben. Dies geschieht so:

Vε,M := λ ∈ X∗| |〈λ, x〉| < ε für alle x ∈M

33

Page 44: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

wobei ε > 0,M ⊂ X endlich ist. Umgebungen für λ0 ∈ X∗ ergeben sich dann durch Verschiebung:λ0+Vε,M . Offenheit einer Menge O inX∗ ist bezüglich dieser Umgebungen erklärt wie üblich. Dieso erhaltene Topologie auf X∗ heißt die σ(X∗, X)-Topologie oder kurz die schwach∗-TopologieaufX∗ . Sie ist eine lokalkonvexe Topologie auf X∗ . Die Überlegungen dazu sind parallel zu denenbei der schwachen Topologie. Ist X reflexiv, dann fallen die schwache und die schwach∗-Topologieauf X∗ offenbar zusammen.

Konvergenz einer Folge (λn)n∈N in X∗ gegen λ0 bezüglich der schwach∗-Topologie ist so defi-niert:

limnλn = λ0 : ⇐⇒ ∀ε > 0∀M ⊂ X,#M <∞∃N ∈ N∀n ≥ N(λ− λ0 ∈ Vε,M )

Wir verwenden für die Konvergenz bezüglich der schwach∗-Topologie λn∗ λ0 . Beachte, dass

im Allgemeinen Kompaktheit in der Überdeckungsdefinition nicht mit der Folgenkompakteheitübereinstimmt.

Ohne Beweis führen wir einen wichtigen Sachverhalt zur Kompaktheit in der schwach∗-Topologie an.

Satz 2.46 (Banach-Alaoglu, 1932,1940) Sei X ein normierter Raum. Dann ist die Einheits-kugel B1 in X∗ kompakt in der schwach∗-Topologie.

2.6 Spezialisierung auf Hilberträume

Wichtige Beispiele für reflexive Räume – ihre Bedeutung geht aber weit über diesen Sachver-halt hinaus – stellen die Hilberträume dar. Hilberträume sind bei der Modellierung und Lösungvon Problemen der theoretischen und angewandten Naturwissenschaften von überragender Be-deutung. Ihre Theorie ist nicht zuletzt entstanden durch das Bedürfnis der Quantenmechanikein sicheres mathematisches Fundament zu geben. Wir ordnen die Hilberträume in die Banach-raumtheorie ein und betrachten die spezifischen zusätzlichen geometrischen Möglichkeiten.

Sei X ein reeller Vektorraum. Ein Skalarprodukt auf X ist eine Abbildung 〈·|·〉 −→ R ,die folgende Eigenschaften besitzt:

Definitheit 〈x|x〉 = 0 ⇐⇒ x = θ

Symmetrie 〈x|x′〉 = 〈x′|x〉 für alle x, x′ ∈ X

Linearität 〈αx+ βx′|z〉 = α〈x|z〉+ β〈x′|z〉 für alle x, x′, z ∈ X,α, β ∈ R

Ein Paar (X, 〈·|·〉) heißt ein Prähilbertraum.

Lemma 2.47 (Cauchy–Schwarzsche Ungleichung) Sei (X, 〈·|·〉) ein Prähilbertraum. Danngilt für alle x, y ∈ X

|〈x|y〉| ≤√

〈x|x〉√

〈y|y〉 ,

wobei Gleichheit genau dann gilt, wenn x, y linear abhängig sind.

Beweis:Seien x, y ∈ X . Ist y = θ, dann ist die Aussage schon klar. Sei also nun y 6= θ. Offenbar gilt0 ≤ 〈x− ay|x− ay〉 für alle a ∈ K, also

0 ≤ 〈x|x〉 − 2a〈x|y〉+ |a|2〈y|y〉 .

34

Page 45: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Setze a := −〈x|y〉〈y|y〉−1 . Dann folgt

0 ≤ 〈x|x〉 − |〈x|y〉|2

〈y|y〉,

woraus wir die Aussage nun ablesen.Die Aussage über Gleichheit folgt aus der Tatsache, dass 0 = 〈x − ay|x − ay〉 genau dann gilt,wenn x = ay ist.

Folgerung 2.48 Ist (X, 〈·|·〉) ein Prähilbertraum, dann wird auf X eine Norm definiert durch

‖x‖ :=√

〈x|x〉 , x ∈ X .

Beweis:Die Normeigenschaften sind bis auf die Dreiecksungleichung sofort einsichtig. Die Dreiecksun-gleichung folgt mit der Cauchy–Schwarzschen Ungleichung so:

‖x+ y‖2 = ‖x‖2 + 2〈x|y〉+ ‖y‖2 ≤ ‖x‖2 + 2‖x‖X‖y‖+ ‖y‖2 = (‖x‖+ ‖y‖)2 .

Sei (X, 〈·|·〉) ein Prähilbertraum. Wir wissen aus der Cauchy–Schwarzschen Ungleichung|〈x|y〉| ≤ ‖x‖ ‖y‖ für alle x, y ∈ X, also

−1 ≤ 〈x|y〉‖x‖ ‖y‖

≤ 1 für alle x, y ∈ X\θ .

Nun gibt es zu x, y ∈ X\θ also einen eindeutig bestimmten Winkel ϑ = ϑ(x, y) mit

〈x|y〉‖x‖ ‖y‖

= cos(ϑ(x, y)) , ϑ(x, y) ∈ [0, π] .

Wir nennen ϑ(x, y) den Winkel zwischen x und y .

Definition 2.49 Sei (X, 〈·|·〉) ein Prähilbertraum. x, y ∈ X\θ heißen orthogonal, wenn〈x|y〉 = 0 gilt.

Wir sehen also, dass Orthogonalität von x, y in einem euklidischen Raum gerade bedeutet, dassder Winkel zwischen x, y ein Rechter ist.

Eine mitunter hilfreiche Gleichung ist die Parallelidentität in einem Hilbertraum X:

‖x− y‖2 + ‖x+ y‖2 = 2‖x‖2 + 2‖y‖2 , x, y ∈ X . (2.5)

Man verifiziert diese Identität ohne Mühe mit den Eigenschaften des zugehörigen Skalarprodukts.

Sei (X, 〈·|·〉) ein Prähilbertraum. Wir haben unter Nutzung der Cauchy-Schwarzschen Unglei-chung gesehen, dass X zu einem normierten Raum (X, ‖ · ‖) wird, wobei die Norm definiert istdurch

‖x‖ :=√

〈x|x〉 , x ∈ X .

Diesen normierten Raum können wir nun auf Vollständigkeit hinterfragen.

Definition 2.50 Der Prähilbertraum (X, 〈·|·〉) heißt Hilbertraum, wenn der damit definiertenormierte Raum (X, ‖ · ‖) vollständig ist.

35

Page 46: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Im Prähilbertraum (Rn, 〈·|·〉2) wird die euklidischen Norm | · |2 vom Skalarprodukt induziert;der Raum ist ein Hilbertraum.

Beispiel 2.51 Die Prähilberträume (l2, 〈·|·〉2), (L2(Ω), ‖ ·‖2) sind Hilberträume. Das innere Pro-dukt in L2(Ω) ist gegeben durch

〈f |g〉2 :=∫Ω〈f(x)|g(x)〉2 dx , f, g ∈ L2(Ω) .

(Hier sind zwei Skalarprodukte involviert, die wir in der Bezeichnung nicht unterschieden haben,eines in L2(Ω), ein anderes in Rn .

Satz 2.52 Sei (X, 〈·|·〉) ein Hilbertraum und sei K ⊂ X konvex, abgeschlossen und nichtleer.Dann gibt es zu jedem x ∈ X ein eindeutig bestimmtes y ∈ K mit

‖x− y‖ = dist(x,K) = infz∈K

‖x− z‖ . (2.6)

Zusatz: Es gilt〈x− y|z − y〉 ≤ 0 für alle z ∈ K . (2.7)

Beweis:Die Existenz einer Lösung der Approximationsaufgabe 2.6 kann man direkt auf die Parallelo-grammidentität und die Vollständigkeit stützen. Man zeigt dazu, dass eine Minimalfolge, alsoeine Folge (yn)n∈N mit limn ‖x− yn‖ = a := dist(x,K), eine Cauchyfolge ist. Man schließt dabeimit der Parallelogrammidentität und der Konvexität von K folgendermaßen.

‖yn − ym‖2 = ‖(x− ym)− (x− yn)‖2

= −‖(x− ym) + (x− yn)‖2 + 2‖x− ym‖2 + 2‖x− yn‖2

= −4‖12(ym + yn)− x‖2 + 2‖x− ym‖2 + 2‖x− yn‖2

≤ −4a2 + 2‖x− ym‖2 + 2‖x− yn‖2

Also ist (yn)n∈N eine Cauchyfolge. Nun konvergiert (yn)n∈N gegen ein y ∈ X, also limn(x−yn) =x− y . Da A abgeschlossen ist ist y ∈ A . Aus der Stetigkeit der Norm folgt, dass y die Aufgabelöst.Die Eindeutigkeit stützt sich erneut auf die Parallegrommidentität. Seien y, y′ ∈ K Lösungen.Dann gilt ‖x− y‖ = ‖x− y′‖ = a . Nun haben wir unter Berücksichtigung von 1

2(y + y′) ∈ K

4a2 ≤ 4‖x− 1

2(y + y′)‖2 = ‖(x− y) + (x− y′)‖2

= 2‖x− y‖2 + 2‖x− y′‖2 − ‖(x− y)− (x− y′)‖2

≤ 4a2 − ‖y − y′‖2

woraus y = y′ abzulesen ist.Wir zeigen den Zusatz. Sei z ∈ K . Dann ist zt := tz + (1 − t)y = y + t(z − y) in K für allet ∈ (0, 1) . Daher ist

‖x− y‖2 ≤ ‖x− zt‖2 = ‖x− y‖2 − 2t〈x− y, z − y〉+ t2‖z − y‖2 , t ∈ (0, 1) ,

und daher0 ≤ −2t〈x− y|z − y〉+ t2‖z − y‖2 , t ∈ (0, 1) ,

36

Page 47: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

was nach Kürzen mit t und Grenzübergang t→ 0

0 ≤ −2〈x− y|z − y〉

ergibt.

Die Ungleichung 2.7 nennt man eine Variationsungleichung. Solche Ungliechungen werdenuns als notwendige Bedingung für Extrema noch mehrmals begegenen.

Sei (X, 〈·|·〉) ein Prähilbertraum und U ein linearer Teilraum von X . Dann definieren wir mit

U⊥ := x ∈ X|〈x|y〉 = 0 für alle y ∈ U

das orthogonale Komplement von U . U⊥ ist selbst wieder ein linearer Teilraum von X , dersogar abgeschlossen ist. Im folgenden Satz wird die Bedeutung dieser Begriffsbildung klar.

Satz 2.53 (Zerlegungssatz) Sei (X, 〈·|·〉) ein Hilbertraum und U ein linearer abgeschlossenerTeilraum von X . Dann gibt es zu jedem x ∈ X eindeutig bestimmte u ∈ U, v ∈ U⊥ mit x = u+v ,d. h.

X = U ⊕ U⊥ .

Beweis:Wir wenden Satz 2.52 mit K := U an. Damit ist schon klar, dass es zu jedem x ∈ X ein eindeutigbestimmtes u ∈ U gibt mit

〈x− u|v〉 = 0 für alle v ∈ U ;

beachte, dass wir nun in K einen linearen Teilraum haben. Da mit u auch −u in U liegt, folgtx− u ∈ U⊥ . Also haben wir die Zerlegung x = u+ (x− u) ∈ U +U⊥ gezeigt. Die Eindeutigkeitder Zerlegung ist sofort klar, da stets U ∩ U⊥ = θ gilt.

Ist (X, 〈·|·〉) ein Hilbertraum und U ein linearer abgeschlossener Teilraum von X , dann kannman nach Satz 2.53 Abbildungen pU , pU⊥ mit folgenden Eigenschaften definieren:

a) x = pU (x) + pU⊥(x) für alle x ∈ X ,

b) pU pU = pU , pU⊥ pU⊥ = pU⊥ ,

c) pU pU⊥ = pU⊥ pu = θ .

Die Abbildungen pU , pU⊥ werden orthogonale Projektionen genannt.

Der folgende Satz von Riesz2 liefert nun eine wichtige Erkenntnis zum Dualraum von Hilbert-räumen.

Satz 2.54 (Darstellung von Riesz) Sei (X, 〈·, ·〉) ein Hilbertraum mit induzierter Norm ‖·‖ .Dann ist die Abbildung

RX : X 3 x 7−→ 〈·|x〉X ∈ X∗ (2.8)

bijektiv, isometrisch und linear, d. h.

RX(ax+ by) = aRX(x) + bRX(y) für alle x, y ∈ X, a, b ∈ R . (2.9)2Der Satz ist benannt nach F. Riesz (1880–1956). Es gibt noch den Mathematiker M. Riesz.

37

Page 48: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Offenbar wird für jedes x ∈ X durch x 7−→ 〈·|x〉X ein Funktional λx ∈ X ′ erklärt. Wegen

|〈λx, z〉| ≤ ‖z‖‖x‖ , |〈λx, x〉| = ‖x‖2 ,

ist λx ∈ X∗ . Also ist RX wohldefiniert und offensichtlich linear. Wegen

‖RX(x)‖ = supz∈B1

|〈z|x〉| ≤ ‖x‖, |〈x‖x‖−1, x〉| = ‖x‖(x 6= θ),

ist RX eine Isometrie. Daher ist RX auch stetig. Die Injektivität von RX folgt aus der Isome-trieeigenschaft. Es bleibt die Surjektivität von RX zu zeigen.Sei λ ∈ X∗; o. E. λ 6= θ . Wir setzen U := ker(λ). Wegen U 6= X ist U⊥ 6= θ. Wir wählenu ∈ U⊥ mit 〈λ, u〉 = 1 . Für z ∈ X gilt

z = z − 〈λ, z〉u+ 〈λ, z〉u , z − 〈λ, z〉u ∈ U ,

also〈z|u〉 = 〈z − 〈λ, z〉u|u〉+ 〈〈λ, z〉u|u〉 = 〈λ, z〉〈u|u〉,

und somitλ = λx = RX(x) für x =

u

‖u‖2.

Der Darstellungssatz von Riesz hat vielerlei hilfreiche Konsequenzen, etwa die Reflexivität vonHilberträumen (siehe folgende Folgerung), eine einfache Beschreibung der schwachen Konvergenzin Hilberträumen. Wir haben in einem Hilbertraum X:

xn x : ⇐⇒ 〈z|xk〉 → 〈z|x〉 für alle z ∈ X .

Folgerung 2.55 Jeder Hilbertraum ist reflexiv.

Beweis:Sei (X, 〈·|·〉) ein Hilbertraum, sei RX die zugehörige Riesz–Abbildung und sei JX die kanonischenEinbettung von X in X∗∗ . Sei µ ∈ X∗∗ . Mit der Riesz–Abbildung RX definieren wir ein linearesFunktional ρ durch

〈ρ, y〉 := 〈µ,RX(y)〉 , y ∈ X .

ρ ist in X∗, denn|〈ρ, y〉| ≤ ‖µ‖‖RX(y)‖ = ‖µ‖‖y‖, y ∈ X .

Sei x := R−1X (ρ) . Sei nun λ ∈ X∗ beliebig. Da RX surjektiv ist, gibt es y ∈ X mit λ = RX(y) .

Dann haben wir

〈µ, λ〉 = 〈µ,RX(y)〉 = 〈ρ, y〉 = 〈y|R−1X (ρ)〉 = 〈R−1

X (ρ)|y〉 = 〈x|y〉 = 〈RX(y), x〉 = 〈λ, x〉 = 〈JX(x), λ〉 .

Dies zeigt µ = JX(x) .

2.7 Extremalpunkte

Definition 2.56 Sei X ein Vektorraum. Sei B ⊂ A ⊂ X , B 6= ∅ . B heißt extremal in Aoder eine Seite von A, falls gilt:

x, y ∈ A , t ∈ (0, 1) ⊂ R , tx+ (1− t)y ∈ B =⇒ x, y ∈ B .

38

Page 49: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Offenbar ist die Eigenschaft „extremal in“ transitiv. Eine Menge ist stets extremal in sich.

Definition 2.57 Sei X ein Vektorraum und sei A ⊂ X , x ∈ A . x heißt Extremalpunkt vonA, falls x extremal in A ist. Wir schreiben dann x ∈ ext(A) .

Das Studium der Extremalpunkte hat Anwendungen in der Quantenmechanik (reine Zustän-de), der Wahrscheinlichkeitstheorie (konzentrentierte Maße), bei C∗-Algebren, bei Untersuchun-gen von Polyedern, meist im Rahmen der theoretischen Informatik. Hierzu ein Beispiel:

Beispiel 2.58 Sei X = Rn+1, A := co(e1, . . . , en+1) der übliche Simplex in Rn+1 . Die Seitenvon A sind die k-dimensionalen Simplizes co(ei1 , . . . , eik+1), i1, . . . , ik+1 ⊂ 1, . . . , n + 1,#i1, . . . , ik+1 = k + 1 .Die Extremalpunkte von A sind die nulldimensionalen Seiten e1, . . . , en+1 von A .

Lemma 2.59 Sei X ein Vektorraum und sei A ⊂ X konvex. Dann sind für x ∈ A äquivalent:

(a) x ∈ ext(A) .

(b) A\x ist konvex.

Beweis:(a) =⇒ (b)Seien y, z ∈ A\x , t ∈ (0, 1) . Da A konvex ist, ist ty + (1 − t)z ∈ A . Da x ∈ ext(A) ist, istty + (1− t)z 6= x . Also ist ty + (1− t)z ∈ A\x .(b) =⇒ (a)Seien y, z ∈ A, sei t ∈ (0, 1) und sei x = ty + (1 − t)z . Wegen (b) kann y 6= x und z 6= x nichtgleichzeitig gelten. Sei etwa y = x . Dann ist x = y = z, also x ∈ ext(A) .

Es ist leicht einzusehen, dass ext(A) = ∅ ist, falls A offen ist. Etwas genauer grenzen diefolgenden Beispiele die Möglichkeiten ab.

Beispiel 2.60 ext(A) ist im allgemeinen nicht endlich, selbst wenn A kompakt ist. Dies siehtman schon in folgender einfachen Situation ein: X := Rn, A := B1 . Hier haben wir nämlichext(A) = B1\B1 =: S1 .

Wir können dies in einem Hilbertraum zeigen. Sei also (X, 〈·|·〉) ein Hilbertraum mit Norm‖ · ‖ . Dann gilt ext(B1) = B1\B1 =: S1 . Beweis dazu:Wir zeigen S1 ⊂ ext(B1) .Sei z ∈ S1 und seien x, y ∈ B1), t ∈ (0, 1), tx+ (1− t)y = z . Dann haben wir

1 = t2‖x‖2 + (1− t)2‖y‖2 + 2t(1− t)〈x|y〉 ≤ (t‖x‖+ (1− t)‖y‖)2 ≤ max(‖x‖, ‖y‖)2 .

O.E. ‖y‖ ≤ ‖x‖ . Dann ist ‖x‖ = 1 und wegen 1 = (t+(1−t)‖y‖)2 auch ‖y‖ = 1, d. h. x, y ∈ S1 .Wegen

1 = t2 + (1− t)2 + 2t(1− t)〈x|y〉 = 1 + 2t(1− t)(〈x|y〉 − ‖x‖2‖y‖2−)

müssen x, y linaear abhängig sein. Daraus folgt dann x = y und damit z ∈ ext(A) .Wir zeigen ext(B1) ⊂ S1 .ext(B1) ⊂ S1, da B1\x für x ∈ B1 nicht konvex ist; siehe Lemma 2.59.

Beispiel 2.61 ext(A) ist nicht notwendigerweise abgeschlossen, selbst wenn A kompakt ist. Hierist das passende Beispiel:

X := R3 , A1 := (0, 0, 1), A2 := (0, 0,−1), A3 := x ∈ R3|x = (a, b, 0), a2 + (b− 1)2 = 1, .

Setze A := co(A1∪A2∪A3) . Es ist ext(A) = (A1∪A2∪A3)\θ, also ext(A) nicht abgeschlossen.

39

Page 50: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Lemma 2.62 Sei X ein normierter Raum. Sei A ⊂ X kompakt, A 6= ∅, λ ∈ X∗ . Dann ist

A0 := x ∈ X|〈λ, x〉 = infu∈A

〈λ, u〉

eine kompakte extremale Teilmenge von A .

Beweis:A0 ist nicht leer, da λ stetig und A kompakt ist. A0 ist abgeschlossen, da λ ∈ X∗ . Also ist A0

als abgeschlossene Menge der kompakten Menge A sogar kompakt. Sei a := infu∈A〈λ, u〉 . Seienx, y ∈ A, t ∈ (0, 1), tx+ (1− t)y ∈ A0 . Dann gilt

〈λ, x〉 ≥ a, 〈λ, y〉 ≥ a, t〈λ, x〉+ (1− t)〈λ, y〉 = 〈λ, tx+ (1− t)y〉 = a,

und daher 〈λ, x〉 = a, 〈λ, y〉 = a, d. h. x, y ∈ A0 .

Satz 2.63 Sei X ein normierter Raum und sei A ⊂ X kompakt, nichtleer. Dann ist ext(A) 6= ∅ .

Beweis:

F := S ⊂ A|S extremal in A,S abgeschlossen, S 6= ∅ .Wegen A ∈ F ist F 6= ∅ . Durch die Inklusion ist F halbgeordnet. Sei F0 eine totalgeordneteTeilmenge von F ; wir setzen

Su :=⋂

S∈F0

S .

Da A kompakt ist und die endliche Durchschnittseigenschaft gilt, ist nach dem CantorschenDurchschnittssatz3 Su nichtleer. Ferner ist offenbar Su abgeschlossen und extremal in A, da dieEigenschaft „extremal in“ transitiv ist. Also ist Su ∈ F und daher eine untere Schranke für F0 .Nach dem Lemma von Zorn gibt es ein minimales Element in F ; sei Sm dieses minimale Element.Annahme: Sm enthält mindestens zwei Elemente u, v, u 6= v . Da X∗ die Punkte in X trennt,gibt es λ ∈ X∗ mit 〈λ, u〉 < 〈λ, v〉 . Sei

A0 := x ∈ Sm|〈λ, x〉 = infy∈Sm

〈λ, y〉 .

Da A kompakt ist, ist A0 eine extremale Teilmenge von Sm , also auch eine extremale Teilmengevon A , also A0 ∈ F und A0 ⊂ Sm . Da Sm minimal in F ist, gilt A0 = Sm . Dies ist einWiderspruch, da v /∈ A0 .Also ist Sm eine einelementige Menge: Sm := z . Dann ist nach Konstruktion z ∈ ext(A) .

Lemma 2.64 Sei X ein normierter Raum und sei A ⊂ X nichtleer. Dann gilt ext(co(A)) ⊂ A .

Beweis:Sei x ∈ ext(co(A)) ⊂ co(A); also

x =

m∑i=1

tixi mit

m∑i=1

ti = 1 , ti ∈ [0, 1], xi ∈ A, i = 1, . . . ,m .

O.E. ti > 0, i = 1, . . . ,m . Ist m = 1, so gilt offensichtlich x = x1 ∈ A . Sei m ≥ 2 . Dann giltt1 < 1 und

x = t1x1 +

m∑i=2

tixi = t1x

1 + (1− t1)

m∑i=2

(1− t1)−1tix

i .

Da x ∈ ext(co(A)), x1 ∈ co(A),∑m

i=2(1 − t1)−1tix

i ∈ co(A) , folgt mit der Definition der Extre-malität x =

∑mi=2(1− t1)

−1tixi = x1 ∈ A .

3Siehe etwa [7]

40

Page 51: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 2.65 (Krein–Milman, 1940) Sei X ein normierter Raum. Sei A ⊂ X nichtleer, konvexund kompakt. Dann gilt A = co(ext(A)) .

Beweis:Nach Lemma 2.64 gilt: co(ext(A)) = co(ext(co(A))) ⊂ co(A) = A .Annahme: Es gibt x ∈ A\co(ext(A)) . Dann gibt es nach Folgerung 2.22 λ ∈ X∗\θ mit

〈λ, x〉 < infw∈co(ext(A))

〈λ,w〉 .

Sei A0 := y ∈ A|〈λ, y〉 = infv∈A〈λ, v〉 ; infv∈A〈λ, v〉 ist wohldefiniert, da A kompakt ist. NachLemma 2.62 ist A0 kompakt und extremale Teilmenge von A. Nach Satz 2.63 gilt ext(A0) 6= ∅ .Sei y0 ∈ ext(A0) ⊂ A . Dann gilt y0 ∈ ext(A) ⊂ co(ext(A)) . Daraus folgt ein Widerspruch, denman aus

〈λ, y0〉 ≤ 〈λ, x〉 < infw∈co(ext(A))

〈λ,w〉 ≤ 〈λ, y0〉 .

abliest. Also gilt A ⊂ co(ext(A)) .

Folgerung 2.66 Sei X ein normierter Raum. Sei A ⊂ X konvex, kompakt, A 6= ∅, λ ∈ X∗ .Dann gibt es z ∈ ext(A) mit 〈λ, z〉 = infv∈A〈λ, v〉 .

Beweis:Es ist Q := u ∈ A|〈λ, u〉 = infv∈A〈λ, v〉 als abgeschlossene Teilmenge einer kompakten Mengekompakt und offenbar nichtleer. Ferner ist Q nach Lemma 2.62 extremal in A. Nach Satz 2.63 giltext(Q) 6= ∅ . Sei z ∈ ext(Q). Dann ist z Extremalpunkt von A und es gilt 〈λ, z〉 = infv∈A〈λ, v〉 .

Folgerung 2.66 ist in der linearen Optimierung (X ist ein Rn) die Grundlage des Simplexver-fahrens. Hier ist A meist ein beschränktes Polyeder P . Dessen Extremalpunkte sind nur endlichviele und leicht zu bestimmen/charakterisieren: sie sind die Ecken des Polyeders. Der Satz besagtdann, dass „optimale Punkte“ in A auch in den Ecken zu finden sind; siehe hierzu Abschnitt 4.1.

Beispiel 2.67 Die Einheitskugel B1 in c0 enthält keine Extremalpunkte. Der Grund für dieseAussage ist, dass B1 in c0 nicht kompakt ist. Man sieht dies so ein.Sei x ∈ B1, x = (xk)k∈N; also limk x

k = 0 . Wähle N ∈ N mit |xN | < 12 . Definiere y, z ∈ c0 durch

yk := zk := xk, k 6= N, yN := xN − 1

2, zN := xN +

1

2.

Dann gilt y, z ∈ B1, x = 12(y + z) und daher x /∈ ext(B1) .

2.8 Strikte und gleichmäßige Konvexität

Eine Eigenschaft, die einige geometrische Aussagen aus der Hilbertraumtheorie erlaubt, ist diestrikte Konvexität in normierten Räumen. Sie besagt im wesentlichen, dass der Rand der Ein-heitskugel keine Gerade enthält.

Definition 2.68 Ein normierter Raum (X, ‖ · ‖) heißt strikt konvex, falls aus ‖x‖ = ‖y‖ =1, ‖x− y‖ > 0, stets ‖1

2(x+ y)‖ < 1 folgt.

Lemma 2.69 Sei (X, ‖ · ‖) ein normierter Raum. Es sind äquivalent:

(a) X ist strikt konvex.

41

Page 52: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(b) Ist ‖x‖ = ‖y‖ = 1, ‖x− y‖ > 0, dann gilt für jedes t ∈ (0, 1) ‖tx+ (1− t)y‖ < 1 .

(c) Ist ‖x+ y‖ = ‖x‖+ ‖y‖, x 6= θ, y 6= θ, dann gibt es c > 0 mit x = cy .

Beweis:Zu (a) ⇐⇒ (b).Seien x, y ∈ X mit ‖x‖ = ‖y‖ = 1, ‖x − y‖ > 0, und u := tx + (1 − t)y ∈ X mit t ∈ (0, 1) .O.E. t ≤ 1

2 . Dann gilt offenbar u = 2tz + (1 − 2t)y mit z := 12(x + y) und daher folgt ‖u‖ ≤

2t‖z‖+ (1− 2t)‖y‖ < 2t+ (1− 2t) = 1 .Damit ist (a) =⇒ (b) gezeigt. Die Rückrichtung ist trivial.Zu (a) =⇒ (c).Seien x, y ∈ X mit ‖x + y‖ = ‖x‖ + ‖y‖, x 6= θ, y 6= θ . Setze x1 := ‖x‖−1x, y1 := ‖y‖−1y, t :=‖x‖(‖x‖+ ‖y‖)−1 ∈ (0, 1) . Dann ist ‖x1‖ = ‖y1‖ = 1 und

1 =‖x+ y‖‖x‖+ ‖y‖

= ‖ 1

‖x‖+ ‖y‖x+

1

‖x‖+ ‖y‖y‖ = ‖tx1 + (1− t)y1‖ .

Wegen (b), was ja mit (a) äquivalent ist, folgt x1 = y1 . Damit gilt x = cy mit c := ‖x‖‖y‖−1 .Zu (c) =⇒ (a).Seien x, y ∈ X mit ‖x‖ = ‖y‖ = 1, ‖x− y‖ > 0. Offenbar ist ‖x+ y‖ ≤ 2 .Annahme: ‖x + y‖ = 2 . Dann ist ‖x + y‖ = ‖x‖ + ‖y‖ und daher x = cy für ein c > 0 . Dannfolgt aber c = 1 und x = y, was im Widerspruch zu ‖x− y‖ > 0 steht.

Beispiel 2.70 Der Banachraum (C[a, b], ‖ · ‖) ist nicht strikt konvex. Dies folgt so:O. E. [a, b] = [0, 1] . Wähle x(t) := 1, y(t) := t , t ∈ [0, 1] . Dann ist x 6= y und ‖x‖∞ = ‖y‖∞ = 1 .Aber es gilt ‖x+ y‖∞ = 2 .

Definition 2.71 Ein normierter Raum (X, ‖ · ‖) heißt gleichmäßig konvex, falls gilt:

∀ ε > 0∃ δ > 0∀x, y ∈ X (‖x‖ = ‖y‖ = 1, ‖x− y‖ ≥ ε =⇒ ‖12(x+ y)‖ ≤ 1− δ)

Folgerung 2.72 Jeder gleichmäßig konvexe normierte Raum X ist strikt konvex.

Beweis:Seien x, y ∈ X,x 6= y mit ‖x+ y‖ = ‖x‖+ ‖y‖ . O.E. ‖x‖ = 1 . Definiere

x′ := (x+ y)‖x+ y‖−1 , z :=1

2(x+ x′) , a := ‖z‖ , b := ‖x+ y − z‖

Es gilt ‖x+y−x′‖ = ‖y‖, also b ≤ ‖y‖. Ferner ist a ≤ 1, a+b ≥ 1+‖y‖, also a = ‖12(x+x

′)‖ = 1.Aus der gleichmäßigen Konvexität folgt x = x′, also x‖y‖ = y . 4

Offenbar sind die Räume lp, p = 1,∞ nicht strikt konvex und daher auch nicht gleichmaßigkonvex. da der Rand der Einheitskugel „Kanten“ besitzen. Die Räume lp, 1 < p <∞, sind striktkonvex, sie sind sogar gleichmäßig konvex. Zum Beweis hat man die Höldersche Ungleichungheranzuziehen.

Jeder Hilbertraum ist gleichmäßig konvex. Dies zeigt man wieder mit der Parallelogrammi-dentität (siehe Beweis zu Satz 2.52).

4Ein Beweis, der sich auf (a) in Lemma 2.69 stützt, ist einsichtiger.

42

Page 53: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Bemerkung 2.73 Die beiden Definitionen 2.68, 2.71 bedürfen einer Kommentierung: Statt voneinem strikt konvexem bzw. einem gleichmäßig konvexem Raum zu sprechen, sollten wir eigentlichvon einer strikt konvexer bzw. gleichmäßig konvexer Norm sprechen. Diese Vorsicht ist umsomehr geboten, da es ja in einem Vektorraum zwei äquivalente Normen geben mag, von der einedie Eigenschaft haben mag, die andere nicht; es gibt solche Fälle; meist erreicht man dies durch„Renormierung“ einer gegebenen Norm. Also muss in jeder Situation klar sein, welche Normgemeint ist.

Hilfreich in manchen Situationen beim Beweis von Resultaten im Kontext von gleichmäßigkonvexen Räumen ist folgende Äquivalenz.

Lemma 2.74 Sei X ein normierter Raum. Dann sind äquivalent:

(a) X ist gleichmäßig konvexer Raum.

(b) Sind (xn)n∈N, (yn)n∈N Folgen in X mit

limn

‖xn‖ = limn

‖yn‖ = limn

‖12(xn + yn)‖,

dann gilt limn ‖xn − yn‖ = 0 .

Beweis:(a) =⇒ (b) Seien (xn)n∈N, (yn)n∈N Folgen in X mit

a := limn

‖xn‖ = limn

‖yn‖ = limn

‖12(xn + yn)‖ .

Ist a = 0, so ist die Aussage wahr. Sei also a > 0 . Dann können wir N ∈ N finden, so dasswir setzen dürfen: x′n := ‖xn‖xn , y′n := ‖yn‖yn, n ≥ N . Sei ε > 0 und wähle dazu δ > 0entsprechend der Definition der gleichmäßigen Konvexität. Es gilt limn ‖1

2(x′n + y′n)‖ = 1 . Dies

folgt aus

2 ≥ ‖x′n + y′n‖ =1

‖xn‖‖yn‖‖xn‖yn‖+ ‖yn‖xn‖+ yn‖yn‖ − yn‖yn‖‖

≥ 1

‖xn‖‖yn‖(‖yn‖‖xn + yn‖ − ‖yn‖|‖xn‖ − ‖yn‖|)

=1

‖xn‖(‖xn + yn‖ − |‖xn‖ − ‖yn‖|)

Damit gibt es nun N ′ ≥ N mit ‖12(x

′n+y

′n)‖ > 1−δ, n ≥ N ′ ; o. E. N ′ = 1 . Dann gilt ‖x′n−y′n‖ ≥

ε, n ∈ N, nach Wahl von δ und es folgt limn ‖x′n − y′n‖ = 0, also auch limn ‖xn − yn‖ = 0 .(b) =⇒ (a) Ist X nicht gleichmäßig konvex, dann gibt es ε > 0 und Folgen (xn)n∈N, (yn)n∈Nmit

‖xn‖ = ‖yn‖ = 1, ‖xn − yn‖ ≥ ε, ‖12(xn + yn)‖ ≥ 1− 1/n, n ∈ N .

Damit ist limn ‖12(xn + yn)‖ = 1, und (b) ist nicht wahr.

Ein Hauptergebnis zur geometrischen Struktur von Banachräumen ist das folgende Resultat,das wir ohne Beweis angeben wollen (Siehe etwa [7]).

Satz 2.75 (Milman (1938)-Pettis (1939)) Jeder gleichmäßig konvexe Banachraum istreflexiv.

43

Page 54: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 2.76 (Approximationssatz) Sei X ein Banachraum, sei z ∈ X und C eine konvexeabgeschlossene Menge. Betrachte damit die Approximationsaufgabe

Gesucht x ∈ C mit ‖z − x‖ = infy∈C

‖z − y‖ .

Dazu gilt:

(a) Ist X strikt konvex, so besitzt diese Aufgabe höchstens eine Lösung.

(b) Ist X reflexiv, so besitzt diese Aufgabe eine Lösung.

(c) Ist X gleichmäßig konvex, so besitzt diese Aufgabe eine eindeutig bestimmte Lösung.

Beweis:Sei a := infy∈C ‖z − y‖ .Zu (a) Seien x, x′ Lösungen der Aufgabe. Dann gilt ‖z − x‖ = ‖z − x′‖ = a . Sei u := 1

2(x+ x′) .Da C konvex ist, ist u ∈ C und daher ‖z− u‖ ≥ a . Mit der Dreiecksungleichung folgt ‖z− u‖ =‖12((z − x) + (z − x′))‖ ≤ a . Also gilt

‖z − x‖ = ‖z − x′‖ = ‖z − u‖ = a .

Also gilt auch ‖12((z−x)+(z−x′))‖ = a und da X strikt konvex ist, folgt ‖(z−x)−(z−x′)‖ = 0,

was x = x′ impliziert. (Man beachte, dass die strikte Konvexität der Einheitskugel sich auf jedeKugel „überträgt“.)Zu (b) Betrachte eine Minimalfolge (xn)n∈N in C: also xn ∈ C, n ∈ N, limn ‖z − xn‖ = a . Einesolche Folge ist beschränkt (‖xn‖ ≤ ‖z − xn‖ + ‖z‖, n ∈ N). Da in einem reflexiven Raum dieKugeln Br schwach folgenkompakt sind (siehe Sätze 2.43 und 2.44), besitzt die Minimalfolgeeine schwach konvergente Teilfolge (xnk

)n∈N: xnk x . Da C als abgeschlossene konvexe Menge

schwach abgeschlossen ist, ist x ∈ C . Ferner gilt ‖z − x‖ ≤ lim infk ‖z − xnk‖ = a (siehe 2.45).

Also ist x eine Lösung.Zu (c) Da X nach Satz 2.75 reflexiv ist, existiert eine Lösung; siehe (b) . Die Eindeutigkeit folgtaus (a) mit Folgerung 2.72.

2.9 Anhang: Stützkegel

Definition 2.77 Sei X ein normierter Raum, sei A ⊂ X, und sei x ∈ A . Ein Kegel C ⊂ Xheißt Stützkegel von A in x, falls A ∩ (x+ C) = x gilt.

Wir wollen nun etwas über die Existenz von Stützkegeln in normierten Räumen aussagen. Da-zu brauchen wir die Vollständigkeit dieser normierten Räume. Diese bedeutet, dass jede Cauchy-folge (bezüglich der Norm) konvergiert. Solche normierten Räume nennt man bekanntlich Ba-nachräume.

Lemma 2.78 Sei X ein Banachraum, sei A ⊂ X abgeschlossen und sei λ ∈ X∗ . Es gelte:

supx∈A

〈λ, x〉 <∞ , ‖λ‖ = 1 .

Dann gilt

∀ γ ∈ (0, 1) ∀x ∈ A∃x0 ∈ A(x0 ∈ x+ C(λ, γ), A ∩ (x0 + C(λ, γ)) = x0)

wobei C(λ, γ) := x ∈ X|γ‖x‖ ≤ 〈λ, x〉 .

44

Page 55: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Sei γ ∈ (0, 1), x ∈ A und setze C := C(λ, γ) . Wir definieren Mengen An und Punkte xn induktiv:

1. x1 := x,A1 := A ∩ (x1 + C)

2. Sei xn+1 ∈ An mit supz∈An〈λ, z〉 < 〈λ, xn+1〉+ n−1, An+1 := A ∩ (xn+1 + C)

Da xn+1 ∈ An ⊂ xn + C gilt, folgt xn+1 + C ⊂ xn + C,An+1 ⊂ A . Sei y ∈ An+1. Dann gilt〈λ, y〉 ≤ supz∈An

〈λ, z〉 und

γ‖y − xn+1‖ ≤ 〈λ, y〉 − 〈λ, xn+1〉 ≤ supz∈An

〈λ, z〉 − 〈λ, xn+1〉 < n−1

Dies zeigtδn := sup

y,u∈An+1

‖y − u‖ ≤ 2γn−1, n ∈ N .

(xn)n∈N ist eine Cauchyfolge, denn für m ≥ n > 1 gilt

xm, xn ∈ An, ‖xm − xn‖ ≤ 2γ(n− 1)−1 .

Also gibt es x0 ∈ X mit x0 = limn xn . Wegen An+1 ⊂ An ⊂ A,n ∈ N, der Abschätzung für δnund da A abgeschlossen ist, gilt:

x0 ∈ A, x0 ∈ A1 = A ∩ (x+ C), x0 ∈ An, n ∈ N,

∩n∈NAn = x0, A ∩ (x0 + C) ⊂ A ∩ (An + C) ⊂ A ∩An ⊂ An .

Also gilt x0 ∈ x+ C,A ∩ (x0 + C) = ∩n∈NAn = x0 .

Lemma 2.79 Sei X ein Banachraum, sei A ⊂ X abgeschlossen, konvex, nichtleer, sei λ ∈X∗, ‖λ‖ = 1, und sei ε > 0, x ∈ A . Es gelte:

supz∈A

〈λ, z〉 ≤ 〈λ, x〉+ ε .

Dann gilt

∀ γ ∈ (0, 1)∃φ ∈ X∗ ∃x ∈ A(〈φ, x0〉 = supu∈A

〈φ, u〉 , ‖x0 − x‖ ≤ γ−1ε, ‖φ− λ‖ ≤ γ)

Beweis:Sei γ ∈ (0, 1) . Nach Lemma 2.78 gibt es x0 ∈ A mit

x0 ∈ x+ C,A ∩ (x0 + C) = x0,

wobei C := C(λ, γ) ist. Sei f(z) := γ‖z‖ − 〈λ, z〉, z ∈ X, und definiere

B := (z, 0) ∈ X × R|x0 + z ∈ A , A1 := (z, r) ∈ X × R|f(z) < r .

Dann giltA1 ∩B = ∅, A1, B konvex, int(A1) = A1 6= ∅ .

Nach Satz 2.21 gilt:

∃ (ψ, q) ∈ X∗ × R\θ, 0)∃α ∈ R∀ (z, r) ∈ A1, (y, 0) ∈ B(〈ψ, z〉+ qr < α ≤ 〈ψ, y〉)

Wegen (θ, 0) ∈ B ist α ≤ 0 . Wegen (θ, r) ∈ A1 für alle r > 0 gilt q < 0, α ≥ 0 . Setze φ := q−1ψ.Dann gilt also

〈φ, z〉 > r−1, 〈φ, y〉 ≤ 0 für alle (z, r) ∈ A1, (y, 0) ∈ B .

45

Page 56: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Sei nun w ∈ A beliebig. Dann ist (w − x0, 0) ∈ B und daher 〈φ,w〉 ≤ 〈φ, x0〉 . Dies zeigt〈φ, x0〉 = supw∈A〈φ,w〉 . Da (z, f(z)) ∈ A1 für alle z ∈ X gilt, folgt

〈φ, z〉 ≥ −f(z) = −γ‖z‖+ 〈λ, z〉 für alle z ∈ X .

Dies bedeutet ‖λ− φ‖ ≤ γ . Da x0 − x ∈ C, folgt

γ‖x0 − x‖ ≤ 〈λ, x0 − x〉 ≤ supw∈A

〈λ,w〉 − 〈λ, x〉 ≤ ε .

Bevor wir zum Hauptergebnis dieses Abschnitts kommen, benötigen wir noch den Begriff derDichtheit in einem normiertem Raum.

Definition 2.80 Sei X ein normierter Raum und sei B ⊂ X . Eine Menge A ⊂ X heißt dichtin B, falls B ⊂ A gilt.

Satz 2.81 (Bishop-Phelps,1961) Sei X ein Banachraum und sei A ⊂ X konvex, abgeschlos-sen und nichtleer. Dann ist die Menge der Stützpunkte von A dicht im Rand von A .

Beweis:Sei x im Rand von A, also x ∈ ∂A := A\int(A) . Sei δ > 0 . Wähle z ∈ X\A mit ‖x− z‖ < ε−1δ .Wähle nach Folgerung 2.22 λ ∈ X∗\θ mit supu∈A〈λ, u〉 < 〈λ, z〉 . Wir können o. E. ‖λ‖ = 1annehmen. Dann haben wir

〈λ, z〉 ≤ 〈λ, x〉+ ‖x− z‖, supu∈A

〈λ, u〉 < 〈λ, x〉+ 1

2δ .

Anwendung von Lemma 2.79 mit ε = 12δ, γ = 1

2 ergibt: es existiert x0 ∈ A, φ ∈ X∗ mit

supu∈A

〈φ, u〉 = 〈φ, x0〉, ‖x0 − x‖ ≤ δ, ‖λ− φ‖ ≤ 1

2.

Insbesondere gilt φ 6= θ, da ‖λ‖ = 1 . Daher ist x0 Stützpunkt von A .

Das folgende Beispiel zeigt, dass keine Hoffnung bestehen kann, Satz 2.81 sehr stark zu ver-bessern.

Beispiel 2.82 Wir betrachten den Banachraum l2 der quadratsummierbaren reellen Folgen:

l2 := (xn)n∈N|∑n∈N

x2n <∞ .

Die Norm in l2 ist gegeben durch

‖(xn)n∈N‖ := (∑n∈N

x2n)12 , (xn)n∈N ∈ l2 .

Bekanntlich ist l2 ein vollständiger normierter Raum, also ein Banachraum. Mehr noch, l2 istsogar ein Hilbertraum bezüglich des Skalarprodukts

〈(xn)n∈N|(yn)n∈N〉 :=∑n∈N

xnyn , (xn)n∈N, (yn)n∈N ∈ l2 .

Daher rührt auch die Bezeichnung Hilbertwürfel für die Menge

A := (xn)n∈N||xn| ≤ n−1, n ∈ N .

Man stellt fest:

46

Page 57: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

1. A ist beschränkt, denn wir wissen∑

n∈N n−2 = 16π .

2. A ist offenbar konvex.

3. A ist folgenkompakt, also kompakt (ohne Beweis).

Nun wollen wir zeigen, dass x := ((2n)−1)n∈N zwar ein Randpunkt von A ist, aber kein Stütz-punkt.Die Tatsache x ∈ ∂A := A\int(A) rechnet man leicht nach.Annahme: x ist Stützpunkt von A . Dann gibt es z 6= θ in l2 mit

supy∈A

〈y|z〉 = 〈x|z〉 .

Dabei haben wir die bekannte Tasache verwendet, dass nach dem Satz von Riesz der Dualrauml∗2 mit l2 über das Skalarprodukt als kanonische Paarung identifiziert werden kann. Wähle nunu ∈ A durch un := sign(zn)n−1, n ∈ N . Dann gilt∑

n∈N|zn|n−1 =

∑n∈N

znun ≤∑n∈N

znxn =1

2

∑n∈N

|zn|n−1 ,

Was einen Widerspruch zur Tatsache z 6= θ belegt.

2.10 Übungen

1.) Sei X ein lokalkonvexer Raum und sei A ⊂ X . Dann sind äquivalent:

(a) A ist absolutkonvex.(b) A ist konvex und tV ⊂ V für t = 0 und t = ±1 .

2.) Sei X ein lokalkonvexer Raum und sei U ⊂ X . Betrachte dazu das MinkowskifunktionalpU . Zeige: Ist U offen und absolutkonvex, so gilt U = x ∈ X|pU (x) < 1 .

3.) Sei X ein lokalkonvexer Raum. Zeige:

(a) Ist U eine Umgebung von θ, so gibt es eine Umgebung V von θ mit V + V ⊂ U .

(b) Ist U eine Umgebung von θ, so gibt es eine Umgebung V von θ mit V ⊂ U und Vabgeschlossen.

4.) Sei X ein lokalkonvexer Raum. Wir sagen, dass eine Menge B ⊂ X beschränkt ist, fallses zu jeder Umgebung von θ ein a > 0 gibt mit B ⊂ aV . Zeige:

(a) Sind B1, B2 ⊂ X beschränkt, dann ist auch B1 +B2 beschränkt.(b) Ist B ⊂ X beschränkt, so ist auch der Abschluss B beschränkt.(c) Ist B ⊂ X beschränkt, so ist auch co(B) beschränkt.

5.) Sei X ein normierter Raum und sei A ⊂ X . Zeige A ⊂ aff(A) und schliese darausaff(A) = aff(A) .

6.) Sei X ein normierter Raum und seien A,B ⊂ X . Zeige:

1. Ist A offen, dann ist A+B offen.

2. A ⊂ A+Bε für alle ε > 0 .

3. Es gilt int(A) = A, falls int(A) 6= ∅, A konvex. Ist die Konvexität von A nötig?

7.) Sei X ein normierter Raum und sei H = H(λ, α) eine Hyperebene mit λ ∈ X ′\θ .Zeige: Es ist H abgeschlossen oder H dicht in X , d. h. H = H oder H = X .

47

Page 58: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

8.) Sei X ein normierter Raum und sei H = H(λ, α) eine Hyperebene mit λ ∈ X ′\θ .Zeige: H ist abgeschlossen genau dann, wenn λ ∈ X∗ .

9.) Betrachte in R2 die Mengen

A := x = (x1, x2) ∈ R2|x1 > 0, x2 > 0, x1x2 ≥ 0 , B := x = (x1, x2) ∈ R2|x2 = 0 .

Lassen sich diese Mengen strikt trennen?

10.) Sei X ein normierter Raum und sei λ ∈ X ′\θ . Dann sind äquivalent:

(a) λ ∈ X∗ .

(b) ker(λ) := x ∈ X|〈λ, x〉 = 0 ist abgeschlossen.(c) ker(λ) 6= X .

(d) Es gibt eine Nullumgebung U und m ≥ 0 mit |〈λ, u〉| ≤ m,u ∈ U .

11.) Sei X ein normierter Raum und sei A ⊂ X . Zeige: co(A) = co(A) = co(A) .

12.) Seien y1, . . . , yk ∈ Rn . Zeige: co(y1, . . . , yk) ist eine abgeschlossene Menge im normier-ten Raum Rn .

13.) Seien A,B,C ⊂ Rn mit A + C ⊂ B + C . Zeige A ⊂ B, falls A,B konvex sind, Babgeschlossen C beschränkt ist. Hinweis: Es gilt 2A+ C ⊂ 2B + C .

14.) Sei X ein normierter Raum, seien C,D ⊂ X konvex, C abgeschlossen und C kompakt.Zeige, dass D − C abgeschlossen und konvex ist.

15.) Sei X endlichdimensionaler normierter Raum, sei A ⊂ X abgeschlossen mit int(A) 6= ∅ .Zeige: A ist konvex genau dann, wenn jeder Randpunkt von A ein Stützpunkt von A ist.Man gebe ein Beispiel einer abgeschlossenen Menge A an, die in jedem x ∈ A eineStützhyperebene besitzt, aber nicht konvex ist.

16.) Sei X ein normierter Raum mit dimX = ∞ und seien λ1, . . . , λn ∈ X∗ . Dann existiertein x ∈ X\θ mit 〈λi, x〉 = 0, i = 1, . . . , n .

17.) Sei X ein normierter Raum mit dimX = ∞ . Sei x0 ∈ X und V = Uε,M eine schwacheNullumgebung. Dann enthält x0 + V eine Gerade der Form x0 + ty|t ∈ R .Hinweis: Siehe obige Übungsaufgabe.

18.) Sei X ein normierter Raum und dimX = ∞ . Dann gilt: S1 := B1\B1 ist abgeschlossenin der starken Topologie.

19.) Sei X ein normierter Raum und dimX = ∞ . Dann gilt: Der Abschluss von S1 := B1\B1

in der schwachen Topologie ist B1 .

20.) Sei X ein normierter Raum und dimX = ∞ . Zeige: Das Innere in der schwachen Topo-logie der offenen Kugel B1 ist leer.

21.) Sei X := Rn versehen mit dem euklidischen Skalarprodukt und der damit assoziiertenNorm. Sei A ⊂ Rn abgeschlossen und nichtleer. Zeige: Es gibt ein x0 ∈ A mit

‖x0‖ = inf‖x‖|x ∈ A

Ist x0 stets eindeutig bestimmt?

22.) Sei X normierter Raum und sei A ⊂ X . Zeige: x ∈ X ist Extremalpunkt von co(A)genau dann, wenn x ∈ A und x /∈ co(A\x) .

23.) Sei X normierter Raum und sei A ⊂ X konvex. Zeige: Jede Seite einer Seite von A isteine Seite von A .

48

Page 59: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

24.) Sei X := Rn und A ⊂ X konvex und nichtleer. Zeige:

(1) Ist F eine Seite von A, dann ist F = aff(F ) ∩A .(2) Sind F, F ′ zwei Seiten von A mit F ′ ⊂ F, F ′ 6= F, dann ist dimF ′ < dimF .

(3) Ist F eine Seite von A, dann gilt F ⊂ ∂A .

25.) Sei X normierter Raum, sei A ⊂ X konvex und sei H = H(λ, α) eine Hyperebene mitλ ∈ X∗ . Zeige: Ist A ⊂ H−(λ, α), so ist F := A ∩H(λ, α) eine Seite von A .

26.) Sei A der Einheitswürfel in R4, d. h.

A := x = (x1, . . . , x4) ∈ R4| |xi| ≤ 1, i = 1, . . . , 4 .

Bestimme alle Seiten von A .

27.) Sei X ein normierter Raum, seien C,D ⊂ X konvex, C abgeschlossen, D kompakt undes gelte C ∩D = ∅ . Zeige: Es gibt λ ∈ X∗\θ mit

infx∈D

〈λ, x〉 > supy∈C

〈λ, y〉 .

28.) Zeige: W := x = (x1, . . . , xn) ∈ Rn| |xi| ≤ 1, i = 1, . . . , n ist ein Polytop mit 2n

Extremalpunkten.

29.) Sei X ein normierter, gleichmäßig konvexer Raum, sei x ∈ X und (xn)n∈N eine Folge. Esgelte: lim supn ‖xn‖ ≤ ‖x‖, xn x . Dann gilt xn −→ x .

30.) Sei X ein normierter Raum und (λn)n∈N . Zeige: Konvergiert (λn)n∈N bezüglich derσ(X∗, X∗∗)-Topologie, dann konvergiert sie auch bezüglich der schwach∗-Topologie.

31.) Sei X := c0 der Raum der reellen Nullfolgen, normiert als Teilraum von l∞ . Wir wis-sen: X∗ = l1, X

∗∗ = l∞ . Zeige für die Folge der Einheitsfolgen (ek)k∈N ⊂ l1: (ek)k∈Nkonvergiert schwach∗ gegen θ, aber sie konvergiert nicht schwach gegen θ .

32.) Sei X ein normierter, gleichmäßig konvexer Raum, sei x ∈ X und (xn)n∈N eine Folge. Esgelte: limn ‖xn + x‖ = 2‖x‖ . Dann gilt xn −→ x .

2.11 Bibliographische und historische Anmerkungen

Lokalkonvexe Räume werden in (fast) jedem Buch über lineare Funktionalanalysis dargestellt,ebenso die Grundzüge der Hilbertraumtheorie; siehe etwa [4, 5, 7].

Bishop und Phelps haben gezeigt, dass in einem reellen normierten Raum X, der vollstän-dig ist, die Menge der Stützfunktionale jeder nichtleeren abgeschlossenen beschränkten konvexenTeilmenge von X in X∗ dicht ist. Halten wir fest, dies ist ein Result für reelle Banachräume. Hierliegt nun die Frage nahe, ob das Resultat auch für komplexe Banachräume (der Skalarraum istC!) gilt. Dies wurde 1998 negativ beschieden von Lomonosov (siehe [6] und [1]). Dieses negativeResult ist eine Konsequenz der Tatsache, dass dort ein Beispiel einer nichtleeren abgeschlosse-nen beschränkten konvexen Teilmenge in einem komplexen Banachraum angegeben wird, derenStützpunktmenge leer ist.

Wir wissen, dass R2 reflexiv ist, unabhängig von der gewählten Norm. Da die l1-Norm inR2 nicht gleichmäßig konvex ist, haben wir also ein Beispiel eines reflexiven Raumes, in dem esäquivalente Normen gibt, von denen eine nicht gleichmäßig konvex ist. Diese Aussage lässt sichnoch verschärfen: Nach einem Resultat von M.M. Day gibt es einen separablen, reflexiven, striktkonvexen Banachraum, der zu keinem gleichmäßigem Banachraum isomorph ist; siehe [3].

49

Page 60: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Literaturverzeichnis

[1] R. Aron and V. Lomonosov. After the Bishop-Phelps Theorem. Acta et CommentationesUniversitatis Tartuensis de Mathematica, 18:39–49, 2014.

[2] J. Baumeister. Funktionalanalysis. Goethe–Universität Frankfurt/Main, 2013. Skriptumeiner Vorlesung.

[3] M. Day. Reflexive Banach spaces not isomorphic to uniformly convex spaces. Bull. Amer.Math. Soc., pages 313–317, 1941.

[4] F. Hirzebruch and W. Scharlau. Einführung in die Funktionalanalysis. BibliographischesInstitut, 1970.

[5] W. Kaballo. Grundkurs Funktionalanalysis. Spektrum/Akademischer Verlag, Heidelberg,2010.

[6] V. Lomonosov. A counterexample to the Bishop-Phelps Theorem in complex spaces. IsraelJ. Math., 115:25–28, 2000.

[7] D. Werner. Funktionalanalysis. Springer, 2002.

50

Page 61: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Kapitel 3

Konvexe Funktionen

Nun betrachten wir Funktionen, die im Zentrum der konvexen Analysis sind. Wir stützen unsdabei darauf, dass wir die konvexen Mengen schon ziemlich extensiv mit ihren Eigenschaftenstudiert haben. Hauptergebnisse sind Existenzergebnisse und ein Dualitätssatz, der für konvexeOptimierungsaufgaben von großer Bedeutung ist.

3.1 Definition und einfache Eigenschaften

Wir schreiben [−∞,∞] für R ∪ −∞,∞ und etwa entsprechend (−∞,∞] für R ∪ ∞ . In(−∞,∞] rechnen wir so: r +∞ = ∞, r ∈ R, und ∞+∞ = ∞ .

Sei X ein reeller Vektorraum, D ⊂ X, f : D −→ (−∞,∞] . Bezeichnungen:

D Definitionsbereich von fdom(f) := x ∈ D|f(x) <∞ Effektiver Definitionsbereich von f

epi(f) := (x, r) ∈ D × R|f(x) ≤ r Epigraph von f

Nr(f) := x ∈ D|f(x) ≤ r (Sub-)Niveaumenge von f mit Niveau r

Im Allgemeinen können wir als Definitionsbereich D den ganzen Raum X annehmnen, da wirja die Möglichkeit haben,f außerhalb D mit ∞ fortzusetzen. Diese Fortsetzung ist motiviert vonder Erwartung, dass wir f minimieren wollen.

Die Zweckmäßigkeit, den Wert ∞ bei f zuzulassen, wird auch deutlich bei Optimierungsauf-gaben mit Nebenbedingungen. Hier ist ein erster Hinweis: Ist etwa die Aufgabe

Minimiere f(x) unter den Nebenbedingungen x ∈ K

mit dem Optimierungskriterium f und der Restriktionsmenge K ⊂ X vorgelegt, so kannman die folgende äquivalente Aufgabe ohne Nebenbedingungen formulieren:

Minimiere f(x) für x ∈ X ,

wobei

f(x) := f(x) + δK(x) , δK(x) :=

0 , x ∈ K

∞ , x /∈ K

Die Funktion δK heißt die charakteristische Funktion (der konvexen Analysis) von K .

Definition 3.1 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] .

51

Page 62: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(a) f heißt eigentlich, falls dom(f) 6= ∅ .

(b) f heißt abgeschlossen, falls epi(f) abgeschlossen in X × R ist.

(c) f heißt konvex, falls epi(f) konvex ist.

Lemma 3.2 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] . Dann gilt:

1. f ist konvex genau dann, wenn gilt:

f(tx+ (1− t)x′) ≤ tf(x) + (1− t)f(x′) für alle x, x′ ∈ X, t ∈ [0, 1],

2. dom(f) ist konvex, falls f konvex ist.

3. Nr(f) ist konvex für alle r ∈ R, falls f konvex ist.

Beweis:Dies lässt sich leicht nachrechnen.

Ist f : X −→ (−∞,∞] und Nr(f) konvex für alle r ∈ R , so folgt daraus nicht notwendiger-weise, dass f konvex ist, wie etwa folgendes Beispiel f : R 3 x 7−→ |x|

12 ∈ R zeigt.

Definition 3.3 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] . f heißt strengkonvex, falls gilt:

f(tx+ (1− t)x′) < tf(x) + (1− t)f(x′) für alle x, x′ ∈ X,x 6= x′, t ∈ (0, 1) .

Beispiel 3.4

In R sind die Funktionen x 7−→ |x| und x 7−→ 12x

2 konvex, letztere sogar streng konvex.Jede Norm in einem normiertem Raum ist konvex, die Norm in einem Hilbertraum ist sogar

strikt konvex.In Rn ist die Abbildung x 7−→ 〈x|Qx〉 := xtQx konvex, wenn Q symmetrisch und positiv

semidefinit ist.

Definition 3.5 Sei X ein normierter Raum, sei f : X −→ (−∞,∞] und sei x ∈ X . Dannheißt f unterhalbstetig in x falls gilt:

∀ ε > 0 ∃ δ > 0∀ y ∈ Bδ(x) (f(y) ≥ f(x)− ε) , falls f(x) <∞∀N ∈ N∃ δ > 0∀ y ∈ Bδ(x) (f(y) ≥ N) , falls f(x) = ∞

f heißt unterhalbstetig, falls f unterhalbstetig in jedem x ∈ X ist.

Damit haben wir eine ε − δ-Definition der Unterhalbstetigkeit gegeben. Die Folgendefinitionkann man dem folgenden Lemma entnehmen.

Lemma 3.6 Sei X ein normierter Raum, sei f : X −→ (−∞,∞ . Es sind äquivalent fürx ∈ X:

(a) f ist unterhalbstetig in x .

(b) Ist (xn)n∈N eine Folge in X mit x = limn xn, so gilt: f(x) ≤ lim infn f(xn) .

52

Page 63: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Zu (a) =⇒ (b) Sei etwa f(x) < ∞, der Fall f(x) = ∞ ist analog zu behandeln. Sei (xn)n∈Neine Folge in X mit x = limn xn . Sei ε > 0 . Wähle dazu δ > 0 gemäß (a) . Dann gibt esN ∈ N mit xn ∈ Bδ(x) für alle n ≥ N . Also ist f(xn) > f(x) − ε für alle n ≥ N . Dann istlim infn f(xn) ≥ f(x)− ε und da ε > 0 beliebig ist, haben wir lim infn f(xn) ≥ f(x) .Zu (b) =⇒ (a) Folgt aus einem Widerspruchsbeweis in ganz offensichtlicher Weise.

Offenbar gelten auch für unterhalbstetige die üblichen Rechenregeln, etwa: f + g ist unter-halbstetig in x, falls f und g unterhalbstetig in x sind. Beachte aber, dass af im allgemeinen nurunterhalbstetig in x ist, falls f unterhalbstetig in x und a > 0 ist. Ist U eine offene Teilmenge ineinem normierten Raum, dann ist χU unterhalbstetig.

Lemma 3.7 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] . Dann sind äquivalent:

(a) epi(f) ist abgeschlossen.

(b) Nr(f) ist abgeschlossen für alle r ∈ R .

(c) f ist unterhalbstetig.

Beweis:Zu (a) =⇒ (b) Sei r ∈ R . Sei (xn)n∈N eine Folge in Nr(f) mit limn x

n = x . Dann gilt(xn, r) ∈ epi(f) für alle n ∈ N und (x, r) = limn(x

n, r) in X × R . Da epi(f) abgeschlossen ist,gilt (x, r) ∈ epi(f), also f(x) ≤ r und damit x ∈ Nr(f) .Zu (b) =⇒ (a) Sei (xn, rn)n∈N eine Folge in epi(f) mit (x, r) = limn(x

n, rn) . Sei ε > 0 . Danngibt es ein N ∈ N, so dass

rn ≤ r + ε, f(xn) ≤ rn ≤ r + ε, xn ∈ Nr+ε(f), n ≥ N .

Mit (b) erhalten wirdx = lim

nxn ∈ Nr+ε(f) , d. h. f(x) ≤ r + ε .

Da ε > 0 beliebig ist, folgt f(x) ≤ r und daher (x, r) ∈ epi(f) .Zu (a) =⇒ (c) Sei x ∈ X und (xn)n∈N eine Folge mit x = limn xn . Dann ist (xn, f(xn)) ∈ epi(f)für alle n ∈ N . Sei r := lim infn f(xn) . Ist r = ∞, dann ist offenbar f(x) ≤ r = lim infn f(xn), . Sei nun r < ∞ . Es gibt eine Teilfolge (xnk

)k∈N mit limk f(xnk) = r . Dann ist (x, r) =

limk(xnk, f(xnk

)) ∈ epi(f) . Also f(x) ≤ r .Zu (c) =⇒ (b) Sei r ∈ R und (xn)n∈N eine Folge mit x = limn xn und xn ∈ Nr(f), n ∈ N . Dannist f(xn) ≤ r, n ∈ N, und daher f(x) ≤ lim infn f(xn) ≤ r, also x ∈ Nr(f) .

Definition 3.8 Sei X normierter Raum und sei f : X −→ (−∞,∞] . f heißt schwachfolgenunterhalbstetig in x, falls gilt:

Aus xn x folgt f(x) ≤ lim infn

f(xn) .

f heißt schwach folgenunterhalbstetig, falls f schwach folgenunterhalbstetig ist in jedemx ∈ X .

Wie wir aus 2.34 wissen ist die Norm in einem Banachraum schwach unterhalbstetig. WeitereBeispiele werden wir noch kennenlernen.

Lemma 3.9 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] konvex. Es sind äquiva-lent:

53

Page 64: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(a) f ist schwach folgenunterhalbstetig.

(b) epi(f) ist abgeschlossen.

(c) Nr(f) ist abgeschlossen für alle r ∈ R .

Beweis:Wegen Lemma 3.7 haben wir nur (a) ⇐⇒ (b) zu zeigen.Zu (a) =⇒ (b) Offenbar ist f unterhalbstetig (siehe Lemma 2.34 (2)). Wende nun Lemma 3.7an.Zu (b) =⇒ (a) Sei x ∈ X und (xn)n∈N mit xn x . epi(f) ist abgeschlossen und da f konvexist, ist epi(f) konvex und daher auch schwach abgeschlossen (siehe Satz 2.35). Dann gibt es eineTeilfolge von (xnl

, f(xnl))l∈N mit (xnl

, f(xnl)) (x, r) mit r := lim infn f(xn) . Daraus folgt

(x, r) ∈ epi(f) und daher f(x) ≤ lim infn f(xn) .

Hüllenbildung ist auch für Funktionen möglich. Sei f : X −→ (−∞,∞] .

f f(x) := lim infy→x

f(x) (Unterhalbstetige Einhüllende)

con(f) con(f)(x) := supg(x)|g ≤ f, g konvex (Konvexe Einhüllende)

con(f) con(f) := con(f) (Unterhalbstetige konvexe Einhüllende)

3.2 Existenzergebnisse

Definition 3.10 Sei X normierter Raum und sei f : X −→ (−∞,∞] . Betrachte die Aufgabe

(OP ) Gesucht x ∈ X mit f(x) = infx∈X

f(x) (3.1)

x ∈ X heißt globales Minimum in (OP ), falls

f(x) ≥ f(x) für alle x ∈ X .

x ∈ X heißt lokales Minimum in (OP ), falls es ein r > 0 gibt mit

f(x) ≥ f(x) für alle x ∈ Br(x) .

x ∈M heißt striktes lokales Minimum in (OP ), falls es ein r > 0 gibt mit

f(x) > f(x) für alle x ∈ Br(x)\x .

Beachte: Dadurch, dass wir bei der Funktion f den Wert ∞ zulassen, haben wir implizit Ne-benbedingungen eingearbeitet. Konkretisierungen dieser Aufgabe betrachten wir im nächstenKapitel. Unser Fokus liegt darin, die Aufgabe (OP ) für den Spezialfall „f konvex“ zu untersu-chen.

Satz 3.11 Sei X normierter Raum und sei f : X −→ (−∞,∞] konvex. Betrachte damit dasOptimierungsproblem (OP ) . Dann gilt:

(1) Jedes lokale Minimum ist ein globales Minimum.

(2) Die Menge der globalen Minima (Lösungen) ist konvex.

54

Page 65: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

d) Ist f strikt konvex, dann hat (OP ) höchstens ein globales Minimum.

Beweis:Zu (1)Sei x ein lokales Minimum, d. h. für ein r > 0 gilt: f(x) ≥ f(x) für alle x ∈ Br(x) . Annahme: x seikein globales Minimum. Dann gibt es y ∈ X mit f(y) < f(x). Sei t ∈ (0, 1] und xt := ty+(1−t)x.Aus der Konvexität von f folgt: f(xt) ≤ tf(y) + (1− t)f(x) < f(x). Für genügend kleine t > 0gilt aber xt ∈ Bt(x), was einen Widerspruch ergibt.Zu (2).Seien x, y zwei globale Minima in (OP ). Sei t ∈ (0, 1) und xt := tx + (1 − t)y. Dann giltf(xt) ≤ tf(x) + (1 − t)f(y) = f(x). Da x eine Lösung ist, muss f(xt) = f(x) gelten und xt istalso auch Lösung.Zu (3)Da zu zwei Lösungen auch die Konvexkombination eine Lösung ist (siehe (2)), folgt aus derstrikten Konvexität sofort, dass es nicht zwei verschiedene Lösungen geben kann.

Dis Aussage (1) aus Satz 3.11 ist insbesondere bei der Anwendung von Verfahren zur Be-rechnung von Lösungen in (OP ) von großem Wert: man hat nur nach lokalen Minima zu suchenund kann daher lokal arbeitende Verfahren anwenden, wenn man schon eingrenzen kann, wo einlokales Minimum liegt.

Kommen wir nun zu Existenzaussagen zur Optimierungsaufgabe (OP ) .

Satz 3.12 Sei X ein normierter Raum und sei f : X −→ (−∞,∞], dom(f) 6= ∅ . Betrachtedamit die Optimierungsaufgabe (OP ) . Es gelte:

Nr(f) ist kompakt für alle r ∈ R . (3.2)

Dann ist f nach unten beschränkt und (OP ) besitzt eine Lösung.

Beweis:Im normierten Raum wissen wir, dass Kompaktheit der Folgenkompaktheit entspricht. Setzea := infx∈X f(x) ∈ [−∞,∞) . Sei (xn)n∈N eine Minimalfolge, also limn f(xn) = a . Sei r > a .Dann liegt die Folge fast ganz in Nr(f) und enthält daher eine konvergente Teilfolge mit einemGrenzwert x ∈ Nr(f) . Da r > a beliebig ist, folgt f(x) ≤ a . Dies zeigt a > −∞ und f ist nachunten beschränkt.

Wenn f die Bedingung (3.2) erfüllt, dann ist Nr(f) abgeschlossen für alle r ∈ R, also funterhalbstetig. Unterhalbstetigkeit bezüglich einer Topologie ist umso leichter zu erfüllen, jefeiner die Topologie ist. Andererseits, Kompaktheit kann umso leichter erfüllt werden, wennsie sich auf eine gröbere Topologie bezieht. Diesen Sachverhalt hat man bei Existenzsätzen fürOptimierungsaufgaben im Auge zu behalten. In unserem Kontext bleibt nicht viel Spielraum, dawir uns ja von vorneherein in normierten Räumen bewegen wollen. Der nächste Satz nutzt dieschwache Topologie in einem normierten Raum.

Satz 3.13 Sei X ein normierter Raum und sei f : X −→ (−∞,∞], dom(f) 6= ∅ . Betrachtedamit die Optimierungsaufgabe (OP ) . Es gelte:

Nr(f) ist schwach folgenkompakt, 6= ∅ für ein r ∈ R, f schwach folgenunterhalbstetig (3.3)

Dann ist f nach unten beschränkt und (OP ) besitzt eine Lösung.

55

Page 66: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Sei a := infx∈X f(x) ∈ [−∞,∞) . Offenbar a ≤ r . Ist ‘a = r, dann sind alle x ∈ Nr(f)Lösungen und f ist nach unten beschränkt. Sei nun a < r . Sei (xn)n∈N eine Minimalfolge, alsolimn f(xn) = a . Dann gilt xn ∈ Nr(f) für fast alle n ∈ N . Damit enthält (xn)n∈N eine schwachkonvergente Teilfolge (xnk

)k∈N mit einem Grenzwert x ∈ Nr(f) . Da f schwach unterhalbstetigist, gilt f(x) ≤ lim infk f(xnk

) = a . Dies zeigt a > −∞ und f ist nach unten beschränkt.

Bisher haben wir bei den Voraussetzungen Kompaktheitsbedingungen formuliert. Nun wollenwir etwas einfacher zu verifizierende Bedingungen formulieren, in der Konsequenz sind aberwieder Kompktheitsaussagen versteckt.

Satz 3.14 Sei X ein reflexiver Banachraum und sei f : X −→ (−∞,∞] konvex,dom(f) 6= ∅ .Betrachte damit die Optimierungsaufgabe (OP ) . Es gelte:

f ist koerziv, d. h. lim‖x‖→∞

f(x) = ∞ . (3.4)

f ist schwach folgenunterhalbstetig (3.5)

Dann ist f nach unten beschränkt und (OP ) besitzt eine Lösung.

Beweis:Setze a := infx∈X f(x) ∈ [−∞,∞) . Wähle eine Minimalfolge (xn)n∈N mit limn f(xn) = a . Da fkoerziv ist, ist die Folge (xn)n∈N beschränkt. Da X reflexiv ist, besitzt diese Folge eine schwachkonvergente Teilfolge. Nun kann man wie im Beseis zu Satz 3.13 fortsetzen.

Definition 3.15 Sei X ein normierter Raum und sei K ⊂ X nichtleer. Die Funktion

X 3 x 7−→ dist(x,K) := infu∈K

‖x− u‖ ∈ R

heißt Distanzfunktion von K .

Satz 3.16 Sei X ein normierter Raum und sei K ⊂ X nichtleer. Es gilt:

1. |dist(x,K)− dist(x′,K)| ≤ ‖x− x′‖ für alle x, x′ ∈ X .

2. dist(·,K) ist konvex, falls K konvex ist.

Beweis:Zu 1. Sei ε > 0. Aus der Definition von dist(x,K) folgt, dass es u ∈ K gibt mit dist(x,K) ≥‖x− u‖ − ε . Dann folgt

dist(x′,K) ≤ ‖x′ − u‖ ≤ ‖x′ − x‖+ ‖x− u‖ ≤ ‖x′ − x‖+ dist(x,K) + ε ,

also dist(x′,K)− dist(x,K) ≤ ‖x′ − x‖+ ε . Da ε > 0 beliebig ist, gilt dist(x′,K)− dist(x,K) ≤‖x′ − x‖ . Eine Vertauschung von x′, x ergibt das Resultat.Zu 2. Seien x, x′ ∈ X, t ∈ [0, 1] . Für u ∈ K gilt

‖tx+ (1− t)x′ − u‖ ≤ t‖x− u‖+ (1− t)‖x′ − u‖ .

Infimumbildung bezüglich u ∈ K auf beiden Seiten ergibt

dist(tx+ (1− t)x′,K) ≤ t dist(x,K) + (1− t) dist(x,K) .

56

Page 67: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

3.3 Stetigkeitseigenschaften konvexer Funktionen

Satz 3.17 Sei X ein normierter Raum, sei f : X −→ (−∞,∞] konvex und sei x0 ∈ dom(f) .Dann sind äquivalent:

(a) f ist nach oben beschränkt auf einer Umgebung U von x0 .

(b) f ist stetig in x0 .

Zusatz: Ist eine der Bedingungen (a), (b) erfüllt, dann ist x0 ∈ int(dom(f) .

Beweis:Zu (a) =⇒ (b) Es gelte f(x) ≤ c < ∞ für x ∈ U . O. E. x0 = θ, f(θ) = 0, c > 0, U = Bδ, δ > 0 .Für ε ∈ (0, c) sei Vε := Bεc−1δ . Sei x ∈ Vε. Da cε−1x ∈ Bδ gilt, folgt

f(x) = f(c−1ε · cε−1x+ (1− εc−1)θ) ≤ εc−1f(cε−1x) ≤ ε .

Da −cε−1x ∈ Bδ ist, folgt

0 = f(θ) = f((1 + εc−1)−1x+ εc−1(1 + εc−1)−1)(−cε−1)x)

≤ (1 + εc−1)−1f(x) + εc−1(1 + εc−1)−1f(−cε−1x),

d. h. f(x) ≥ −ε . Also gilt |f(x)| ≤ ε für alle x ∈ Vε . Dies zeigt, dass f stetig ist in θ .Zu (b) =⇒ (a) Klar.Zusatz: Ist Br(x

0) ⊂ U, so ist f auf Br(x0) nach oben beschränkt und damit Br(x

0) ⊂ dom(f) ,also x0 ∈ int(dom(f) .

Lemma 3.18 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] konvex. Sei U ⊂dom(f), U offen und konvex, und sei f nach oben beschränkt in einer Umgebung V eines Punktesx0 ∈ U . Dann gilt:

∀x ∈ U ∃ r > 0∃m > 0∀w ∈ Br(x) (|f(w)| ≤ m)

Beweis:Sei f(x) ≤ c < ∞, x ∈ V . O.E. x0 = θ, f(θ) = 0, c > 0, V = Bδ, δ > 0 . Sei x ∈ U. Wähle t > 1mit y := tx ∈ U . Wir verifizieren die Behauptung mit

r := (1− t−1)δ,m := 2|f(x)|+ (1− t−1)c+ t−1|f(y)| .

Sei w ∈ Br(x), also w = (1− t−1)x′ + t−1y, x′ ∈ Bδ . Da f konvex ist, folgt

f(w) ≤ (1− t−1)f(x′) + t−1f(y) ≤ (1− t−1)c+ t−1|f(y)| ≤ m.

Zu w gibt es w′ ∈ Br(x) mit x = 12(w + w′) . Also f(x) ≤ 1

2f(w) +12f(w

′), d. h.

f(w) ≥ 2f(x)− f(w′) ≥ 2f(x)− (1− t−1)c− t−1|f(y)|≥ −2|f(x)| − (1− t−1)c− t−1|f(y)| = m.

Satz 3.19 (Roberts-Varberg, 1974) Sei X ein normierter Raum und sei f : X −→ (−∞,∞]konvex. Sei U ⊂ dom(f), U offen und konvex, und sei f nach oben beschränkt in einer UmgebungV eines Punktes x0 ∈ U . Dann gilt:

∀x ∈ U ∃ r > 0∃L ≥ 0∀w,w′ ∈ Br(x) (|f(w)− f(w′)| ≤ L‖w − w′‖)

57

Page 68: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Sei x ∈ U . Nach Lemma 3.18 gibt es r > 0 und m > 0 mit |f(w)| ≤ m für alle w ∈ B2r(x) . Wirverifizieren die Behauptung mit r und L := 2mr−1 .Seien w,w′ ∈ Br(x). Sei t := ‖w − w′‖, u := w′ + rt−1(w − w′) ∈ B2r(x) . Dann gilt w′ =r(t+ r)−1w + t(t+ r)−1u und f(w′) ≤ r(t+ r)−1f(w) + t(t+ r)−1f(u), also

f(w′)− f(w) ≤ t(t+ r)−1(f(u)− f(w)) ≤ tr−12m = L‖w − w′‖ .

Da w,w′ vertauscht werden können, ist die Behauptung verifiziert.

Die Aussage von Satz 3.19 können wir, etwas verkürzt, so zusammenfassen: Konvexe Funk-tionen sind im effektiven Definitionsbereich lokal Lipschitzstetig.

Folgerung 3.20 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] konvex. Dann sindäquivalent:

(a) f ist stetig in einem Punkt x0 ∈ dom(f) .

(b) int(epi(f)) 6= ∅ .

(c) int(dom(f)) 6= ∅, f stetig in int(dom(f)) .

Beweis:Zu (a) =⇒ (b) Es gibt δ > 0 mit f(x) ≤ f(x0)+1, x ∈ Bδ(x

0) .Dann istBδ(x0)×[f(x0)+1,∞) ⊂

epi(f), also etwa (x0, f(x0) + 1) ∈ int(epi(f)) .Zu (b) =⇒ (c) Sei (x0, t0) ∈ int(epi(f)) . Dann gibt es r > 0, δ > 0 mit Bδ(x

0)×(t0−r, t0+r) ⊂epi(f) . Also Bδ(x

0) ⊂ dom(f), d. h. x0 ∈ int(dom(f)) . Da Bδ(x0)× (t0− r, t0+ r) ⊂ epi(f) gilt,

ist f auf Bδ(x0) nach oben beschränkt (durch t0 − r). Nach Satz 3.19 ist f stetig in x0 .

Zu (c) =⇒ (a) Klar.

Die Folgerung 3.20 könnte nahelegen, dass jede konvexe Funktion f : X −→ R schon stetigist, da ja int(dom(f)) = X gilt. Dies ist jedoch nicht der Fall, denn wie wir wissen, ist ein λ ∈X ′\X∗ konvex aber nicht immer stetig. Allerdings ist die Situation für ein λ ∈ X∗ vergleichbar:man braucht nur einen Stetigkeitspunkt, um Stetigkeit überall zu bekommen. Andererseits legtdie endlichdimensionale Situation nahe, dass hier jede konvexe Funktion überall stetig, wie diesbei den linearen Funktionalen ist. Etwas allgemeiner gilt:

Satz 3.21 Sei X ein endlichdimensionaler normierter Raum und sei f : X −→ (−∞,∞]konvex. Dann ist f stetig in int(dom(f)) .

Beweis:Sei dimX = n . Sei z ∈ int(dom(f)) . Wähle x0, . . . , xn ∈ X mit θ ∈ S := co(x0, . . . , xn) ⊂int(dom(f)) . Diese Wahl eines Simplexes S ist offenbar möglich. Sei x ∈ S . Dann gilt

x =n∑

i=0

tixi ,

n∑i=0

ti = 1, ti ∈ [0, 1], i = 0, . . . , n .

Dann folgt mit der Konvexität von f

f(x) ≤n∑

i=0

tif(xi) ≤ (

n∑i=0

ti) maxi=0,...,n

f(xi) := c .

Also ist f beschränkt auf der Umgebung S von z . Nach Satz 3.17 ist f stetig in z .

58

Page 69: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 3.22 Sei X ein Banachraum und sei f : X −→ (−∞,∞] konvex und unterhalbstetig.Dann ist f stetig in int(dom(f)) .

Beweis:Sei z ∈ int(dom(f)) . O.E. z = θ und f(θ) = 0; beachte f(z) ist endlich. Sei c > 0 ; Setze

U := x ∈ X|f(x) ≤ c , V = U ∩ (−U) = x ∈ X|f(±x) ≤ c .

U ist konvex, da f konvex ist, U ist abgeschlossen, da f unterhalbstetig ist (siehe 3.7), θ ∈ U .Also ist V abgeschlossen und absolutkonvex und daher auch kreisförmig; siehe 2.7.Betrachte zu x ∈ X gx : R 3 t 7−→ f(tx) ∈ R . Da gx stetig ist in t = 0 (siehe Satz 3.21)und (−c, c) eine Umgebung von gx(0) ist, gibt es δx > 0 mit gx(tx) ∈ (−c, c), t ∈ [−δx, δx] . Diesbedeutet

f([−δxx, δxx]) ≤ c , d. h. [−δxx, δxx] ⊂ U ∩ (−U) = V .

Also ist x ∈ δ−1x V . Wähle k ∈ N mit k − 1 < δ−1

x ≤ k . Da V kreisförmig ist, gilt x ∈ δ−1xk kV .

Dies zeigt X ⊂ ∪k∈NkV . Nun ist der Satz von Baire anwendbar1 und es gibt ein k ∈ N und eineKugel Br(x) mit Br(x) ⊂ kV, d. h. Bk−1r(x) ⊂ V . Also ist f auf Bk−1r(x) nach oben beschränkt(durch c) und f ist stetig in x . Nach Satz 3.20 ist f stetig in int(dom(f)), also insbesondereauch in z = theta .

3.4 Fenchel-Konjugierte

Definition 3.23 Sei X normierter Raum und sei f : X −→ (−∞,∞] . Die Abbildung

f∗ : X∗ −→ [−∞,∞] , f∗(λ) := sup〈λ, x〉 − f(x)|x ∈ X

heißt die zu f konjugierte Funktion oder auch Fenchel-Konjugierte.

Beachte: f∗(λ) > −∞ für alle λ ∈ X∗, falls dom(f) 6= ∅, f∗(λ) = −∞ sonst. Die Bedeutungvon f∗ ergibt sich aus der folgenden Beobachtung:

H := (x, t)|〈λ, x〉 − t = f∗(λ)

ist ein Kandidat für eine Stützhyperebene an epi(f) . Betrachte dazuH((λ,−1), α) und verschiebediese Hyperebene solange, bis epi(f) auf einer Seite von H((λ,−1), α) liegt. Dies geschieht mitα = −f∗(λ) .

Folgerung 3.24 Sei X normierter Raum und sei f : X −→ (−∞,∞] konvex. Dann gilt diefolgende Youngsche Ungleichung:

f(x) + f∗(λ) ≥ 〈λ, x〉 für alle x ∈ X,λ ∈ X∗ . (3.6)

Beweis:Folgt unmittelbar aus der Definition von f∗ .

Beispiel 3.25 Sei g : [0,∞) −→ [0,∞) stetig, strikt monoton wachsend mit g(0) = 0 . Dannist f : R −→ [0,∞), definiert durch

f(x) :=

∫ |x|

0g(s)ds , x ∈ R ,

1Siehe etwa [3, 13])

59

Page 70: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

konvex. Den Beweis dazu überlassen wir dem Leser, später ergibt er sich ganz einfach durchBetrachtung der Ableitung von f . Da g−1 existiert, zeigt eine einfache Rechnung (partielle Inte-gration in einem Stieltjes-Integral)

f∗(y) =

∫ |y|

0g−1(t)dt , y ∈ R .

Die Youngsche Ungleichung kann man dann an einer Skizze der Graphen von g und darausresultierend von f, f∗ als Flächen unter dem Graphen von g bzw. über dem Graphen von gablesen.

Beispiel 3.26 Sei X normierter Raum und sei f : X −→ R definiert als f(x) := 〈µ, x〉+α, x ∈X, mit µ ∈ X∗, α ∈ R . Dann gilt

f∗(λ) =

−α falls λ = µ

∞ sonst

Beispiel 3.27 Sei f : R −→ R definiert als f(x) := 1p |x|

p, x ∈ R, mit 1 < p < ∞ . Dann gilt(beachte R∗ = R)

f∗(y) = supx∈R

(xy − 1

p|x|p) = zy − 1

p|z|p mit z = |y|

1p−1 sign(y) ,

alsof∗(y) = |y|

pp−1 − 1

p|y|

pp−1 =

1

q|y|q mit

1

p+

1

q= 1 .

Beispiel 3.28 Sei X normierter Raum, K ⊂ X, und sei f := δK . Dann gilt

f∗(λ) = (δK)∗(λ) = supx∈K

〈λ, x〉 = σK(λ) , λ ∈ X∗ ,

mit der Stützfunktion σK ; siehe Anhang 3.6.

Beispiel 3.29 Sei X normierter Raum und sei f : X −→ R, definiert als f(x) := ‖x‖, x ∈ R .Dann gilt

f∗(λ) = supx∈X

〈λ, x〉 − ‖x‖ = δB1(λ) , λ ∈ X∗ .

Beispiel 3.30 Sei X ein Hilbertraum mit Skalarprodukt 〈·|·〉 und sei f : X −→ R, definiert alsf(x) := 1

2‖x‖2, x ∈ R . Dann gilt (bei Identifizierung von X∗ mit X):

f∗(y) = supx∈X

〈y|x〉 − 1

2‖x‖2 =

1

2‖x‖2 , y ∈ X .

Sei X ein normierter Raum. Wir setzen

Φ(X) := f : X −→ (−∞,∞]|f konvex, unterhalbstetig, dom(f) 6= ∅ .

Die Funktionen in Φ(X) sind die konvexen Funktionen, die „interessante Ergebnisse“ zulassen.

60

Page 71: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 3.31 Sei X normierter Raum und sei f ∈ Φ(X) . Dann gilt f∗ ∈ Φ(X∗) .

Beweis:(1) Wir wissen dom(f) 6= ∅ .Sei x0 ∈ dom(f) . Dann gilt für λ ∈ X∗ f∗(λ) ≥ 〈λ, x0〉 − f(x0) > −∞, also f∗ : X∗ −→(−∞,∞] .(2) f∗ ist punktweises Supremum der affinen und stetigen Funktionen λ 7−→ 〈λ, x〉 − f(x),daher konvex und unterhalbstetig.(3) Sei x0 ∈ dom(f) . Da epi(f) nach Voraussetzung abgeschlossen und konvex ist und da(x0, f(x0)− 1) /∈ epi(f) gilt, gibt es (λ, α) ∈ X∗ × R\(θ, 0) mit

sup〈λ, x〉+ αt|(x, t) ∈ epi(f) < 〈λ, x0〉+ α(f(x0)− 1) .

Es ist α 6= 0, da (x0, f(x0)) ∈ epi(f) , ja sogar α < 0 . Also können wir o. E. annehmen α = −1 .Dann gilt

sup〈λ, x〉 − t|(x, t) ∈ epi(f) = sup〈λ, x〉 − f(x)|x ∈ dom(f)= f∗(λ) < 〈λ, x0〉 − f(x0) + 1 < ∞ .

Also dom(f∗) 6= ∅ .

Satz 3.32 Sei X ein normierter Raum und sei f : X −→ (−∞,∞] konvex und unterhalbstetig.Dann gilt:

f(x) = sup〈ρ, x〉+ s|(ρ, s) ∈ Af, x ∈ X, (3.7)

wobei Af := (ρ, s) ∈ X∗ × R| 〈ρ, y〉+ s ≤ f(y) für alle y ∈ X .

Beweis:1. Fall: dom(f) = X .Sei x ∈ X und r < f(x). Dann gilt

(x, r) /∈ epi(f) , epi(f) konvex und abgeschlossen

Also gibt es λ ∈ X∗, s ∈ R, (λ, s) 6= (θ, 0), und α ∈ R mit

〈λ, x〉+ sr < α < 〈λ, z〉+ st für alle (z, t) ∈ epi(f) .

Mit (z, t) := (x, f(x)) ∈ epi(f) erhalten wird

〈λ, x〉+ sr < α < 〈λ, x〉+ sf(x) , d. h. 0 < s(f(x)− r) , also s > 0 .

Daraus folgt

r < αs−1 − s−1〈λ, x〉 < f(x) , αs−1 − s−1〈λ, z〉 < t für alle (z, t) ∈ epi(f) .

Sei µ := −s−1λ, q := s−1α . Dann gilt

r < 〈µ, x〉+ q < f(x) , 〈µ, z〉+ q < f(z) für alle z ∈ X . (3.8)

Daraus folgt (µ, q) ∈ Af und damit

f(x) = sup〈ρ, x〉+ s|(ρ, s) ∈ Af .

61

Page 72: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

2. Fall: dom(f) = ∅ Hier ist nichts zu beweisen.3. Fall: dom(f) 6= ∅Sei x ∈ X und r < f(x). Wie oben erhalten wir λ ∈ X∗, s ∈ R, (λ, s) 6= (θ, 0), und λ ∈ R mit

〈λ, x〉+ sr < α < 〈λ, z〉+ st für alle (z, t) ∈ epi(f) .

Sei y ∈ X mit f(y) <∞ . Dann folgt

α− 〈λ, y〉 < st für alle t mit f(y) ≤ t .

Daraus folgt s ≥ 0 . Ist s > 0, so können wir wie im 1. Fall fortfahren. Sei nun s = 0. Dann gilt

α− 〈λ, x〉 > 0 , α− 〈λ, z〉 < 0 für alle z ∈ dom(f) . (3.9)

Da f(y) < ∞ gilt, ist nach der Betrachtung des 1. Falls Af 6= ∅. Wähle (µ, s) ∈ Af . Aus (3.9)folgt f(x) = ∞ . Ferner

〈µ, z〉+ s+ t(α− 〈λ, x〉) < f(z) für alle z ∈ X

für jedes t > 0 . Wähle t so groß, dass

〈µ, x〉+ st(α− 〈λ, x〉) < r .

Setze ρ := µ− tλ, q := s+ tα. Dann gilt

r < 〈ρ, x〉+ q < f(x) , 〈ρ, z〉+ q < f(z) für alle z ∈ X

Damit erhalten wir wiederum (ρ, q) ∈ Af und damit

f(x) = sup〈ρ, x〉+ s|(ρ, s) ∈ Af .

Definition 3.33 Sei X normierter Raum und sei f : X −→ (−∞,∞] . Die Abbildung

f∗∗ : X −→ [−∞,∞] , f∗∗(x) := sup〈λ, x〉 − f∗(λ)|λ ∈ X ,

heißt doppelt konjugierte Funktion.

Folgerung 3.34 Sei X normierter Raum und sei f : X −→ (−∞,∞] . Dann gilt

f∗∗ ≤ f , d. h. f∗∗(x) ≤ f(x) für alle x ∈ X .

Beweis:Sei x ∈ X . Es ist f∗∗(x) = sup〈λ, x〉−f∗(λ)|λ ∈ X∗ ≤ f(x) da für alle λ ∈ X∗ f(x)+f∗(λ) ≥〈λ, x〉 .

Folgerung 3.35 Sei X normierter Raum und sei f ;X −→ (−∞,∞] . Dann gilt f∗∗∗ = f∗ .

Beweis:Wir wissen f∗∗ ≤ f . Daraus folgt f∗ ≤ f∗∗∗ . Wegen f∗∗(x) ≥ 〈λ, x〉 − f∗(λ), x ∈ X,λ ∈ X∗,folgt

f∗∗∗(λ) = supx∈X

(〈λ, x〉 − f∗∗) ≤ f∗(λ) , λ ∈ X∗ .

62

Page 73: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Satz 3.36 Sei X normierter Raum und sei f ∈ Φ(X) . Dann gilt f = f∗∗ .

Beweis:Wir wissen schon f∗∗ ≤ f . Ferner wissen wir aus Satz 3.32

f(x) = sup〈ρ, x〉 − s|(ρ, s) ∈ Af, x ∈ X,

wobei Af := (ρ, s) ∈ X∗ × R| 〈ρ, y〉 − s ≤ f(y) für alle y ∈ X .Sei (ρ, s) ∈ Af . Offenbar gilt

〈ρ, y〉 − f(y) ≤ s ⇐⇒ f∗(ρ) = supy∈X

(〈ρ, y〉 − f(y)) ≤ s .

Alsof(x) = sup〈ρ, x〉 − s|(ρ, s) ∈ Af = sup

ρ∈X∗(〈ρ, x〉 − f∗(ρ)) = f∗∗(x), x ∈ X .

Satz 3.37 (Fenchel, 1949, Moreau, 1963) Sei X normierter Raum, f : X −→ (−∞,∞]konvex und sei dom(f) 6= ∅ . Dann sind äquivalent:

(a) f ist unterhalbstetig.

(b) f∗∗ = f .

Beweis:(a) =⇒ (b) Siehe Satz 3.36.(b) =⇒ (a) Aus der Darstellung von f∗∗ folgt, dass Nr(f

∗∗) konvex und σ(X,X∗)-abgeschlossenist für alle r ∈ R . Also ist nach Satz 2.35 Nr(f) abgeschlossen für alle r ∈ R . Nach Folgerung3.7 ist f unterhalbstetig.

Bemerkung 3.38 Für f : X −→ (−∞,∞] gilt also stets:

f∗∗ ≤ f, f∗∗ ist konvex und unterhalbstetig

Man kann f∗∗ als diejenige konvexe unterhalbstetige Funktion ansehen, die sich von unten ambesten an f anschmiegt und damit eine konvexe unterhalbstetige Einhüllende darstellt.

Lemma 3.39 Sei X normierter Raum und sei K ⊂ X nichtleer. Dann gilt:

1. σK = δ∗K .

2. σ∗K = δK , falls K konvex und abgeschlossen ist.

Beweis:Zu 1. Siehe Beispiel 3.28.Zu 2. Ist K nichtleer, konvex und abgeschlossen, so gilt σK ∈ Φ(X). Also ist nach Satz 3.37δK = δ∗∗K = σ∗K .

Satz 3.40 Sei X normierter Raum, sei σ ∈ Φ(X∗) und sei σ positiv homogen, d. h. σ(rλ) =rσ(λ) für alle λ ∈ X∗, r ∈ [0,∞) . Dann gilt σ = σK mit

K = x ∈ X|〈λ, x〉 ≤ σ(λ) für alle λ ∈ X∗ .

63

Page 74: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Da σ positiv homogen ist, erhalten wir

σ∗(x) = sup〈λ, x〉 − σ(λ)|λ ∈ X∗ = δK .

Also gilt σ∗ = δK und daher σ = σ∗∗ = δ∗K = σK .

Bemerkung 3.41 Den Sachverhalt aus Satz 3.40 kann man sehr erfolgreich nutzen: statt Men-gen K kann man Funktionen σK studieren (Anwendungen: Mengenwertige Abbildungen und Se-lektoren, Approximation von Mengen).

Satz 3.42 Sei X normierter Raum und sei f : X −→ (−∞,∞] . Dann ist f∗ schwach∗-folgenunterhalbstetig.

Beweis:Sei (λn)n∈N eine Folge inX∗ mit λn

∗ λ . Sei ε > 0 .Wähle xε ∈ X mit f∗(λ)−ε ≤ 〈λ, xε〉−f(xε)

(Definition von f∗). Dann gilt

f∗(λ)− ε ≤ 〈λ, xε〉 − f(xε) = limn(〈λn, xε〉 − f(xε))

≤ lim infn

supx∈X

(〈λn, x〉 − f(x)) = lim infn

f∗(λn)

Da ε > 0 beliebig ist, folgt f∗(λ) ≤ lim infn f∗(λn) .

3.5 Dualitätssatz

Nun kommen wir zu einem ersten bedeutenden Resultat der Optimierungstheorie im Rahmender konvexen Analysis, nämlich zum Dualitätssatz. Er bezieht sich auf ein Paar von Optimie-rungsaufgaben, die in enger Beziehung zueinander stehen. Später werden wir im Rahmen derDifferenzierbarkeit von konvexen Funktionen auf dieses Paar zurückkommen.

Wir wollen folgendes Problem betrachten:

(P) Minimiere p(x) := f(x)− g(x) , x ∈ X (3.10)

Dabei ist X ein normierter Raum und f,−g : X −→ (−∞,∞] sind konvex. Die Aufgabenstel-lung als f − g ist einer gewissen Symmetrie, wie wir noch sehen werden, geschuldet. Im Augehaben wir die Aufgabenstellung insbesondere für f,−g ∈ Φ(X) . Eine Funktion g, deren Negati-ves −g konvex ist, nennen wir (bekanntlich) konkav. Die Fenchel-Konjugierte von −g führt unszur Konjugierten g+ einer konkaven Funktion g, nämlich:

g+(λ) := inf〈λ, x〉 − g(x)|x ∈ X , λ ∈ X∗ . (3.11)

Wir ordnen nun der primalen Aufgabe (P ) eine duale Aufgabe (D) zu:

(D) Maximiere d(λ) := g+(λ)− f∗(λ) , λ ∈ X∗ (3.12)

Wir setzenp := inf

x∈X(f(x)− g(x)) , d := sup

λ∈X∗(g+(λ)− f∗(λ)) ,

und nennen p ∈ [−∞,∞], d ∈ [−∞,∞] den primalen bzw. dualen Wert der Aufgabe.

64

Page 75: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 3.43 (Schwache Dualität) Sei X ein normierter Raum, seien f,−g : X −→(−∞,∞] konvex. Dann gilt p ≥ d .

Beweis:Offensichtlich gilt für x ∈ X,λ ∈ X∗ stets

g(x) + g+(λ) ≤ 〈λ, x〉 , f(x) + f∗(λ) ≥ 〈λ, x〉 .

Daraus folgt die Behauptung.

Bemerkung 3.44 Gilt d < p, so sagt man, eine Dualitätslücke sei vorhanden. Im Allgemei-nen ist mit einer solchen Dualitätslücke zu rechnen.

Wir wollen uns fragen, wann in Folgerung 3.43 Gleichheit besteht, also keine Dualitätslückevorliegt. In einem solchen Fall kann die Identität p = d dann ausgenutzt werden, um zu unterenSchranken für p zu kommen. Es ist ja dann

g+(λ)− f∗(λ) ≤ d = p für alle λ ∈ X∗ .

Obere Schranken für p sind einfach zu gewinnen:

p ≤ f(x)− g(x) für alle x ∈ X .

Satz 3.45 (Fenchel, 1949, Rockafellar, 1966) Sei X ein normierter Raum und seien f,−g :X −→ (−∞,∞] konvex und sei eine der beiden Funktionen f, g stetig in einem x0 ∈ dom(f) ∩dom(−g) . Dann gilt:

p = infx∈X

(f(x)− g(x)) = maxλ∈X∗

(g+(λ)− f∗(λ)) = d . (3.13)

Beweis:Sei etwa f stetig in x0 ∈ dom(f) ∩ dom(−g) . Dann ist x0 ∈ int(dom(f)) (siehe Satz 3.17) undf(x0) <∞,−g(x0) <∞, p = infx∈X(f(x)− g(x)) ≤ f(x0)− g(x0) <∞ . Wegen Folgerung 3.43ist die Aussage richtig falls p = −∞ . Sei also nun p > −∞ . Wir setzen

A := (x, t) ∈ X × R|x ∈ int(dom(f)), t > f(x) ,B := (x, t) ∈ X × R|t ≤ g(x) + p .

Es gilt: A,B sind konvex, A ist offen, A ∩ B = ∅. Also gibt es nach Satz 2.21 (λ, α) ∈ X∗ ×R\(θ, 0) mit

sup〈λ, x〉+ αt|(x, t) ∈ A ≤ c := inf〈λ, x〉+ αt|(x, t) ∈ B (3.14)

Annahme: α = 0 .Aus (3.14) folgt

sup〈λ, x〉|x ∈ int(dom(f)) ≤ inf〈λ, x〉|x ∈ dom(−g) .

Wegen x0 ∈ int(dom(f)) ∩ dom(−g), folgt λ = θ . Dies ist ein Widerspruch zu (λ, α) 6= (θ, 0) .Annahme α > 0 . Dann ist

sup〈λ, x〉+ αt|(x, t) ∈ A = ∞ ,

was im Widerspruch zu (3.14) ist.Also können wir o. E. annehmen α = −1 . Dann gilt für x ∈ int(dom(f)) wegen (3.14)

〈λ, x〉 − f(x) ≤ c, d. h. 〈λ, x〉 ≤ c+ f(x) .

65

Page 76: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Daraus folgt〈λ, x〉 ≤ c+ f(x) für alle x ∈ X ,

denn für x ∈ dom(f)\int(dom(f)) gilt für jedes t ∈ (0, 1] offenbar tx0 + (1 − t)x ∈ int(dom(f))und daher

〈λ, tx0 + (1− t)x〉 ≤ c+ f(tx0 + (1− t)x) ≤ c+ tf(x0) + (1− t)f(x) .

Grenzübergang t→ 0 liefert 〈λ, x〉 ≤ c+ f(x) .Damit ist nun f∗(λ) ≤ c gezeigt. Wegen 〈λ, x〉 − t ≥ c für alle (x, t) ∈ B gilt 〈λ, x〉 − g(x) ≥ c+p für alle x ∈ X .Dies zeigt g+(λ) ≥ c+p . Also haben wir p ≤ g+(λ)−c ≤ g+(λ)−f∗(λ) ≤ d ≤ p ,und damit gilt

p = g+(λ)− f∗(λ) = maxg+(µ)− f∗(µ)|µ ∈ X∗ = d .

Bemerkung 3.46 Man nennt einen Satz, der die Aussage p = d beinhaltet, einen Dualitätssatz.Insofern ist Satz 3.45 eine Dualitätssatz, der sogar noch die Existenz eines Maximierers für dasduale Problem abwirft. Ist p = d = ∞, was nach Satz 3.45 nicht ausgeschlossen ist, dann ist dieLösung des dualen Problems irgendein ein λ ∈ X∗ .

Beispiel 3.47 Betrachte die Optimierungsaufgabe

(*) Minimiere f(x1, x2) := e−x1 unter den Nebenbedingungen(x1, x2) ∈ K := (0, y) ∈ R2|y > 0 .

Wir ordnen sie unter (P ) als primales Optimierungsproblem ein:

f(x1, x2) := e−x1 , g(x1, x2) := −δK(x1, x2) , x = (x1, x2) ∈ R2 .

Eine einfache Diskussion liefert

p = infx=(x1,x2)∈R2

(f(x1, x2)− g(x1, x2)) = infx1=0,x2>0

e−x1 = 1 .

Man rechnet nach:

f∗(λ1, λ2) =

−λ1 ln(−λ1) + λ1 , falls λ2 = 0

∞ , falls λ2 6= 0

Ferner

(−δK)+(λ1, λ2) = infx2>0

λ2x2 =

0 , falls λ2 ≥ 0

−∞ , sonst.

Damit folgt

d = sup(λ1,λ2)∈R2

(g+(λ1, λ2)− f∗(λ, λ2)) = supλ2≥0

(λ1 ln(−λ1)− λ1) = 1

Also haben wir keine Dualitätslücke, welche auf Grund von Satz 3.45 auch nicht vorliegen kann,da f auf K = dom(f) ∩ dom(−g) stetig ist.

Bemerkung 3.48 Der Dualitätssatz 3.45 ist in seiner Aussage Spezialfall von

− infx∈X

m∑i=1

fi(x) = maxλ∈X∗,λ=λ1+···+λm

m∑i=1

f∗i (λi) ,

wobei f1, . . . , fm : X −→ (−∞,∞] konvex sind; siehe [1]. Dabei ist natürlich wieder eineVoraussetzung über das Innere der effektiven Definitionsbereiche vonnöten.

Im nächsten Kapitel wenden wir den Dualitätssatz auf konkrete Klassen von Optimierungs-aufgaben an. Dann lernen wir auch Beispiele kennen, bei denen eine Dualitätslücke vorliegt.

66

Page 77: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

3.6 Anhang: Stützfunktion

Definition 3.49 Sei X ein normierter Raum und sei K ⊂ X nichtleer. Die Abbildung

σK : X∗ 3 λ 7−→ supx∈K

〈λ, x〉 ∈ (−∞,∞]

heißt Stützfunktion von K. Ihr effektiver Definitionsbereich rec(K) := dom(σK) heißt Schran-kenkegel von K .

Lemma 3.50 Sei X ein normierter Raum und sei K ⊂ X nichtleer. Es gilt:

(1) σK ist konvex.

(2) σK ist positiv homogen, d. h. σK(tλ) = tσK(λ) für alle λ ∈ X∗, t ≥ 0 .

(3) rec(K) ist konvexer Kegel.

(4) σK ist unterhalbstetig.

(5) σK = σco(K) .

Beweis:Zu (1),(2),(3) Sind einfach nachzurechnen.Zu (4) Nach Folgerung 3.2 genügt es nachzurechnen, dass die Niveaumengen Nr(σK) abgeschlos-sen sind. Dies ist sofort einzusehen.Zu (5) Klar.

Folgerung 3.51 Sei X ein normierter Raum und sei K ⊂ X nichtleer und beschränkt. Dannist dom(σK) = Xund σK ist lokal Lipschitzstetig, insbesondere stetig.

Beweis:Aus der Beschränktheit folgt sofort die Tatsache dom(σK) = X . Wende nun Folgerung 3.20 anmit U = X unter Beachtung von Lemma 3.50.

Satz 3.52 Sei X ein normierter Raum und sei K ⊂ X nichtleer. Dann gilt:

co(K) = x ∈ X|〈λ, x〉 ≤ σK(λ) für alle λ ∈ X∗ .

Beweis:Satz 2.35.

Definition 3.53 Sei X ein normierter Raum und sei K ⊂ X nichtleer. Die Menge

rec(K) := x ∈ X|〈λ, x〉 ≤ 0 für alle λ ∈ rec(K)

heißt der Polarkegel von rec(K) .

Satz 3.54 Sei X ein normierter Raum und sei K ⊂ X nichtleer, konvex und abgeschlossen.Dann gilt für jedes x0 ∈ K.

rec(K) =⋂r>0

r(K − x0)

67

Page 78: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Sei x0 ∈ K und setze L :=

⋂r>0 r(K − x0) . Wir haben zu zeigen rec(K) = L .

Sei x ∈ L . Dann gibt es zu jedem r > 0 ein yr ∈ K mit x = r(yr − x0) . Also für λ ∈ rec(K)

〈λ, x〉 = r(〈λ, yr〉 − 〈λ, x0〉) ≤ r(σK(λ)− 〈λ, x0〉) .

Grenzübergang r → 0 liefert 〈λ, x〉 ≤ 0 . Dies zeigt x ∈ rec(K) .Sei x ∈ rec(K) und sei r > 0 . Da r−1x ∈ rec(K) gilt, folgt für λ ∈ rec(K)

〈λ, r−1x+ x0〉 = r−1〈λ, x〉+ 〈λ, x0〉 ≤ 〈λ, x0〉 ≤ σK(λ) .

Also folgt mit Satz 3.52 r−1x+ x0 ∈ K, d. h. x ∈ L .

Regel 3.55 Sei X ein normierter Raum.

(1) Ist K ⊂ L ⊂ X, dann ist rec(K) ⊂ rec(L) und σK ≤ σL .

(2) Ist Ki ⊂ X, i = 1, . . . ,m, und K =∏m

i=1Ki, so ist rec(K) =∏m

i=1 rec(Ki) und σK =∑mi=1 σKi .

(3) Ist Ki ⊂ X, i ∈ I, und K = co(∪i∈IKi), so ist rec(K) = ∩i∈Irec(Ki) und σK = supi∈I σKi .

(4) Ist K1,K2 ⊂ X, so ist rec(K1 +K2) = rec(K1) ∩ rec(K2 und σK1+K2 = σK1 + σK2 .

(5) Ist K ⊂ X und P ⊂ X konvexer Kegel, so ist rec(K + P ) = rec(K) + P und σK+P =σK + δP , wobei P = λ ∈ X∗|〈λ, x〉 ≤ 0 für alle x ∈ P .

(6) Sind K1,K2 ⊂ X konvex und abgeschlossen mit θ ∈ int(K1 − K2), so ist rec(K! ∩ K2) =rec(K1) + rec(K2) und σK1∩K2(λ) = infλ=λ1+λ2(σK1(λ1) + σK2(λ2)), λ ∈ X∗ .

Wir führen diese Regeln ohne Beweise an. Die letzte Regel ist etwas schwieriger zu beweisen.Diese Regel führt uns auch zu einer Konstruktion, die Faltung heißt.

Definition 3.56 Sei X ein normierter Raum und seien f1, f2 : X −→ (−∞,∞] . Die Funktionf12f2 : X −→ (−∞,∞], definiert durch

(f12f2)(x) := infu∈X

(f1(u) + f2(x− u)) , x ∈ X,

heißt infimale Faltung von f1, f2 .

Es sollte klar sein, wie die Faltung 2ni=1fi von f1, . . . , fn zu definieren ist (siehe (6) in 3.55).

Lemma 3.57 Sei X ein normierter Raum und seien f1, f2 : X −→ (−∞,∞] . Wird in derDefinition von f12f2 stets das Minimum in dom(f12f2) angenommen, dann ist epi(f12f2) =epi(f1) + epi(f2) .

Beweis:Nachrechnen.

Folgerung 3.58 Sei X ein normierter Raum und seien f1, f2 : X −→ (−∞,∞] konvex.Wird in der Definition von f12f2 stets das Minimum in dom(f12f2) angenommen, dann istdom(f12f2) konvex.

Beweis:Folgt aus der Tatsache, dass epi(f12f2) = epi(f1) + epi(f2) ist.

Beispiel 3.59 Sei X ein normierter Raum und sei K ⊂ X konvex. Bezeichne f die Normabbil-dung. Dann gilt:

(f2δK)(x) = infu∈K

‖x− u‖ = dist(x,K) , x ∈ X .

68

Page 79: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

3.7 Übungen

1.) Sei δ > 0 . Zeige, dass die Abbildung (0,∞) 3 t 7−→ δt − ln(t) ∈ R kompakte Niveau-mengen besitzt.

2.) Sei c ∈ Rn . Zeige, dass die Abbildung int(Rn+) 3 x = (x1, . . . , xn) 7−→ 〈c|x〉 −∑n

i=1 ln(xi) ∈ R kompakte Niveaumengen besitzt.

3.) Wir unterstellen die Tatsache, dass die Funktion (0,∞) 3 t 7−→ − ln(t) ∈ R konvex ist.Zeige:

m∑i=1

tixi ≥m∏i=1

(xi)ti

Dabei sind x1, . . . , xm ∈ (0,∞), t1, . . . , tm ∈ [0, 1],∑m

i=1 = 1 .

4.) Ist f : R2,2 3 A 7−→ det(A) ∈ R konvex?

5.) Sei X ein normierter Raum und seien A,B ⊂ X nichtleere Mengen. Die Zahlen

d(A,B) := supu∈A

dist(u,B) , d(B,A) := supv∈B

dist(A, v) ,

beschreiben den so genannten Hausdorff-Abstand:

dH(A,B) := max(d(A,B), d(B,A)) .

Zeige:

(a) d(A,B) = infε > 0|A ⊂ B +Bε .(b) dH(A,B) = infε > 0|A ⊂ B +Bε, B ⊂ A+Bε .(c) dH(A,B) = dH(B,A) .

6.) Sei X ein normierter Raum und seien A,B,C ⊂ X nichtleere abgeschlossene Mengen.Sei dH der Hausdorff-Abstand (siehe oben). Zeige:

(a) d(A,B) = 0 ⇐⇒ A ⊂ B .

(b) dH(A,B) = 0 ⇐⇒ A = B .

(c) d(A,B) ≤ r ⇐⇒ A ⊂ B +Br .

(d) dH(A,C) ≤ dH(A,B) + dH(B,C) .

7.) Sei X ein normierter Raum und sei CX := A4.1 ⊂ X|A 6= ∅, konvex, kompakt . Zeige:Der Hausdorff-Abstand d(·, ·) : CX × CX −→ R stellt eine Metrik dar.

8.) Sei X ein normierter Raum, sei A ⊂ X, und sei δ∗(·, A) : X∗ −→ [−∞,∞] definiertdurch

X∗ 3 λ 7−→

supu∈A〈λ, u〉, falls A 6= ∅−∞, falls A = ∅

Zeige für A,B,C ⊂ X nichtleere Mengen, seien λ, µ ∈ X∗, und sei r ∈ R :

(1) δ∗(·, rA) = rδ∗(·, A) , r ≥ 0 .

(2) δ∗(·, A+B) = δ∗(·, A) + δ∗(·, B) .

(3) δ∗(rλ,A) = rδ∗(λ,A) , r ≥ 0 .

(4) δ∗(λ+ µ,A) ≤ δ∗(λ,A) + δ∗(µ,A) .

(5) δ∗(·, A) ist konvex.

69

Page 80: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

9.) Sei X ein normierter Raum und seien fi : X −→ (−∞,∞] unterhalbstetig, i ∈ I . Dannist f : X 3 x 7−→ supi∈I fi(x) ∈ (−∞,∞] unterhalbstetig.

10.) Sei X ein normierter Raum und seien f : X −→ R, h : R −→ R . Zeige: Ist f quasi-konvex und h monoton nicht fallend, so ist h f quasikonvex. Ersetzt man „quasikonvex“durch „konvex“, ist dies dann auch richtig?

11.) Sei X ein normierter Raum und seien fi : X −→ (−∞,∞], i = 1, . . . , n, konvex. Dannist f := 2n

i=1fi konvex.

12.) Sei X ein normierter Raum und seien fi : X −→ (−∞,∞], i = 1, . . . , n, eigentlich.Dann ist (2n

i=1fi)∗ =

∑ni=1 f

∗i .

13.) Sei X ein normierter Raum und seien fi : X −→ (−∞,∞], i = 1, . . . , n, konvex undeigentlich. Dann ist (

∑ni=1 fi)

∗ = 2ni=1f

∗i .

14.) Sei X ein normierter Raum. Zeige: Die Norm ist keine strikt konvexe Funktion.

15.) Sei X ein normierter Raum, sei f : X −→ R konvex und seien x1, . . . , xk ∈ X . Zeige:

supx∈co(f)

f(x) ≤ maxi=1,...,k

f(xi) .

16.) Sei X := Rn,n und D := A ∈ Rn,n|A symmetrisch und positiv definit . Zeige: D 3A 7−→ − ln(det(A)) ∈ R ist konvex.

17.) Ist f : R2 3 (x1, x2) 7−→ x22 − 3x2x21 + 2x41 ∈ R koerziv?

18.) Sei X := C[0, 1] normiert mit der Supremumsnorm ‖ · ‖∞ . Sei A := x ∈ C[0, 1]|x(0) =0, x(1) = 1 . Betrachte die Aufgabe

Gesucht ist x ∈ A mit∫ 1

0x(t)2dt = inf

x∈A

∫ 1

0x(t)2dt

Existiert eine Lösung. Wenn ja, berechne diese Lösung.

19.) Sei X := l2 betrachtet als Hilbertraum mit dem inneren Produkt 〈x|y〉 :=∑∞

n=1 xnyn,falls x = (xn)n∈N, y = (yn)n∈N . Sei A := x = (xn)n∈N ∈ l2|

∑∞n=1(1 − n−1)x2n = 1 .

Betrachte zu z = (zn)n∈N die Aufgabe

Gesucht ist x ∈ A mit ‖z − x‖ = infx∈A

‖z − x‖

Existiert stets eine Lösung?

20.) Sei X ein normierter Raum. f : X −→ (−∞,∞] heißt quasikonvex, falls jede Niveau-menge Nr(f) von f konvex ist.Seien f : X −→ (−∞,∞), h : R −→ R . Zeige: Ist f quasikonvex und h monotonnicht fallend, so ist h f quasikonvex. Ersetzt man „quasikonvex“ durch „konvex“, ist dieAussage dann auch richtig?

21.) Sei X ein normierter Raum und seien A,B ⊂ X nichtleer und kompakt. Ist A ⊂ B, danngilt δ∗(λ,A) ≤ δ∗(λ,B) für alle λ ∈ X∗, ‖λ‖ = 1 .

22.) Zeige:

(1) f : R 3 x 7−→√

|x| ∈ R‘ ist quasikonvex.

(2) f : (0,∞)× (0,∞) 3 (x1, x2) 7−→ −x1x2 ∈ R ist quasikonvex.

23.) Sei f : Rn −→ R konvex und sei C ⊂ Rn konvex und kompakt. Zeige: Es gibtx0 ∈ ext(C) mit f(x0) = maxx∈C f(x) .

70

Page 81: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

24.) Sei f : Rn −→ R linear und sei C ⊂ Rn konvex und kompakt. Zeige: Es gibt x0 ∈ ext(C)mit f(x0) = minx∈C f(x) .

25.) Sei f : Rn −→ R konvex und sei A ⊂ Rn kompakt. Zeige: Es gilt maxx∈A f(x) =maxx∈co(A) f(x) .

26.) Sei X ein normierter Raum und sei f : X −→ (−∞,∞] . Betrachte dazu konvexeEinhüllende con(f) . Gilt stets con(f)(x) > −∞?

27.) Sei X ein normierter Raum und sei A ⊂ X . Bestimme δ∗∗A und conδA .

28.) Betrachte die Optimierungsaufgabe

Minimiere ex1 + 16ex2 u. d. NB − x1 − 2x2 ≤ 0 .

Dualisiere die Aufgabe und berechne eine primale und eine duale Lösung. Wie groß istdie Dualitätslücke?

29.) Betrachte die Optimierungsaufgabe

Minimiere

x2 − 2x für x ≥ 0

x für x < 0u. d. NB − x ≤ 0 .

Dualisiere die Aufgabe und berechne eine primale und eine duale Lösung. Wie groß istdie Dualitätslücke?

30.) Betrachte die Optimierungsaufgabe

Minimiere1

2〈x|Qx〉+ 〈c|x〉 u. d. NB Ax ≤ a,Bx = b .

Dabei ist Q ∈ Rn,n, A ∈ Rm,n, B ∈ Rp,n, a ∈ Rm, b ∈ Rp . Q sei symmetrisch und positivdefinit. Dualisiere die Aufgabe.

31.) Sei X normierter Raum und sei K ⊂ X ein Kegel. Zeige: K∗ := λ ∈ X∗|〈λ, x〉 ≥0 für alle x ∈ X ist ein konvexer Kegel (K∗ heist der zu K duale Kegel). Gilt K∗∗ :=x ∈ X|〈λ, x〉 ≥ 0 = K ?

32.) Sei K ⊂ Rn konvexer Kegel und K∗ := yRn|〈y|x〉 ≥ 0 für alle x ∈ Rn Betrachte diefolgenden Optimierungsprobleme:

(P ) p := minAx=b,x∈K

〈c|x〉 (D) d := maxAty+z=c,y∈Rm,z∈K∗

〈b|y〉

Zeige: p ≥ d .

3.8 Bibliographische und historische Anmerkungen

Der Stoff dieses Kapitels ist Standard. Er findet sich mehr oder minder vollständig in allenBüchern über konvexe Analysis; siehe etwa [4, 8, 10] und insbesondere [7].

Die Existenzsätze geben für die meisten Optimierungsaufgaben schon eine hinreichende Ori-entierung. In konkreten Fällen, etwa in der linearen Optimierung auf der einfachen Seite undder Variationsrechnung auf der etwas schwierigeren Seite (siehe etwa [5, 11]), kommt man mitspeziellen Überlegungen weiter; im nächsten Kapitel bekommen wir einen Eindruck davon.

Der Dualitätssatz – wir sprechen hier von Fenchel-Rockafellar-Dualität, die Lagarange-Dualität entwickeln wir später – hat vielfältige Anwendungen, einige davon sehen wir im näch-sten Kapitel; siehe [6, 9]. Eine etwas allgemeinere Fassung dieser Dualität findet man in [1]; sieheauch [2]. Eine Dualität, die sich nicht auf Konvexität stützt wird in [12] untersucht.

Im Kapitel über Differenzierbarkeit von konvexen Funktionen wird der Dualitätssatz wiederBedeutung erlangen in der Kuhn-Tucker-Theorie.

71

Page 82: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Literaturverzeichnis

[1] H. Attouch and H. Brezis. Duality for the sum of convex functions in general Banach spaces.In J.A. Barroso, editor, Aspects of Mathematics and its Applications, pages 125–133, 1986.

[2] H. Attouch, G. Luttazzo, and G. Michaille. Variational Analysis in Sobolev and BV Spaces:applications to PDEs and optimization. SIAM, Providence, 2014.

[3] J. Baumeister. Lineare Funktionalanalysis, 2012. Skriptum Universität Frankfurt/Main.

[4] J.M. Borwein and A.S. Lewis. Convex Analysis and Nonlinear Optimization. Theory and Examples.Springer, New York, 2006.

[5] B. Dacorogna. Direct methods in the calculus of variations. Springer, Berlin, 2000.

[6] W. Fenchel. On conjugate convex functions. Canadian Journal of Mathematics, 1:73–77, 1949.

[7] R. Holmes. A Course on Optimization and Best Approximation. Springer, 1971.

[8] R. Holmes. Geometric functional analysis and its applications. Springer, 1975.

[9] R.T. Rockafellar. Extension of Fenchel’ duality theorem for convex functions. Duke Math. J.,33:81–89, 1966.

[10] R.T. Rockafellar. Convex analysis. Princeton University press, Princeton, 1970.

[11] M. Struwe. Variational Methods. Springer, New York, 2000.

[12] J.F. Toland. A duality principle for non-convex optimisation and the calculus of variations. Arch.Rat. Mech. Anal., 71:41–61, 1979.

[13] D. Werner. Funktionalanalysis. Springer, 2002.

72

Page 83: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Kapitel 4

Anwendungen in der Optimierung

The tremendous power of the simplex method is aconstant surprise to me

G.B. Dantzig

In diesem Kapitel beschreiben wir Klassen von Optimierungsaufgaben, die wir in den er-reichten Konzepten schon diskutieren können: Lineare Optimierung, Semidefinite Optimierung,Ausgleichsprobleme, lineare und nichtlineare Splines, Tschebyscheff-Approximation. Wir lernenExistenzausagen kennen und leiten erste Charakterisierungsaussagen für Optima ab. Diese Auf-gaben werden wir später weiterverfolgen.

4.1 Lineare Optimierung

Bezeichnung: Mit 〈·|·〉 wird hier immer das euklidische Skalarprodukt in Rn bezeichnet. Diezugehörige Norm sei | · | . Ferner setzen wir

Rn+ := x ∈ Rn|x ≥ θ , Rn

++ := x ∈ Rn|x ∈ int(Rn+) .

Beide Mengen Rn+,Rn

++ sind konvex, erstere sogar ein abgeschlossener Kegel.

Hier zeigen wir, wie sich die (finite) lineare Optimierung in das beschriebene Dualitätskonzeptdes letzten Kapitels einordnet. Die lineare Optimierung beschäftigt sich mit folgender Standard-Aufgabe:

Minimiere 〈c|x〉 unter den Nebenbedingungen x ≥ θ,Ax = b (4.1)

Dabei sind c ∈ Rn, A ∈ Rm,n, b ∈ Rm die Daten der Aufgabe.

Sorte P1 P2

Kalorien 200 100Vitamine 2000 3000

Preis in Euro 1.6 1.8

Abbildung 4.1: Einkauf

Beachte: Im Allgemeinen wird die Matrix sehrviel weniger Zeilen besitzen als Spalten, denn essoll ja hinreichend viele Lösungen der GleichungAx = b mit x ≥ θ geben, damit Spielraum für dieMinimierung besteht.

Die Aufgabe (4.1) heißt Standard-Aufgabe,weil sich „alle“ Optimierungsaufgaben im Rn mitlinearer Zielfunktion und linearen Gleichungs-und Ungleichungsnebenbedingungen durch Um-formung in die Standardaufgabe überführen lassen. In konkreten Aufgaben ist die Zielfunktion

73

Page 84: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

manchmal eine affine Funktion x 7−→ 〈c|x〉+ z . Dies macht für die Optimierung keinen Unter-schied, wie man sich leicht überlegt. Beachte auch, dass wir o. E. annehmen können, dass b ≥ θgilt (Multiplikation von Zeilen mit -1).

Beispiel 4.1 Auf einem Wochenmarkt werden saisonbedingt nur die zwei Gemüsesorten P1 undP2 angeboten. Wie würde eine mathematisch vorgebildete Hauskraft einkaufen, um ein Mittages-sen mit mindestens 50 Kalorien und 1200 Vitaminen der Gemüsebeilagen möglichst billig zuerhalten. Kalorien, Vitamingehalt und Preis (pro kg) sind der beistehenden Tabelle 4.1 zu ent-nehmen.

Führt man die Variablen x1, x2 als Größen für die einzukaufenden Mengen von P1 bzw. P2

ein, dann ergibt sich das folgende Programm:Minimiere 1.6x1 + 1.8x2

u. d. NB 200x1 + 100x2 ≥ 50 , 2000x1 + 3000x2 ≥ 1200, x1 ≥ 0, x2 ≥ 0 .

Klar, das Problem lässt sich leicht in die Form von (4.1) bringen: man hat die Ungleichungendurch Einführung von Schlupfvariablen x3, x4 ≥ 0 auf Gleichungen umzuschreiben:

200x1 + 100x2 − x3 ≥ 50 , 2000x1 + 3000x2 − x4 ≥ 1200 , x3, x4 ≥ 0 .

Die Aufgabe (4.1) entspricht der primalen Aufgabe (P) aus Abschnitt 3.5. Man beachte,dass die Zielfunktion konvex und die Menge

F (p) := x ∈ Rn|x ≥ θ,Ax = b

der zulässigen Punkte konvex ist. Die Fragestellung, ob F (p) 6= ∅ gilt, was man so einfach nichtüberprüfen kann; dazu später etwas mehr.

Um den Dualitätssatz anwenden zu können, haben wir die Aufgabe in den Kontext des Duali-tätssatzes einzuordnen. Dabei beschreiben wir einen tauglichen und einen untauglichen Versuch.

1. Betrachtung: Wir setzen

M := x ∈ Rn|x ≥ θ,Ax = b , f(x) := 〈c|x〉 , g(x) := −δM (x), x ∈ Rn .

Es folgt (siehe Beispiel 3.28)

f∗(y) = δz∈Rn|z=c(y) , g+(y) = inf〈y|x〉|x ∈M .

Damit ist die duale Aufgabe (D) aus Abschnitt 3.5 gegeben durch

supg+(y)− f∗(y)|y ∈ Rn = g+(c) = inf〈c, x〉|x ∈M .

Dies bedeutet, wir haben nichts gewonnen, der Versuch der Einordnung war untauglich.2. Betrachtung: Wir setzen

M1 := x ∈ Rn|x ≥ θ,M2 := x ∈ Rn|Ax = b , f(x) := 〈c|x〉+δM1(x) , g(x) := −δM2(x), x ∈ Rn .

Wir verfolgen dies weiter unter der Annahme, dass M2 6= ∅ . Ohne diese Voraussetzung ist gnicht eigentlich und das Dualitätskonzept bringt nichts mehr. Beachte aber, in der Praxis ist diesproblematisch, da es a-priori nicht einfach ist, dies zu prüfen.Es folgt

f∗(y) = sup〈y − c|x〉|x ≥ θ = δu∈Rn|u≤c(y) , g+(y) = inf〈y|x〉|Ax = b .

74

Page 85: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Ist y ∈ ran(At), d. h. y = Atw für ein w ∈ Rm, so gilt g+(y) = 〈w|b〉 . Ist y /∈ ran(At), so gibtes auf Grund des Trennungssatzes 2.22 – ran(At) ist abgeschlossener linearer Teilraum von Rn

– ein z ∈ Rn mit sup〈z|v〉|v ∈ ran(At) = sup〈Az|w〉|w ∈ Rm < 〈z|y〉 . Daraus folgt dannz 6= θ,Az = θ, 〈z|y〉 > 0, g+(y) = −∞, da M2 6= ∅, denn ist x ∈ M2, dann ist x + tz ∈ M2 füralle t ∈ R . Also gilt

g+(y) =

〈w|b〉 , falls y = Atw

−∞ , sonst.

Als duale Aufgabe ergibt sich damit (unter der Annahme, dass M2 6= ∅ ist)

Maximiere 〈w|b〉 unter den Nebenbedingungen Atw ≤ c . (4.2)

Damit ist die Einordnung in der 2. Betrachtungsweise gelungen und wir können das Duali-tätskonzept weiter verfolgen. Wir schreiben das duale Paar nun so auf, dass die Parallelität zumfolgenden Abschnitt vorbereitet ist:

(LOP ) Minimiere 〈c|x〉u. d. NB Ax = b, x ∈ Rn

+

(DLOP ) Maximiere 〈b|y〉u. d. NB Aty + w = c, y ∈ Rm, w ∈ Rn

+

Den Wert der Aufgabe (LOP ) bezeichnen wir mit p, den von (DLOP ) mit d . Die Menge derzulässigen Punkte von (DSOP ) ist:

F (d) := (y, w) ∈ Rm × Rn|Aty + w = c, w ≥ θ .

Auf Grund der Herleitung der Probleme wissen wir schon, dass die schwache Dualität gilt (sieheFolgerung 3.43).

p = inf〈c|x〉|Ax = b, x ∈ Rn+ ≥ d = sup〈b|y〉|Aty + w = c, y ∈ Rm, w ∈ Rn

+ (4.3)

Etwas genauer Aufschluss gibt

Lemma 4.2 Ist x zulässig in (LOP ) und ist (y, w) zulässig in (DLOP ), dann gilt:

〈c|x〉 − 〈b|y〉 = 〈x|w〉 ≥ 0 (4.4)

Beweis:Wir haben Ax = b, x ≥ θ,Aty + w = c, w ≥ θ . Damit erhalten wir

〈c|x〉 − 〈b|y〉 = 〈(Aty + w)|x〉 − 〈b|y〉= 〈y|b〉+ 〈w|x〉 − 〈b|y〉= 〈x|w〉

Da x ≥ θ und w ≥ θ ist, folgt 〈x|w〉 ≥ 0 .

Eine Anwendung des Dualitätssatzes 3.45 würde uns nun Auskunft geben über die starkeDualität. Wir gehen einen direkten Weg, der auch etwas mehr abwirft.

Satz 4.3 (Starke Dualität) Genau eine der beiden Möglichkeiten tritt ein:

(a) Weder p noch d ist endlich.

(b) Beide Probleme (LOP ) und (DLOP ) besitzen Lösungen und es gilt −∞ < p = d <∞ .

75

Page 86: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Offensichtlich können nicht beide Fälle eintreten. Es trete (a) nicht ein. Dann können wir o. E.etwa annehmen: d endlich1. Wir setzen:

K := (u, r) ∈ Rn × R|r = 〈b|y〉 − sd, u ≥ Aty − sc für ein s ≥ 0, y ∈ Rm .

Es gilt: K ist konvex, abgeschlossen, 6= ∅, denn (θ, 0) ist in K . Ferner ist (θ, 1) /∈ K . Letzteresfolgt so:Annahme: (θ, 1) ∈ K , d. h. 1 = 〈b, y〉 − sd, θ ≥ Aty − sc für ein s ≥ 0, y ∈ Rm .Ist s > 0, dann ist x := s−1y zulässig für das duale Problem (DLOP ), aber 0 < s−1 = 〈b|x〉 − d,was ein Widerspruch ist, da d der Wert des dualen Problems ist. Ist s = 0, dann haben wir1 = 〈b|y〉, θ ≥ Aty . Ist v zulässig für das Problem (DLOP ) – ein solches v gibt es, da d endlichist –, dann ist v + qy zulässig für (DLOP ) für alle q ≥ 0 und man erhält

d ≥ 〈b|v + qy〉 = 〈b|v〉+ q〈b|y〉 = q , q ≥ 0,

was ein Widerspruch ist, da d endlich ist.Mit Folgerung 2.22 folgt

∃(z, β) ∈ Rm × R ∃α ∈ R (〈(z, β)|(θ, 1)〉 = β < α = inf〈(z, β)|(u, r)〉|(u, r) ∈ K . (4.5)

Annahme: α < 0 .Dann existiert (u, r) ∈ K mit 〈(z, β)|(u, r)〉 = βr+ 〈z|u〉 < 0 . Da q(u, r) ∈ K für alle q ≥ 0 gilt,folgt daraus

limq→∞

〈(z, β)|q(u, r)〉 = −∞

was im Widerspruch zu (4.5) ist.Also gilt nun α ≥ 0 . Da (θ, 0) in K ist, folgt α = 0 . Damit ist β < 0 und wir können o. E.β = −1 annehmen (Division in (4.5) durch |s|). Also gilt

0 ≤ 〈z|u〉 − r für alle (u, r) ∈ K .

Da (Aty, 〈b|y〉) in K ist für alle y ∈ Rm (s := 0), folgt schließlich

〈b|y〉 ≤ 〈Az|y〉 für alle y ∈ Rm .

Dies impliziert Az = b . Da (−c,−d) in K ist (y = θ, s = 1), folgt 〈z|c〉 ≤ d ≤ p . Da (u, 0) in Kist für alle u ≥ θ (y = θ, s = 0), folgt 〈z|u〉 ≥ θ für alle u ≥ θ und daher z ≥ θ . Wir haben somitAz = b, z ≥ θ und z löst das primale Problem (LOP ) und es gilt p = d . Also ist das primaleProblem (LOP ) lösbar und p ist endlich.Da das duale Problem (DLOP ) als das primale Problem zu (LOP ) angesehen werden kann,folgt, dass auch das Problem (DLOP ) lösbar ist.

Im Diagramm in Abbildung 4.2 haben wir die möglichen Kombinationen von Resultaten überdas Zusammenspiel von primalen und dualen Problemen aufgeführt. Es treten nur die ZuständeI, II, III, IV auf, die Zustände X sind nicht möglich. Die wird erläutert durch:Ist p = ∞, dann ist d = ∞ und d = −∞ möglich. Ist p = −∞, dann ist wegen p ≥ d, d = −∞ undM∗ = ∅ . Damit ist klar, dass der Zustand IV eintritt, denn es ist einfach ein Beispiel anzugeben,bei dem p = ∞ gilt; siehe unten. Dass der Zustand I – man spricht hier vom Auftreten einerDualitätslücke – eintreten kann, zeigt das Beispiel

Minimiere x u. d. NB 0 · x ≥ 1 .

1Man kann einfache Umformungen vornehmen (Schlupfvariablen, Zerlegung von x gemäß x = u + v mitu ≥ θ, v ≥ θ), so dass aus Problem (LOP ) ein Problem der Form (DLOP ) wird.

76

Page 87: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

p = ∞ |p| <∞ p = −∞

d = −∞ I X II

|d| <∞ X III X

d = ∞ IV X X

Abbildung 4.2: Zustandsdiagramm der linearen Optimierung

Hier ist das duale Problem gegeben durch

Maximiere y u. d. NB 0 · y = 1, y ≥ 0 .

Also hat weder das primale noch das duale Problem zulässige Punkte und daher p = ∞, d = −∞ .Dass der Zustand II eintreten kann, zeigt das Beispiel

Minimiere x u. d. NB 0 · x ≤ 0

mit R als zulässiger Menge. Hier ist das duale Problem gegeben durch

Maximiere 0 · y u. d. NB − y = 1, y ≥ 0 ,

und die Menge der zulässigen Punkte ist leer. Also ist p = −∞ und daher auch d = −∞ .

Folgerung 4.4 Hat (LOP ) zulässige Punkte, d. h. ist M 6= ∅ und ist die Zielfunktion x 7−→〈c|x〉 auf M nach unten beschränkt, dann sind (LOP ), (DLOP ) lösbar.

Beweis:Offenbar ist p endlich und damit auch d . Also sind nach Satz 4.3 sogar beide Probleme (LOP ),(DLOP ) lösbar.

Folgerung 4.5 Es sind äquivalent:

(a) p, d sind endlich.

(b) F (p) 6= ∅, F (d) 6= ∅ .

Zusatz: In jedem Fall gilt p = d .

Beweis:(a) =⇒ (b). Dies ist klar.(b) =⇒ (a). Sei x zulässig für (LOP ) und sei (y, w) zulässig für (DLOP ) . Dann gilt offenbar〈c|x〉 ≥ 〈b|y〉 und 〈b|y〉 ist eine untere Schranke für (LOP ) . Also ist Folgerung 4.4 anwendbar.Der Zusatz folgt aus Satz 4.3.

Wir schreiben noch das „berühmte“ Lemma von Farkas auf. Es ist die Basis für unterschiedlicheAlternativsätze und kann auch als Baustein für den Beweis des starken Dualitätssatz verwendetwerden.

77

Page 88: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Lemma 4.6 (Lemma von Farkas, 1894) Sei A ∈ Rm,n, b ∈ Rm . Dann trifft genau eine derfolgenden Aussagen zu:

(a) x ∈ Rn|Ax = b, x ≥ θ 6= ∅ .

(b) y ∈ Rm|Aty ≤ θ, 〈b|y〉 > 0 6= ∅ .

Beweis:Seien M := x ∈ Rn|Ax = b, x ≥ θ,M∗ := y ∈ Rm|Aty ≤ θ, 〈b|y〉 > 0 .Sei M 6= ∅ .Sei x0 ∈M . Dann ist M∗ = ∅, denn sonst würde für ein y0 ∈M∗ gelten

0 < 〈b|y0〉 = 〈Ax0|y0〉 = 〈x0|Aty0〉 ≤ 0,

da x0 ≥ 0, Aty0 ≤ θ . Damit haben wir einen Widerspruch erreicht.Sei M = ∅ .Dann ist b /∈ C := Ax ∈ Rm|x ≥ θ . C ist nichtleer, da (θ ∈ C . Da C konvex und abgeschlossenist, existiert nach Folgerung 2.22 ein y ∈ Rm mit

〈y|b〉 > supx≥θ

〈y|Ax〉 , d. h. 〈y|b〉 > supx≥θ

〈Aty|x〉 .

Da θ ∈ C ist, folgt 〈y|b〉 > 0 . Ferner gilt Aty ≤ θ, denn sonst würde (Aty)j > 0 gelten für einj ∈ 1, . . . ,m . Wähle dann x0 := αej und wir erhalten

supx≥θ

〈Aty|x〉 ≥ supα>0

〈Aty|αej〉 = ∞ .

Ein Widerspruch ist erreicht. Damit gilt y ∈M∗ .

Die geometrische Interpretation des Farkas–Lemma ist folgende: Ist b ∈ Rm nicht enthaltenin cone(a1, . . . , an), wobei a1, . . . , an die Spalten von A sind, dann gibt es eine Hyperebene,die b von Ax|x ≥ θ trennt. Beachte, dass man das Farkas–Lemma auch so formulieren kann:Sei A ∈ Rm,n, b ∈ Rm . Dann sind äquivalent:

(a) x ∈ Rn|Ax = b, x ≥ θ 6= ∅ .

(b) 〈b|y〉 ≥ θ für alle y ∈ Rm mit Aty ≥ θ .

Lemma 4.7 (Lemma von Gordon, 1873) Sei A ∈ Rm,n, b ∈ Rm . Dann trifft genau eine derfolgenden Aussagen zu:

(a) x ∈ Rn| −Ax ∈ int(Rm) 6= ∅ .

(b) y ∈ Rm|Aty = θ, y ≥ θ 6= ∅ .

Beweis:Klar, beide Aussagen können nicht gleichzeitig eintreten.Setze U := Ax|x ∈ Rn, V := v = (v1, . . . , vm) ∈ Rm|vi < 0, i = 1, . . . ,m . U, V sind konvexund V ist offen.(a) treffe nicht zu. Dann gilt U ∩V = ∅. Dann gibt es nach Satz 2.21 ein y ∈ Rm\θ, β ∈ R mit

〈y|u〉 ≥ β für alle u ∈ U , 〈y|v〉 ≤ β für alle v ∈ V .

Da θ in U ist, folgt β ≤ 0 . Da θ ∈ V gilt, ist β ≥ 0 . Also haben wir β = 0 . Da V unbeschränktist, muss y ≥ θ gelten. Wäre Aty 6= θ , dann kann U ⊂ z ∈ Rm|〈y|z〉 ≥ 0 nicht gelten. Alsohaben wir y ≥ θ,Aty = θ .

78

Page 89: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Das Farkas–Lemma (und Gordon–Lemma) hat weitere Varianten, die wir ohne Beweise anfüh-ren. Die Beweise ergeben sich aus dem Farkas-Lemma oder dem Lemma 4.7 durch Umformungvon Ungleichungen in Gleichungen durch Einführung von Schlupfvariablen bzw. durch Zerlegungvon Gleichungen in Ungleichungen.

Folgerung 4.8 Sei A ∈ Rm,n, b ∈ Rm . Dann trifft genau eine der folgenden Aussagen zu:

(a) x ∈ Rn|Ax ≥ θ 6= ∅ .(b) y ∈ Rm|Aty = θ, y ≥ θ, y 6= θ 6= ∅ .

Folgerung 4.9 Sei A ∈ Rm,n, b ∈ Rm . Dann trifft genau eine der folgenden Aussagen zu:

(a) x ∈ Rn|Ax ∈ intRm+ , x ∈ intRn

+ 6= ∅ .(b) y ∈ Rm|Aty ≤ θ, y ≥ θ, y 6= θ 6= ∅ .

Folgerung 4.10 Seien A ∈ Rm,n, Q ∈ Rk,n, b ∈ Rm, q ∈ Rk . Dann trifft genau eine der folgen-den Aussagen zu:

(a) x ∈ Rn|Ax ≤ θ,Qx = q 6= ∅ .(b) (y, z) ∈ Rm × Rk|Aty +Qtz = θ, y ≥ θ, 〈b|y〉+ 〈q|z〉 < 0 6= ∅ .

Kombiniert man den Dualitätssatz mit den Aussagen über die Extremalpunkte (Ecken) derNebenbedingungsmengen

Ax = b, x ≥ θ bzw. Aty + w = c, y ∈ Rm, w ≥ θ ,

so entwickelt sich daraus das überaus erfolgreiche Simplexverfahren zur Lösung der Standardauf-gabe der linearen Optimierung: Man suche die Ecken der primalen Aufgabe auf und entscheide,ob die aktuell erreichte Ecke optimal ist (siehe nachfolgendes Lemma 4.11) oder stelle fest, dasskeine Lösung existiert, wozu die duale Aufgabe eine Hilfe beisteuert. Hat man eine optimale Eckeerreicht, kann man sowohl eine Lösung der primalen als auch eine der dualen Aufgabe ablesen.

Lemma 4.11 (Complementary slackness) Sei x zulässig für (LOP ) und sei (y, w) zulässigfür (DLOP ) . Dann sind äquivalent:

(a) x löst (LOP ), (y, w) löst (DLOP )

(b) Es gilt:〈Aty − c|x〉 = 0 . (4.6)

(c) Es gilt xiwi = 0, i = 1, . . . , n .

Beweis:(a) =⇒ (b). Folgt aus der starken Dualität (4.3), da dann 〈c|x〉 = 〈b|y〉 gilt.(b) ⇐⇒ (c). Trivial, da x,w ≥ θ .(b) =⇒ (a). Da 〈c|x〉 = 〈b|y〉, folgt mit der schwachen Dualität (siehe (4.3)): x löst (LOP ),(y, w) löst (DLOP ).

Das obige Lemma ist auch der Ausgangspunkt für Innere Punke–Verfahren in der Li-nearen Optimierung. Die Bedingungen (4.6) zusammen mit der Zulässigkeit resultieren in denBedingungen

Ax = b , x ≥ θ (4.7)Aty + w = c , w ≥ θ, y ∈ Rm (4.8)

wixi = 0 , i = 1, . . . , n . (4.9)

79

Page 90: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Dies ist ein nichtlineares Gleichungssystem ((4.9)), wobei der lineare Teil ((4.9),(4.9)) in derPraxis von beträchtlicher Größe sein kann. Die Bedingungen für eine Lösung können nun miteinem Verfahren angegangen werden, das nichtlineare Gleichungen unter „einfachen“ linearenNebenbedingungen (≥,=) löst. Bekanntlich ist bei linearen Gleichungssystemen es aber etwasschwierig, Struktureigenschaften der Gleichungssysteme (dünne Besetztheit, . . . ), wie sie beilineaen Optimierungsaufgaben nicht selten auftreten, verfahrensmäßig zu realisieren. Deshalbund nicht nur deshalb sind iterative Verfahren attraktiv. Dazu stört man die (einzige) nichtlineareGleichung (4.9) zu

u y = µI (4.10)

mit der Einheitsmatrix I ∈ Rn,n und µ > 0 . Dabei ist w x das Hadamard-Produkt, d. h.w x := ((w x)ij) := (wixj) . Für µ = 0 entsteht wieder die Gleichung (4.9). Die Lösung(en)µ 7−→ (xµ, yµ, wµ) von (4.7),(4.8),(4.9) werden der zentrale Pfad genannt. Im Gegensatz zumSimplexverfahren, bei dem an sich immer auf dem Rand der zulässigen Mengen aufhält, wird derzentrale Pfad aus (relativ) inneren Punkten der zulässigen Mengen bestehen.

Ein inneres Punkte Verfahren löst nun dieses Gleichungssystem iterativ, wobei der Stö-rungsparamater µ in jedem Iterationsschritt so verändert wird, dass er iterativ gegen 0 konver-giert. Man erhält also (unter zu überprüfenden Umständen) eine Folge (xn, yn, wn, µn)n∈N mitder „Dualitätslücke“

〈c|xn〉 − 〈b|yn〉 = 〈xn|wn〉,

von der wir erwarten können, dass sie im Grenzwert eine Lösung (x, y, w) von (4.7),(4.8),(4.9)liefert. Da wir die Iteration irgendwann abbrechen müssen, erhalten wir so aber im Allgemeinenkeine exakte Lösung der Optimierungsaufgabe. Es ist eine gute Idee, daran das Simplexverfahren(mit einer guten Startecke) anzuschließen.

Abschließend noch eine Interpretation der primalen und dualen Variablen. Dazu betrachtenwir eine symmetrische Situation:

(∗) Maximiere 〈c|x〉u. d. NB Ax ≤ b, x ≥ θ

(∗∗) Minimiere 〈b|y〉u. d. NB Aty ≥ c, y ≥ θ

Man bestätigt leicht, dass die Probleme (∗), (∗∗) zueinander dual sind. Bei Lösbarkeit bestehtalso für Lösungen x, y die Gleichheit

〈c|x〉 = 〈b|y〉 .

Zunächst zu einer ökonomischen Interpretation der Größen: Jedes xj gibt an, wieviele Einheitenvom Produkt j produziert werden, bi spezifiziert die vorhandene Menge von Einheiten des Roh-stoffes i, jeder Eintrag aij in A gibt an, wieviele Einheiten vom Rohstoff i zur Produktion einerEinheit des Produktes j benötigt werden; jedes cj gibt an, wieviel Gewinn bei Produktion einerEinheit vom Produkt j erzielt werden kann.

Damit können wir nun den starken Dualitätssatz 4.3 an Hand von (∗), (∗∗) folgendermaßeninterpretieren: Wir denken uns in einem Betrieb zwei Kaufleute. Einer denkt als Produzent undmöchte den Umsatz/Gewinn maximieren, ist aber durch die zur Verfügung stehenden Rohstoffebeschränkt in seinen Möglichkeiten. Der andere denkt als Einkäufer. Er möchte die Rohstoffemöglichst preiswert erstehen. Mit dieser Investition kann er dann den Preis der Produkte er-wirtschaften. Die ihm auferlegte Bedingung ist die, dass dieser erwirtschaftete Preis über demSelbstkostenpreis liegt. Die Aussage des Satzes 4.3 ist, dass, wenn einer mit seiner Strategie Schiff-bruch erleidet, der andere auch nicht erfolgreich ist, oder beiden ein optimaler Erfolg beschiedenist.

80

Page 91: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

4.2 Der Kegel der positiv semidefiniten Matrizen

Wir bezeichnen mit Sn die Menge der symmetrischen Matrizen in Rn,n . Offenbar ist Sn ist einreeller Vektorraum der Dimension 1

2n(n+1) . Das Nullelement in Rn,n , also die Nullmatrix, be-zeichnen wie mit Θ . Als inneres Produkt in Sn verwenden wir A•B := spur(AB) =

∑ni,j=1 aijbij .

Damit wird (Sn, · • ·) zu einem endlichdimensionalen Hilbertraum. Das Skalarprodukt · • · indu-ziert die so genannte Frobeniusnorm ‖A‖F :=

√A •A .

Wir wissen, dass alle Eigenwerte einer symmetrischen Matrix A reell sind und dass in Rn eineorthonormale Basis existiert, bestehend aus Eigenvektoren von A . Daraus folgt, dass MatrizenU,D existieren mit

A = UDU t , U tU = UU t = I , D Diagonalmatrix . (4.11)

Wir definieren:

Sn+ := A ∈ Sn| alle Eigenwerte von A sind nichtnegativ

Sn++ := A ∈ Sn| alle Eigenwerte von A sind positiv

Offenbar ist Sn++ eine Teilmenge von Sn

+ . Ohne Beweis führen wir folgendes Ergebnisse aus derlinearen Algebra an:

Lemma 4.12 Sei A ∈ Sn . Dann sind äquivalent:

(a) A ∈ Sn+ .

(b) A = U tU für eine Matrix U ∈ Rn,n .

(c) Es gibt Vektoren x1, . . . , xk ∈ Rn mit A =

∑ki=1 x

i(xi)t .

(d) 〈Ax|x〉 ≥ 0 für alle x ∈ Rn .

(e) Alle Hauptminoren von A sind nichtnegativ.2

Aus (b) folgt insbesondere, dass die Matrizen xxt, x ∈ Rn, zu Sn+ gehören.

Lemma 4.13 Seien A,B ∈ Sn+ .

(1) Es gilt A •B ≥ 0 .

(2) A •B = 0 genau dann, wenn AB = Θ .

Beweis:Seien A = U tU,B = V tV (siehe Lemma 4.12).Zu (1)Wir haben

A •B = spur(U tUV tV ) = spur(UV tV U t) = spur(UV t(UV t)t) ≥ 0 .

Zu (2)Es ist A •B = 0, falls AB = Θ gilt, denn es ist A •B = spur(AB) .Sei A •B = 0 . Wegen spur(UV t(UV t)t) = 0 (siehe oben), ist UV t = Θ , also AB = U tUV tV =Θ .

Lemma 4.14 Sei A ∈ Sn . Dann sind äquivalent:2Ein Hauptminor ist eine Determinate einer Teilmatrix, die entsteht, wenn man Zeilen und entsprechende

Spalten ab einem Index streicht.

81

Page 92: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(a) A ∈ Sn+ .

(b) A •B ≥ 0 für alle B ∈ Sn+ .

Beweis:Zu (a) =⇒ (b)Siehe Lemma 4.13 (1).Zu (b) =⇒ (a)Sei λ ∈ R ein Eigenwert von A und x ∈ Rn ein zugehöriger Eigenvektor. Dann gilt

0 ≤ A • (xxt) = 〈Ax|x〉 = λ〈x|x〉 ,

woraus λ ≥ 0 folgt.

Lemma 4.15 Sei A ∈ Sn . Es sind äquivalent:

A ∈ Sn++ .

A •B > 0 für alle B ∈ Sn+\Θ .

Beweis:Schreibe A in seiner diagonalisierten Form: A = QDQt mit Q orthogonal und der DiagonalmatrixD, die in ihrerer Diagonale die Eigenwerte von A hat.(a) =⇒ (b)Sei B ∈ Sn

+\Θ . Alle Elemente in der Diagonale von D sind positiv. Setze B := QtBQ . AlsoB = QBQt . Offensichtlich ist B ∈ Sn

+ und daher sind alle Diagonalelemente von B nichtnegativund da B 6= Θ ist, ist mindestens ein Eintrag in der Diagonale von B positiv. Nun folgt

A •B = spur(AB) = spur((QDQt)(QBQt)) = spur(QDBQt) = spur(DB) =

n∑i=1

DiiBii > 0 .

(b) =⇒ (a)Sei λ ∈ R ein Eigenwert von A und x ∈ Rn ein zugehöriger Eigenvektor. Dann ist B = xxt ∈Sn+\Θ und es gilt

0 < A • (xxt) = 〈Ax|x〉 = λ〈x|x〉 ,

woraus λ ≥ 0 folgt.

Folgerung 4.16 Sn+ ist ein abgeschlossener konvexer spitzer Kegel mit int(Sn

+) = Sn++ .

Beweis:Die Aussage über das Innere von Sn

+ folgt aus der Tatsache, dass die Eigenwerte einer Matrixstetig von (den Einträgen) der Matrix abhängen. Die restlichen Aussagen folgen unmittelbar ausder Definition.

Sn+ kann als Ordnungskegel in Sn Verwendung finden gemäß

A B : ⇐⇒ A−B ∈ Sn+ .

Offenbar ist · · eine Halbordnung (Löwner-Ordnung) in Sn . Wir schreiben für A ∈ Sn+ auch

A Θ und für A ∈ Sn++ auch A Θ .

Der zu Sn+ polare Kegel (Sn

+) ist definiert durch

(Sn+)

:= A ∈ Sn|A •B ≥ 0 für alle B ∈ Sn+ . (4.12)

82

Page 93: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 4.17 Es gilt:

(1) (Sn+)

ist ein abgeschlossener konvexer spitzer Kegel.

(2) (Sn+)

= Sn+ .

Beweis:Es reicht wegen 4.16 (2) zu zeigen. (2) ist aber in Lemma 4.14 schon gezeigt.

Die Aussage (2) in Lemma 4.17 fasst mann unter Sprechweise „Sn+ ist selbstdual“ zusammen.

Die entsprechende Beobachtung ist

(Rn+)

:= x ∈ Rn|〈x|y〉 ≥ 0 für alle y ∈ Rn+ = Rn

+ .

In der linearen Optimierung spielt das Farkas-Lemma mit seinen Varianten eine überragendeRolle. Analoge Ergebnisse können wir auch hier beweisen.

Lemma 4.18 Es sind äquivalent:

(a) M := y ∈ Rm|A∗(y) ∈ Sn++ = ∅ .

(b) M∗ := X ∈ Sn+|X 6= Θ,A(X) = θ 6= ∅ .

Beweis:Zu (a) =⇒ (b)Ist R := A∗(y)|y ∈ Rm, dann ist nach Voraussetzung R∩Sn

++ = ∅ . Dann gibt es X ∈ Sn undσ ∈ R mit

X • A∗(y) ≤ σ, y ∈ Rm, und X • S > σ, S ∈ Sn++ .

Da Θ ∈ Sn++,Θ ∈ R, folgt σ = 0 . Da X • S ≥ 0 ist für alle S ∈ Sn

+ = Sn++, ist nach Lemma 4.14

X ∈ Sn+ und offenbar X 6= ∅ . Da R ein linearer Teilraum ist, ist X • A∗(y) = 0 für alle y ∈ Rm .

Dann folgt aber durch die geschickte Wahl von y schlieslich A(X) = Θ . Zu (b) =⇒ (a)Sei X ∈M∗ . Annahme: M 6= ∅ . Sei y ∈M . Dann gilt A(X) = θ und nach Lemma 4.15

0 < A∗(y) •X = 〈A(X)|y〉 = 0,

was ein Widerspruch ist.

Lemma 4.19 Es sind äquivalent:

(a) N := (y,W ) ∈ Rm × Sn|A∗(y) +W = C,W ∈ Sn++ = ∅ .

(b) N∗ := X ∈ Sn+|X 6= Θ,A(X) = θ, C •X ≥ 0 6= ∅ .

Beweis:Zu (b) =⇒ (a) Trenne hier R := A∗(y)|y ∈ Rm und C + Sn

++ . Dann schließe wie im Beweisvon 4.18.Zu (a) =⇒ (b)Offenbar gilt Nt := (y,W ) ∈ Rm × Sn|A∗(y) +W = tC,W ∈ Sn

++ = ∅ , t > 0 . Setze

A′i :=

(Ai 0Θ 0

), C ′ :=

(−C 0Θ 0

).

Dann folgt aus Lemma 4.18, dass gilt:

N∗t := X ′ ∈ Sn

+|X ′ 6= Θ, A′i •X ′ = 0, i = 1, . . . ,m,C ′ •X ′ ≥ 0 6= ∅ , t > 0, .

83

Page 94: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Sei X ′ ∈ N∗t und sei

X ′ =

(X x1,n+1

xn+1,1 · · ·xn+1,n xn+1,n+1

).

Dann erhalten wirdX •Ai = 0 , (−C) •X + xn+1,n+1 = 0 .

Aus X ′ ∈ Sn+1+ , erhalten wir X ∈ Sn

+ und xn+1,n+1 ≥ 0 . Also gilt C •X ≥ 0 . Da X ′ 6= Θ, istX 6= Θ, da sonst xn+1,n+1 > 0 , was zum Widerspruch C ′ •X 6= 0 führt.

4.3 Semidefinite Optimierung

Bezeichnungen und Schreibweisen.Mit diag(X) ∈ Rn bezeichnen wir die Diagonale der Matrix X = (xij) ∈ Rn,n, also diag(X)i =xii, i = 1, . . . , n . Mit Diag(x) ∈ Rn,n schreiben wir den Vektor x ∈ Rn als Diagonalmatrix (dij)mit dii = xi, i = 1, . . . , n .

Wir betrachten nun die Standardaufgabe der Semidefiniten Optimierung und fügensofort die duale Aufgabe an.

(SOP ) Minimiere 〈C •X〉u. d. NB A(X) = b,X ∈ Sn

+

(DSOP ) Maximiere 〈b|y〉u. d. NB A∗(y) +W = C, y ∈ Rm,W ∈ Sn

+

wobei A : Sn −→ Rm definiert ist durch A(X)k = Ak • X mit Ak ∈ Sn+, k = 1, . . . ,m . A∗ :

Rm −→ Sn ist definiert durch A∗(y) =∑m

k=1 ykAk . Ak ∈ Sn, k = 1, . . . ,m, b ∈ Rm, C ∈ Sn

sind die Daten des Problempaares, X ist die Variable in (SOP ), (y,W ) sind die Variablen in(DSOP ) . Den Wert der Aufgabe (SOP ) bezeichnen wir mit p, den von (DSOP ) mit d .Beachte: 〈A(X)|y〉 = X • A∗(y) .

Die Formulierung (DSOP ) ist offenbar eine formale Übertragung der Dualität bei der linearenOptimierung. Diese Übertragung ist aber korrekt, wie eine Wiederholung der Argumentation wiein der linearen Optimierung zeigen würde. Wir bestätigen sie mit dem Nachweis der schwachenDualität und einem Satz zur starken Dualität.

Die Aufgabenstellung (SOP ) sieht ziemlich spezialisiert aus, sie enthält aber eine Vielfalt anAufgaben. Wir führen zwei Beispiele dafür an.

Lineares Programm — Semidefinites ProgrammWir betrachten das lineare Programm in folgender Formulierung (siehe (DLOP )):

Maximiere 〈b|y〉 u. d. NB Aty ≤ c , y ∈ Rn , (4.13)

Dieses Problem ist äquivalent zu

Maximiere 〈b|y〉 u. d. NB diag(c−Aty) ∈ Sn+ (4.14)

Wir setzen C := diag(c), Ak := diag(ak), k = 1, . . . ,m, wobei ak die k-te Spalte von At ist. Damitist das Problem (4.14) äquivalent zu

Maximiere 〈b|y〉 u. d. NBm∑k=1

ykAk +W = C,W ∈ Sn+ (4.15)

Dieses ist in der Form des semidefiniten Programms in der dualen Form. Also stellen wir fest,dass ein lineares Programm in ein semidefinites Programm umgeschrieben werden kann.

84

Page 95: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Bemerkung 4.20 Ein semidefinites Programm kann auch in ein lineares Programm umge-schrieben werden, allerdings mit unendlich vielen Nebenbedingungen. Es verwundert daher nicht,dass Überlegungen für die semidefinite Programmierung sehr parallel zu Betrachtungen bei dersemiinfiniten Programmierung (lineare Zielfunktion, unendlich viele lineare Nebenbedingun-gen) laufen, zur finiten linearen Programmierung aus Abschnitt 4.1 sind manchmal aber dieUnterschiede ziemlich drastisch.

Quadratisches Programm — Semidefinites ProgrammBetrachte das Problem

Minimiere f0(x)u. d. NB fi(x) ≤ 0, i = 1, . . . , l ,

wobei jedes fi von der Form einer quadratischen Funktion ist:

fi(x) = 〈Aix+ bi, Aix+ bi〉 − 〈ci, x〉 − di, x ∈ Rn, i = 0, . . . , l .

Dieses Problem ist äquivalent zu folgendem semiinfiniten Programm:

Minimiere t

u. d. NB

(E A0x+ b0

(A0x+ b0)t 〈c0, x〉+ d0 + t

) Θ ,(

E Aix+ bi

(Aix+ bi)t 〈ci, x〉+ di

) Θ , t ∈ R, x = (x1, . . . , xn) ∈ Rn , i = 1, . . . , l .

Eine Anwendung für die semidefinite Optimierung ist das Problem des maximalen Schnitts(Max-Cut-Problem); für weitere Anwendungen siehe [25]. Das Max-Cut-Problem beschreibtdie Aufgabe, einen gewichteten Graphen G = (V,E) so zu zerlegen, dass die aufsummiertenGewichte der die Partion verbindenden Kanten maximal wird.

Sei G = (E,K) mit Eckenmenge E = 1, . . . , n und Kantenmenge K . Die Gewichte wij ∈ Rfür die Kanten eij ∈ K seien gegeben; für Kanten e = eij , die nicht zu K gehören, setzen wirwij = 0 . Wir setzen voraus, dass die Gewichtsmatrix W := (wij) ∈ Rn,n eine symmetrischeMatrix ist.

Sei eine Partition von E gegeben durch E = U ∪ V \U . Der Schnittwert ist definiert alscv(U) :=

∑i∈U,j /∈U wij . Damit ist das zugehörige Max-Cut-Problem gegeben durch

Löse mc(G) := maxU⊂V

cv(U) .

Eine Teilmenge U von 1, . . . , n kann man darstellen durch einen Vektor x = (x1, . . . , xn) ∈±1n :

xi = 1 ⇐⇒ i ∈ U , xi = −1 ⇐⇒ i /∈ U .

Dementsprechend ist eine Kante i, j genau dann in U enthalten, wenn xixj = −1 gilt. Dannergibt eine einfache Rechnung die folgende Formulierung des Max-Cut-Problems:

Maximiere1

2

∑i<j

wij(1− xixj) mit xi ∈ ±1, i = 1, . . . , n . (4.16)

Führt man noch die so genannte Laplace-Matrix L := Diag(We)−W mit der GewichtsmatrixW := (wij) ∈ Rn,n und dem Vektor e := (1, . . . , 1) ein, so erhält man als äquivalente Beschreibungdes Problems:

Maximiere1

4〈x|Lx〉 mit x ∈ ±1n . (4.17)

85

Page 96: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Dieses Problem lässt sich nun weiter umformen zu

Maximiere1

4L •X mit X = xxt, x ∈ Rn, diag(X) = e , (4.18)

denn wegen diag(xxt) = diag(X) = e ist x2i = 1, i = 1, . . . , n, also x ∈ ±1n .

Bemerkung 4.21 Mit der konvexen Hülle der zulässigen Menge in Problem (4.18)

MC := co(X ∈ Rn,n|∃x ∈ Rn mit X = xxt, diag(X) = e) ⊂ ±1n,n

erhält manMaximiere

1

4L •X mit X ∈ MC . (4.19)

da sich der Wert der Aufgabe dank der Tatsache, dass die Zielfunktion linear ist, nicht ändert.MC heist das MAX-CUT-Polytop.

Die Lösung des Max-Cut-Problems in der Formulierung (4.18) ist sehr aufwändig, ja manweiß, dass das Max-Cut-Problem NP-vollständig ist, nur für einige spezielle Graphen kennt manpolynomiale Algorithmen. Die Suche nach guten Lösungsstrategien hat die allgemeine Algo-rithmentheorie stark beeinflusst. Neben dieser theoretischen Bedeutung gibt es auch zahlreichepraktische Anwendungen. Eine davon ist die Anwendung auf Spingläser, eine Problemstellungaus dem Bereich Ordnungs/Unordnungs-Phänomene in der Physik.

Um das Problem unter Verzicht auf exakte Lösbarkeit schneller lösen zu können, greift manzum Werkzeug der Relaxation: man weicht die Nebenbedingungen mehr oder minder stark auf.Eine Möglichkeit ist, auf die Forderung X = xxt, x ∈ Rn, zu verzichten, eine Forderung, dienichts anderes besagt als rang(X) = 1, und sicherstellt, dass die Variablen x in ±1n liegen.Damit entsteht das Problem

Maximiere1

4L •X ′ mit X ′ ∈ Sn

+, diag(X ′) = e . (4.20)

Dies ist nun ein Problem der semidefiniten Optimierung, das sich unter die Problemstellung(SDO) einordnet und sich in polynomialer Zeit lösen lässt. Der Wert mcr der Aufgabe 4.20 isteine obere Schranke für den Wert mc des Max-Cut-Problems aus 4.18.

Der Goemans-Williamson Algorithmus (siehe [13]) ist eine Vorgehensweise, aus der er-haltenen Lösung X ′ von (4.20) eine Approximation für eine Lösung X von (4.18) zu konstruieren.Dazu muss aus der Lösung X ′ wieder eine Zerlegung des Graphen gewonnen werden, die ja imProblem (4.20) verloren gegangen ist. Dazu wird X ′ zerlegt nach Cholesky, X ′ = V V t, und ausden Spalten von V durch Rundung unter Verwendung probabilistisch gewählter Einheitsvektorenin Rn iterativ ein Vektor x ∈ ±1 . erzeugt, der die Zerlegung des Graphen „wiederherstellt“.Dieses Vorgehen resultiert in einer approximativen Lösung X = xxt von (4.18), so dass mit demWert v := 1

4L •X gilt: 0.878v ≤ mc .

Bemerkung 4.22 Die lineare und semidefinite Optimierung sind Beispiele konischer Opti-mierung: die Nebenbedingungen beinhalten als wesentliches Formulierungshilfsmittel Kegel.

Kommen wir nun zur Standardaufgabe der semidefiniten Programmierung zurück. Betrachtedie Mengen

F (p) := X ∈ Sn|A(X) = b,X ∈ Sn+

F (p) := X ∈ F (p)|X ∈ Sn++

F (d) := (y,W ) ∈ Rm × Sn|A∗(y) +W = C,W ∈ Sn+

F (d) := (y,W ) ∈ F (d)|W ∈ Sn++

86

Page 97: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Sie beschreiben zulässige und „strikt zulässige Punkte“ des primalen (SOP ) bzw. des dualenProblems (DSOP ) .

Lemma 4.23 Ist X ∈ F (p) und ist (y,W ) ∈ F (d), dann gilt:

C •X − 〈b|y〉 = X •W ≥ 0 (4.21)

Beweis:Wir haben A(X) = b,X ∈ Sn

+ , A∗(y) +W = C,W ∈ Sn+ . Damit erhalten wird

C •X − 〈b|y〉 = (A∗(y) +W ) •X − 〈b|y〉 = 〈y|b〉+ 〈W |x〉 − 〈b|y〉 = 〈X|W 〉 .

Da X,W ∈ Sn+ ist, haben wir nach Lemma 4.14 X •W ≥ 0 .

Folgerung 4.24 Es gilt p ≥ d .

Beweis:Wende Lemma 4.23 an.

Satz 4.25 (Starke Dualität) Seien F (p) und F (d) nichtleer. Dann sind (SOP ), (DSOP )lösbar und es gilt p = d . Zusatz: Die Lösungsmenge von (SOP ) ist konvex und kompakt.

Beweis:Sei X ∈ F (p) und W ∈ F (d) . Füge in (SOP ) die Nebenbedingung C • X ≤ C • X hinzu.Diese Maßnahme ändert nichts an der Lösbarkeit, an der Lösungsmenge und dem Wert p derabgeänderten Aufgabe (SOP ) . Aus der schwachen Dualität 4.23 ergibt sich also für ein zulässigesX mit C •X ≤ C • X

W •X = C •X − 〈b|y〉 ≤ C • X − 〈b|y〉 = W • X .

Damit wird aus (SOP ) das Problem

(SOP ′) Minimiere C •X u. d. NB A(X) = b, W •X ≤ W • X,X ∈ Sn+

Für alle r > 0 ist die MengeNr := V ∈ Sn+|W •V ≤ r beschränkt in Sn, da W in Sn

++ ist. Damitist der zulässige Bereich in (SOP ′) kompakt. Da die Abbildung Sn 3 X 7−→ C •X ∈ R stetigist, ist (SOP ′) lösbar mit Wert p und die Lösungsmenge ist kompakt, insbesondere beschränkt,und offenbar konvex.Sei ε > 0 . Betrachte damit die Mengen

K1 := Sn+ , K2 := X ∈ Sn|A(X) = b, C •X ≤ p− ε .

K1 ist abgeschlossener konvexer Kegel, K2 ist abgeschlossen und konvex.Beobachtung (1): K1 ∩K2 = ∅ .Sei X ∈ K1 ∩ K2 . Dann löst X das Problem (SOP ) und es gilt C • X < p . Dies ist einWiderspruch.Beobachtung (2): θ /∈ K1 −K2 .Annahme: θ ∈ K1 −K2 . Dann gibt es Folgen (Un)n∈N, (Vn)n∈N mit Un ∈ K1, Vn ∈ K2, n ∈ N ,und limn(Un − Vn) = θ .1. Fall: Ist (Vn)n∈N beschränkt, dann konvergieren Teilfolgen von (Un)n∈N, (Vn)n∈N gegen einU ∈ K1, V ∈ K2 mit U − V = θ, was ein Widerspruch zur Beobachtung (1) ist.2. Fall: Ist (Vn)n∈N unbeschränkt, dann können wir die Folge (Vn‖Vn‖−1

F )n∈N in Sn betrachtenund eine Teilfolge davon konvergiert gegen ein V ∈ Sn mit A(V ) = θ, C • V ≤ 0 . Da nun auch

87

Page 98: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

die entsprechende Teilfolge von (Un‖Vn‖−1F )n∈N in Sn

+ gegen ein U ∈ Sn+ konvergiert und U = V

gilt, ist V ∈ Sn+ . Sei X eine Lösung von (SOP ) ; siehe oben. Dann ist X + tV in F (p) für alle

t > 0, denn A(X + tV ) = b, C • (X + tV ) ≤ C • X + tC • V ≤ p . Dann ist aber offenbar wegen‖V ‖F = 1 die Lösungsmenge von (SOP ) unbeschränkt, ein Widerspruch zur schon bewiesenenAussage.Beobachtung (3) Wir können nun θ von K1 −K2 trennen.Wir erhalten mit einem S ∈ Sn, σ ∈ R,

S •X > σ,X ∈ K1 und S •X < σ, x ∈ K2 . (4.22)

Da θ ∈ K1 ist, muss gelten: σ < 0 . Da auut ∈ K1 ist für alle a > 0, u ∈ Rn, folgt S • auut =a〈u|Su〉 > σ . Daher kann es kein u ∈ R geben mit 〈u|Su〉 < 0 . Dies bedeutet: S ∈ Sn

+ .Beobachtung (4): Ist X ∈ Sn, dann folgt aus A(X) = b, C •X ≤ p− ε offenbar S •X < σ .Beobachtung (5): Betrachte die Mengen

R := (A(X),−A(X),−C•X,S•X|X ∈ Sn+ , Q := (w, z, r, s)|w ≥ b, z ≥ −b, r ≥ ε−p, s ≥ σ .

Wegen s ≥ σ in der Menge Q ist R ∩ Q = ∅ . Da R,Q konvex und abgeschlossen sind undoffenbar int(R) 6= ∅ ist, kann ein üblicher Trennungssatz angewendet werden und wir erhalten(u, v, η, β) ∈ Rm × Rm × R× R, τ ∈ R, mit

〈u|A(X)〉 − 〈v|A(X)〉 − ηC •X + βS •X ≤ τ für alle X ∈ Sn+ ,

〈u|w〉+ 〈v|z〉+ ηr + βs > τ für alle (w, z, r, s) ∈ Q .

Mit y := u− v erhalten wir

〈y|A(X)〉 − ηC •X + βS •X ≤ τ für alle X ∈ Sn+ (4.23)

〈y|b〉+ ηr + βs > τ für alle r ≥ ε− p, s ≥ σ (4.24)

Wegen Θ ∈ Sn+ ist τ ≥ 0 . Offenbar ist auch η ≥ 0, β ≥ 0, wegen der unteren Schranke τ in

der zweiten Ungleichung (4.24). Wir machen nun eine vollständige Fallunterscheidung für dieverbleibenden Möglichkeiten von η, β .1. Fall: β = 0, η = 0Dann folgt mit X ∈ F (p) aus (4.23) 〈y|b〉 ≤ τ, 〈y|b〉 > τ nach (4.24), also ein Widerspruch.2. Fall: β = 0, η > 0 .Dann haben wir, nachdem wir mit η dividiert und y, τ entsprechend abgeändert haben,

(A∗(y)− C) •X ≤ τ für alle X ∈ Sn+ , 〈y|b〉+ r > τ für alle r ≥ ε− p .

Daraus folgt −A∗(y) + C ∈ Sn+ und 〈y|b〉 > τ + p − ε ≥ p − ε , da τ ≥ 0 . Also ist das Paar

(y,W ) := (y,−A∗(y) + C) ∈ F (d) und dies impliziert, da ε > 0 beliebig ist, d ≥ p .3. Fall: β > 0, η = 0 .Es gilt, nachdem wir mit β dividiert und y, τ entsprechend abgeändert haben,

(A∗(y) + S) •X ≤ τ für alle X ∈ Sn+ , 〈y|b〉+ s > τ für alle s ≥ σ .

Es folgt 〈y|b〉 + S • X ≤ τ , also 〈y|b〉 ≤ τ − S • X ≤ τ, da S • X ≥ 0 ist dank S, X ∈ Sn+, und

〈y|b〉 ≥ τ − σ > τ, da σ > 0 ist. Dies ist ein Widerspruch.4. Fall: β > 0, η > 0 .Es gilt, nachdem wir mit β dividiert und y, τ entsprechend abgeändert haben,

(A∗(η−1y)−C+η−1S)•X ≤ τ für alle X ∈ Sn+ , 〈η−1y|b〉+r+η−1s > η−1τ für alle r ≥ ε−p, s ≥ σ .

88

Page 99: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Daraus folgt

C −A∗(η−1y) ∈ Sn+ , 〈η−1y|b〉 > p− ε, da η−1(τ − σ) > 0 ist .

Also ist das das Paar (η−1y,W ) := (y,−A∗(y)+C) ∈ F (d) und dies impliziert, da ε > 0 beliebigist, d ≥ p .

Bemerkung 4.26 Das Ergebnis aus Satz 4.25 ist asymmetrisch zwischen (SOP ) und (DSOP ) .Diese Asymmetrie kann aufgehoben werden mittels der Beobachtung, dass (SOP ) in ein Problemder Form (DSOP ) umgewandelt werden kann und umgekehrt. Dabei benötigt man die Bedin-gung, dass A1, . . . , Am linear unabhängig in Sn sind. Eine einfache Überlegung zeigt, dass dieseBedingung durch eine Weglassung „überflüssiger“ Ak’s erreicht werden kann.

Nun ist es nicht überraschend, dass unter den Voraussetzungen

A1, . . . , Am linear unabhängig , F (p), F (d) nichtleer

sowohl (SOP ) als auch (DSOP ) eine nichtleere, konvexe, kompakte Lösungsmenge besitzen; siehe[25].

Gilt nun die starke Dualität, so hat man als notwendige und hinreichende Optimalitätsbedin-gungen:

A(X) = b , X ∈ Sn+ (4.25)

A∗(y) +W = C , y ∈ Rm,W ∈ Sn+ (4.26)

XW = Θ (4.27)

Dabei ergibt sich die Gleichung (4.27) aus der Bedingung X •W = 0 der schwachen und starkenDualität dank der Tatsache, dass X und W in Sn

+ sind. Sie drückt also gerade aus, dass keineDualitätslücke vorliegt. Wie in der linearen Optimierung stört man nun diese Gleichung (4.27),d. h. man ersetzt sie durch

XW = νI (4.28)

mit der Einheitsmatrix I ∈ Rn,n und ν > 0 . Für ν = 0 entsteht wieder die Gleichung (4.27). DieLösung(en) ν 7−→ (Xν , yν ,Wν) von (4.25),(4.26),(4.28) werden der zentrale Pfad genannt.

Ein inneres Punkte Verfahren löst nun dieses Gleichungssystem iterativ, wobei der Stö-rungsparamater ν in jedem Iterationsschritt so verändert wird, dass er iterativ gegen 0 konver-giert. Man erhält also eine Folge (Xn, yn,Wn, νn)n∈N mit der „Dualitätslücke“

C •Xn − 〈b|yn〉 = Xn •Wn ,

von der wir erwarten können, dass sie im Grenzwert eine Lösung (X, y,W ) von (4.25),(4.26),(4.27)liefert. Um die Existenz des zentralen Pfades abzusichern, ist die Voraussetzung

A1, . . . , Am linear unabhängig , F (p), F (d) nichtleer

hilfreich.

89

Page 100: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

4.4 Anhang: Lineare Ausgleichsprobleme – der endlichdimensio-nale Fall

Wir beschränken uns hier auf den Ausgleich von Daten im endlichdimensionalen Fall. Dann sindlineare (unrestringierte) Ausgleichsprobleme von der Form

Minimiere f(x) := |D(Ax− b)| u. d. NB x ∈ Rn . (4.29)

Dabei sind A ∈ Rm,n, b ∈ Rm gegebene Daten und D ∈ Rn,n eine Gewichtsmatrix, d. h. ei-ne positiv definite Matrix, beispielsweise eine Diagonalmatrix mit positiven Einträgen in derDiagonalen.

Wir haben hier den Fall überbestimmter Gleichungssysteme im Auge, also m > n . Diesist der Standardfall bei der Interpretation von „physikalischen Meßprozessen“, wie es an denuntigen Beispielen deutlich werden wird.

Die Gewichtsmatrix D wollen wir nun gleich wieder weglassen, d. h. den Spezialfall D = Ebetrachten. Im konkreten Fall gewinnt man dann die Resultate für den allgemeinen Fall zurück,wenn man A durch DA und b durch Db ersetzt. Also betrachten wir nun, die Zielfunktionquadrierend:

(AP ) Minimiere f(x) :=1

2|Ax− b|2 u. d. NB x ∈ Rn .

Das Problem (AP ) bewertet den Defekt Ax−b mit der euklidischen Norm. Man nennt die Be-stimmung von x mittels der Optimierungsaufgabe (AP ) die Methode der kleinsten Quadrateoder die Fehlerquadratmethode und eine Lösung von (AP ) bezeichnet man als Fehlerqua-dratlösung von

Ax = b . (4.30)

Wir haben also für das (im allgemeinen unlösbare) Gleichungssystem (4.30) einen abgeändertenLösungsbegriff. Wir werden schnell zeigen können, dass für diesen Lösungsbegriff Lösbarkeit für(4.30) vorliegt.

Bemerkung 4.27 Es ist naheliegend, es auch mit anderen Normen zu versuchen, etwa mit denlp–Normen:

Minimiere ‖Ax− b‖p u. d. NB x ∈ Rn ,

wobei p ∈ [1,∞] . Die Begründung, es hauptsächlich den Fall p = 2 zu betrachten, stammt vonGauß, der erstmals wahrscheinlichkeitstheoretische Überlegungen ins Spiel brachte. Bei p = ∞spricht man von der Tschebyscheff-Ausgleichsrechnung; siehe Abschnitt 4.6.

Unterschiedliche Normen führen zu unterschiedlichen Lösungen; siehe Beispiel 4.28. Wichti-ger ist aber die Beobachtung, dass die Normen p = 1, p = ∞ Schwierigkeiten bei der Behandlungder Aufgabe bereiten würden: die Zielfunktion ist hier nicht differenzierbar. Im Abschnitt 4.6 skiz-zieren wir für ein spezielles Problem, der Nichtdifferenzierbarkeit Herr zu werden. Auf Problememit nichtdifferenzierbarer Zielfunktionen gehen wir allgemein in Kapitel 5 ein.

Beispiel 4.28 Betrachte die Daten

A :=

111

, b =

b1b2b3

, mit b1 ≥ b2 ≥ b3 .

Die Lösungen sind:

p = 1 : x = b2 ;

p = 2 : x = (b1 + b2 + b3)/3 ;

p = ∞ : x = (b1 + b3)/2 .

90

Page 101: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beispiel 4.29 Es ist diejenige Gerade in R2 gesucht, die im quadratischen Mittel den geringstenAbstand zu vorgegebenen Stützpunkten (tj , yj), j = 1, . . . ,m besitzt; eine solche Gerade bezeichnetman als Ausgleichsgerade. Es wird also ein Modell unterstellt, bei dem die Abhängigkeit einlinearer ist. Verwendet man für die Darstellung einer Geraden die Darstellung

t 7−→ d+ ct

mit Koeffizienten d, c, so lautet das zu lösende Minimierungsproblem

Minimierem∑j=1

(d+ ctj − yj)2 , c, d ∈ R .

Dieses Problem kann man schließlich in der Form (AP ) schreiben, wobei

A =

1 t1...

...1 tm

, x =

(dc

), b =

y1...yn

.

Bemerkung 4.30 Mit erfasst werden dadurch auch Modelle, bei denen ein physikalische Hin-tergrund durch

t 7−→ aebt

beschrieben wird, denn durch Logarithmieren entsteht ein linearer Zusammenhang. Aus diesemlinearen Zusammenhang heraus fällt der rationale Ausgleich. Hier versucht man mit rationalenFunktionen

t 7−→ d+ ct

1 + et+ ft2

zu approximieren.

Wir erinnern an Resultate der linearen Algebra; siehe etwa [1] oder [24]. Ist A ∈ Rm,n, danngilt:

Rm = ker(At)⊕ ran(A) (4.31)Rn = ker(A)⊕ ran(At) (4.32)

ker(A) = ran(At)⊥ (4.33)ran(A) = ker(At)⊥ (4.34)ker(A) = ker(AtA) (4.35)

ran(At) = ran(AtA) (4.36)

Beachte hier, dass dank der Tatsache, dass Rn,Rm endlichdimensional sind, die linearen Teilräu-me ker(A), kern(At), ran(A), ran(At) mitsamt ihren orthogonalen Komplementen abgeschlossensind.

Satz 4.31 (Normalgleichungen) Sei A ∈ Rm,n, b ∈ Rm , n ≤ m. Dann sind für x ∈ Rn

äquivalent:

(a) x löst (AP )

91

Page 102: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(b) Es gelten die so genannten Normalgleichungen:

AtAx = Atb (4.37)

Beweis:Nach (4.31) hat b eine eindeutige Zerlegung

b = u+ v mit u ∈ ran(A), v ∈ ker(At) .

Da ran(A), ker(At) orthogonale Komplemente sind, gilt für alle x ∈ Rn

|Ax− b|2 = |(Ax− u) + (u− b)|2 = |Ax− u|2 + |u− b|2 ,

da Ax− u ∈ ran(A), u− b ∈ ker(At) . |Ax− b|2 wird also genau dann minimal, wenn Ax = u, d.h. Ax− b = −v ist. Da v ∈ ker(At) ist, bedeutet dies aber gerade At(Ax− b) = θ .

Beispiel 4.32 Betrachten wir erneut das Problem der Ausgleichsgeraden aus Beispiel 4.29. Hierlauten die Normalgleichungen

dn+ c

m∑i=1

ti =

m∑i=1

yi , d

m∑i=1

ti + c

m∑i=1

t2i =

m∑i=1

tiyi

mit der Lösung

d =

∑mi=1 yi

∑mi=1 t

2i −

∑mi=1 ti

∑mi=1 tiyi

m∑m

i=1 t2i − (

∑mi=1 ti)

2, c =

m∑m

i=1 yiti −∑m

i=1 ti∑m

i=1 yim∑m

i=1 t2i − (

∑mi=1 ti)

2.

Man erkennt, dass der Schwerpunkt der Daten

(t, y) mit t =1

m

m∑i=1

ti , y =1

m

m∑i=1

yi

auf der Ausgleichsgeraden liegt. Diese Ausgleichsgerade ist eine Konsequenz der Tatsache, dass tals unabhängige und y als abhängige Variable angesehen wird. Diese Abhängigkeit kann man abervertauschen und erhält, wenn alle yi paarweise verschieden sind, eine weitere Ausgleichsgerade;auf ihr liegt der Schwerpunkt der Daten auch. Also gibt es einen Schnittpunkt der beiden Geraden.Die Statistik weiß den Schnittwinkel der beiden Geraden zu deuten.

Folgerung 4.33 Sei A ∈ Rm,n, b ∈ Rm , n ≤ m.

(a) Das Problem (AP ) ist stets lösbar.

(b) Sind x1, x2 Lösungen der Normalgleichungen (4.37), dann gilt Ax1 = Ax2 .

(c) Das Problem (AP ) ist eindeutig lösbar, falls rang(A) = n gilt.

Beweis:Zu (a) Wir haben nach (4.34) Atb ∈ ran(AtA) und daher Lösbarkeit der Normalgleichungen unddamit von (LQP ) .Zu (b) Aus b = Ax1 + (b−Ax1) = Ax2 + (b−Ax2) und Ax1, Ax2 ∈ ran(A), b−Ax1, b−Ax2 ∈ker(At) folgt Ax1 = Ax2 .Zu (c) Es gilt n = rang(A) = rang(AtA) , und AtA ist invertierbar.

Im Fall rang(A) < n besitzen die Normalgleichungen beliebig viele Lösungen. Eindeutigkeiterreicht man durch die Zusatzinformation, dass diejenige Lösung gesucht wird, die minimaleeuklidische Norm besitzt.

92

Page 103: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Definition 4.34 Sei A ∈ Rm,n, b ∈ Rm , n ≤ m. Die Minimalnormlösung von Ax = b ist xmit

|x| = min|x||AtAx = Atb .

Folgerung 4.35 Sei A ∈ Rm,n, b ∈ Rm , n ≤ m, und sei x eine Lösung der Normalgleichungen(4.37). Dann sind äquivalent:

(a) x ist Minimalnormlösung von Ax = b .

(b) x ∈ ker(A)⊥ .

Zusatz: Die Minimalnormlösung ist eindeutig bestimmt.

Beweis:Wir haben eine eindeutige Darstellung x = u + v mit u ∈ ker(A), v ∈ ker(A)⊥ und damit auch|x|2 = |u|2 + |v|2 . Wegen Folgerung 4.33 ist auch v eine Lösung der Normalgleichung. Darausfolgt die Äquivalenz nun sofort.Der Zusatz ergibt sich mit Folgerung 4.33 aus der Tatsache, dass nur eine Lösung der Normal-gleichungen in ker(A)⊥ existiert.

Wir haben also nun einen Lösungsbegriff für ein lineares Gleichungssystem gefunden, fürden immer eindeutige Lösbarkeit gegeben ist. Wir lassen hier die Frage der Stabilität, also dieAbhängigkeit der so erhaltenen Lösung von den Daten A, b offen. Diese wird im Rahmen derNumerischen Mathematik ausführlich diskutiert, ebenso die Berechnungsverfahren.

Mann könnte sich nun fragen, ob die Dualität für die Aufgabe (AP ) neue Erkenntnisse liefert.Da wir keine Nebenbedingungen an die Lösung verlangen und da wir wissen, dass im Hilbertraumdie Konjugierte von f : x 7−→ 1

2‖x‖2 wieder f ist, ist nichts Neues zu erwarten.

4.5 Anhang: Regularisierte Ausgleichsprobleme

Wir betrachten nun ein lineares Ausgleichsproblem im unendlichdimensionalen Kontext:

Minimiere1

2‖Ax− y‖2Y unter den Nebenbedingungen x ∈ Xad (4.38)

Hierbei ist ‖·‖Y die Norm m Hilbertraum Y, assoziiert zum inneren Produkt 〈·|·〉Y , undA : X −→Y eine lineare stetige Abbildung; X ist ein normierter Raum. Die Quadrierung des Abstandshat einen analytischen Vorteil, da dann, wie wir noch sehen werden, die Differenzierbarkeit desOptimalitätskriteriums x 7−→ 1

2‖Ax − y‖2Y einfacher zu nutzen ist. Ist Xad = X, kann mananalog zum Abschnitt 4.4 vorgehen, an die Stelle der adjungierten Matrix At tritt hier deradjungierte Operator A∗ : Y −→ X∗, definiert durch 〈y|Ax〉Y = 〈A∗y, x〉, x ∈ X, y ∈ Y . Es istaber zu beachten, dass Existenzaussagen nun nicht mehr mit Ergebnissen der linearen Algebrazu erledigen sind, beispielsweise ist nicht sichergestellt, dass das Bild ran(A) abgeschlossen ist.

Eine wesentliche Schwierigkeit bei der Lösung der Aufgabe (4.38) ergibt sich dann, wenn sichdie Abbildung A nicht stetig invertieren lässt. Dies ist generisch der Fall bei den sogenannteninversen Problemen, da dort A meist ein kompakter Operator ist, dessen Inverse im Allgemei-nen nicht stetig ist. Prominente Beispiele für solche Aufgaben findet man bei der Bildverarbei-tung (Bildrekonstruktion, Computer-Tomographie, Impedanztomographie, . . . ). Dies hat danndie Konsequenz, dass „beliebig große Abweichungen“ bei der Lösung einer Gleichung mit einemkompakten Operator und auch bei der Lösung der Aufgabe (4.38) in Kauf zu nehmen sind. Dieskann man durch eine geschickte Wahl von Xad vermeiden: Regularisierung der Aufgabe.

93

Page 104: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Will man in der Aufgabe (4.38) die Optimierung unter Nebenbedingungen vermeiden, kannman die Nebenbedingungen mit Hilfe eines „Strafterms“ an das Optimalitätskriterium ankop-peln. Dies führt dann zu einer Aufgabe der Art

(RAP ) Minimiere1

2‖Ax− y‖2Y + αf(x) , x ∈ X,

wobei f : X −→ R die Qualität, α die Quantität des Strafterms beschreibt. Wir bezeichnendiese Aufgabe auch als regularisierte Ausgleichsaufgabe. Da f einen Strafterm beschreibensoll, sollte f und α nichtnegativ sein, also f : X −→ [0,∞), α ≥ 0 . Um Resultate der konvexenAnalysis anwenden zu können, soll f konvex sein. Dann istH : X 3 x 7−→ 1

2‖Ax−y‖2Y +αf(x) ∈

[0,∞) konvex.

In (RAP ) sind wir bei einer Optimierungsaufgabe angelangt, die die wesentlichen Aufgaben-stellungen/Facetten von Optimierungstheorie beinhaltet: Aussagen zur Existenz undEindeutigkeit einer Lösung, notwendige und hinreichende Bedingungen für das Vorlie-gen einer Lösung, Ideen für Lösungsberechnungsverfahren, Konvergenzanalyse α→ 0 .GroßeBedeutung erlangen beim Studium dieser Aufgaben die Konvexität und Differenzierbarkeit derbeteiligten Kriterien X 3 x 7−→ ‖Ax − y‖2Y ∈ R und f : X −→ R . Diese Fragestellungenwerden etwa ziemlich erschöpfend diskutiert in [4, 18].

Hinsichtlich des Dualitätskonzepts ordnet sich das Problem (RAP ) folgender „Umformulie-rung“ des Dualitätssatzes von Fenchel-Rockafellar (siehe Satz 3.45) unter.

Satz 4.36 Seien X,Y normierte Räume, seien F : X −→ (−∞,∞], G : Y −→ (−∞,∞],A : X −→ Y . Es gelte:

(1) F,G eigentlich, konvex, unterhalbstetig.

(2) A linear und stetig.

(3) G ist stetig in einem x0 ∈ dom(F ) ∩ dom(G A) .

(4) Das Problem(FR) p := inf

x∈X(G(Ax) + F (x))

hat eine Lösung.

Dann hat auch das Problem

(FR∗) d := supλ∈Y ∗

(−F ∗(−A∗λ)−G∗(λ))

eine Lösung und es gilt p = d .

Beweis:Wir setzen: f := F, g := −G A . Dann rechnet man die Aussage mit Satz 3.45 nach

Im Gegensatz zu Satz 3.45 haben wir hier die Existenz einer Lösung im primalen Problemin die Voraussezungen aufgenomman. Dazu kann man die Existenzresulatate aus Abschnitt 3.2,insbesondere Satz 3.14 im Blick auf die nachfolgenden Bemerkungen, heranziehen.

In der Praxis bedient man sich bei „Straftermen“ einer Norm ‖ · ‖V , in folgender Weise:

(1) V ist normierter Raum mit V ⊂ X .

(2) V ist dicht in X .

94

Page 105: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(3) Die Einbettung V 3 v 7−→ v ∈ X ist kompakt, d. h. die abgeschlossenen Einheitskugel B1

in V ist kompakte Teilmenge von X .

Damit setzt man den Strafterm als f(x) := 12α

2‖x‖2, x ∈ V, an und betrachtet damit das Problem

Minimiere1

2‖Ax− y‖2Y +

1

2α2‖x‖2 , x ∈ V . (4.39)

4.6 Anhang: Tschebyscheff–Approximation

In der Approximationstheorie geht es darum, eine vorgegebene Funktion, die beispielsweise nuraufwändig ausgewertet werden kann, oder gewisse Daten einer komplizierten Funktion durcheine einfache Funktion zu approximieren. Diese Aufgabenstellung hat große Bedeutung erlangtzu Zeiten, als Computer den Umgang mit speziellen Funktionen (exp, sin, arccos, . . . ) „lernenmussten“.

Die Zutaten eines Approximationsproblems sind also

• Eine Funktion oder gewisse Daten einer Funktion f in einem Vektorraum X .

• Eine Menge V ⊂ X von approximierenden Funktionen. V könnte z. B. bestehen aus Poly-nomen von einem gewissem Höchstgrad, oder aus allen trigonometrischen Polynomen voneinem gewissem Höchstgrad, oder aus rational daraus zusammengesetzten Funktionen.

• Ein Abstandsbegriff; dies ist im Allgemeinen eine Norm im Raum X .

Wir haben den linearen Fall einer Approximationaufgabe im Auge, d. h. V ist ein linearer Teil-raum von X .

Gegeben sei also nun ein reeller normierter Raum X, eine linearer Teilraum V ⊂ X und einElement y ∈ X . Gesucht ist eine Approximation v ∈ V mit der Eigenschaft

‖y − v‖ ≤ ‖y − v′‖ für alle v′ ∈ V . (4.40)

Eine Approximation mit dieser Eigenschaft heißt eine Bestapproximation von y aus V . DieZahl p = pV (y) := ‖y − v‖ nennen wir die Minimalabweichung.

Fragen, die im Zusammenhang mit der Aufgabe, ein v ∈ V gemäß (4.40) zu finden, sind:

(1) Welche Norm ist für das angestrebte Ziel brauchbar.

(2) Approximierbarkeit: Gibt es zu vorgegebenem ε > 0 ein v∗ ∈ V mit ‖y − v∗‖ ≤ ε .

(3) Existenz: Gibt es ein v ∈ V gemäß (4.40).

(4) Eindeutigkeit: Gibt es höchstens ein v ∈ V gemäß (4.40).

(5) Stabilität: Variert v in stetiger Abhängigkeit von der Vorgabe y .

(6) Konvergenz: Konvergiert die Fehlerfunktion in Abhängigkeit von der Wahl der Dimensiionvon V gegen Null.

(7) Berechenbarkeit: Welche numerischen Verfahren stehen zur Berechnung von v zur Verfügung

In diesem Abschnitt wollen wir Bestapproximationen für stetige Funktionen betrachten, ge-nauer wir betrachten als Ausgangsraum X den linearen Raum der stetigen Funktionen auf einerkompakten Teilmenge K ⊂ Rn ; wir schreiben dann X := C(K) . Dann bestehen für die Wahleiner Norm in X umfangreiche Möglichkeiten. Die Ecksteine sind die Normen

95

Page 106: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

1. L1-Norm: ‖x‖1 :=∫K |x(t)|dt , x ∈ C(K) .

2. L2-Norm: ‖x‖2 := (∫K |x(t)|2dt)

12 , x ∈ C(K) .

3. L1-Norm: ‖x‖∞ := maxt∈K |x(t)| , x ∈ C(K) .

Die Betrachtungen zur Wahl der L2-Norm lassen sich in gewisser Weise bei den Ausgleichsproble-men unterbringen. Die Behandlung der Aufgabe ist mit einfachen Mitteln möglich. Zu beachtenist, dass C(K), versehen mit der L2-Norm im Allgemeinen nicht vollständig ist.

Die Wahl der L1-Norm bereitet ziemliche Schwierigkeiten, diese ist aber besser zu verstehen,wenn die Aufgabe für die Wahl der L∞-Norm verstanden ist. Zu beachten ist wiederum, dassC(K), versehen mit der L1-Norm im Allgemeinen nicht vollständig ist, was ja u. a. die Moti-vation für das Lebesgue-Integral ist. Beide Normen haben den Nachteil, dass die Kenntnis derMinimalabweichung keine Garantie über die punktweise Abweichung geben kann.

Wir wenden uns hier also der Aufgabe mit der L∞-Norm zu. Beachte, dass C(K), versehen mitder L∞-Norm vollständig ist. Dann heißt die Aufgabe Tschebyscheffapproximation, denn dieWurzeln der einschlägigen Theorie gehen auf P. L. Tschebyscheff (1821-1894) zurück. Die zentraleAussage der Theorie zur Tschebyscheff-Approximation ist der so genannte Alternantensatz(auch Satz von Tschebyscheff genannt), den wir aber nur im Anahang vorstellen.

Wir beschränken uns auf den Fall dimV <∞ . Im Auge haben wir die Wahl K = [a, b] ⊂ R .Zweierlei Varianten lassen wir damit etwa außer Acht: K ⊂ C oder K ⊂ Rm . Während der ersteFall nicht allzu wesentlich abweicht, sieht es beim zweiten Fall in den Konsequenzen schon andersaus, wir gehen aber nicht darauf ein. Wir betrachten also für y ∈ C(K)

(TAP ) Minimiere ‖y − v‖∞ , v ∈ V .

Satz 4.37 Sei K eine kompakte Teilmenge von R und sei V ein linearer Teilraum von C(K)endlicher Dimension. Dann besitzt das Approximationsproblem (TAP ) eine Lösung.

Beweis:Da V ein endlichdimensionaler Teilraum ist, gibt es v ∈ V mit ‖y − v‖ = dist(y, V ) .

Lemma 4.38 Sei K eine kompakte Teilmenge von R und sei V ein linearer Teilraum von C(K)der Dimension n+ 1 . Dann sind äquivalent:

(1) Jedes Element v ∈ V, v 6= θ, hat höchstens n Nullstellen.

(2) Zu n+ 1 Punkten (tj , fj) ∈ K ×R, j = 0, . . . , n, gibt es genau ein v ∈ V mit v(tj) = fj , j =0, . . . , n (v ist Interpolierende).3

(3) Ist w0, . . . , wn ∈ V eine Basis von V und gilt t0 < t1 < · · · < tn, ti ∈ K, i = 0, . . . , n, so giltdetD(t0, . . . , tn) 6= 0, wobei D(t0, . . . , tn)ij = wj(ti) , i, j = 0, . . . , n .

Beweis:Die Äquivalenz von (2) und (3) ist aus der Numerischen Mathematik wohlbekannt: Die eindeu-tige Existenz einer interpolierenden Funktion v ist offensichtlich äquivalent mit der eindeutigenLösbarkeit des Gleichungssystems D(t0, . . . , tn)α = f wobei f = (f0, . . . , fn) ∈ Rn+1 und v dieDarstellung

∑ni=0 αiw

i hat.

Definition 4.39 Sei K eine kompakte Teilmenge von R und sei V ein linearer Teilraum vonC(K) der Dimension n + 1 . Erfüllt V eine der äquivalenten Eigenschaften in Lemma 4.38, sonennt man V einen Haarschen Teilraum von C(K) und eine Basis in V ein HaarschesSystem (Tschebyscheffsystem).

3Damit müssen die tj , j = 0, . . . , n, paarweise verschieden sein.

96

Page 107: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beispiel 4.40(1) Die Monome (1, t, . . . , tn) bilden ein Haarsches System in C[a, b] (a < b).

(2) Die trigonometrischen Funktionen (1, cos(t), sin(t), . . . , cos(nt), sin(nt)) bilden ein HaarschesSystem in C[0, π] .

(3) Die trigonometrischen Funktionen (1, cos(t), sin(t), . . . , cos(nt), sin(nt)) bilden kein Haar-sches System in C[0, 2π] .

(4) Für reelle Zahlen β0 < β1 < · · · < βn bilden die Funktionen (eβ0t, . . . , eβnt) ein HaarschesSystem in C[a, b] (a < b).

(5) Für reelle Zahlen β0 < β1 < · · · < βn bilden die Funktionen (tβ0 , . . . , tβn) ein HaarschesSystem in C[a, b] (a < b).

Betrachte nun ein v ∈ V . Dann ist e := y − v der Fehler, der entsteht, wenn man y durchdie Approximation v ersetzt. Dazu setzen wir

A := A(y, v) := t ∈ K| |y(t)− v(t)| = ‖y − v‖∞

und nennen A die Menge der Abweichungspunkte von v bezüglich y .Klar, A ist abgeschlosseneTeilmenge von K ud damit kompakt, da K kompakt ist. Mit diesen Begriffen gelingt es nun,eine beste Approximation zu charakterisieren.

Satz 4.41 (Kolmogoroff, 1948) Sei K eine kompakte Teilmenge von R und sei V ein linearerTeilraum von C(K) . Dann sind äquivalent für v ∈ V :

(a) v ist beste Approximation von y .

(b) min(y(t)− v(t))w(t)|t ∈ A(y, v) ≤ 0 für alle w ∈ V .

Beweis:(a) =⇒ (b) Annahme: (b) gilt nicht.Dann gibt es w ∈ V und ε > 0, so dass

(y(t)− v(t))w(t) > 2ε für alle t ∈ A .

Da A als abgeschlossene Teilmenge von K kompakt ist, gibt es eine in K offene Menge U ⊂ Kmit

A ⊂ U , (y(t)− v(t))w(t) > ε für alle t ∈ U .

Sei m := ‖w‖∞ und betrachte z := v + αw,α > 0 . Dann ist z ∈ V und es folgt dann für t ∈ U :

(y(t)− z(t))2 = ((y(t)− v(t))− αw(t))2

= (y(t)− v(t))2 − 2α(y(t)− v(t))w(t) + α2w(t)2

< ‖e‖∞ − 2αε+ α2m2

< ‖e‖∞ − αε ,

falls 0 < α < εm2 . Da K\U kompakt ist und A ⊂ U gilt, existiert ein δ > 0 mit |y(t) − v(t)| <

‖e‖∞ < ‖e‖∞ − δ für alle t ∈ K\U . Für α < δ2m und t ∈ K\U folgt

|f(t)− z(t)| ≤ |f(t)− v(t)|+ α|w(t)| ≤ ‖e‖∞ − δ +δ

2mm = ‖e‖∞ − 1

97

Page 108: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Damit ist gezeigt, dass ‖f(t)− z(t)‖∞ < ‖f(t)− v(t)‖∞ gilt, was ein Widerspruch ist.(b) =⇒ (a) Sei z ∈ V und setze w := z − v . Dann ist w ∈ V und es existiert ein t0 ∈ A mit(y(t0)− v(t0))w(t0) ≤ 0 . Damit folgt

(y(t0)− z(t0))2 = ((y(t0)− v(t0))− w(t0))

2

= (y(t0)− v(t0))2 − 2(y(t0)− v(t0))w(t0) + w(t0)

2

≥ (y(t0)− v(t0))2 = ‖y − v‖2∞

Es folgt also ‖y(t)− z(t)‖∞ ≥ ‖y − v‖∞ für alle z ∈ V . Damit ist v beste Approximation von yin V .

Wir haben in Satz 4.44 eine notwendige und hinreichende Bedingung für das Vorliegen einesMinimums gefunden. Dies ist schon bemerkenswert, weil wir ja weder die Differenzierbarkeit derAbstandsfunktion noch „Bedingungen höherer Ordnung“ verwenden. Im Anhang beschreiben wirweitere Entwicklungen, insbesondere auch untere Schranken für den Wert p = pV der Aufgabe,ein Resultat von großem Wert für die Entwicklung eines „Simplexartigen Berechnungsverfahren“.

Die Aufgabe, eine beste Approximation einer stetigen Funktion x in einem endlichdimensio-nalen Teilraum V von stetigen Funktionen bezüglich der Maximumsnorm zu finden, kann manals lineare Optimierungsaufgabe mit unendlich vielen Nebenbedingungen schreiben. Betrachtealso wieder (TAP ) und wähle eine Basis u1, . . . , un−1 in . Dann können wir die Aufgabe (TAP )umschreiben in

(∗∗) Minimiere x0 u. d. NB ± (

n−1∑t=1

xiui(t)− y(t)) ≤ x0, t ∈ K .

Diese Aufgabe ordnet sich unter als

(SIO) Minimiere 〈c|x〉 u. d. NBn∑

i=1

xivi(t) ≤ b(t) , t ∈ K .

Das duale Problem stellt sich so dar:

(DSIO) Maximierem∑j=1

yjb(tj) u. d. NB m ∈ N, y ∈ Rm, ti ∈ K,

m∑j=1

yjui(tj) = ci, i = 1, . . . ,m .

Die Schwache Dualität ist einfach nachzurechnen. Die starke Dualität zeigt Unterschiede zurlinearen Optimierung, es können weitere Dualitätslücken auftreten.

Satz 4.42 (Haarsche Eindeutigkeit) Sei K eine kompakte Teilmenge von R und sei V einlinearer Teilraum von C(K) der Dimension n+ 1 . Dann gelten:

(a) Ist v ∈ V die beste Approximation von y ∈ C(K)\V, so enthält A = A(y, v) wenigstensn+ 2 Punkte.

(b) Zu jedem y ∈ X gibt es genau eine Bestapproximation aus V .

Beweis:Zu (a) Nehmen wir an, es gäbe nur n + 1 paarweise verschiedene Punkte t0, . . . , tn ∈ K mitA ⊂ t0, . . . , tn . Nach (2) in Lemma 4.38 existiert dann w ∈ V mit w(tj) = e(tj) = y(tj) −v(tj), j = 0, . . . , n . Dann gilt für j = 0, . . . , n

(y(tj)− v(tj))w(tj) = e(tj)2 = ‖y(tj)− v(tj)‖2∞ > 0 .

98

Page 109: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Das Kolmogoroff-Kriterium ist damit nicht erfüllt und somit v keine beste Approximation.Zu (b) Seien u, v beste Approximationen zu y und es gelte o. E. y ∈ C(K)\V . Dann ist auch w :=12(u+v) eine beste Approximation. Nach (a) existieren wenigstens n+2 Punkte t0, . . . , tn+1 ∈ A .Es gilt also y(tj)−v(tj) = σjp, |σj | = 1, j = 0, . . . , n+1 . Daraus folgt |12(y(tj)−u(tj)))+

12(y(tj)−

v(tj))| = p . Da aber |y(tj)− u(tj)| ≤ pV (y), |y(tj)− v(tj)| ≤ pV (y) gilt, folgt

y(tj)− u(tj) = y(tj)− v(tj) = σjpV (y) , j = 0, . . . , n+ 1 .

Damit ist aber (v − u)(tj) = 0, j = 0, . . . , n+ 1, und damit nach (1) in Lemma 4.38 u = v .

Bemerkung 4.43 Ein v ∈ V heißt eine strikt eindeutige Bestapproximation von y bezüg-lich V, falls es ein γ > 0 gibt mit

‖y − v‖∞ ≥ ‖y − w‖∞ + γ‖w − v‖∞ für alle w ∈ V .

Unter den Voraussetzungen des Satzes 4.44 lässt sich aus der Haarschen Bedingung die Existenzeiner strikt eindeutigen Bestapproximation folgern.

Satz 4.44 (De la Vallee-Pouissin, 1910) Sei K eine kompakte Teilmenge von R und sei Vein linearer Teilraum von C(K) der Dimension n + 1 . Ferner enthalte K mindestens n + 2Punkte. Dann gilt:Erfüllt V die Haarsche Bedingung und gibt es zu y ∈ C(K) und v ∈ V Punkte t0 < t1 < · · · <tn+1 in K, so dass mit einem η ∈ −1, 1 gilt

sign((y − v)(tj)) = η(−1)−1 , j = 0, . . . , n+ 1 , (4.41)

so folgtmin|(y − v)(tj)|j = 0, . . . , n+ 1 ≤ pV (y) ≤ ‖y − v‖∞ . (4.42)

Beweis:Sei w0, . . . , wn eine Basis von V . Dann hat die Matrix

D(t0, . . . , tn+1) = (wj(ti)) ∈ Rn+2,n+1

auf Grund der Haarschen Bedingung maximalen Rang n + 1 . Es gibt somit einen Vektor α ∈Rn+2\θ mit den Eigenschaften

n+1∑j=0

αjwk(tj) = 0, k = 0, . . . , n ,

n+1∑j=0

|αj | = 1 .

Da ferner jede quadratische Teilmatrix von D(t0, . . . , tn+1), bestehend aus n + 1 Zeilen aufGrund der Haarschen Bedingung invertierbar ist, verschwindet kein αj . Betrachte nun das lineareFunktional

λ : C(K) 3 z 7−→n+1∑j=0

αjz(tj) ∈ R .

Es gilt ‖λ‖ = 1, λ ∈ V ⊥, und |〈λ|y〉| ≤ p . Die letzte Behauptung folgt aus den Eigenschaften‖λ‖ = 1, λ ∈ V ⊥ in einfacher Weise.Seien nun zk, k = 0, . . . , n, bestimmt durch die Interpolationsbedingungen

zk(tj) = 0, j ∈ 0, . . . , n+ 1\k, k + 1 , zk(tk) = 1 .

99

Page 110: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Nach (2) in Lemma 4.38 sind diese Elemente zk eindeutig bestimmt. Ferner ist zk 6= θ, und dazk nach (1) in Lemma 4.38 höchstens n Nullstellen besitzt, ist auch zk+1(tk+1) 6= 0 . Damit folgt

0 = 〈λ, zk〉 = αk + (1− αk+1)zk(tk+1) also sign(αk+1) = −sign(αk), αk 6= 0 .

Nun ergibt sich

pV (y) ≥ |〈λ, y〉| = |〈λ, y − v〉| = |n+1∑j=0

αj(y − v)(tj)|

=

n+1∑j=0

|αj ||(y − v)(tj)| ≥ (

n+1∑j=0

|αj |)minj

|(y − v)(tj)|

= minj

|(y − v)(tj)|

Folgerung 4.45 Sei K eine kompakte Teilmenge von R und sei V ein linearer Teilraum vonC(K) der Dimension n+ 1 . Ferner enthalte K mindestens n+ 2 Punkte. Dann gilt:Erfüllt V die Haarsche Bedingung und gibt es zu y ∈ C(K) und v ∈ V Punkte t0 < t1 < · · · <tn+1 in A(y, v), so dass mit einem η ∈ −1, 1 gilt

sign(y − v)(tj) = η(−1)−1 , j = 0, . . . , n+ 1 , (4.43)

so ist v Bestapproximation von y .

Beweis:

Satz 4.46 (Alternantensatz) Sei K eine kompakte Teilmenge von R und sei V ein linearerTeilraum von C(K) der Dimension n + 1 . Ferner enthalte K mindestens n + 2 Punkte. Danngilt:Erfüllt V die Haarsche Bedingung. Dann sind für v ∈ V äquivalent:

(a) v ist Bestapproximation von y zu V .

(b) Es gibt Punkte t0 < t1 < · · · < tn+1 in K, so dass mit einem η ∈ −1, 1 gilt:

(y − v)(tj) = η(−1)−1‖y − v‖∞ , j = 0, . . . , n+ 1 , (4.44)

Das Tupel (t0, . . . , tn+1 heißt dann Alternante der Fehlerfunktion.

Beweis:Nach Folgerung 4.45 genügt es zu zeigen, dass zu jeder Bestapproximation v ∈ V eine Alternateder Fehlerfunktion gibt. Sei also v ∈ V Bestapproximation zu y .Annahme: Es gibt keine Alternante zu v . Dann existiert eine Unterteilung t0 < t1 < · · · <tm+1,m ≤ n, in K und ein δ > 0 und ein η ∈ −1,+1, so dass für die Fehlerfunktion e := y− vund t ∈ K ∩ [tj , tj+1], j = 0, . . . ,m gilt

η(−1)j = +1 =⇒ e(t) ∈ [−‖e‖∞ + δ, ‖e‖∞]

η(−1)j = −1 =⇒ e(t) ∈ [−‖e‖∞, ‖e‖∞ − δ]

Nun gibt es ein w ∈ V mit

w(ti) = 0, i = 1, . . . ,m, und sign(w(t)) = η(−1)j , t ∈ [tj , tj+1] .

100

Page 111: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Für hinreichend kleines ε > 0 erfüllt e := e − εw damit die Bedingung ‖e‖∞ < ‖e‖∞ . Diesbedeutet, dass v + εw ∈ V eine bessere Approximation von y in V ist. Widerspruch.

Die große Bedeutung des Einschließungssatzes 4.44 liegt auf der Hand: man kann die Güteeiner Approximation v und auch zugleich die erreichbare Genauigkeit beurteilen:

• Wenn die Fehlerbeträge |e(sj)| stark voneinander und der Norm ‖e‖∞ abweichen, dann istdie Näherung v noch „schlecht“ und man wird sich Schritte überlegen müssen, die Näherungv zu verbessern.

• Sind untere und obere Schranke „nahe“ beieinander, so hat man nahezu das Beste erreicht,was mit dem Ansatzraum erreichen kann.

• Fallen untere und obere Schranke zusammen, so ist v eine beste Approximation.

• Wenn untere und obere Schranke „nahe“ beieinander liegen, so weiß man dass die Appro-ximation kaum zu verbessern ist. Wenn die so erreichte Genauigkeit nicht ausreicht, hatman den Ansatzraum V zu ändern.

4.7 Anhang: Extremaleigenschaft von Splines

Interpolierende Splines sind ein Werkzeug der Numerischen Mathematik. Sie werden genutzt, umWerte von Funktionen oder allgemein Daten dadurch zu approximieren/darzustellen, indem manmit einfachen Funktionen diese Daten interpoliert. Hier ist mit „einfach“ gemeint, Funktionen zuverwenden, die durch wenige Parameter zu beschreiben sind. Splines sind solche Funktionen, diesich stückweise aus einfachen Funktionen zusammensetzen.

Eine Standardaufgabe dieser Art ist:

Gegeben (t0, y0), . . . , (tn, yn) ∈ R× R mit t0 < · · · < tnGesucht f ∈ C2[t0, tn]) mit f(ti) = yi, i = 0, . . . , n , f |[ti, ti+1] ∈ S〉, i = 0, . . . , n− 1 .

Dabei sind S0, . . . ,Sn−1 vorgegebene „einfache“ Funktionen. Wenn man die Forderungen (Interpo-lations- und Stetigkeitsbedingungen) abzählt, kommt man zu der Forderung, dass S0, . . . ,Sn−1

mindestens (n+ 1) + 3(n− 1) = 4n+ 2 Freiheitsgrade besitzen sollen. Dies kann man erreichen,indem man jede Familie Si durch 4 Parameter beschreibt. Es bleiben dann noch 2 Freiheitsgradeübrig, die man auf andere Weise einfordert; siehe unten. Wir beschränken uns nun auf den FallS = S0 = · · · = Sn−1 .

Beispiel 4.471. Ein klassisches Beispiel ist S = P3 := p : R −→ R|p Polynom vom Höchstgrad 3 . Man

redet dann von kubischen Polynomsplines.

2. Wähle

S = R2,1 := r : R −→ R|r = pq−1, p, q Polynome vom Höchstgrad 2 bzw. 1 .

Hier kommt implizit noch die Forderung hinzu, dass q keine Nullstellen besitzen darf. Manredet dann von rationalen Polynomsplines.

3. WähleS = E3 := f : R −→ R|f(t) = aebt + ct+ d, a, b, c, d ∈ R .

Man redet dann von kubischen Exponentialsplines.

101

Page 112: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Was hat diese Aufgabe nun mit konvexer Analysis, Optimierung zu tun? Diese Verbindungleitet sich aus der Extremaleigenschaft von kubischen Splines ab. Zur Formulierung dieserEigenschaft benötigen wir den Raum4

H22 [a, b] := f : [a, b] −→ R|f ∈ C1[a, b], f ′ absolut stetig, f ′′ ∈ L2[a, b]

H22 [a, b] ist ein Hilbertraum unter dem Skalarprodukt

f 7−→ 〈f |f〉2 + 〈f ′′|f ′′〉2

mit dem Skalarprodukt 〈·|·〉2 in L2[a, b] .

Satz 4.48 (Extremaleigenschaft kubischer Splines) Betrachtet man die Interpolationsauf-gabe für kubische Polynomsplines, so sind für f ∈ C2[t0, tn] äquivalent:

(a) f löst die Interpolationsaufgabe und f ′′(t0) = f ′′(tn) = 0 .

(b)∫ tnt0f ′′(t)2dt = min

∫ tnt0g′′(t)2dt|g ∈ H2

2 [t0, tn], g(ti) = yi, i = 0, . . . , n .

Beweis:Ergibt sich aus dem Beweis zu 4.49 unter Einbeziehungen der angefügten Bemerkungen.

Die Bedingung f ′′(t0) = f ′′(tn) = 0 nennt man natürlich, da sie sich einstellen, wenn mansich die Interpolation mit der Fixierung eines biegsamen Stabes an den Interpolationspunktenvorstellt: an den Enden des Stabes tritt dann keine Krümmung auf.

Die Frage ist nun, ob eine Extremaleigenschaft dieser Art auch für andere Familien S nach-gewiesen werden kann. Dazu betrachten wir den Operator

R : H22 [t0, tn] 3 f 7−→ f ′′ ∈ L2[t0, tn]

und den TeilraumV (y) := f ∈ H2

2 [t0, tn]|f(ti) = yi, i = 0, . . . , n .

Dann korrespondiert die Extremaleigenschaft mit folgender Aufgabe:

Minimiere ‖R(f)‖22 u. d. N. f ∈ V (y) (4.45)

Diese Aufgabe ist äquivalent zu

Minimiere ‖g‖22 u. d.N. g ∈ R(V (y)) (4.46)

wobei die affine Menge V (y) eine Darstellung V (y) = z+M zulässt; alsoR(V (y)) = R(z)+R(M) .Dies ist ein unendlichdimensionales Ausgleichsproblem mit R(V (y)) als zulässige Menge; derAusgleich erfolgt zur Nullfunktion.

Satz 4.49 Sei f0 ∈ H22 [t0, tn] . Dann sind äquivalent:

(a) f0 ist eine Lösung von Aufgabe (4.45).

(b) f0 ∈ V (y) ∩ C2[t0, tn] , f′′0 ∈ R(M)⊥ .

4g : [a, b] −→ R ist absolut stetig, falls es q ∈ R, h ∈ L1[a, b] gibt mit g(t) = q +∫ t

ag(s)ds, t ∈ [a, b] . g heißt

dann Ableitung von f .

102

Page 113: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:(a) =⇒ (b) f ′′0 ∈ H2

2 [t0, tn] ist eine Lösung von (4.45) genau dann, wenn g := f ′′0 ∈ L2[t0, tn]eine Lösung von (4.46) ist. Aus (2.7) folgt mit dem Skalarprodukt 〈·|·〉 in L2[t0, tn]

〈g0|w〉 ≤ 0 für alle w ∈ R(M) .

Da R(M) ein linearer Teilraum von L2[t0, tn] ist, folgt g0 ∈ R(M)⊥ .(b) =⇒ (a) Sei w ∈ R(V (y)). Dann ist w − g ∈ R(M) und es folgt

‖w‖2 = 〈g + (w − g)|g + (w − g)〉 = ‖g‖2 + 2〈g|w − g〉+ ‖w − g‖2 = ‖g‖2 + ‖w − g‖2 ≥ ‖w‖2 ,

und die Behauptung ist bewiesen.

Das Resultat zeigt nun, dass interpolierende kubische Splines eine Extremaleigenschaft besit-zen, denn es ist einfach nachzurechnen, dass R(M)⊥ stückweise aus Polynomen vom Höchstgrad1 bestehen. Genauer: Eine Basis b0, . . . , bn+1 in R(M)⊥ ist gegeben durch

b0(t) :=

t1−tt1−t0

, t ∈ [t1, t0]

0 , sonst

bi(t) :=

t−ti

ti−1−ti, t ∈ [ti−1, ti]

ti+1−tti+1−ti

, t ∈ [ti, ti+1]

0 , sonst

, i = 1, . . . , n,

bn+1(t) :=

t−tn

tn+1−tn, t ∈ [tn, tn+1]

0 , sonst

Wie sieht es nun eine mögliche Verallgemeinerung aus? Wir können die Extremaleigenschaftoder die Aussage f ′′0 ∈ R(M)⊥ (Orthogonalitätsrelation) in den Blick nehmen, wie folgendeBeobachtungen zeigen.

Beispiel 4.501. Ist f ∈ C2[t0, tn+1] mit f|[ti,ti+1] ∈ R2,1 und f ′′ > 0, so gilt (f ′′)−3 ∈ R(M)⊥ .

2. Ist f ∈ C2[t0, tn+1] mit f|[ti,ti+1] ∈ E3 und f ′′ > 0, so gilt ln(f ′′) ∈ R(M)⊥ .

Es gilt auf diesem Weg also das Optimierungskriteriums zu finden, das zu den „Orthogonali-tätsrelationen“ passt. Diese Optimierungskriterien kann man finden in den so genannten Orlicz-Räumen. Diese Räume haben Bedeutung gewonnen u. a. bei der Analyse von nichtlinearenpartiellen Differentialgleichungen. Im nichtlinearen Kontext wird dann auch die Dualitätstheorievon Bedeutung als Berechnungsinstrument. Das duale Problem stellt sich nämlich als endlich-dimensionale Optimierungsproblem heraus, im Gegensatz zum primalen Problem (4.45). Wirgehen hier nicht darauf ein.

4.8 Übungen

1.) Betrachte das ProblemMinimiere − 2x1 + 4x2

u. d. NB 2x1 + 3x2 ≤ −1, x1 − x2 ≤ 2, 6x1 − 2x2 = 4, x1 ≥ 0 .

103

Page 114: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(a) Bringe das Problem in die Form (LOP ):

Minimiere 〈c, x〉 u. d. NB Ax = b, x ≥ θ

(b) Dualisiere das Problem aus (a) zu einem Problem der Form (DLOP ) .

(c) Löse beide Probleme

2.) Betrachte das lineare Programm

(∗) Maximiere 7T+5S u. d. NB 3T+4S ≤ 2400, 2T+1S ≤ 1000, T ≥ 100, 0 ≤ S ≤ 450 .

Hier liegt ein Programm vor für die optimale Produktion von Tischen (T ) und Stühlen(S) unter „vorgegebenen“ Produktionsbedingungen. Die rechten Seiten ST = 2400, SM =1000 in den Ungleichungen stehen für einsetzbare Tischler- bzw. Anstreichstunden.

(a) Ermittle graphisch eine Lösung von (∗) und den Optimalwert.(b) Bringe das Problem (∗) in die Form (LOP ); siehe unten.(c) Ersetze 7 in der Zielfunktion durch 8 und ermittle erneut graphisch eine Lösung

und den Optimalwert.

3.) Zeige:Sn+ = V ∈ Sn

+|U • V für alle U ∈ Sn+ .

4.) Sei A ∈ Rm,n, b ∈ Rm . Beweise die Äquivalenz

(a) Ax = b, x ≥ θ ist lösbar.(b) Ist Aty ≥ θ für ein y ∈ Rm, so gilt 〈y|b〉 ≥ 0 .

5.) Seien A,B ∈ Sn und sei T ∈ Rn,n mit det(T ) 6= 0 . Dann gilt:

(a) A B ⇐⇒ T tAT T tBT .

(b) A B ⇐⇒ T tAT T tBT .

6.) Seien A,B ∈ Sn . Zeige die Äquivalenz von

(a) Es gibt τ1, τ2 > 0 mit τ1A+ τ2B Θ .

(b) Es gibt kein z ∈ Rn\θ mit 〈z|Az〉 ≤ 0, 〈z|Bz〉 ≤ 0 .

7.) Sei A ∈ Sn++ mit E A . Betrachte die Iteration

Y0 := Θ , Yn+1 :=1

2(A+ Y 2

n ), n ∈ N0 .

Zeige, dass die Folge (Yn)n∈N monoton nicht fallend (bezüglich der Löwner-Ordnung inSn) ist und gegen E − (E −A)

12 konvergiert.

8.) Seien A,B ∈ Sn+ . Zeige die Äquivalenz von

(a) A •B = 0 .

(b) AB = Θ .

(c) AB +BA = Θ .

9.) Zeige: Es gilt spur(A) + spur(A−1) ≥ 2n für alle A ∈ Sn++ mit Gleichheit genau dann,

wenn A = E gilt.

10.) Zeige: Ein reelles Polynom ist nichtnegativ, d. h. hat nur nichtnegative Werte, genaudann, wenn es als Summe quadratischer Polynome dargestellt werden kann.

11.) Das Polynom p(x, y) := x2+y2+2xy+z6 ist Summe von quadratischen Polynomen unddaher nichtnegativ.

104

Page 115: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

12.) Sei x ∈ R und betrachte damit die Abbildung T : S 3 A 7−→ Ax ∈ Rn . Berechne dieadjungierte Abbildung.

13.) Seien A,B ∈ Sn++ . Ist AB stets positiv definit oder positiv semidefinit? Beweise oder

widerlege.

14.) Betrachte das Polyeder

P := x ∈ Rn|〈ci|x〉 ≤ βi, i = 1, . . . , k .

Dabei sind ci ∈ Rn, βi ∈ R, i = 1, . . . , k . Setze zu u ∈ P

I(u) := i ∈ 1, . . . , k|〈ci|x〉 = βi .

Zeige:Fu := x ∈ P |I(u) ⊂ I(x) ist eine Seite von P mit rint(Fu) = x ∈ P |I(u) = I(x) .

15.) Betrachte das Polyeder

P := x ∈ Rn|〈ci|x〉 ≤ βi, i = 1, . . . , k .

Dabei sind ci ∈ Rn, βi ∈ R, i = 1, . . . , k . Zeige die Äquivalenz von

(a) P enthält keine Gerade.(b) P besitzt einen Extremalpunkt.(c) span(c1, . . . , ck) = Rn .

16.) Sei x ∈ Rn\θ . Zeige: xxt ist eine positiv semidefinite Matrix mit Rang 1 .

17.) Seien A,B,C symmetrische Matrizen in Rn,n . Zeige: spur(ABC) = spur(ACB) .

18.) Betrachte das semidefinite Programm

Minimiere x12 u. d. NB

0 x12 0x12 x22 00 0 1 + x12

θ

Bringe das Problem in die Form (SOP ) und leite das duale Problem ab und zeige, dasseine Dualitätslücke auftritt.

19.) Betrachte mit ε > 0 das semidefinite Programm

Minimiere x12 u. d. NB

ε x12 0x12 x22 00 0 1 + x12

θ

Bringe das Problem in die Form (SOP ) und leite das duale Problem ab und zeige, dasskeine Dualitätslücke auftritt.

20.) Seien A ∈ Sn++, B ∈ Sn

+, B ∈ Rn,n, . Zeige die Äquivalenz von

(a)(A BBt C

) Θ

(b) BtA−1B C

21.) Sei K := (a− 0, a1, . . . , a2d) ∈ R2d+1|a0+ a1x+ · · ·+ a2dx2d ≥ 0 für alle x ∈ R . Zeige:

(a) K ist konvex(b) K ist ein Kegel

105

Page 116: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(c) K ∩ (−K) = θ .

22.) Sei K := (a0, a1, a2) ∈ R3|a0+a1x+a2x2 ≥ 0 für alle x ∈ R . Zeige: (1, 0, 1) ∈ int(K) .

23.) Sei L := (x, r) ∈ Rn × R|√

〈x|x〉 ≤ r . Zeige: L ist ein Kegel.

24.) Betrachte den Ring R[x] von Polynomen in einer Variablen x mit Koeffizienten in R .Zeige: Ein Polynom p in R[x] vom Grad 2d kann als Summe von Quadraten aus R[x]geschrieben werden genau dann, wenn es eine Matrix Q ∈ Sd+1 gibt mit

p(x) = (1, x, . . . , xd)Q(1, x, . . . , xd)t , x ∈ R .

25.) IstA = (aij) ∈ Sn+, dann gilt ajj ≥ 0, j = 1, . . . , n, und ist ein ajj = 0, so ist ajk = akj = 0

für alle k = 1, . . . , n .

26.) Ist A ∈ Sn+, dann ist UAU t ∈ Sn

+ für alle U ∈ Rm,n .

27.) Ist A ∈ Sn, dann gilt für alle x ∈ Rn : 〈x|Ax〉 = A • xxt .

28.) Erfüllt der Raum V der Polynome, die von t und t2 in C[0, 12π] erzeugt werden, dieHaarsche Bedingung?

29.) Die Funktion R 3 t 7−→ sin(t) ∈ R soll auf dem Intervall [a, b] durch Konstantenapproximiert werden. Wie sehen die Bestapproximationen aus?

30.) Die Funktion R 3 t 7−→ sin(t) ∈ R soll auf dem Intervall [0.1, 12π] durch Polynome, dievon t und t2 in C[0, 12π] erzeugt werden, approximiert werden.

4.9 Bibliographische und historische Anmerkungen

Lineare Optimierung ist ein wichtiges Werkzeug in der Optimierung und des Operations Research,insbesondere von der Verfahrensseite her; siehe etwa [11]. Ein wichtiger Baustein in der frühenEntwicklung ist der Beitrag von Farkas ([10]). Das Simplex-Verfahren (Dantzig, 1951) ist wohl dasmeist benutzte Werkzeug in der Optimierung, zum Einen zur Lösung linearer Aufgaben und zumAnderen als Hilfsverfahren für Verfahren der allgemeinen Optimierung; es gilt als praktisch sehreffizient. Theoretisch effiziente Verfahren sind die Ellipsoid-Methode von Khachiyan (1979) unddas Innere-Punkte-Verfahren von Karmarkar (1984). Zur Effizienzanalyse des Simplexverfahrenssiehe [17, 6]. Theoretisch effizient sind auch die Innere-Punkte-Verfahren, die nun nach langerEntwicklungszeit auch praktisch mit dem Simplexverfahren konkurrieren können.

Eine Verallgemeinerung der linearen Optimierung ist die semi-infinite Optimierung; siehe[12, 19].

Semidefinite Optimierung hat enorme Bedeutung gewonnen durch ihre Verbindung mit derdiskreten algorithmischen Mathematik. Stichworte hierzu sind: Max-Cut, Nichtgegativität vonPolynomen; siehe [13, 14, 21, 27] und insbesondere [25] und [26]. Die Innere-Punkte-Verfahrender linearen Optimierung lassen sich auf die Semidefinite Optimierung übertragen (Nesterov undNemirovski, 1991); siehe [9, 20, 25].

Nichtlineare Splines wurden um 1970 eingeführt und studiert; siehe [7, 15, 16, 23, 22, 28]. Einneuer Ansatz ergab sich aus dem Bedürfnis heraus, auch für nichtlineare Klassen von Splines dieExtremaleigenschaft nachzuweisen: Splines in Orlicz-Räumen; siehe hierzu [2, 5, 3].

Approximation mittels spezieller Funktionen waren über lange Zeit hinweg ein wichtiges The-ma, um (ohne Rechenmaschinen/Computer) Näherungslösungen für Gleichungender Matheam-tischen Physik herleiten zu können. Tschebyscheff-Approximation ist vor allem von Bedeutungwegen der Eigenschaft, aus einer Abschätzung bezüglich der Norm ‖ · ‖∞ auf punktweisae Ab-weichungen zu schließen; siehe etwa [8, 28].

106

Page 117: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Literaturverzeichnis

[1] J. Baumeister. Lineare Algebra I, II. Skriptum 1995/96, Goethe–Universität Frankfurt/Main.

[2] J. Baumeister. Über die Extremaleigenschaft nichtlinearer Splines. Numer. Math., 25:433–455, 1976.

[3] J. Baumeister. Variationsprobleme in Orliczräumen und Splines. Manuscripta Math., 20:29–49,1977.

[4] J. Baumeister. Stable Solution of Inverse Problems. Vieweg, Braunschweig, 1987.

[5] J. Baumeister and L. Schumaker. Nonlinear classes of splines and variational problems. J. ofApproximation Theory, 18:63–73, 1976.

[6] K.H. Borgwardt. Wie schnell arbeitet das Simplexverfahren normalerweise. Mitteilungen der DMV,22:80–92, 2014.

[7] D. Braess and H. Werner. Tschebyscheff-Approximation mit einer Klasse rationalen Splinefunktion II.J. of Approximation Theory, 10:379–399, 1974.

[8] B. Brosowski and R. Kress. Einführung in die Numerische Mathematik I. BI Hochschultaschenbü-cher, Mannheim, 1974.

[9] S. Burer. Semidefinite programming in the space of partial positive semidefinite matrices. SIAMJournal on Optimization, 14:139–172, 2003.

[10] J. Farkas. Theorie der einfachen Ungleichungen. J. Reine Angew. Math., 124:1–27, 1901.

[11] M. Gerdts and F. Lempio. Mathematische Methoden des Operations Research. De Gruyter, Berlin,2011.

[12] M.A. Goberna and M.A. Lopez. Linear semi-infinite optimization. Wiley, New York, 1998.

[13] M.X. Goemans and D.P. Williamson. Improved approximation algorithms for Max-Cut-Problemsusing semidefinite programming. J. of the Association for Computing Machinery, 42:1115–1145,1995.

[14] B. Hirschfeld. Approximative Lösungen des Max-Cut-Problems mit semidefiniten Programmen. PhDthesis, University of Düsseldorf, 2004.

[15] J.W. Jerome. Minimization problems and linear and nonlinear spline functions, I: Existence. SIAMJ: Num. Anal., 10:808–819, 1973.

[16] J.W. Jerome. Minimization problems and linear and nonlinear spline functions, II: Convergence.SIAM J: Num. Anal., 10:820–830, 1973.

[17] H. Borgwardt K. The Simplex Method. A Probabilistic Analysis. Springer, Berlin, 1987.

[18] A. Kirsch. An Introduction to the Mathematical Theory of Inverse Problems. Springer, New York,1996.

[19] P. Kosmol. Optimierung und Approximation. pdf eBook, 2010.

107

Page 118: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

[20] Y. Nesterov and A. Nemirovski. Interior-Point Polynomial Algorithms in Convex Programming.SIAM, Providence, 1994.

[21] C. Riener and T. Theobald. Positive Polynome und semidefinite Optimierung. Jahresbericht derDeutschen Mathematik-Vereinigung, 110:57–76, 2008.

[22] R. Schaback. Interpolation mit nichtlinearen Klassen von Spline-Funktionen. J. of ApproximationTheory, 8:173–188, 1973.

[23] R. Schaback. Spezielle rationale Splines. J. of Approximation Theory, 7:281–292, 1973.

[24] G. Stroth. Lineare Algebra. Heldermann, Lemgo, 1998.

[25] M.J. Todd. Semidefinite optimization. Acta Numerica, 10:1–41, 2001.

[26] M. Trnovska. Strong duality conditions in semidefinite programming. J. of Electrical Engineering,56:1–5, 2004.

[27] L. Vandenberghe and S. Boyd. Semidefinite programmierung. SIAM Review, pages 49–95, 1996.

[28] H. Werner. Tschebyscheff-Approximation mit einer Klasse rationaler Splinefunktion I. J. of Appro-ximation Theory, 10:1–5, 1974.

108

Page 119: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Kapitel 5

Differenzierbarkeit konvexerFunktionen

Erst die natürlichen Betrachtungen gemacht, ehe diesubtilen kommen, und immer vor allen Dingen erstversucht, ob etwas ganz simpel und natürlich werdenkönne.

G. Chr. Lichtenberg

Wir betrachten in diesem Kapitel „Glattheitseigenschaften“ konvexer Funktionen. Am Be-ginn steht die Richtungsdifferenzierbarkeit. Sie leitet sich aus einer Beobachtung bei konvexenFunktionen einer Veränderlicher ab, nämlich der Monotonie der Differenzenquotienten. Damitgelingt es die Subdifferenzierbarkeit bei konvexen Funktionen einzuführen, eine Verallgemeine-rung des üblichen Differentialkalküls. Damit gelingt es dann, Minima konvexer Funktionen zucharakterisieren.

Vorne weg: Im Allgemeinen unterscheiden wir die Normen in unterschiedlichen Räumen nicht;die Unterscheidung ergibt sich meist unschwer aus dem Kontext.

5.1 Konvexität in der Analysis

Bevor wir zu einem an die konvexen Funktionen angepassten Differenzierbarkeitsbegriff kommen,eine Rekapitulation einschlägiger Resultate aus der Analysis endlich vieler Variabler.

Sei Rn vesehen mit dem euklidischen Produkt 〈·|·〉 und der dadurch induzierten Norm ‖ · ‖und sei

f : U −→ R , U ⊂ Rn offen, x0 ∈ U .

Wir nutzen häufig: Zu x0 ∈ U, v ∈ Rn gibt es t0 > 0 mit x0 + tv ∈ U, t ∈ (−t0, t0) .

f heißt differenzierbar in x0, genau dann, wenn es eine lineare Abbildung Df(x0) : Rn −→R gibt mit

|f(x)− f(x0)−Df(x0)(x− x0)| = o(‖x− x0‖) .

Dabei verwenden wir die Schreibweise mit Landau-Symbol o(·) („klein-o“). Bekanntlich ist eineFunktion g(r) = o(r), falls gilt: limr→0 g(r)r

−1 = 0 .

Die „Linearform“ Df(x0) kann man (etwas überzogen als Folge des Rieszschen Darstellungs-satzes) durch ein u ∈ Rn gemäß

Df(x0)(h) := 〈u|h〉 , h ∈ Rn,

109

Page 120: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

darstellen. Das Element u bezeichnet man dann als Gradient von f in x0 und schreibt dafür∇f(x0) , also

Df(x0)(h) = 〈∇f(x0)|h〉, h ∈ Rn .

f heißt stetig differenzierbar in x0 ∈ U, wenn f differenzierbar in einer Umgebung von x0 istund dort die Abbildung x 7−→ ∇f(x) stetig ist.

Ist f differenzierbar in x0 und ist

N(x0) := x ∈ U |f(x) = f(x0)

eine „Niveaulinie“, so ist der Gradient ∇f(x0) senkrecht zu N(x0) in folgendem Sinne: Ist γ :(−t0, t0) 3 t 7−→ γ(t) ∈ Rn, t0 > 0, mit

γ(0) = x0, γ(t) ∈ N(x0), t ∈ (−t0, t0), γ differenzierbar in t = 0 ,

dann gilt〈∇f(x0)|γ′(0)〉 = 0 .

Dies folgt durch Anwendung der Kettenregel auf f γ . γ′(0) ist ein Tangentialvektor an N(x0) .

Definition 5.1 Sei f : U −→ R , U ⊂ Rn offen, x0 ∈ U, und sei v ∈ Rn\θ . Existiert derGrenzwert

∂f

∂v(x0) := lim

t→0

f(x0 + tv)− f(x0)

t,

so heißt ∂f∂v

(x0) die Richtungsableitung von f in x0 in Richtung v .

Bemerkung 5.2 Beachte: Es sind unterschiedliche Definitionen der Richtungsableitung in derLiteratur zu finden. Sie unterscheiden sich in der Voraussetzung an die Richtung v:

v beliebig in Rn — v ∈ Rn\θ (siehe oben) — v ∈ Rn, ‖v‖ = 1 .

Die Richtungsableitungen in Richtung der Einheitsvektoren e1, . . . , en werden partielle Ab-leitungen genannt mit der Bezeichnung

∂f

∂xi(x0), also

∂f

∂xi(x0) =

∂f

∂ei(x0), i = 1, . . . , n .

Es ist bekanntlich im Falle der Differenzierbarkeit von f in x0:

∇f(x0) = (∂f

∂x1(x0), . . . ,

∂f

∂xn(x0)) .

Beachte, dass aus der Existenz der partiellen Ableitungen ∂f∂xi

(x0), i = 1, . . . , n, nicht die Dif-

ferenzierbarkeit von f in x0 folgt, es sei denn alle partiellen Ableitungen sind auch stetig inx0 .

Der Gradient ∇f(x0), wenn ∇f(x0) 6= θ gilt, gibt die Richtung des steilten Anstiegs an. Diessieht man so ein: Ist v 6= θ eine Richtung, dann gilt:

∂f

∂v(x0) =

〈∇f(x0)|v〉‖∇f(x0)‖‖v‖

= cos(φ)‖∇f(x0)‖‖v‖

und φ = 0 zeigt die Richtung an, in die es am steilten bergan geht. Also ist v = ∇f(x0) dieRichtung des steilsten Anstiegs.

110

Page 121: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Lemma 5.3 Sei U ⊂ Rn offen und konvex, sei f : U −→ R stetig differenzierbar. Es sindäquivalent:

(a) f ist konvex in U .

(b) f(x) ≥ f(x0) + 〈∇f(x0)|x− x0〉 für alle x0 ∈ U, x ∈ U .

Beweis:(a) =⇒ (b) Seien x, x0 ∈ U, t ∈ (0, 1] . Dann gilt

1

t(f(x0 + t(x− x0))− f(x0)) =

1

t(f(tx+ (1− t)x0)− f(x0))

≤ 1

t(tf(x) + (1− t)f(x0)− f(x0)) ≤ f(x)− f(x0)

Grenzübergang t ↓ 0 liefert (b) .(b) =⇒ (a) Seien x, y ∈ U, t ∈ [0, 1] . Mit z = tx+ (1− t)y = y + t(x− y) (z ∈ U, da U konvexist) gelten nach Voraussetzung

f(x) ≥ f(z) + 〈∇f(z)|x− z〉 , f(y) ≥ f(z) + 〈∇f(z)|y − z〉

Multipliziert man die erste Ungleichung mit t, die zweite Ungleichung mit 1− t und addiert, soergibt sich tf(x) + (1− t)f(y) ≥ f(z) = f(tx+ (1− t)y) .

f heißt zweimal differenzierbar in x0 genau dann, wenn f differenzierbar in x0 ist und eseine Matrix Hf (x

0) ∈ Rn,n gibt mit

|f(x)− f(x0)− 〈∇f(x0), x− x0〉 − 1

2〈x− x0|Hf (x

0)(x− x0)〉| = o(‖x− x0‖2) .

Die Matrix Hf (x0) bezeichnet man dann als Hessematrix von f in x0 . f heißt zweimal stetig

differenzierbar in x0 ∈ U, wenn f zweimal differenzierbar in einer Umgebung von x0 ist unddort die Abbildung x 7−→ Hf (x) stetig ist.

Wir wissen, dass die Hessematrix Hf (x0) als Einträge die partiellen Ableitungen zweiter

Ordnung besitzt; also Hf (x0) = ( ∂2f

∂xi∂xj(x0))i,j ∈ Rn,n . Ist f zweimal stetig differenzierbar in

x0 ∈ U, so ist Hf (x0) ∈ Sn .

Lemma 5.4 Sei U ⊂ Rn offen und konvex, sei f : U −→ R zweimal stetig differenzierbar. Essind äquivalent:

(a) f ist konvex in U .

(b) Hf (x0) ∈ Sn

+ für alle x0 ∈ U .

Beweis:(a) =⇒ (b) Sei x0 ∈ U, v ∈ Rn . Da f zweimal stetig differenzierbar ist, ist Hf (x

0) ∈ Sn . NachLemma 5.3 und dem Taylorschen Satz gilt für t > 0 hinreichend klein

0 ≤ f(x0 + tv)− f(x0)− t〈∇f(x0)|v〉 = 1

2t2〈v|Hf (x

0)v〉+ o(t2) .

Division durch 12 t

2 und Grenzübergang t ↓ 0 ergibt 〈v|Hf (x0)v〉 ≥ 0 . Damit ist gezeigt: Hf (x

0) ∈Sn+ .

(b) =⇒ (a) Seien x, y ∈ U . Nach dem Taylorschen Satz (mit Restglied) gilt

f(y) = f(x) + 〈∇f(x)|y − x〉+ 1

2〈y − x|Hf (x+ s(y − x))(y − x)〉

111

Page 122: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

mit einem s ∈ (0, 1) . Daraus folgt nun f(y) ≥ f(x) + 〈∇f(x)|y− x〉 . Mit Lemma 5.3 folgt: f istkonvex.

Aus Lemma 5.4 folgt beispielsweise, dass f : (0,∞) 3 t 7−→ − ln(t) ∈ R konvex ist. Mankann sogar folgern, dass f strikt konvex ist. Es sollte klar sein, wie man die Lemmata 5.3,5.4abändern muss, damit man dann strikte Konvexität charakterisieren kann.

Wir fügen noch die Verallgemeinerung der Richtungsableitung auf den unenedlichdimensio-nalen Kontext an.

Definition 5.5 Seien X,Y normierte Räume, sei U ⊂ X offen, und sei f : U −→ Y . Seix0 ∈ U .

(a) f heißt (Fréchet)-differenzierbar in x0 falls es eine lineare Abbildung Df(x0) : X −→Y gibt mit

‖f(x)− f(x0)−Df(x0)(x− x0)‖Y = o(‖x− x0‖X) .

(b) f heißt differenzierbar in x0 in Richtung v ∈ X, falls

∂f

∂v(x0) := lim

h→0

1

h(f(x0 + tv)− f(x0))

existiert.

(c) f heißt Gateaux-differenzierbar in x0 in Richtung v ∈ X, falls gilt:

• f ′+(x0, v) :=

∂f∂v

(x0) existiert für alle v ∈ X .

• f ′(x0, ·) : X −→ Y ist linear und stetig.

Klar, Fréchet-Differenzierbarkeit impliziert Gateaux-Differenzierbarkeit.

5.2 Einseitige Richtungsableitung

Wir betrachten nun einseitige Richtungsableitungen. Sie sind bei konvexen Funktionen ein an-gemessenes Wekzeug. Man kann dies bei der konvexen Funktion R 3 x 7−→ |x| ∈ R erahnen.

Definition 5.6 Seien X ein normierter Raum und sei f : X −→ (−∞,∞] . Sei x0 ∈ dom(f),v ∈ X . Falls der Grenzwert

f ′+(x0, v) := lim

h↓0

1

h(f(x0 + hv)− f(x0))

(in R) existiert, heißt f ′+(x0, v) (einseitige) Richtungsableitung von f in x0 ∈ X in Richtungv .

Wir haben die konvexen Funktionen hinsichtlich Richtungsableitungen im Auge. Zunächst einhilfreiches Lemma. Es nimmt die Beobachtung auf, dass bei einer zweimal stetig differenziuer-baren konvexen Funktion einer Variablen die Differenzenquotienten monoton nicht fallend sind;siehe dazu Lemma 5.4.

112

Page 123: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Lemma 5.7 Sei g : R −→ (−∞,∞] konvex, sei x ∈ dom(g) und seien r < 0 < s < t reelleZahlen. Dann gilt

g(x)− g(x+ r)

−r≤ g(x+ s)− g(x)

s≤ g(x+ t)− g(x)

t

Beweis:Wir zeigen nur die erste Ungleichung. Sie ist äquivalent mit

sg(x)− sg(x+ r)− (−r)g(x+ s) + (−r)g(x) ≤ 0

und dieses wiederum mit

g(x)− s

−r + sg(x+ r)− −r

−r + sg(x+ s) ≤ 0

Auf Grund der Konvexität von g trifft dies zu.

Folgerung 5.8 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex und sei x0 ∈aint(dom(f)) . Dann existiert die Richtungsableitung f ′+(x0, ·) .

Beweis:Sei v ∈ X . Da x0 ∈ aint(dom(f)) ist, gibt es nach Satz 1.26 h0 > 0 mit x0 + hv ∈ dom(f) für|h| < h0 . Seien nun r, h, s, t reelle Zahlen mit −h0 < −r < 0 < h < t < h0 . Wende nun Lemma5.7 auf g : R 3 h 7−→ f(x+ hv) ∈ (−∞,∞] an:

−∞ <f(x0)− f(x0 + rv)

−r≤ f(x0 + hv)− f(x0)

h≤ f(x0 + tv)− f(x0)

t<∞ .

Dann liest man die Behauptung ab an

−∞ <f(x0)− f(x0 + rv)

−r≤ f ′+(x

0, v) = inft>0

f(x0 + tv)− f(x0)

t<∞ . (5.1)

Beispiel 5.9 Betrachte f : R −→ (−∞,∞], f(x) := x2, falls |x| ≤ 1, f(x) = ∞, sonst. Danngilt f ′+(1,−1) = −2, f ′+(1, 1) = ∞ .

Folgerung 5.10 Sei X normierter Raum und sei f : X −→ (−∞,∞] konvex. Sei f auf eineroffenen Menge U lokal beschränkt, d. h. für alle x ∈ U gibt es r > 0,m ≥ 0 mit |f(z)| ≤ m, z ∈Br(x) . Dann ist U ×X 3 (x, v) 7−→ f ′+(x, v) ∈ R oberhalbstetig1.

Beweis:Klar, U ⊂ int(dom(f)) und die Richtungsableitung f ′+(x, ·) existiert für alle x ∈ U . Sei x0 ∈U, v ∈ X, ε > 0 . Für hinreichend kleines ρ > 0 ist B2ρ(x

0) ⊂ U . Dann gibt es h0 > 0

f ′+(x0, v) ≤ f(x0 + hv)− f(x0)

h≤ f ′+(x

0, v) +1

2ε , h ∈ (0, h0) .

Die Abbildung

Bρ(x0)×X 3 (x, u) 7−→ f(x+ h0u)− f(x)

h0∈ R

1U ×X 3 (x, v) 7−→ −f ′+(x, v) ∈ R ist unterhalbstetig.

113

Page 124: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

ist stetig, da Bρ(x0) ⊂ U ⊂ int(dom(f)) ist. Also gibt es ein r ∈ (0, ρ) mit

∣∣f(x+ h0u)− f(x)

h0− f(x0 + h0u)− f(x0)

h0

∣∣ ≤ 1

2ε für alle x ∈ Br(x

0), u ∈ Br(v) .

Zusammen mit der Monotonie (siehe Lemma 5.7) erhalten wir also

f ′+(x, u) ≤f(x+ h0u)− f(x)

h0≤ f ′+(x

0, v) + ε für alle x ∈ Br(x0), u ∈ Br(v) .

Folgerung 5.11 Sei X normierter Raum und sei f : X −→ (−∞,∞] konvex. Sei U offen undkonvex. Ist f auf U nach oben beschränkt, dann gibt es L ≥ 0 mit

|f ′+(x0, v)| ≤ L‖v‖ , x0 ∈ U, v ∈ X . (5.2)

Beweis:Siehe Satz 3.19.

Die Abschätzung 5.2 liefert – unter den gegebenen Umständen – die Stetigkeit der Rich-tungsableitung f ′+(x0, ·) in v = θ, aber zur Gateaux-Differenzierbarkeit fehlt die Linearität, diekeineswegs offensichtlich ist, und auch nicht immer gegeben ist.

Satz 5.12 Sei X normierter Raum, sei f : X −→ (−∞,∞) konvex. Dann existiert die Rich-tungsableitung f ′+(x0, ·) für alle x0 ∈ X und es gilt für alle x0 ∈ X:

(1) f ′+(x0, rv) = rf ′+(x

0, rv) für alle r ≥ 0, v ∈ X .

(2) f ′+(x0, u+ v) ≤ f ′+(x

0, u) + f ′+(x0, v) für alle u, v ∈ X .

Beweis:Die Existenz von f ′+(x0, v) folgt aus Folgerung 5.8.(1) folgt unmittelbar aus der Definition.Zu (2) Seien u, v ∈ X und sei t > 0 . Dann folgt mit der Konvexität von f

t−1(f(x0 + t(u+ v))− f(x0)) = t−1(f(1

2(x0 + 2tu) +

1

2(x0 + 2tv))− f(x0))

≤ 1

2t−1(f(x0 + 2tu) + f(x0 + 2tv)− 2f(x0))

=1

2t−1(f(x0 + 2tu)− f(x0)) +

1

2t−1(f(x0 + tv)− f(x0))

Grenzübergang t ↓ 0 liefert die Behauptung.

Folgerung 5.13 Sei X normierter Raum, sei f : X −→ (−∞,∞) konvex. Dann gilt:

−f ′+(x0,−v) = limh↑0

1

h(f(x0 + hv)− f(x0)) =: f ′−(x

0, v) , v ∈ X . (5.3)

Beweis:Klar

Folgerung 5.14 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex, x0 ∈ X . Dann gilt:Ist f ′+(x0, ·) ∈ X∗, so ist f ′+(x0, ·) die Gateaux-Ableitung von f in x0 .

114

Page 125: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Siehe Folgerung 5.13.

Satz 5.15 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex, x0 ∈ dom(f) und esexistiere f ′+(x0, v) für alle v ∈ X . Dann sind äquivalent:

(a) f(x0) = minx∈X f(x) .

(b) f ′+(x0, v) ≥ 0 für alle v ∈ X .

Beweis:(a) =⇒ (b) f ′+(x

0, v) = infs>01h(f(x

0 + sv)− f(x0)) ≥ 0 .(b) =⇒ (a) Annahme: f(z) < f(x0) für ein z ∈ X . Für 0 < h ≤ 1 gilt dann

1

h(f(x0 + h(z − x0))− f(x0)) ≤ 1

h(hf(z) + (1− h)f(x0)− f(x0)) = f(z)− f(x0) < 0 .

Also f ′+(x0, z − x0) ≤ f(z)− f(x0) < 0 , was ein Widerspruch ist.

5.3 Subdifferenzierbarkeit

Definition 5.16 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex und sei x0 ∈ X .f heißt subdifferenzierbar in x0, wenn gilt:

∂f(x0) := λ ∈ X∗|f(x0) + 〈λ, x− x0〉 ≤ f(x) für alle x ∈ X 6= ∅ .

Jedes λ ∈ ∂f(x0) heißt ein Subgradient von f in x0 und ∂f(x0) heißt das Subdifferentialvon f in x0 .

Example 5.17

• X := R, f(x) := |x|, x ∈ X . Es gilt: ∂f(12) = 1, ∂f(0) = [−1, 1] .

• X := R, f(x) := x2, |x| ≤ 1, f(x) = ∞, sonst . Es gilt: ∂f(1) = [2,∞) .

• X := R, f(x) := −√1− x2, |x| ≤ 1, f(x) = ∞, sonst . Es gilt: ∂f(1) = ∅, denn es gibt

kein λ ∈ R mit λ(x− 1) ≤ −√1− x2 für alle x ∈ [−1, 1] . Beachte: f ist unterhalbstetig in

x0 = 1 .

Satz 5.18 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex und sei f stetig in x0 ∈dom(f) . Dann gilt:

(1) ∂f(x0) 6= ∅ .

(2) ∂f(x0) ist konvex und σ(X∗, X)-abgeschlossen.

(3) ∂f(x0) ist beschränkt (als Teilmenge von X∗).

Beweis:Zu (1).Da f stetig ist in x0, gibt es δ > 0 mit f(x) ≤ f(x0) + 1 für alle x ∈ Bδ(x

0) . Dann giltBδ(x

0)× (f(x0) + 1,∞) ⊂ int(epi(f)) . Also ist int(epi(f)) 6= ∅, und auch konvex. Offenbar gilt(x0, f(x0)) /∈ int(epi(f)) . Nach dem Trennungssatz 2.22 gibt es (λ, η) ∈ X∗ × R\θ, 0) undα ∈ R mit

〈λ, x〉+ ηt < α, (x, t) ∈ int(epi(f)) , 〈λ, x〉+ ηt ≤ α ≤ 〈λ, x0〉+ ηf(x0), (x, t) ∈ epi(f) . (5.4)

115

Page 126: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Daraus folgt sofort α = 〈λ, x0〉+ ηf(x0) .Annahme: η = 0 .Da Bδ(x

0)× (f(x0) + 1,∞) ⊂ int(epi(f)) gilt, folgt

〈λ, x〉 < 〈λ, x0〉, x ∈ Bδ(x0) , d. h. 〈λ, x− x0〉 < 0, x ∈ Bδ(x

0) . (5.5)

Dies ist ein Widerspruch.Annahme: η > 0 .Da Bδ(x

0)× (f(x0) + 1,∞) ⊂ int(epi(f)) gilt, muss α = ∞ sein, was ein Widerspruch ist.Also gilt η < 0 . O.E. η = −1 . Aus (5.4) folgt

〈λ, x〉 − f(x) ≤ 〈λ, x0〉 − f(x0) für alle x ∈ X .

Also ist λ ∈ ∂f(x0) .Zu (2).Die Konvexität ist klar. Die Abgeschlossenheit, also die Offenheit des Komplements

U := X∗\∂f(x0) = λ ∈ X∗|∃x ∈ X(〈λ, x− x0〉 > f(x)− f(x0))

zeigt man für alle λ ∈ U mit Umgebungen Vε,x−x0, ε > 0 geeignet.Zu (3).Wir haben für λ ∈ ∂f(x0): 〈λ, x− x0〉 ≤ f(x)− f(x0), x ∈ X . Insbesondere gilt

〈λ, z〉 ≤ f(z + x0)− f(x0) ≤ 1 , z ∈ Bδ(θ)

Dies impliziert die Beschränktheit (‖λ‖∗ ≤ δ−1).

Folgerung 5.19 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex, U ⊂ dom(f) konvexund offen, und sei f beschränkt nach oben in einer Umgebung V eines Punktes x ∈ U . Dann gilt∂f(x0) 6= ∅ für alle x0 ∈ U .

Beweis:Siehe Satz 5.18 und Satz 3.19.

Beispiel 5.20 Sei X normierter Raum und sei K ⊂ X konvex, sei x0 ∈ K . Dann gilt ∂δK(x0) =N(x0,K), denn

∂δK(x0) = λ ∈ X∗|δK(x0) + 〈λ, x− x0〉≤ δK(x) für alle x ∈ X = λ ∈ X∗|〈λ, x− x0〉 ≤ 0 für alle x ∈ K .

Der Zusammenhang zwischen Subdifferentiation und Fenchel-Konjugation wird hergestelltdurch

Satz 5.21 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex und sei x0 ∈ dom(f), λ ∈X∗ . Dann sind äquivalent:

(a) λ ∈ ∂f(x0) .

(b) f(x0) + f∗(λ) = 〈λ, x0〉 .(c) f(x0)− 〈λ, x0〉 ≤ f(x)− 〈λ, x〉 für alle x ∈ X .

Beweis:(a) =⇒ (b) Es gilt die Youngsche Ungleichung f(x0) + f∗(λ) ≥ 〈λ, x0〉; siehe Folgerung 3.24.Da λ ∈ ∂f(x0) ist, gilt 〈λ, x〉 − f(x) ≤ 〈λ, x0〉 − f(x0), also f∗(λ) ≤ 〈λ, x0〉 − f(x0) .(b) =⇒ (a) 〈λ, x0〉 = f(x0) + f∗(λ) ≥ f(x0) + 〈λ, x〉 − f(x), x ∈ X . Also λ ∈ ∂f(x0) .(a) ⇐⇒ (c) Definition von ∂f(x0) .

116

Page 127: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

5.4 Subdifferenzierbarkeit und Normalenkegel

Beschreibungsmöglichkeiten konvexer Funktionen kennen nun wir schon mehrere: Funktionensind konvex, wenn ihr Epigraph eine konvexe Menge ist, wenn Sekanten im Graphen stets überdem Graphen liegen, „Tangenten“, definiert durch Subgradienten stets unterhalb des Graphenliegen. Aus letzterer Charakterisierung ergibt sich eine äquivalente Beschreibung der Subdiffe-renzierbarkeit; diese wollen wir nun präsentieren. Die Hilfsmittel dazu sind von eigenständigemInteresse.

Definition 5.22 Sei Y ein normierter Raum, K ⊂ Y, y0 ∈ K .

(1) T (y0;K) := S(y0;K) heißt der Tangentialkegel von K in y0 . Dabei ist S(y0;K) :=∪h>0h

−1(K − y0) .

(2) Die Menge N(y0;K) := λ ∈ X∗|〈λ, y−y0〉 ≤ 0 für alle y ∈ Y heißt der Normalenkegelvon K in y0 .

Es sollt klar sein, dass S(y0;K) = ∪h>0h−1(K − y0) aus der Definition 5.22 der von K − y0

aufgespannte Kegel ist. Dies und dass N(y0;K) die Kegeleigenschaft besitzt, werden wir nochbestätigen; siehe unten.

Lemma 5.23 Sei Y ein normierter Raum, K ⊂ Y, y0 ∈ K . Dann gilt:

(1) z ∈ T (y0;K) ⇐⇒ ∀ ε > 0 ∃u ∈ z +B1 ∃h > 0 (y0 + hu ∈ K) .

(2) T (y0;K) = ∩ε>0 ∩r>0 ∪h∈(0,r](h−1(K − y0) +Bε) .

Beweis:Zu (1)„ =⇒ “ Sei ε > 0 . Es gibt u ∈ S(y0;K) mit u ∈ z+Bε . Also gibt es h > 0 mit u ∈ h−1(K− y0),d. h. y0 + hu ∈ K .Die Rückrichtung „⇐=“ ergibt sich analog.Zu (2) Ergibt sich aus (1).

Folgerung 5.24 Sei Y ein normierter Raum, K ⊂ Y, y0 ∈ K . Dann gilt:

(1) T (y0;K) = T (y0;K) .

(2) S(y0;K) = T (y0;K) = Y , falls y0 ∈ int(K) .

(3) K ⊂ y0 + S(y0;K) ⊂ y0 + T (y0;K) .

(4) S(y0;K), T (y0;K) sind konvexe Kegel.

Beweis:Zu (1) Es ist nur zu zeigen: T (y0;K) ⊂ T (y0;K) .Sei z ∈ T (y0;K) und sei ε > 0 . Nach Lemma 5.23 (1) gibt es u ∈ z+B 1

2ε, h > 0 mit y0+hu ∈ K .

Dann gilty0 + hu ∈ K +B 1

2hε , also y0 + hu′ ∈ K mit u′ ∈ z +Bε .

Nach Folgerung 5.23 (1) gilt z ∈ T (y0;K) .Zu (2),(3) Unmittelbar klar.Zu (4) Der Beweis für S(y0;K) ist klar. Daraus ergibt sich die Aussage für T (y0;K) aus derTatsache, dass der Abschluss eines konvexen Kegels wieder ein konvexer Kegel ist.

117

Page 128: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 5.25 Sei Y ein normierter Raum, K ⊂ Y, y0 ∈ K . Dann gilt

N(y0;K) = λ ∈ Y ∗|〈λ, y0〉 = σK(λ) ,

wobei σK die Stützfunktion von K ist.

Beweis:Sei λ ∈ N(y0;K), d. h. 〈λ, y − y0〉 ≤ 0 für alle y ∈ Y . Dann ist σK(λ) ≥ 〈λ, y0〉 ≥ 〈λ, y〉 für alley ∈ Y, also σK(λ) ≥ 〈λ, y0〉 ≥ σK(λ) ≥ 〈λ, y〉 . Daraus folgt 〈λ, y0〉 = σK(λ) .Die umgekehrte Inklusion ist trivialerweise richtig.

Wir kehren nun zum Problem der Subdifferenzierbarkeit zurück und geben ihr ein „neuesKleid“.

Satz 5.26 Sei X ein normierter Raum, f : X −→ (−∞,∞], x0 ∈ dom(f) . Dann sindäquivalent für λ ∈ X∗:

(a) λ ∈ ∂f(x0) .

(b) (λ,−1) ∈ N((x0, f(x0)); epi(f)) .

Beweis:Zu (a) =⇒ (b) Sei (x, t) ∈ epi(f) . Dann gilt

〈(λ,−1), (x, t)〉 = 〈λ, x〉 − t ≤ 〈λ, x〉 − f(x) ≤ 〈λ, x0〉 − f(x0) ,

also〈(λ,−1), (x, t)− (x0, f(x0))〉 ≤ 0 , d. h. (λ,−1) ∈ N((x0, f(x0)); epi(f)) .

Zu (b) =⇒ (a)Sei x ∈ X . Aus 〈(λ,−1), (x, f(x))− (x0, f(x0)〉 ≤ 0 folgt f(x0) + 〈λ, x− x0〉 ≤ f(x) .

Ein λ ∈ ∂f(x0) definiert für x0 ∈ dom(f) durch x 7−→ y := 〈λ, x − x0〉 + f(x0) ∈ R eine„Tangente“, λ ist also nach Satz 5.26 eine Normale zur Tangente. Da ∂f(x0) ja nicht notwen-digerweise eine einelementige Menge ist, ist auch der Normalenkegel N((x0, f(x0)); epi(f)) imAllgemeinen keine einelementige Menge.

Die Äquivalenz in Satz 5.26 kann man nun zum Anlass nehmen, einen Differentialkalkülfür nichtkonvexe Funktionen zu entwickeln, indem man zuerst einen Normalenkegel in einemPunkt (x0, f(x0)) erklärt und dann dazu den dualen Kegel des Normalenkegels zu einer ArtSubdifferential in x0 erklärt. Bei der Definition des Normalenkegels kann man sich von der Ideeleiten lassen, alle Richtungen d := d((x0, f(x0), (u, t)), (u, t) /∈ epi(f), in den Normalenkegeleinbringt, für die (x0, f(x0)) der nächste Punkt zu (u, t) ist im Sinne des Abstandes in X × R ;siehe etwa [4].

5.5 Subdifferenzierbarkeit–Regeln

Satz 5.27 (Moreau-Rockafellar, 1965) Sei X normierter Raum, seien f, g : X −→ (−∞,∞]konvex und sei f oder g stetig in einem z ∈ dom(f) ∩ dom(g) . Dann gilt:

∂(f + g)(x0) = ∂f(x0) + ∂g(x0) für alle x0 ∈ X . (5.6)

118

Page 129: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Zu „⊃“Ist ∂f(x0) oder ∂g(x0) leer, so ist nichts zu zeigen. Sei λ ∈ ∂f(x0), µ ∈ ∂g(x0) . Dann gilt

〈λ, x− x0〉+ f(x0) ≤ f(x), 〈µ, x− x0〉+ g(x0) ≤ g(x), x ∈ X,

also〈λ+ µ, x− x0〉+ (f + g)(x0) ≤ (f + g)(x), x ∈ X .

Also λ+ µ ∈ ∂(f + g)(x0) .Zu „⊂ “Ist ∂(f+g)(x0) = ∅, so ist nach dem eben Gezeigtem ∂f(x0) = ∅, ∂g(x0) = ∅, und die Behauptungist bewiesen. Sei ∂(f + g)(x0) 6= ∅. Wähle ρ ∈ ∂(f + g)(x0) . Ist etwa f stetig in x0, dann istx0 ∈ int(epi(f)) (siehe Folgerung 3.20) und es gilt daher auch int(epi(f)) 6= ∅ . Wir setzen:

A := (x, t) ∈ X×R|f(x0+x)−f(x0) ≥ t , B := (x, t) ∈ X×R|t < 〈ρ, x〉−g(x0+x)+g(x0)

Es gilt: A = epi(f) − (x0, f(x0)), A konvex, int(A) 6= ∅, B konvex. Ferner ist A ∩ B = ∅, dennist u ∈ A ∩B, dann folgt

〈ρ, u〉 − g(x0 + u) + g(x0) > f(x0 + u)− f(x0),

was wegen ρ ∈ ∂(f + g)(x0) ein Widerspruch ist.Mit dem Trennungssatz 2.21 folgt: Es gibt (λ, r) ∈ X∗ × R\θ, 0) mit

〈λ, x〉 − (f(x0 + x)− f(x0)) ≤ 〈λ, y〉 − 〈ρ, y〉+ g(x0 + y)− g(x0), x, y ∈ X .

Mit x = θ folgtg(x0 + y)− g(x0) ≥ 〈ρ− λ, y〉, y ∈ X .

Mit y = θ folgtf(x0 + y)− f(x0) ≥ 〈λ, y〉, x ∈ X .

Dies bedeutet

ρ− λ ∈ ∂g(x0), λ ∈ ∂f(x0) , ρ = λ+ (ρ− λ) ∈ ∂f(x0) + ∂g(x0)

Satz 5.28 Seien X,Y normierte Räume, sei A : X −→ Y linear und stetig, und sei f : X −→(−∞,∞] konvex. Es gebe ein z ∈ X, so dass f stetig in Az ist. Dann gilt:

∂(f A)(x0) = A∗∂f(Ax0) für alle x0 ∈ X . (5.7)

Beweis:Wir zeigen die Gleichheit der beiden Mengen in (5.7). Sei x0 ∈ X .Zu „⊃“Sei µ ∈ ∂f(Ax0) . Dann gilt

f(Ax) ≥ f(Ax0) + 〈µ,Ax−Ax0〉 = 〈A∗µ, x− x0〉 für alle x ∈ X .

Also λ := A∗µ ∈ ∂(f A)(x0) .Zu „⊂“Sei λ ∈ ∂(f A)(x0) . Wir definieren eine affine Teilmenge U von Y × R durch

U := (Ax, f(Ax0) + 〈λ, x− x0〉)|x ∈ X .

119

Page 130: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Es ist (Az, f(Az)) ∈ int(epi(f)) .Annahme: U ∩ int(epi(f)) 6= ∅ .Sei (y, t) ∈ U ∩ int(epi(f)) . Dann ist einerseits f(y) ≤ t − ε für hinreichend kleines ε > 0,andererseits wäre mit y = Ax f(Ax) ≤ f(Ax0) + 〈λ, x − x0〉 − ε, im Widerspruch zu λ ∈∂(f A)(x0) .Aus dem Trennungssatz 2.21 erhalten wir (µ, η) ∈ Y ∗ × R und ein α ∈ R mit

〈µ,Ax〉+ η(f(Ax0) + 〈λ, x− x0〉 ≤ α ≤ µ, y〉+ ηt für alle x ∈ X, y ∈ dom(f), t ≥ f(y) ,

undα < 〈µ, y〉+ ηt für alle (y, t) ∈ int(dom(f)) .

Es folgt sofort η ≥ 0 , denn wäre η = 0, dann gilt 〈µ,Az〉 ≤ α < µ,Az〉, was ein Widerspruch ist.Also ist η > 0 . O.E. η = 1 . Dann folgt

〈µ,Ax〉+ 〈λ, x〉 = 0 für alle x ∈ X .

Also ist λ = −A∗µ und wir erhalten

f(Ax0)− 〈λ, x0〉 ≤ 〈µ, y〉+ f(y) für alle y ∈ dom(f) , −〈µ, x0〉 = 〈A∗λ, x0〉 = 〈λ,Ax0〉 .

Also f(y) ≥ f(Ax0)+ 〈−µ, y−Ax0〉, woraus −µ ∈ ∂f(Ax0) und schließlich auch µ ∈ A∗∂f(Ax0)folgt.

Satz 5.29 (Moreau-Psenichnii, 1965) Sei X normierter Raum, sei f : X −→ (−∞,∞]konvex und sei f stetig in x0 ∈ dom(f) . Dann gilt für alle v ∈ X:

(1) f ′+(x0, v) = maxλ∈∂f(x0)〈λ, v〉 .

(2) −f ′+(x0,−v) = minλ∈∂f(x0)〈λ, v〉 .

Beweis:Da f stetig ist in x0, gilt ∂f(x0) 6= ∅; siehe Satz 5.18.Zu (1) Sei v ∈ X . Sei λ ∈ ∂f(x0) . Es folgt

f ′+(x0, v) = inf

t>0t−1(f(x0 + tv)− f(x0)) ≥ f(x0 + v)− f(x0) ≥ 〈λ, v〉 .

Wir konstruieren ρ ∈ ∂f(x0) mit 〈µ, v〉 ≥ f ′+(x0, v) . Dazu definieren wird

A := epi(f) , B := (x, t) ∈ X × R|x = x0 + rx, t = f(x0) + rf ′+(x0, x), r ≥ 0 .

Es gilt: A,B sind konvex, int(A) 6= ∅, da f stetig ist in x0, int(A)∩B = ∅ . Letztere Behauptungfolgt so:

f(x0 + rx) ≥ f(x0) + rf ′∗(x0, x), also (x0 + rx, f(x0) + rf ′+(x

0, x)) /∈ int(A) .

Also gibt es nach Satz 2.21 (ρ, η) ∈ X∗ × R\(θ, 0) mit

〈ρ, y〉+ ηs ≤ 〈ρ, z〉+ ηt, (z, t) ∈ B, (y, s) ∈ A . (5.8)

Man erhält wie üblich η < 0 . O.E. η = −1 .Sei (z0, t0) ∈ B, z0 = x0 + r0x, t0 = f(x0) + r0f

′+(x

0, x), r0 > 0 . Da (x0, f(x0)) ∈ A ist, folgt

〈ρ, x0〉 − f(x0) ≤ 〈ρ, x0 + r0x〉 − f(x0)− r0f′+(x

0, x), d. h. r0〈ρ, x〉 ≥ r0f′+(x

0, x) .

Also 〈ρ, x〉 ≥ f ′∗(x0, x) .

Wir haben noch zu zeigen ρ ∈ ∂f(x0) . Dies folgt aus (5.8), da (x0, f(x0)) ∈ B ist.Zu (2) Folgt aus (1).

120

Page 131: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Folgerung 5.30 Sei X normierter Raum, sei f : X −→ (−∞,∞] konvex und sei x0 ∈ dom(f) .Dann sind äquivalent:

(a) f ist Gateaux-differenzierbar in x0 .

(b) ∂f(x0) besteht aus einem Element.

Beweis:Siehe Satz 5.29.

Um den Subdifferentialkalkül wirklich anwenden zu können, sind noch weitere Regeln bereit-zustellen: Kettenregel, Mittelwert(un)gleichung, . . . .

5.6 Stabilität und Dualität

Wir betrachten das Optimierungsproblem

(PP ) Minimiere F (x) , x ∈ X .

Dabei sei X normierter Raum und F : X −→ (−∞,∞] konvex und eigentlich. Den Wert dieserAufgabe bezeichnen wir mit pp .

Satz 5.31 Für x0 ∈ X sind äquivalent:

(a) x0 löst (PP ), d. h. F (x0) = infx∈X F (x) .

(b) θ ∈ ∂F (x0) .

Beweis:(a) =⇒ (b) Es ist F (x0) ≤ F (x) für alle x ∈ X . Also F (x) ≥ F (x0) + 〈θ, x− x0〉 .(b) =⇒ (a) Kehre die Argumentation bei (a) =⇒ (b) um.

Wir wollen das Problem (PP ) einbetten in eine Schar (Py) von „gestörten“ Problemen miteinem Parameter y als Störparameter:

• Y ist ein normierter Raum mit Norm ‖ · ‖Y ;

• Φ : X × Y −→ (−∞,∞] konvex und unterhalbstetig;

• Φ(x, θ) = F (x), x ∈ X .

Wir betrachten damit zu y ∈ Y

(Py) Minimiere Φ(x, y) , x ∈ X .

Den Wert dieser Aufgabe bezeichnen wir mit py . Also gilt (Pθ) = (PP ), pθ = pp . Dies gibtAnlass zur Abbildung

H : Y 3 y 7−→ py ∈ [−∞,∞] .

Beispiel 5.32

(1) Triviale Einbettung: Φ(x, y) := F (x), x ∈ X, y ∈ Y .

(2) Φ(x, y) := F (x+ y), x ∈ X, y ∈ Y := X .

121

Page 132: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(3) Ist F von der Form F (x) = f(x)−g(x), x ∈ X, mit f,−g : X −→ (−∞,∞] (siehe Abschnitt3.5), so kann man mit Φ(x, y) := f(x)− g(x− y) oder Φ(x, y) := f(x− y)− g(x), x ∈ X, y ∈Y := X, arbeiten.

Lemma 5.33 Sei H eigentlich, d. h. H(y) > −∞ für alle y ∈ Y, und dom(H) 6= ∅ . Dann istH : Y −→ (−∞,∞] konvex.

Beweis:Annahme: Es gibt y1, y2 ∈ Y und t ∈ (0, 1) mit

H(ty1 + (1− t)y2) > tH(y1) + (1− t)H(y2) . (5.9)

Dann gibt es ε > 0 und c ∈ R mit

H(ty1 + (1− t)y2) > c > c− ε > tH(y1) + (1− t)H(y2) .

Sei a1 := H(y1) + t−1ε > H(y1) , a2 := (1− t)−1(c− ta1) > H(y2) . Dann existieren x1, x2 ∈ Xmit

H(y1) ≤ Φ(x1, y1) ≤ a1 , H(y2) ≤ Φ(x2, y2) ≤ a2

und wir erhalten

H(ty1 + (1− t)y2) = infx∈X

Φ(x, ty1 + (1− t)y2)

≤ Φ(tx1 + (1− t)x2, ty1 + (1− t)y2)

≤ tΦ(x1, y1) + (1− t)Φ(x2, y2)

≤ ta1 + (1− t)a2 = c

Dies ist ein Widerspruch zu (5.9).

Lemma 5.34 Sei H eigentlich, d. h. H(y) > −∞ für alle y ∈ Y, und dom(H) 6= ∅ . Für alleλ ∈ Y ∗ gilt H∗(λ) = φ∗(θ, λ) .

Beweis:Folgt aus

H∗(λ) = supy∈Y

〈λ, y〉 −H(y) = supy∈Y

〈λ, y〉 − infx∈X

Φ(x, y)

= supy∈Y

supx∈X

〈λ, y〉 − Φ(x, y)

= sup(x,y)∈X×Y

〈(θ, λ), (x, y)〉 − Φ(x, y) = Φ∗(θ, λ)

Wir ordnen dem primalen Problem (PP ) ein duales Paar zu:

(DD) Maximiere − Φ∗(θ, λ) , λ ∈ Y ∗,

zu. Den Wert von (DD) bezeichnen wir mit dd .

Lemma 5.35 Es gilt: pp ≥ dd .

122

Page 133: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Sei (x, y) ∈ X × Y, (µ, λ) ∈ X∗ × Y ∗ = (X × Y )∗ . Aus der Youngschen Ungleichung folgt

Φ(x, y) + Φ∗(µ, λ) ≥ 〈µ, x〉+ 〈λ, y〉,

insbesonderef(x) + Φ∗(θ, λ) = Φ(x, θ) + Φ∗(θ, λ) ≥ 〈θ, x〉+ 〈λ, θ〉 = 0 .

Alsoinfx∈X

f(x) ≥ supλ∈Y ∗

(−Φ∗(θ, λ)) .

Bemerkung 5.36 Ist F (x) = f(x) = g(x), x ∈ X, mit f,−g : X −→ (−∞,∞] und wählen wirΦ gemäß Φ(x, y) := f(x) − g(x − y), x ∈ X, y ∈ Y : X (siehe Beispiel 5.32), so ist die Aussagevon Lemma 5.35 das Ergebnis von Folgerung 3.43, denn

Φ∗(ρ, λ) = f∗(ρ+ λ)− g+(λ) , ρ, λ ∈ X∗ , d. h. Φ∗(θ, λ) = f∗(λ)− g+(λ) .

Satz 5.37 Seien x0 ∈ X,λ0 ∈ Y ∗ . Dann sind äquivalent:

(a) x0 löst (PP ), λ0 löst (DD), pp = dd .

(b) Φ(x0, θ) + Φ∗(θ, λ0) = 0 .

(c) (θ, λ0) ∈ ∂Φ(x0, θ) .

Beweis:(a) =⇒ (b) Es ist Φ(x0, θ) = F (x0) = pp = dd = −Φ∗(θ, λ0) .(b) =⇒ (a) Es ist Φ(x0, θ) = F (x0) ≥ pp ≥ dd ≥ −− Φ∗(θ, λ0) , also Φ(x0, θ) = F (x0) = pp =dd = −Φ∗(θ, λ0) .(b) ⇐⇒ (c) Siehe Satz 5.21.

5.7 Lagrange-Multiplikatoren

Wir betrachten das folgende konvexe Programm:

(KP ) Minimiere f0(x) u. d. NB x ∈ X, fi(x) ≤ 0, i = 1, . . . ,m .

Dabei sind f0, f1, . . . , fm : X −→ (−∞,∞] konvex. Wir setzen

Ki := x ∈ X|fi(x) ≤ 0, i = 1, . . . ,m,K :=m⋂i=1

Ki .

K ist also die Menge der zulässigen Punkte des Problems (KP ).

Satz 5.38 Es gelte dom(f0) ∩ int(K) 6= ∅ oder f0 ist stetig in einem x ∈ dom(f) . Dann sindäquivalent für x0 ∈ X:

(a) x0 löst (KP ) .

(b) ∂f0(x0) ∩N(x0,K) 6= ∅ .

123

Page 134: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Beweis:Die Voraussetzung sichert (siehe Satz 5.27)

∂(f0 + δK)(x0) = ∂f0(x0) + ∂δK(x0) .

Ferner gilt nach Beispiel 5.20 ∂δK(x0) = N(x0,K) . Mit Satz 5.31 ist hiermit die Behauptunggezeigt.

Satz 5.39 (Kuhn-Tucker-Bedingungen) Wir betrachten Problem (KP ) und setzen voraus:

(1) Es gibt z ∈ X mit fi(z) < 0, i = 1, . . . ,m .

(2) f0, f1, . . . , fm sind stetig in einem w ∈ X .

Dann sind äquivalent für x0 ∈ X:

(a) x0 löst (KP )

(b) Es gibt α = (α1, . . . , αm) ∈ Rm, α ≥ θ, mit

θ ∈ ∂f0(x0) +

m∑i=1

αi∂fi(x0) , αifi(x

0) = 0, i = 1, . . . ,m . (5.10)

Beweis:(a) =⇒ (b) Setze

C := y = (y0, y1, . . . , ym) ∈ Rm+1|∃x ∈ X(f0(x)− f0(x0) ≤ y0, fi(x) ≤ yi, i = 1, . . . ,m

Es gilt: C ist konvex, θ /∈ C, (1, 1, . . . , 1) ∈ int(C) . Ein Trennungssatz liefert die Existenz vonβ = (β0, β1, . . . , βm) ∈ Rm+1\θ mit 〈β|y〉 ≥ 0 für alle y ∈ C .Da Rm+1

+ ⊂ C gilt, folgt β ≥ θ . Mit y := (0, ei) ∈ C, i = 1, . . . ,m, erhalten wir

βifi(x0) ≥ 0, i = 1, . . . ,m, also βifi(x0) = 0, i = 1, . . . ,m .

Da (f0(x0) − f0(x

0), f1(x0), . . . , fm(x0)) ∈ C folgt wegen β 6= θ, fi(z) < 0, i = 1, . . . ,m, sofort

β0 > 0 . Also o. E. β0 = 1 . Setze α := (α1, . . . , αm) := (β1, . . . , βm) .Aus (f0(x

0)− f0(x0), f1(x

0), . . . , fm(x0)) ∈ C folgt2

f0(x) +

m∑i=1

αifi(x) ≥ f0(x) für alle x ∈ X . (5.11)

Also löst x0 das Problem

infx∈X

(f0(x) +

m∑i=1

αifi(x)), x ∈ X

Dies hat zur Folge

θ ∈ ∂(f0 +

m∑i=1

αifi)(x0)

und mit Satz 5.27

θ ∈ ∂f0(x0) +

m∑i=1

αi∂fi(x0) .

2Eine Sonderbehandlung für den Fall, dass fi(x) = ∞ gilt, führt auch auf (5.11).

124

Page 135: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

(b) =⇒ (a) Aus

θ ∈ ∂f0(x0) +

m∑i=1

αi∂fi(x0) = ∂(f0 +

m∑i=1

αifi)(x0)

folgt

f0(x) +

m∑i=1

αifi(x) ≥ f0(x0) +

m∑i=1

αifi(x0) = f0(x

0)

Da

f0(x) ≥ f0(x) +m∑i=1

αifi(x) falls fi(x) ≤ 0, i = 1, . . . ,m,

ist die Behauptung (a) bewiesen.

Ein Vektor α, der die Eigenschaften besitzt, die in Satz 5.39 aufgeführt sind, heißt Lagrange-Multiplikator.

Die Voraussetzung (1) in Satz 5.39 heißt Slater-Bedingung oder Slater constrained qua-lification. Sie ist eine wichtige Bedingung für die Gültigkeit der notwendigen Bedingungen fürkonvexe Programme. Wie wir aus dem Beweis zu Satz 5.39 erkennen können, sichert diese Be-dingung, dass die Komponente des „Lagrange-Multiplikator“ β die Komponente β0, die für dieZielfunktion f0 zuständig ist, nicht verschwindet und somit der Enfluss der Zielfunktion auf dienotwendigen Bedingungen erhalten bleibt.

Konvexe Programme können auch Gleichungsnebenbedingungen enthalten, etwa, wenn ein fjaffin ist und ein fk = −fj ist. Dann die Slater-Bedingung nicht erfüllt werden. Eine Sonderbe-handlung solcher Bedingungenen führt aber wieder zu praktikablen notwendigen Bedingungen.

Wir fassen die Lagrange-Multiplikatoren zusammen in

Λ := α ∈ Rm|α ≥ θ, infx∈K

f0(x) = infx∈X

(f0(x) +

m∑i=1

αifi(x)))

und wissen aus Satz 5.39, dass jeder Lagrange-Multiplikator zu Λ gehört. Wir betten (KP ) nunein in eine Familie von gestörten Problemen:

(KPu) infx∈X

M(x, u) := f0(x) + δK(u)(x)

mit K(u) := x ∈ X|fi(x) ≤ ui, i = 1, . . . ,m .Wir setzen H(u) := infx∈X M(x, u), u ∈ Rm .

Satz 5.40 H ist konvex und es gilt Λ = −∂H(θ) .

Beweis:Zur Konvexität siehe Satz 5.33.Sei α ∈ Λ . Es ist

H(θ) = infx∈X

(f0(x) +

m∑i=1

αifi(x)) .

Also ist H(θ) ≤ H(y) +∑m

i=1 λiyi, falls fi(x) ≤ yi, i = 1, . . . ,m , und daher −α ∈ ∂H(θ) .Sei α ∈ −∂H(θ) .Annahme: αj < 0 für ein j ∈ 1, . . . ,m . Mit y = ej folgt H(y) ≥ H(θ) − αj . Dies ist ein

125

Page 136: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Widerspruch zu H(y) ≤ H(θ) .Also gilt α ≥ θ . Sei z ∈ X, setze y := (f1(z), . . . , fm(z)) . Dann gilt:

H(θ) ≤ H(y) +m∑i=1

αiyi

H(θ) ≤ inff0(x)|fi(x) ≤ yi, i = 1, . . . ,m+m∑i=1

αiyi ≤ f0(z) +

m∑i01

αiyi .

Also

inff0(x)|fi(x) ≤ 0, i = 1, . . . ,m ≤ inff0(x) +m∑i=1

αifi(x)|x ∈ X .

Da α ≥ θ ist, folgt

inff0(x)|x ∈ X, fi(x) ≤ 0, i = 1, . . . ,m ≥ inff0(x) +m∑i=1

αifi(x)|x ∈ X .

Bemerkung 5.41 Ist α ∈ −∂H(θ), so gilt H ′+(θ, y) ≥ −〈α|y〉 für alle y ∈ X , insbesondere

H ′+(θ, e

j) ≥ −αj , j = 1, . . . ,m . Dies bedeutet: −αj ist eine untere Schranke für die Änderungs-rate des Optimalwerts relativ zu einem Anwachsen der Schranke der j-ten Nebenbedingungenfj(x) ≤ 0 .

5.8 Anhang: Die Bregman-Distanz

5.9 Anhang: Existenz kritischer Punkte

5.10 Übungen

1.) Zeige: Die Abbildung f : (0,∞) 3 x 7−→ x ln(x) ∈ R ist konvex. Ergänze die Abbildungf zu f : [0,∞) −→ R durch f(0) = 0 . Ist f stetig und konvex?

2.) Betrachte f : Rn 3 x = (x1, . . . , xn) 7−→ ln(∑n

i=1 exi) ∈ R . Zeige:

(a) f ist konvex.(b) Es gilt: maxi xi ≤ f(x) ≤ maxi+ ln(n) , x ∈ Rn .

3.) Zeige: f : Sn ⊃ Sn++ 3 A 7−→ − ln(det(A)) ∈ R ist konvex.

4.) Sei X normierter Raum und sei f : X −→ (−∞,∞] konvex. Dann existiert ∂fv (x) fürx ∈ dom(f), v ∈ x− dom(f) im eigentlichen Sinne.

5.) Sei f : Rn −→ R konvex, A ⊂ Rn beschränkt. Dann ist ∪x0∈A∂f(x0) beschränkt.

6.) Sei X ein normierter Raum und f : X −→ (−∞,∞] konvex. Dann gilt mit x ∈ X,λ ∈X∗:

x ∈ ∂f∗(λ) ⇐⇒ f∗∗(x) + f∗(λ) = 〈λ, x〉

(Bei x ∈ ∂f∗(λ) wird x als Element des Bidualraums aufgefasst.)

126

Page 137: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

7.) Sei X ein normierter Raum und f : X −→ (−∞,∞] konvex. Dann gilt mit x ∈ X,λ ∈X∗:

x ∈ ∂f∗(λ) ⇐⇒ λ ∈ ∂f∗(x)

(Bei x ∈ ∂f∗(λ) wird x als Element des Bidualraums aufgefasst.)

8.) Betrachte in R3 das Optimierungsproblem

Minimiere x21 + x22 + x23 u.d. NB x1 + x2 + x3 = 3, 2x1 − x2 + x3 ≤ 5 .

(a) Überlege, wie man das Problem in R2 graphisch lösen kann.(b) Wende die Überlegung aus (a) an, um notwendige Bedingungen für konvexe Pro-

gramme nutzen zu können.

9.) Betrachte das konvexe Programme

Minimiere x21 u.d. NB1

4x21 +

1

2x22 − 1 ≤ 0, x21 +

1

4x22 − 1 ≤ 0, x1 − x2 ≤ 0 .

Ist die Slater Bedingung erfüllbar?

10.) Betrachte die Funktionen f, g : R −→ (−∞,∞], definiert also

f(x) :=

1 x ≥ 0

0 x < 0, g(x) :=

1 x > 0

0 x ≤ 0.

Berechne ∂f(0), ∂g(0) .

11.) Für Komplementärprobleme sind Funktionen Φ : R2 −→ R interessant, für die gilt:

(∗) Φ(a, b) = 0 ⇐⇒ a ≥ 0, b ≥ 0, ab = 0 .

Hier sind zwei Beispiele: ΦFB(a, b) := a+ b−√a2 + b2,Φ(a, b)M (a, b) := min(a, b) .

(a) Zeige: ΦFB,ΦM besitzen die Eigenschaft (∗) .(b) Sind ΦFB,ΦM stetig und sogar differenzierbar? Beweise oder widerlege!

12.) Betrachte die Beispiele ΦBF ,ΦM aus der letzten Übungsaufgabe.Zeige: |ΦBF (a, b)| ≥ c|ΦM (a, b)| , a, b ∈ R, mit c := 2−

√2 .

5.11 Bibliographische und historische Anmerkungen

Der Stoff dieses Kapitels ist Standard. Er findet sich mehr oder minder vollständig in allen Bü-chern über konvexe Analysis; siehe etwa [1, 5]. Zur Differenzierbarkeit nichtlinearer Abbildungenin normierten Räumen siehe etwa [2, 9, 13].

Nichtglatte Analysis (nonsmooth analysis) setzt die Entwicklung der konvexen Analysis fortund weitet sie aus auf „nahezu beliebige“Abbildungen; siehe etwa [4, 7, 10]. Eine erste Entwick-lungsstufe war der Differentialkalkül von Clarke (siehe [3]) für Lipschitzstetige Funktionen. Dasentscheidende Hilfsmittel dabei ist der Satz von Rademacher; siehe etwa [8]. Eine Weiterentwick-lung ist der Kalkül der Semismoothness, der vor allem für die Entwicklung von Newton-Verfahrenähnlichen Verfahren genutzt wird; siehe etwa [11, 12].

Die Bregman Distanz ist eine Art Metrik; siehe etwa [6]. Sie nutzt das Subdifferential und hatdas Ziel, Ähnlichkeiten eines Objekts zu beschreiben; die euklidische Metrik ist ein Spezialfall

127

Page 138: Konvexe Analysis und Optimierung WiSe 2014/15baumeist/ko-shell.pdf · 2015. 2. 1. · Konvexe Analysis und Optimierung WiSe 2014/15 J. Baumeister1 1. Februar 2015 1Dies sind Aufzeichnungen,

Literaturverzeichnis

[1] J.M. Borwein and A.S. Lewis. Convex Analysis and Nonlinear Optimization. Theory andExamples. Springer, New York, 2006.

[2] C. Chidume. Geometric properties of Banach spaces and nonlinear iterations. Springer,New York, 2009.

[3] F.H. Clarke. Optimization and nonsmooth analysis. Wiley, 1985.

[4] F.H. Clarke, Yu.S. Ledyaev, R.J. Stern, and P.R. Wolenski. Nonsmooth Analysis anControl Theory. Springer, 1997.

[5] R. Holmes. Geometric functional analysis and its applications. Springer, 1975.

[6] K.C. Kiwiel. Proximal minimization methods with generalized Bregman functions. SIAMJ. Contr. Optim., 35:1142–1168, 2005.

[7] B.S. Mordukhovich and Y.H. Shao. On nonconvex subdifferential calculus in Banach spaces.J. Convex Analysis, 2:211–227, 1995.

[8] V.A. Morgan. Geometric measure theory. Elsevier, Amsterdam, 2008.

[9] M. Ruzicka. Nichtlineare Funktionalanalysis. Springer, Berlin, 2007.

[10] G.V. Smirnov. Introduction to the theory of differential inclusions. AmericanMathematical Society, Providence, 2002.

[11] M. Ulbrich. Semismooth Newton methods for operator equations in function spaces. SIAMJ. Optim., 13:805–841, 2002.

[12] M. Ulbrich. Semismooth Newton methods for variational inequalities and constrained opti-mization problems in function spaces. SIAM, Providence, 2011.

[13] E. Zeidler. Nonlinear functional analysis, Part I-IV. Springer, New York, 1991.

128