121
Analysis II Leif Döring Universität Mannheim

Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

Analysis II

Leif Döring

Universität Mannheim

Page 2: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

Inhaltsverzeichnis

10 Metrische Räume und Normierte Räume 110.1 Komplexe Zahlen - C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110.2 Metrik und Norm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 610.3 Folgen, Vollständigkeit und Kompaktheit . . . . . . . . . . . . . . . . . . 1610.4 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2310.5 Funktionenräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2810.6 Lineare Operatoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

11 Differentialrechnung in Rn 4211.1 Totale und partielle Ableitungen . . . . . . . . . . . . . . . . . . . . . . 4311.2 Höhere Ableitungen und Folgerungen . . . . . . . . . . . . . . . . . . . . 55

12 Lebesgue Integration in Rd (und R) 6912.1 Treppenfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6912.2 Ein paar technische Lemmas die implizit Maßtheorie nutzen, obwohl wir

explizit Maßtheorie vermeiden wollen! . . . . . . . . . . . . . . . . . . . 7412.3 Lebesgue integrierbare Funktionen und das Integral . . . . . . . . . . . . 7812.4 Der eindimensionale Fall . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

12.4.1 Integral für f : [a, b]→ R und der Hauptsatz der Analysis . . . . 8612.4.2 Technik des Integrierens . . . . . . . . . . . . . . . . . . . . . . . 88

12.5 Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9112.5.1 Monotone Konvergenz . . . . . . . . . . . . . . . . . . . . . . . . 9112.5.2 Dominierte Konvergenz (oder majorisierte Konvergenz) . . . . . . 9312.5.3 Uneigentliche Integrale . . . . . . . . . . . . . . . . . . . . . . . . 96

12.6 Berechnung mehrdimensionaler Integrale . . . . . . . . . . . . . . . . . . 9712.6.1 Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9712.6.2 Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . 101

13 Banachscher Fixpunktsatz und Anwendungen 10313.1 Banachscher Fixpunktsatz . . . . . . . . . . . . . . . . . . . . . . . . . . 10313.2 Lokale Umkehrbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10513.3 Satz über implizite Funktionen . . . . . . . . . . . . . . . . . . . . . . . 11013.4 Extrema unter Nebenbedinungen . . . . . . . . . . . . . . . . . . . . . . 113

1

Page 3: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

Kapitel 10

Metrische Räume und NormierteRäume

Vorlesung 1Das Ziel in diesem Kapitel ist Konzepte der Analysis I wie Stetigkeit und Konvergenzauf allgemeinere Strukturen zu übertragen.

10.1 Komplexe Zahlen - C

Wir starten mit einer Wiederholung der Linearen Algebra:

Definition. (Körper)Eine Menge X heißt Körper, wenn es zwei Verknüpfungen

+ : X ×X → X

und

· : X ×X → X

gibt, die die Köperaxiome erfüllen:

(K1) a+ (b+ c) = (a+ b) + c für alle a, b, c ∈ X.

(K2) Es gibt ein Element 0 ∈ X, so dass a+ 0 = a für alle a ∈ X gilt.

(K3) Für jedes a ∈ X gibt es ein −a ∈ X, so dass −a+ a = 0 gilt.

(K4) a+ b = b+ a für alle a, b ∈ X.

(K5) a · (b · c) = (a · b) · c für alle a, b, c ∈ X.

(K6) Es gibt ein Element 1 ∈ X mit 1 6= 0, so dass a · 1 = a für alle a ∈ X gilt.

(K7) Für jedes a ∈ X\{0} gibt es ein a−1 ∈ X, so dass a · a−1 = 1 gilt.

(K8) a · b = b · a für alle a, b ∈ X.

(K9) a · (b+ c) = ab+ ac für alle a, b, c ∈ X.

Beispiel.

1. (Q,+, ·) ist ein Körper (sogar ein angeordneter Körper).

1

Page 4: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.1. KOMPLEXE ZAHLEN - C 2

2. (R,+, ·) ist ein Körper (sogar ein vollständig angeordneter Körper).

Definition 10.1.1. (Komplexe Zahlen)Die Menge

C := R× R ={

(x, y) : x, y ∈ R}

mit den Verknüpfungen

+ : C× C→ C((x, y), (u, v)

)7→ (x, y) + (u, v) := (x+ u, y + v)

und

· : C× C→ C((x, y), (u, v)

)7→ (x, y) · (u, v) := (x · u− y · v, x · v + y · u)

heißt Körper der komplexen Zahlen.

Proposition 10.1.2. Mit den neutralen Elementen 0 := (0, 0), 1 := (1, 0) und deninversen Elementen

−(x, y) := (−x,−y) und (x, y)−1 :=( x

x2 + y2,−y

x2 + y2

)ist (C,+, ·) ein Körper.

Beweis. ??!!

Notation 10.1.3.

1. i := (0, 1) heißt „imaginäre Einheit“.

2. Für z = (x, y) heißt

x = Re(z) der Realteil von z.

y = Im(z) der Imaginärteil von z.

3. z heißt reell, falls Im(z) = 0.

4. z heißt imaginär, falls Re(z) = 0.

Bemerkung 10.1.4. Die Definition der Multiplikation ergibt:

1. i2 = −1, denni2 = i · i = (0, 1) · (0, 1)

Def.= (−1, 0)

Def.= −1.

2. i3 = −i

3. i4 = 1

4. i5 = i

Bemerkung 10.1.5. R kann als Teilmenge von C interpretiert werden. Die Abbildung

R→ C, x 7→ (x, 0)

ist injektiv. Die Rechenregeln für reelle Zahlen interpretiert als komplexe Zahlen über-tragen sich. Wenn wir x = (x, 0) abkürzen, und das werden wir immer tun, so ergebendie Rechnenregeln in C nichts neues:

Page 5: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.1. KOMPLEXE ZAHLEN - C 3

x+ u = (x, 0) + (u, 0) = (x+ u, 0) = x+ u für alle x, u ∈ R.

x · u = (x, 0) · (u, 0) = (x · u+ 0, 0) = x · u für alle x, u ∈ R.

Bemerkung 10.1.6. Da i2 = −1 gilt, erhält man die komplexe Multiplikation ausDefinition 10.1.1 auch durch übliches „Ausmultiplizieren“ unter Verwendung der Re-chenregeln für i:

(x+ iy)(u+ iv) = xu+ iyu+ ivx+ i2yv = (xu− yv) + i(yu+ vx)

„Rechnen“ mit komplexen Zahlen geschrieben als z = x+ iy funktioniert also wie in R,unter der Ausnutzung von i2 = −1.

Definition 10.1.7. (Komplexe Konjugation))Die komplexe Konjugation (Spiegelung an der x-Achse) für z ∈ C mit z = x + iy wirddefiniert durch die Abbildung

x+ iy 7→ x− iy.

Man nennt z die komplex konjugierte von z.

Proposition 10.1.8. (algebraische Eigenschaften)

1. (z) = z

2. z + w = z + w

3. zw = z · w

4. z + z = 2Re(z), z − z = 2iIm(z)

5. z · z ist reell und nicht negativ und es gilt zz = x2 + y2 für z = x+ iy.

Beweis. Verwende die Definitionen. ??!!

Definition 10.1.9. (Betrag))|z| :=

√z · z heißt Betrag von z. Mit z = x+ iy ist |z| =

√x2 + y2, also die euklidische

Länge des Vektors (x, y).

Proposition 10.1.10. (analytische Eigenschaften)

1. Es gelten |z| ≥ 0 und |z| = 0⇔ z = 0.

2. |zw| = |z| · |w|

3. |z + w| ≤ |z|+ |w| „Dreiecksungleichung“

4.∣∣|z| − |w|∣∣ ≤ |z − w|

5. |z| = |z|

6. |Re(z)| ≤ |z|

7. |Im(z)| ≤ |z|

Page 6: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.1. KOMPLEXE ZAHLEN - C 4

Beweis. 2. Es gilt

|zw|2 Def.= zw · zw = zzww = |z|2|w|2.

Die restlichen Eigenschaften sind Übungsaufgaben. ??!!

Definition 10.1.11. Eine Folge (zn)b∈N komplexer Zahlen konvergiert gegen z ∈ C,falls für alle ε > 0 ein N ∈ N existiert mit |zn − z| < ε für alle n ≥ N . Wie in Analysis1 schreiben wir zn → z, n→∞, oder limn→∞ zn = z.

Proposition 10.1.12. Sei zn = xn + iyn ∈ C eine komplexe Folge mit xn, yn ∈ R undz ∈ C mit z = x+ iy, dann sind die folgenden Aussagen äquivalent:

• zn → z = x+ iy, n→∞,

• xn → x, n→∞ ∧ yn → y, n→∞.

Beweis. ??!!

Bemerkung 10.1.13. Da wir Summen und Produkte definiert haben, können wiein R auch Reihen und Potenzreihen in C definiert werden. Für Reihen (

∑nk=1 zk)n∈N

komplexer Zahlen definieren wir wie in Analysis 1

∞∑k=1

zk := limn→∞

n∑k=1

zk,

falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- undImaginärteils reduzieren:

∞∑k=1

zk =

∞∑k=1

xk + i

∞∑k=1

yk.

Der linke Grenzwert existiert genau dann, wenn beide Summanden der rechten Seitekonvergieren. Alle Eigenschaften und Sätze (bis auf Majoranten-, Minorantenkriterium)sind analog wie in R. Eine Reihe

∞∑k=1

akzk mit ak ∈ C und z ∈ C

heißt Potenzreihe. Der WertR =

1

limn→∞

n√|an|

heißt Konvergenzradius. Die Potenzreihe konvergiert für alle z ∈ C mit |z| < R unddivergiert für alle z ∈ C mit |z| > R. Daher kam der in Analysis 1 noch unklare Begriff„Konvergenzradius “. Die Exponentialfunktion, Sinus und Cosinus werden wie in AnalysisI als Potenzreihen definiert, nur das Argument x ∈ R wird hier durch z ∈ C ersetzt.

Aufforderung: Für ein besseres Verständnis der komplexen Zahlen und als gute Wieder-holung gehe man durch die Beweise zu Reihen aus Analysis 1 und ersetze x ∈ R durchz ∈ C, um zu sehen, was genau analog funktioniert.

Page 7: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.1. KOMPLEXE ZAHLEN - C 5

Satz 10.1.14. (Eulerische Fomel)Für z ∈ C gilt

eiz := exp(iz) = cos(z) + i sin(z).

Beweis. Es gilt:

exp(iz)Def.=

∞∑k=0

(iz)k

k!

=

∞∑k=0

(−1)kz2k

2k!+

∞∑k=0

i(−1)kz2k+1

(2k + 1)!

=∞∑k=0

(−1)kz2k

2k!+ i

∞∑k=0

(−1)kz2k+1

(2k + 1)!

Def.= cos(z) + i sin(z)

Korollar 10.1.15.

1. | exp(ix)| = 1 für alle x ∈ R.

2. Die Abbildung x 7→ exp(ix) ist 2π-periodisch für x ∈ R.

3. Es gilt exp(i · 0) = 1, exp(i · π2 ) = i, exp(i · π) = −1 und exp(i · 32π) = −i.

Beweis.

1. | exp(ix)| = | cos(x) + i sin(x)| =√

cos(x)2 + sin(x)2 =√

1 = 1

2. Verwende die Eulerische Formel und die Tatsache, dass Sinus und Cosinus 2π-periodisch sind.

3. Verwende die Eulerische Formel und die Werte von Cosinus und Sinus.

Korollar 10.1.16. (Polarkoordinaten)Für alle z ∈ C existiert genau ein r ≥ 0 und ein φ ∈ [0, 2π) mit

z = r · eiφ.

Das Tupel (r, φ) heißt Polarkoordinanten von z, r ist die Länge von z und φ ist derWinkel (im Bogenmaß) von z zur x-Achse.

Beweis. Es gilt |1r · z| = 1 für r = |z| und daraus folgt, dass es ein φ ∈ [0, 2π) existiertmit

1

r· z = eiφ

weil die Abbildung x 7→ eix das Intervall [0, 2π) bijektiv auf den Einheitskreis abbildet.

Vorlesung 2

Page 8: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 6

Bemerkung 10.1.17. (Interpretation der Multiplikation)Es gilt

z · z′ Polarkoord= reiφr′eiφ

= (r · r′)eiφeiφ′ = (r · r′)ei(φ+φ′)

und es ist zu erkennen, dass die Längen von zwei komplexen Zahlen multipliziert unddie Winkel addiert werden.

Bemerkung. (Interpretation der Inverse für Multiplikation)Sei z = (x, y) dann ist gemäß Definition

z−1 =( x

x2 + y2,−y

x2 + y2

).

Das inverse Element von z ist an der x-Achse gespiegelt und besitzt die Länge r = 1|z| .

Die grundlegende Relevanz (zumindest bis hier) der komplexen Zahlen ergibt sich durchfolgendes wichtige Theorem:

Satz 10.1.18. (Hauptsatz der Algebra)Sei

f(z) =n∑k=0

akzk

ein nicht-konstantes Polynom mit Koeffizienten ak ∈ C. Das Polynom hat eine komplexeNullstelle, d.h. es existiert ein z ∈ C mit f(z) = 0.

Beispiel. Seif(z) = z2 + 1,

dann giltf(i) = 0, aber f(x) 6= 0 für alle x ∈ R.

Beweis. Verschiedene Beweise für den Satz 10.1.18 werden in der Vorlesung Funktionen-theorie behandelt.

10.2 Metrik und Norm

Wir haben bisher Analysis (Konvergenz, Stetigkeit, etc.) in R betrieben, in C funktio-niert alles ganz analog, oft durch die Reduktion auf Real- und Imaginärteil. In diesemAbschnitt betrachten wir allgemeinere Strukturen auf denen Analysis getrieben werdenkann.

Definition 10.2.1. Sei X eine Menge. Eine Metrik (oder Abstandsfunktion) ist eineAbbildung

d : X ×X → R, (x, y) 7→ d(x, y)

mit den folgenden Eigenschaften:

1. d(x, y) ≥ 0 für alle x, y ∈ X und es gilt d(x, y) = 0⇔ x = y. „positiv definit“

2. d(x, y) = d(y, x) für alle x, y ∈ X. „Symmetrie“

Page 9: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 7

3. d(x, y) ≤ d(x, z) + d(z, y) für alle x, y, z ∈ X. „Dreiecksungleichung“

Wir sagen (X, d) ist ein metrischer Raum.

Beispiel 10.2.2.

• Ist X eine Menge, so ist

d(x, y) :=

{1 : x 6= y

0 : x = y

immer eine Metrik.

• d(x, y) = |x − y| ist Metrik auf R und C. (Beachte dabei die unterschiedlichenDefinitionen des Betrages auf R und C.)

• Sind (X, d) und (X ′, d′) metrische Räume, so ist auch das kartesische ProduktX ×X ′ mit

dX×X′((x, x′), (y, y′)) := d(x, y) + d′(x′, y′)

ein metrischer Raum.

• Ist X eine Menge, ∅ 6= X ′ ⊆ X und d eine Metrik auf X, dann ist die Einschrän-kung d′ := d|X′×X′ eine Metrik auf X ′.

• C([a, b]) = {f : [a, b] → R : f stetig} mit d(f, g) := ‖f − g‖∞ ist ein metrischerRaum.

Definition. (Vektorraum)Sei K = R oder K = C. Eine Menge V mit zwei Operationen

+ : V × V → V (v, w) 7→ v + w

· : K× V → V (λ,w) 7→ λw

heißt K-Vektorraum, falls die folgenden Eigenschaften erfüllt sind:

(V1) u+ v = v + u für alle u, v ∈ V.

(V2) u+ (v + w) = (u+ v) + w für alle u, v, w ∈ V.

(V3) Es existiert ein 0V ∈ V : v + 0V = 0V + v = v für alle v ∈ V.

(V4) Für alle v ∈ V existiert ein − v ∈ V mit −v + v = 0v.

(S1) λ · (u+ v) = λ · u+ λ · v für alle u, v ∈ V, λ ∈ K.

(S2) (λ+ β) · u = λ · u+ β · u für alle u ∈ V, λ, β ∈ K.

(S3) (λ · β) · u = λ · (β · u) für alle v ∈ V, λ, β ∈ K.

(S4) 1 · v = v für alle v ∈ V.

Wir sprechen von einem reellen Vektorraum, wennK = R und von einem komplexen Vek-torraum, wenn K = C. Beachte: Wir schreiben oft nur Vektorraum statt K-Vektorraum,wenn der zugrundeliegende Körper keine Rolle spielt (oder aus Faulheit).

Page 10: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 8

Beispiel. Der Kn = {(x1, ..., xn), x1, ..., xn ∈ K} ist ein K-Vektorraum mit den Opera-tionen

• (x1, ..., xn) + (y1, ..., yn) = (x1 + y1, ..., xn + yn)

• λ(x1, ..., xn) = (λ · x1, ..., λ · xn)

Beispiel 10.2.3. Die Menge B([a, b]) = {f : [a, b] → R | f beschränkt]} bildet einenR-Vektorraum mit:

• (f + g)(x) := f(x) + g(x), x ∈ [a, b].

• (λ · g)(x) := λg(x), x ∈ [a, b].

Definition 10.2.4. Ist V ein K-Vektorraum mit den Verknüpfungen + und ·, so heißteine Abbildung

‖ · ‖ : V → R, x 7→ ‖x‖

eine Norm, falls die Abbildung folgende Eigenschaften erfüllt:

1. ‖x‖ ≥ 0 für alle x ∈ V und es gilt ‖x‖ = 0⇔ x = 0.

2. ‖λx‖ = |λ|‖x‖ für alle λ ∈ K, x ∈ V.

3. ‖x+ y‖ ≤ ‖x‖+ ‖y‖ für alle x, y ∈ V.

Wir sagen (V, ‖ · ‖) ist ein normierter K-Vektorraum.

Satz 10.2.5. Ist (V, ‖ · ‖) ein normierter Vektorraum, so ist (V, d) ein metrischer Raummit d(x, y) := ‖x− y‖.

Beweis. Wir überprüfen die Definition 10.2.1. Seien dazu x, y, z ∈ V.

1. Folgt direkt aus der Definition einer Norm.

2. Es gilt

d(x, y)Def.= ‖y − x‖ = ‖ − 1(x− y)‖ 2.

= | − 1|‖x− y‖ = ‖x− y‖ Def.= d(x, y).

3. Es gilt:

d(x, y)Def.= ‖x− y‖ = ‖(x− z) + (z − y)‖

4≤ ‖x− z‖+ ‖z − y‖

Def.= d(x+ z) + d(z, y)

Bemerkung 10.2.6. Der normierte Vektorraum ist ein viel stärkeres Konzept als dermetrische Raum!

Beispiel 10.2.7. Die wichtigsten Beispiele in der Analysis für normierte Vektorräumesind

Page 11: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 9

• Rn mit der Norm ‖x‖ =√x2

1 + ...+ x2n, welche die „Länge des Vektors“ beschreibt.

Dabei ist

||x|| = ||(x1, ..., xn)|| =√x2

1 + ...+ x2n,

die sogenannte euklidische Norm (wir müssen noch zeigen, dass || · || eine Normist).

• C([a, b]) mit ‖f‖∞ = supx∈[a,b]

|f(x)|. Es folgt ziemlich direkt (??!!), dass || · ||∞ eine

Norm ist.

Wenn wir gezeigt haben, dass die euklidische Norm tatsächlich eine Norm ist, haben wirfolgenden Satz bewiesen:

Satz 10.2.8. (Rn, || · ||) ist ein normierter Vektorraum.

Für den Beweis müssen wir ein klein wenig ausholen.

Lemma 10.2.9. (Cauchy-Schwarz Ungleichung)Für x, y ∈ Rn gilt

|x1y1|+ · · ·+ |xnyn| ≤√x2

1 + · · ·+ x2n

√y2

1 + · · ·+ y2n = ‖x‖ · ‖y‖.

Beweis. Wegen |xiyi| = |xi||yi| und |xi|2 = x2i reicht es zu zeigen, dass

(x1y1 + · · ·+ xnyn)2 ≤ (x21 + · · ·+ x2

n) · (y21 + · · ·+ y2

n)

für positive reelle Zahlen gilt. Ohne Beschränkung der Allgemeintheit gilt y 6= 0V =(0, . . . , 0), denn sonst ist die Behauptung trivialerweise klar. Es gilt

0 ≤∥∥‖y‖x− x1y1 + · · ·+ xnyn

‖y‖· y∥∥2

Def.=

n∑i=1

(‖y‖xi −

x1y1 + · · ·+ xnyn‖y‖

yi

)2

Bin.=

n∑i=1

(‖y‖2x2

i +(x1y1 + · · ·+ xnyn)2

‖y‖2y2i − 2xiyi(x1y1 + · · ·+ xnyn)

)= ‖y‖2‖x‖2 + (x1y1 + · · ·+ xnyn)2 ‖y‖2

‖y‖2− 2(x1y1 + · · ·+ xnyn)2

= ‖y‖2‖x‖2 − (x1y1 + · · ·+ xnyn)2,

und damit die Behauptung.

Beweis. von Satz 10.2.8

1. ??!!

2. ??!!

Page 12: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 10

3. Es gilt

‖x+ y‖2 Def.= ‖(x1 + y1, ...xn + yn)‖2

=n∑i=1

(xi + yi)2

=n∑i=1

x21 +

n∑i=1

y2i + 2 ·

n∑i=1

xiyi

10.2.9≤ ‖x‖2 + ‖y‖2 + 2‖x‖‖y‖

= (‖x‖+ ‖y‖)2

und aufgrund der Monotonie der Abbildung x 7→ x2 folgt

‖x+ y‖ ≤ ‖x‖+ ‖y‖.

Vorlesung 3Für die obigen Beweise haben wir K = R nicht genutzt, daher gilt auch:

Satz 10.2.10. Die Norm

‖z‖ = ‖(z1, ...zn)‖ :=√|z1|2 + ...+ |zn|2 =

√z1z1 + ...+ znzn

macht Cn zu einem normierten Vektorraum.

Definition 10.2.11. Für x = (x1, ..., xn) ∈ Kn und p ≥ 1 beziehungsweise p = ∞schreiben wir:

‖x‖p =

{(|x1|p + ...+ |xn|p

) 1p : p ≥ 1

sup{|x1|, ..., |xn|

}: p =∞

.

Wir nennen ‖·‖p die p-Norm auf Kn. Für p =∞ sprechen wir auch von der Supremums-norm.

Bemerkung 10.2.12.

1. ‖ · ‖2 ist die euklidische Norm auf Kn.

2. Es gilt limp→∞

‖x‖p = ‖x‖∞, x ∈ Kn, daher die Notation ‖x‖∞.

Definition 10.2.13. Wir nennen

〈x, y〉 := x1y1 + ...+ xnyn, x, y ∈ Cn

und

〈x, y〉 := x1y1 + ...+ xnyn, x, y ∈ Rn

Skalarprodukt auf Kn. Cauchy-Schwarz kann damit auch geschrieben werden als

|〈x, y〉| ≤ ‖x‖ · ‖y‖.

Page 13: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 11

Proposition 10.2.14. (Youngsche Ungleichung)Seien p, q > 1 mit 1

p + 1q = 1, dann gilt für x, y > 0

xy ≤ 1

pxp +

1

qyq.

Man nennt Paare solcher reellen Zahlen p und q adjungiert.

In dem Beweis sehen wir etwas ganz hübsches: Young ist nichts anderes als die Konkavitätdes Logarithmus (was wir mit der zweiten Ableitung checken können).

Beweis. Die Aussage von Proposition 10.2.14 ist äquivalent zu

ln(x) + ln(y) = ln(x+ y) ≤ ln(1

pxp +

1

qyq)

weil die Abbildung x 7→ ln(x) monoton wachsend ist. Die Funktion f(x) = ln(x) istkonkav auf (0,∞) und somit gilt

α ln(a) + (1− α) ln(b) ≤ ln(αa+ (1− α)b)

)für alle a, b > 0 und α ∈ (0, 1). Wir wählen

a = xp, b = yq, α =1

p, 1− α =

1

q,

dann gilt

1

pln(xp)

+1

qln(yq)≤ ln

(1

pxp +

1

qyq).

und dies ist äquivalent zu

ln(x) + ln(y) ≤ ln(1

pxp +

1

qyq).

Proposition 10.2.15. (Höldersche Ungleichung)Seien p, q ≥ 1 mit 1

p + 1q = 1, dann gilt

n∑k=1

|xkyk| ≤ ‖x‖p · ‖y‖q.

Beachte, für p = 1 meint man q =∞. Dies ist nur eine symbolische Notation, wir führenkeine „Zahl “ ∞ ein.

Bemerkung. Falls p = q = 2 ist, ist die Voraussetzung 1p + 1

q = 12 + 1

2 = 1 erfüllt.Dieser Spezialfall die Cauchy-Schwarz-Ungleichung aus Lemma 10.2.9, weil ‖ · ‖2 dieeuklidische Norm ist.

Beweis. (von Proposition 10.2.15)

Page 14: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 12

1. Für p = 1 und q =∞ giltn∑k=1

|xkyk| = |x1||y1|+ · · ·+ |xn||yn|

≤ max{|y1|, . . . , |yn|

}(|x1|+ · · ·+ |xn|

)= ‖y‖∞‖x‖1,

wobei das größte |yi|, i ∈ {1, . . . , n}, ausgeklammert wurde.

2. Sei ohne Beschränkung der Allgemeinheit ‖x‖ 6= 0 und ||y|| 6= 0 (sonst gilt dieAussage trivialerweise).Für p, q > 1 und alle k ∈ {1, . . . , n} gilt unter Verwendung der Youngsche Unglei-chung

|xkyk|‖x‖p‖y‖q

=|xk|‖x‖p

· |yk|‖y‖q

≤ 1

p

|xk|p

‖x‖pp+

1

q

|yk|q

‖y‖qq.

Eine Summation über k ergibt:n∑k=1

|xkyk|‖x‖p‖y‖q

≤n∑k=1

1

p

|xk|p

||x||pp+

n∑k=1

1

q

|yk|q

||y||qq

Def.=

1

p

||x||pp||x||pp

+1

q

||y||qq||y||qq

=1

p+

1

q= 1.

Proposition 10.2.16. (Minkowski Ungleichung)Für p ≥ 1 oder p =∞ gilt

‖x+ y‖p ≤ ‖x‖p + ‖y‖pfür alle x, y ∈ Kn.

Beweis. Für p = 1 und p =∞ folgt dies aus der Dreiecksungleichung und der Definitiondes Supremums. Sei also p > 1 und q = p

p−1 die konkugierte (also 1p + 1

q = 1), dann gilt:

‖x+ y‖pp =

n∑k=1

|xk + yk|p

=n∑k=1

|xk + yk||xk + yk|p−1

4≤

n∑k=1

|xk||xk + yk|p−1 +

n∑k=1

|yk||xk + yk|p−1

2×Hölder≤ ‖x‖p

(n∑k=1

(|xk + yk|p−1)q

) 1q

+ ‖y‖p

(n∑k=1

(|xk + yk|p−1)q

) 1q

.

Es gilt natürlich

(p− 1)q = (p− 1)p

p− 1= p sowie

1

q=

1

p

p

q

Page 15: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 13

und daraus folgt

‖x‖p

(n∑k=1

(|xk + yk|p−1)q

) 1q

+ ‖y‖p

(n∑k=1

(|xk + yk|p−1)q

) 1q

= ‖x‖p‖x+ y‖pqp + ‖y‖p‖x+ y‖

pqp

=(‖x‖p + ‖y‖p

)‖x+ y‖

pqp .

Aufgrund der Gleichung pq = p

pp−1

gilt

‖x+ y‖pp ≤ (‖x‖p + ‖y‖p) ‖x+ y‖p−1p

und dies ist äquivalent zu‖x+ y‖p ≤ ‖x‖p + ‖y‖p.

Korollar 10.2.17. Für alle p ≥ 1 und p = ∞ ist die Abbildung ‖ · ‖p : Kn → R eineNorm.

Beweis. Teste die drei Axiome einer Norm:1. Easy.2. Easy.3. Das ist gerade Minkowski.

Wir haben also gesehen, dass auf einem normierten Raum mehrere Normen existierenkönnen. Die p-Normen auf Rn sind aber gar nicht so unterschiedlich wie sie aussehen.

Definition 10.2.18. Zwei Normen ‖ · ‖1 und ‖ · ‖2 auf einem Vektorraum V heißenäquivalent, falls c1 > 0 und c2 > 0 existieren, sodass

‖v‖1 ≤ c1‖v‖2 und ‖v‖2 ≤ c2‖v‖1

für alle v ∈ V .

Mit ganz konkreten Konstanten c1 und c2 können wir die Äquivalenz der p-Normen aufdem Kn zeigen:

Proposition 10.2.19. Die p-Normen auf dem Kn sind äquivalent. Für p ≥ 1 gilt

‖v‖∞ ≤ ‖v‖p und ‖v‖p ≤ n1p ‖v‖∞

für alle v ∈ Kn.

Beweis. Zum einen gilt

‖v‖∞ = sup{|v1|, |v2|, ..., |vn|

}≤(|v1|p + ...+ |vn|p

) 1p = ‖v‖p,

und zum anderen gilt

‖v‖p =(|v1|p + ...+ |vn|p

) 1p ≤

(n · sup{|v1|p, ..., |vn|p}

) 1p = n

1p ‖v‖∞.

Page 16: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 14

Die Normen ‖ · ‖p und ‖ · ‖∞ sind daher äquivalent. Die Äquivalenz von Normen bildeteine Äquivalenzrelation auf der Menge der Normen und somit ist ‖ · ‖p äquivalent zujedem ‖ · ‖p′ mit p, p′ ≥ 1.Wir zeigen später die sehr viel stärkere Aussage, dass alle möglichen Normen auf Kn

äquivalent sind.

Nachdem wir das Beispiel des Kn ausführlich besprochen haben, abstrahieren wir dietopologischen Begriffe aus Analysis 1: offene Mengen, abgeschlossene Mengen, kompakteMengen, Abschluss, Randpunkte, etc.

Definition 10.2.20. Sei (X, d) ein metrischer Raum.

1. B(x, r) = {y ∈ X : d(x, y) < r} heißt offener Ball um x mit Radius r > 0.

2. O ⊆ X heißt Umgebung von x, falls es ein r > 0 gibt mit B(x, r) ⊆ O.

3. O ⊆ X heißt offen, falls O eine Umgebung für alle ihrer Elemente ist, das heißtfür alle x ∈ O existiert ein r > 0 : B(x, r) ⊆ O.

Für normierte Vektorräume (V, || · ||) nutzen wir die selben Begriffe und interpretierenden normierten Vektorraum immer als metrischen Raum mit der induzierten Metrikd(x, y) = ||x− y|| (vergleiche Satz 10.2.5).

Das Konzept einer Umgebung mag etwas künstlich aussehen. Die Bedeutung wird indieser Vorlesung auch nicht ganz klar werden, da wir uns nur in einer Übung allgemei-ne topologische Räume anschauen. Kurz zusammengefasst ist die Bedeutung folgende:Wenn wir in einem Raum ohne Abstände (kein metrischer Raum, was heißt dann „nah“sein?) Konvergenz von Folgen definieren wollen, so müssen wir irgendwie definieren wases heißt, dass die Folgenglieder in einer „Umgebung “ des Grenzwertes sind. Hier kannman Abstände und Bälle durch abstraktere Systeme von Umgebungen ersetzen.Beispiel 10.2.21.

• In (R, | · |) sind offene Bälle gerade die offenen Intervalle.

• In (C([a, b]), || · ||∞ sind offene Bälle alle Funktionen, die in einem Schlauch umden „Mittelpunkt“ x liegen.

• In (R2, || · ||2) sind offene Bälle Kreischeiben ohne ihren Rand.

• In (R2, || · ||∞) sind offene Bälle Quadrate ohne Rand.

• In (R2, || · ||1) sind offene Bälle Diamanten ohne Rand.

Wir sehen also, dass die Form der offenen Bälle ganz wesentlich von der Metrik (bzw.Norm) abhängt. Für ein besseres Gefühl der p-Normen ist hier ein Bildchen verlinkt.

Lemma 10.2.22.

1. Offene Bälle sind offene Mengen.

2. Beliebige Vereinigungen offener Mengen sind offen. Das heißt, ist I eine Indexmen-ge und Oi seien offene Mengen für alle i ∈ I, dann ist die Menge⋃

i∈IOi := {x : es existiert ein i ∈ I mit x ∈ Oi}

offen.

Page 17: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.2. METRIK UND NORM 15

3. Endliche Durchschnitte offener Mengen sind offen.

Beweis. Der Beweis des Lemmas 10.2.22 ist eine Übungsaufgabe. ??!!

Beispiel 10.2.23. Für die offenen Mengen On :=(− 1n ,

1n

), n ∈ N, gilt:

• Die Menge⋂n∈N

On = {0} ist abgeschlossen.

• Die Mengem⋂n=1

On =(− 1m ,

1m

)ist offen für alle m ∈ N fest.

Analoges gilt in Rn mit On = B(0, 1n), n ∈ N. Wir sehen also, dass 3. im Lemma nicht

durch unendlich ersetzt werden darf! Vorlesung 4

Definition 10.2.24.

1. A ⊆ X heißt abgeschlossen, wenn Ac offen ist.

2. Für M ⊆ X heißtM :=

⋂A⊇M,A abg.

A

der Abschluss von M .

Lemma 10.2.25.

1. Beliebige Durchschnitt abgeschlossener Mengen sind abgeschlossen.

2. Endliche Vereinigungen abgeschlossener Mengen sind abgeschlossen.

Bemerkung. X und ∅ sind offen und abgeschlossen.

Beweis. Der Beweis des Lemmas 10.2.25 ist eine Übungsaufgabe. Die DeMorganschenRegeln

•(⋃i∈I

Ai

)c=⋂i∈I

Aci

•(⋂i∈I

A

)c=⋃i∈I

Aci

werden dazu nützlich sein.

Korollar 10.2.26.

1. M ist abgeschlossen.

2. M ist abgeschlossen genau dann, wenn M = M .

Beweis.

1. Folgt direkt aus Lemma 10.2.25.

2. „⇒“ Gilt wegen Definition 10.2.24 (Abschluss einer Menge), da M ⊆M .„⇐“ Folgt aus 1.

Page 18: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 16

10.3 Folgen, Vollständigkeit und Kompaktheit

In diesem Kapitel werden wir (ähnlich wie in Analysis 1) topologische Begriffe mit Fol-genkonvergenzen in Verbindung bringen. Wir wissen bereits was eine offene Menge ineinem metrischen Raum ist, jedoch nicht, was eine konvergente Folge ist.

Definition 10.3.1.

1. Eine Folge in einem metrischen Raum (X, d) ist eine Abbildung x : N → R.Notationen für eine Folge x sind (x(n))n∈N, (xn)n∈N oder (xn).

2. (xn)n∈N konvergiert gegen x ∈ X, falls

d(xn, x)→ 0, n→∞.

Ausgeschrieben heißt dies: Für alle ε > 0 gibt es ein N ∈ N, sodass d(xn, x) < εfür alle n ≥ N . Wir schreiben wie immer limn→∞ xn = x oder xn → x, n→∞.

3. (xn)n∈N heißt Cauchyfolge in (X, d), falls für alle ε > 0 ein N ∈ N existiert, sodass

d(xn, xm) < ε für alle n,m ≥ N.

Bemerkung. limn→∞ xn = x ist äquivalent dazu, dass jede Umgebung von x allebis auf endlich viele Folgenglieder enthält. Wir kriegen also eine gewisse Idee, wie manKonvergenz ohne Metrik definieren könnte. Man braucht dazu nur eine sinnvolle Menge(was auch immer das heißt) von Umgebungen. Hier ist ein Wikipedia Link versteckt, umsich einen Eindruck zu verschaffen.

Bemerkung 10.3.2. Konvergenz in normierten Räumen ist definiert durch die Kon-vergenz im zugehörigen metrischen Raum: (xn)n∈N konvergiert also gegen x genau dann,wenn limn→∞ ||xn − x|| = 0. Wenn auf einem normierten Vektorraum zwei äquivalenteNormen definiert sind, hängt die Konvergenz offenbar nicht von der Norm ab.

Proposition 10.3.3. Sei (X, d) ein metrischer Raum und M ⊆ X, dann gilt

M ={x ∈ X : x = lim

n→∞xn, (xn)n∈N ⊆M

}In Worten: Der Abschluss von M besteht aus den Grenzwerten aller Folgen in M .

Beweis. „⊆ “: Sei x ∈ M . Angenommen, es gibt keine Folge (xn) in M , die gegen xkonvergiert. Dann gibt es (sauber verneinen) ein r > 0 mit B(x, r)∩M = ∅. Die MengeA := B(x, r)c ist abgeschlossen und enthält M , also ist nach Definition M ⊆ A. Dochdies ist ein Widerspruch weil dann x ∈M und x /∈M gilt.„⊇ “: Ist x /∈ M , so existiert (sauber deMorgan auf die Definition von M anwenden)eine offene Menge O mit x ∈ O und O ∩M = ∅. Also existiert ein r > 0 mit B(x, r) ∩M = ∅. Damit existiert keine Folge (xn) in M , die gegen x konvergiert und dies ist einWiderspruch.

Proposition 10.3.4. Sei (X, d) ein metrischer Raum und M ⊆ X, dann sind folgendeAussagen äquivalent:

1. M ist abgeschlossen.

Page 19: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 17

2. Die Grenzwerte aller konvergenten Folgen in M gehören zu M .

Beweis. Folgt aus der Proposition zuvor und Korollar 10.2.26.

Satz 10.3.5. Sei (X, d) ein metrischer Raum und (xn)n∈N eine konvergente Folge. Dannist (xn)n∈N eine Cauchyfolge.

Beweis. Aufgrund der Konvergenz der Folge (xn)n∈N existiert für alle ε > 0 ein N ∈ Nmit

d(xn, x) <ε

2für alle n ≥ N,

wobei x der Grenzwert von (xn)n∈N ist. Folglich gilt für alle n,m ≥ N :

d(xn, xm) ≤ d(xn, x) + d(x, xm)

= d(xn, x) + d(xm, x)

2+ε

2= ε,

wobei wir die Symmetrie der Metrik genutzt haben.

Definition 10.3.6. 1. Ein metrischer Raum (X, d) heißt vollständig, falls jede Cauchy-folge in dem metrischen Raum X konvergiert.

2. Ist (X, ‖·‖) ein normierter Vektorraum und d die von ‖·‖ induzierte Metrik auf X,so sagen wir, dass (X, ‖·‖) vollständig ist, falls (X, d) vollständig ist.

3. Ein Teilmenge M von (X, d) heißt vollständig, falls (M,d|M ) ein vollständigermetrischer Raum ist.

Definition 10.3.7. Ein vollständiger normierter Vektorraum heißt Banachraum.

Beispiel.

• (C, | · |) ist vollständig

• (Kd, || · ||p) ist vollständig für alle p ≥ 1 und p =∞

• (Q, | · |) ist nicht vollständig

• (C([a, b]), || · ||∞) ist vollständig

Lemma 10.3.8. Sei (X, d) ein vollständiger metrischer Raum und M ⊆ X. M istvollständig genau dann, wenn M abgeschlossen ist.

Beweis. Konsequenz aus Proposition 10.3.4:

„⇒“: Sei (xn) eine Folge in M und x = limn→∞ xn. Weil (xn) als konvergente Folgeeine Cauchyfolge ist und M als vollständig angenommen ist, gilt x ∈M . Folglich ist Mabgeschlossen.

„⇐“: Sei (xn)n∈N eine Cauchyfolge in M , also insbesondere eine Cauchyfolge in X.Damit existiert x ∈ X mit x = limn→∞ xn. Weil M abgeschlossen ist, folgt x ∈M . Alsokonvergiert jede Cauchyfolge in M , und M ist vollständig.

Page 20: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 18

Definition 10.3.9. 1. Sei (X, d) ein metrischer Raum. X heißt kompakt, falls jedeÜberdeckung durch offene Mengen eine endliche Teilüberdeckung besitzt. Das heißtfolgendes: Wenn

X =⋃i∈I

Oi,

wobei I eine beliebige Indexmenge ist und die Oi, i ∈ I, offene Teilmengen von Xsind, so gibt es eine endliche Teilmenge J ⊆ I mit X =

⋃i∈J Oi.

2. Eine Teilmenge M von (X, d) heißt kompakt, falls (M,d|M ) ein kompakter metri-scher Raum ist.

Definition 10.3.10. Die Grenzwerte von Teilfolgen einer Folge heißen Häufungspunkteder Folge.

Satz 10.3.11. Sei (X, d) ein metrischer Raum, dann sind die folgenden Aussagen äqui-valent:

1. (X, d) ist kompakt wie in Definition 10.3.9.

2. Jede Folge in (X, d) besitzt eine konvergente Teilfolge.

3. (X, d) ist vollständig und für jedes r > 0 besitzt (X, d) eine endliche Überdeckungmit offenen Bällen von Radius r.

Bemerkung. Die Eigenschaft einer endlich Überdeckung durch Bälle nennt man auchTotalbeschränktheit (Hier ist ein Wikipedia Link zum rumlesen versteckt).

Beweis. 1. ⇒ 2.: Beweis durch Kontraposition: Sei (xn)n∈N eine Folge in (X, d) ohnekonvergente Teilfolge. Definiere die Menge

Fn = {xm |m ≥ n}.

Für jedes n ∈ N ist Fn ist eine abgeschlossene Menge, weil

Fn = Fn.

(Siehe Proposition 10.3.4 und beachte, dass (xn)n∈N keine konvergente Teilfolge hat.)Definiere die Mengen

On = FCn .

Für jedes n ∈ N ist On ist eine offene Menge. Es gilt

X =⋃n∈N

On,

weil (xn)n∈N keine konvergente Teilfolge besitzt. Falls X kompakt wäre, so existiert eineendliche Teilüberdeckung von X. Da XC = ∅ muss dann gelten, dass

∅ = XC =( ⋃j∈J

Oj

)C=⋂j∈J

OCj =⋂j∈J

Fj ,

wobei J eine endliche Menge ist. Dies ist aber ein Widerspruch zu der Definition vonFn. Vorlesung 52.⇒ 3.: Sei (xn)n∈N eine Cauchyfolge in (X, d). Es existiert ein Häufungspunkt x ∈ X,wegen der Voraussetzungen. Wir zeigen, dass limn→∞ xn = x. Sei ε > 0 beliebig, danngilt:

Page 21: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 19

• Da (xn)n∈N eine Cauchyfolge ist, existiert ein N ∈ N mit d(xn, xm) < ε2 für alle

n,m ≥ N.

• Da x ein Häufungspunkt ist, gilt d(xm, x) < ε2 für ein m ≥ N .

Daher gilt für alle n ≥ N :

d(xn, x)4≤ d(xn, xm) + d(xm, x) <

ε

2+ε

2= ε.

Der metrische Raum (X, d) ist somit vollständig.

Des Weiteren wird angenommen, dass es ein r > 0 gibt, ohne eine endliche Überdeckungvon X durch r-Bälle. Also existiert eine Folge (xn)n∈N in X mit

xn+1 /∈n⋃i=1

B(xi, r).

Die Folge (xn)n∈N hat keinen Häufungspunkt, weil d(xn, xm) > r für alle n,m. Dies istein Widerspruch weil eine konvergente Teilfolge eine Cauchyfolge sein müsste.

3.⇒ 1.: Beweis durch Widerspruch. Sei dazu X =⋃λ∈I Uλ eine beliebige Überdeckung

von X durch offene Mengen ohne endliche Teilüberdeckung. Zunächst zeigen wir, dassdann eine Folge (xn)n∈N in X existiert mit:

i) B(xn,1

2n ) ∩B(xn+1,1

2n+1 ) 6= ∅

ii) Für alle n ∈ N reichen nicht endlich viele der offenen Mengen Uλ, um B(xn,1

2n )zu überdecken.

Beweis durch vollständige Induktion (ähnlich wie Intervallschachtelung!):

IA: Nach Voraussetzung in 3. reichen endlich viele Bälle mit Radius 12 um X zu über-

decken. Weil X durch unendlich viele Uλ überdeckt ist, muss mindestens einerdieser Bälle überdeckt sein. Wähle als x1 den Mittelpunkt.

IV: Für ein beliebiges aber festes n ∈ N gelten i) und ii).

IS: Überdecke B(xn,1

2n ) durch endliche viele Bälle mit Radius 12n+1 . Weil nach Induk-

tionsvoraussetzung B(xn,1

2n ) durch unendlich viele Uλ überdeckt wird, gilt dasgleiche für mindestens einen der Bälle mit Radius 1

2n+1 .

Im nächsten Schritt wird geprüft, dass (xn)n∈N eine Cauchyfolge ist. Sei dazu

z ∈ B(xn,

1

2n

)∩B

(xn+1,

1

2n+1

),

dann gilt wegen der Dreiecksungleichung

d(xn, xn+1) ≤ d(xn, z) + d(z, xn+1) ≤ 1

2n+

1

2n+1=

1

2n

(1 +

1

2

)=

3

2

1

2n.

Page 22: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 20

Sei m > n, dann gilt:

d(xn, xm)∆≤ d(xn, xn+1) + d(xn+1, xn+2) + ...+ d(xm−1, xm)

≤∞∑k=n

d(xk, xk+1)

s.o.≤

∞∑k=n

3

2

(1

2

)k=

3

2

∞∑k=n

1

2k.

Außerdem gilt3

2

∞∑k=n

(1

2

)k→ 0, n→∞,

weil die geometrische Reihe für 12 konvergiert. Daher ist (xn)n∈N eine Cauchyfolge. Nach

der Vorausetzung in 3. ist X vollständig und damit existiert ein x ∈ X mit limn→∞ xn =x. Daraus müssen wir nun einen Widerspruch herleiten. Es gilt

X =⋃λ∈I

und somit existiert ein λ ∈ I mit x ∈ Uλ. Zudem existiert ein r > 0 mit

B(x, r) ⊆ Uλ,

weil Uλ offen ist. Außerdem existiert m ∈ N groß genug mit

B(xm,

1

2m

)⊆ B(x, r) ⊆ Uλ.

Es reicht also eine offene Menge Uλ, um B(xn,1

2m ) zu überdecken und damit haben wirendlich unseren Widerspruch zur Konstruktion (Eigenschaft ii)) der Folge (xn).

Kurze Erinnerung an Analysis 1: Dort haben wir gezeigt, dass eine Teilmenge von Rkompakt ist, genau dann wenn sie offen und abgeschlossen ist. Das gilt in allgemeinenmetrischen Räumen nicht mehr, die Abgeschlossenheit bleibt aber erhalten:

Korollar 10.3.12. Sei (X, d) ein metrischer Raum und M ⊆ X, dann gelten folgendeAussagen:

1. Ist M kompakt, so ist M abgeschlossen.

2. Ist X kompakt und M abgeschlossen, so ist M kompakt.

Beweis. 1. Wegen Korollar 10.2.26 und Proposition 10.3.3 reicht es zu zeigen, dass Mgleich der Menge aller Grenzwerte von Folgen inM ist. Sei also (xn)n∈N eine konvergenteFolge in M mit Grenzwert x ∈ X. Mit Satz 10.3.11 2. existiert eine in M konvergenteTeilfolge (xnk)k∈N, also

limk→∞

xnk = y ∈M.

Page 23: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 21

Weil alle Teilfolgen einer konvergenten Folge in einem metrischen Raum den selbenGrenzwert haben (Beweis wie in Analysis 1 für reelle Folgen), gilt x = y und damit istx ∈ X.

2. Mit Satz 10.3.11 2. hat jede Folge in M eine in X konvergente Teilfolge. Da Mabgeschlossen ist, ist der Grenzwert in M . Also ist M kompakt.

Definition 10.3.13. Sei (X, d) ein metrischer Raum und M ⊆ X.

1. x ∈ X heißt Randpunkt von M, falls für alle r > 0

B(x, r) ∩M 6= ∅ ∧ B(x, r) ∩M c 6= ∅.

2. ∂M = {x ∈ X |x ist Randpunkt von M} heißt Rand von M .

3. M◦ = M\∂M heißt Inneres von M .

4. M heißt beschränkt, falls für ein (und damit für alle - warum ??!!) x ∈ M dieMenge der Abstände

{d(x, y) | y ∈M}

in R beschränkt ist.

Beispiel. Per Definition sind offene Bälle beschränkt.

Bemerkung. Folgende Aussagen sind äquivalent:

1. M ist beschränkt.

2. M ⊆ B(x, r) für ein r > 0 und ein x ∈ X.

In einem normierten Vektorraum kann hier auch immer x = 0 gewählt werden.

Bemerkung 10.3.14. Wie in Analysis 1 sieht man, dass M ∪ ∂M gerade die Mengealler Grenzwerte von Folgen in M ist. Daher gilt

M = M ∪ ∂M,

und das ist gerade wie wir in Analysis 1 den Abschluss definiert hatten. Wegen Korollar10.2.26 gilt also: M ist genau dann abgeschlossen, wenn alle Randpunkte von M zu Mgehören, denn dann gilt M = M .

Zum Abschluss wollen wir noch die Charakterisierung kompakter Mengen von R (Heine-Borel) auf den Kn übertragen. Dazu erinnern wir an Bemerkung 10.3.2 und die Äqui-valenz der p-Normen auf Kn, um festzustellen, dass die Konvergenz von Folgen im Kn

nicht von der gewählten p-Norm abhängt. Das bedeutet, eine Folge (xn)n∈N konvergiertin (K, ‖ · ‖p) genau dann gegen x ∈ Kn, wenn (xn)n∈N in (Kn, ‖ · ‖q) gegen x konvergiertfür beliebiges q ≥ 1 oder q =∞. Konsequenz:M ⊆ Kn ist offen/abgeschlossen/kompaktin der p-Norm genau dann, wenn M offen/abgschlossen/kompakt in der q-Norm für alleq ≥ 1 oder q = ∞. Dies kann nützlich sein, weil für manche Fragestellungen (z.B. imnächsten Lemma) eine Norm besonders einfach ist.

Page 24: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.3. FOLGEN, VOLLSTÄNDIGKEIT UND KOMPAKTHEIT 22

Lemma 10.3.15. Eine Folge in (Kn, ‖ · ‖p), p ≥ 1 oder p =∞, konvergiert genau danngegen x = (x1, ..., xn)T , wenn für alle i = 1, ..., n die Koordinatenfolgen (xk,i)k∈N gegenxi konvergiert. Hierbei ist

xk =

xk,1...xk,n

und x =

x1...xn

.

Beweis. Wegen der Äquivalenz der Normen muss die Aussage nur für ‖ · ‖1 gezeigtwerden. Es gilt

‖xk − x‖1 =∥∥(xk,1 − x1, . . . , xk,n − xn)

∥∥= |xk,1 − x1|+ · · ·+ |xk,n − xn|

und dieser Ausdruck konvergiert gegen Null genau dann, wenn jeder Summand gegenNull konvergiert.

Satz 10.3.16. (Heine Borel)Eine Teilmenge M in (Kn, || · ||p), p ≥ 1 oder p =∞, ist genau dann kompakt, wenn Mabgeschlossen und beschränkt ist.

Beweis. Der Beweis ist fast analog zu dem Beweis von Heine Borel aus Analysis I.„⇒“ ist identisch, für „⇐“ nutzen wir Lemma 10.3.15, um auf die eindimensionalenKoordinatenfolgen Bolzano-Weierstrass anzuwenden.

„⇒“: (i) Da dann jede Folge in M eine konvergente Teilfolge hat, muss M beschränktsein. Sonst wären beispielsweise unbeschränkte Folgen möglich, die im Betrag strengmonoton wachsen (und deren Teilfolgen divergieren).

(ii) Sei (xn)n∈N eine konvergente Folge in M . Zu zeigen ist, dass der Grenzwert in Mist. Wegen der Kompaktheit existiert bereits eine Teilfolge, die in M konvergiert. Da beikonvergenten Folgen alle Teilfolgen auch gegen den Grenzwert der Folge konvergieren,muss der Grenzwert in M sein.

„⇐“: Sei M abgeschlossen und beschränkt, dann ist auch jede Folge (xk)k∈N in Mbeschränkt. Insbesondere sind auch alle Koordinatenfolgen (xk,i)k∈N beschränkt füri = 1, ..., n. Nach Bolzano-Weierstraß gibt es zunächst eine erste Teilfolge (kl), so dass(xkl,1)l∈N konvergiert. Weiter gibt es eine Teilfolge (klm) von (kl), so dass (xklm ,2) kon-vergiert (und als Teilfolge natürlich auch (xklm ,1) konvergiert. Mit solch einem „Diago-nalfolgenargument“ (Teilfolge aus Teilfolge auswählen) konstruieren wir eine Teilfolge,entlang derer alle n Koordinatenfolgen konvergieren. Wegen Lemma 10.3.15 konvergiertalso entlang dieser Teilfolge auch die Kn-wertige Folge (xk)k∈N. Aus der Abgeschlossen-heit folgt dann wie mehrfach zuvor, dass der Grenzwert in M ist. Damit ist M nachSatz 10.3.11 kompakt.

Bemerkung 10.3.17. Im Beweis haben wir gezeigt, dass Bolzano-Weierstraß auchim Kn gilt, d.h. beschränkte Folgen im Kn haben eine konvergente Teilfolge. Es istwichtig zu beobachten, dass wir nur endlich oft Teilfolgen von Teilfolgen ausgewählthaben. Daher ist es nicht überraschend, dass Bolzano-Weierstraß (und dann auch Heine-Borel) in unendlich dimensionalen normierten Räumen kaputt geht. Wer dazu etwaslesen möchte, kann bei diesem Link starten.

Page 25: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.4. STETIGKEIT 23

Bemerkung. Warnung: Die obigen Eigenschaften kompakter Mengen sind leicht ir-reführend. Im Kn ist kompakt äquivalent zu beschränkt und abgeschlossen. Im allge-meinen impliziert Kompakt auch abgeschlossen und beschränkt (sogar totalbeschränkt).Die Umkehrung ist aber falsch! Es gibt Beispiele für metrische Räume, in denen man-che beschränkte Mengen nicht kompakt sind. Es ist sogar noch viel schlimmer: Derabgeschlossene Ball B(0, 1) in einem normierten Vektorraum ist kompakt genau dann,wenn die Dimension endlich ist. Wie im weiteren Studium rauskommt (zum Beispielim traumhaften Gebiet der Stochastik) sind alle interessanten Vektorräume unendlichdimensional, der abgeschlossene Ball ist also nur im langweiligen Spezialfall kompakt :(Zum Rumstöbern hier klicken.

10.4 Stetigkeit

Definition 10.4.1. Seien (X, d), (X ′, d) metrische Räume und f : X → X ′ eine Abbil-dung.

1. f heißt stetig in x0 ∈ X, falls für alle ε > 0 ein δ > 0 existiert mit

x ∈ B(x0, δ) ⇒ f(x) ∈ B(f(x0), ε).

2. f heißt stetig auf A ⊆ X, wenn f stetig in jedem x0 ∈ A ist.

Bemerkung. Wenn X = R und d durch | · | gegeben ist, so ist dies gerade die ε-δStetigkeit:

Für alle ε > 0 existiert ein δ > 0 : |x− x0| < δ ⇒ |f(x)− f(x0)| < ε.

Bemerkung. 1. Stetigkeit gilt immer bezüglich der Metriken d, d’, weil Bälle vonMetriken bestimmt sind. Ändern der Metriken kann eine stetige Abbildung f :X → X ′ zu einer unstetigen machen. Vorlesung 6

2. Wenn wir genau hinschauen sehen wir, dass die Definition der Stetigkeit geradebedeutet, dass Urbilder von offenen Bällen offene Mengen sind.

3. Stetigkeit haben wir durch Bälle definiert. Wir könnten dies aber auch durch Ab-stände formulieren. Die Abbildung f ist stetig in x0, falls für alle ε > 0 ein δ > 0existiert mit

d(x0, x) < δ ⇒ d′(f(x0), f(x)) < ε.

Definition 10.4.2. Seien (X, d), (X ′, d′) metrische Räume und f : X → X ′ eine Ab-bildung. Die Abbildung f heißt Lipschitzstetig, falls ein L > 0 existiert, mit

d′(f(x), f(y)

)≤ L · d(x, y)

für alle x, y ∈ X.

Wie in Analysis 1 sind Lipschitz stetige Funktionen insbesondere stetig, man muss nurδ = ε

L in der Definition wählen.

Ganz ähnlich wie in Analysis 1 gibt es auch für Stetigkeit verschiedene äquivalenteFormen:

Page 26: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.4. STETIGKEIT 24

Satz 10.4.3. Seien (X, d), (X ′, d′) metrische Räume und

f : X → X ′

eine Abbildung, dann sind folgende Aussagen äquivalent:

1. Die Abbildung f ist stetig in x0. („ε-δ Stetigkeit“)

2. Das Urbild jeder Umgebung von f(x0) in X ′ ist eine Umgebung von x0 in X.

3. Für jede Folge (xn)n∈N in X mit limn→∞ xn = x0 gilt

limn→∞

f(xn) = f(x0) = f(

limn→∞

xn)

in (X ′, d′) („Folgenstetigkeit“, „Grenzwert in die Funktion ziehen“).

Beweis. Ringschluss, fast wie in Analysis 1.1.⇒ 3.: Sei (xn)n∈N eine Folge in x0 mit limn→∞ xn = x0. Es muss gezeigt werden, dass

limn→∞

f(xn) = f(x0)

in X ′ mit der Metrik d′. Dies ist äquivalent dazu, dass für alle ε > 0 ein N ∈ N existiert,mit

d′(f(xn), f(x0)) < ε, n ≥ N.Es sei nun ein ε > 0 gegeben.

i) Wegen 1. existiert ein δ > 0, sodass

x ∈ B(x0, δ)⇒ f(x) ∈ B(f(x0), ε).

ii) Mit δ aus i) gibt es wegen der Folgenkonvergenz ein N ∈ N mit

xn ∈ B(x0, δ) n ≥ N.

Aus i) und ii) folgt:

Für alle ε > 0 existiert ein N ∈ N : f(xn) ∈ B(f(x0), ε), für alle n ≥ N.

Daher giltlimn→∞

f(xn) = f(x0).

3.⇒ 2.: Beweis durch Kontraposition. Angenommen das Urbild von B(f(x0), ε

)enthält

keinen offenen Ball um x0 für ein ε > 0. Also existiert eine Folge (xn)n∈N in X mit

limn→∞

xn = x0 und xn /∈ f−1(B(f(x0), ε

),

d.h. d(f(xn), f(x0)) > ε für alle n ∈ N. Also gibt es eine Folge mit limn→∞ xn = x0 aberlimn→∞ f(xn) 6= f(x0).2.⇒ 1.: Für ein beliebiges x0 ∈ X wähle die UmgebungM = B

(f(x0), ε

). Aufgrund der

Voraussetzung in 2. ist f−1(B(f(x0), ε

)eine Umgebung von x0. Das heißt, es exisitiert

δ > 0 mitB(x0, δ) ⊆ f−1(B(f(x0), ε)

und dies bedeutetf(B(x0, δ)) ⊆ B(f(x0), ε).

Page 27: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.4. STETIGKEIT 25

Korollar 10.4.4. Seien (X, d), (X ′, d′) metrische Räume und

f : X → X ′

eine Abbildung, dann sind folgende Aussagen äquivalent:

1. Die Abbildung f ist stetig.

2. Das Urbild jeder offenen Menge in X ′ ist offen in X.

3. Das Urbild jeder abgeschlossenen Menge in X ′ ist abgeschlossen in X.

Beweis. 1.⇒ 2.: Sei B ⊆ X ′ eine offene Menge und

C = f−1(B) = {x ∈ X : f(x) ⊂ B}.

Sei x ∈ C, also f(x) ∈ B. Weil B eine offene Menge ist, gibt es ein ε > 0 mit

B(f(x), ε) ⊆ B.

Aufgrund der Stetigkeit existiert ein δ > 0 mit

B(x, δ) ⊆ C.

Daher ist C eine offene Menge.2. ⇒ 1.: Dies ist ein Spezialfall: Die ε-δ Stetigkeit besagt gerade, dass das Urbild deroffenen Menge B

(f(x), ε

)offen ist für alle ε > 0.

2.⇔ 3.: Der Beweis ist eine Übungsaufgabe. Tipp: Es gilt f−1(Bc) = (f−1(B))c

Bemerkung. Offen/abgeschlossen ist immer im Kontext der metrischen Räume (X, d)bzw. (X ′, d′) gemeint. Wenn zum Beispiel f : [a, b]→ R stetig sein soll (d.h. X = [a, b],d = d|[a,b] , X

′ = R, d′ = d, wobei d die von der Norm auf R induzierte Metrik ist,müssen Urbilder von offenen/abgeschlossenen Mengen in R bezüglich der auf [a, b] ein-geschränkten Metrik, die wir mit d|[a,b] bezeichnen, offen/abgeschlossen sein. Beachte:[a, b] ist bezüglich dieser Metrik sowohl offen als auch abgeschlossen!In den Übungen wird diskutiert, dass eine Teilmenge N von M ⊆ X offen/abgeschlos-sen/kompakt bezüglich d|M ist genau dann, wenn N = M ∩O für eine in X offene/ab-geschlossene/kompakte Menge O ist.

Korollar 10.4.5. Die Verknüpfung f ◦ g stetiger Funktionen f und g ist stetig.

Beweis. Folgt direkt aus Folgenstetigkeit.

Beispiel 10.4.6.

• Die IdentitätsabbildungX → X,x 7→ x ist stetig für alle metrischen Räume (X, d).

• Konstante Abbildungen sind immer stetig.

• Für jeden normierten Vektorraum (V, ‖ · ‖) ist die Norm

‖ · ‖ : V → R, v 7→ ‖v‖

eine stetige Abbildung.

Page 28: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.4. STETIGKEIT 26

• Addition und Skalarmulitiplikation sind stetige Abbildungen in einem normiertenVektorraum.

Hier eine weitere Eigenschaft, die wir in Analysis 1 für stetige Funktionen in R bewiesenhaben:

Korollar 10.4.7. Sei f : X → X ′ stetig und M ⊆ X kompakt. Dann ist das Bildf(M) kompakt.

Beweis. Sei die Abbildungf : X → X ′

stetig und M ⊆ X eine kompakte Menge. Wir zeigen, dass

f(M) = {f(x) |x ∈ X} ⊆ X ′

eine kompakte Menge ist. Sei dazu

f(M) =⋃i∈I

Oi

eine Überdeckung von f(M) durch offene Mengen in (f(M), d′f(M)), d.h. (siehe Übungen)Oi = f(M) ∩ O′i für offene Teilmengen O′i in X ′. Wir definieren Ci = f−1(Oi) =f−1(O′i) ∩M . Die Mengen Ci sind offene Mengen in (M,d|M ) weil f stetig ist für allei ∈ I. Es gilt

M = f−1(⋃i∈I

Oi)

=⋃i∈I

f−1(Oi).

Die Menge M ist nach Voraussetzung kompakt und somit gilt

M =⋃i∈J

f−1(Oi),

wobei J ⊆ I endlich ist. Daraus folgt

f(M) =⋃i∈J

Oi

und somit ist f(M) kompakt.

Korollar 10.4.8.

1. Stetige Abbildungen auf kompakten metrischen Räumen sind beschränkt. Dasheißt, das Bild von f ist eine beschränkte Menge.

2. Ist (X, d) ein kompakter metrischer Raum und f : X → R eine stetige Abbildung,so nimmt f sein Maximum und Minimum an.

Beweis. 1. Aufgrund von Korollar 10.4.7 ist das Bild unter der stetigen Abbildung kom-pakt. In Satz 10.3.11 wurde gezeigt, dass kompakte Mengen totalbeschränkt (also ins-besondere beschränkt) sind.2. Das Bild unter einer stetigen Funktion ist kompakt. In Analysis I wurde gezeigt, dasskompakte Mengen im R ihr Maximum beziehungsweise Minimum annehmen.

Page 29: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.4. STETIGKEIT 27

Korollar 10.4.9. (Stetigkeit der Umkehrabbildung)Seien (X, d), (X ′, d′) metrische Räume und X kompakt. Zudem sei die Abbildung

f : X → X ′

stetig und bijektiv. Dann ist die Abbildung f−1 : X ′ → X stetig.

Beweis. Aufgrund des Korollars 10.4.7 ist das Bild unter der stetigen Abbildung kom-pakt. Es soll gezeigt werden, dass (f−1)−1(A) eine abgeschlossene Menge ist in X ′ füralle abgeschlossenen Mengen A aus X. Aus Korollar 10.4.4 folgt dann die Stetigkeit derAbbildung f−1.Sei also A eine abgeschlossene Menge, dann folgt aus Korollar 10.3.12, dass A kompaktist, weil die Menge X kompakt ist. Es gilt

(f−1)−1(A) = f(A)

und somit ist das Urbild der Umkehrabbildung f−1 das Bild der stetigen Abbildung f .Die Menge f(A) ist kompakt (insbesondere abgeschlossen), weil f stetig ist und A einekompakte Menge ist.

Satz 10.4.10. Auf Kn sind alle Normen äquivalent.

Insbesondere sind also die p-Normen äquivalent, was man direkt von Hand anhand derDefinition sehen konnte.

Beweis. Die Äquivalenz der Normen ist eine Äquivalenzrelation. Daher reicht es dieÄquivalenz einer beliebigen Norm mit der Norm || · ||1 zu zeigen. Sei also || · || einebeliebige Norm. Zudem sei

ei =

0...1...0

← i-te Stelle

der i-te Einheitsvektor. Für ein beliebiges v ∈ Kn gilt:

‖v‖ = ‖(v1, ..., vn)T ‖= ‖v1 · e1 + v + v2 · e2 + ...+ vn · en‖4≤ ‖v1 · e1‖+ ...+ ‖vn · en‖Norm

= |v1| · ‖e1‖+ ...+ |vn|‖en‖≤(|v1|+ ...+ |vn|

)max

{‖e1‖, ..., ‖en‖

}=: ‖v‖1C1.

Wir verwenden für die umgekehrte Abschätzung Folgendes:

0 ≤∣∣‖v‖ − ‖w‖∣∣ ≤ ‖v − w‖ s.o.

≤ ‖v − w‖1 ·max{‖e1‖, . . . , ‖en‖

}. (10.1)

Die zweite Ungleichung ist die umgekehrte Dreiecksungleichung. Wir haben diese für dieNormen in R und C bewiesen, der Beweis für allgemeinen Normen ist identisch, eineFallunterscheidung: Für ‖v‖ ≥ ‖w‖ gilt nämlich∣∣‖v‖ − ‖w‖∣∣ = ‖v‖ − ‖w‖

4≤ ‖v − w‖+ ‖w‖ − ‖w‖ = ‖v − w‖

Page 30: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.5. FUNKTIONENRÄUME 28

und für ‖v‖ ≤ ‖w‖ gilt

∣∣‖v‖− ‖w‖∣∣ sym.=∣∣‖w‖− ‖v‖∣∣ = ‖w‖− ‖v‖

4≤ ‖w− v‖+ ‖v‖− ‖v‖ = ‖w− v‖ = ‖v−w‖.

Die Konsequenz von 10.1 ist, dass die Abbildung

‖ · ‖ : Kn → R, v 7→ ‖v‖

stetig ist, bezüglich der Norm ‖ · ‖1 auf Kn. Die Stetigkeit wird mit der Folgenstetigkeitüberprüft: Sei (wn)n∈N eine Folge in (Kn, ‖ · ‖1) mit limn→∞wn = w. Dies bedeutet

||wn − w||1 → 0, n→∞,

und mit obiger Abschätzung gilt∥∥|‖wn‖ − ‖w‖∣∣→ 0, n→∞.

Somit gilt limn→∞‖wn‖ = ‖w‖ und die Folgenstetigkeit ist gezeigt. Wir wissen bereits,dass der Rand des Einheitsballs B(0, 1) bezüglich ‖·‖1

A = {v ∈ Kn : ‖v‖1 = 1}

kompakt ist (beschränkt und abgeschlossen). Daher nimmt v 7→ ‖v‖ auf A ein Maximumund Minimum an. Sei C das Minimum der Abbildung. Dann ist C ≥ 0, da ‖v‖ ≥0 für alle v ∈ Kn. Zudem gilt C > 0, da die Norm positiv definit ist und 0 /∈ A. Weil Cdas Minimum auf A ist, gilt mit der Eigenschaft der Norm

C‖v‖1 ≤∥∥∥ v

‖v‖1

∥∥∥‖v‖1 = ‖v‖ 1

‖v‖1‖v‖1 = ‖v‖

und es folgt

‖v‖1 ≤1

C‖v‖ =: C2‖v‖.

Damit haben wir Konstanten C1 und C2 gefunden und die Normen sind äquivalent.Vorlesung 7

10.5 Funktionenräume

Definition 10.5.1. Eine normierte Algebra ist ein normierter K-Vektorraum (V, || · ||)mit einer zusätzlichen Operation

• : V × V → V,

die folgende Eigenschaften erfüllt. Für alle v, v′, v′′ ∈ V und λ ∈ K gelten:

(v + v′) • v′′ = v • v′′ + v′ • v′′

v • (v′ + v′′) = v • v′ + v • v′′

(λv) • v′ = v • (λv′) = λ(v • v′)

‖v • v′‖ ≤ ‖v‖ · ‖v′‖

Page 31: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.5. FUNKTIONENRÄUME 29

Ist der Vektorraum V vollständig, so heißt V mit der zusätzlichen Operation eine Ba-nachalgebra.

Die einfachsten Beispiele sind natürlich R und C, also Vektorräume über sich selbstmit der üblichen Multiplikation. Interessantere Beispiele algebraischer Strukturen in derAnalysis sind Funktionenräume, meist von beschränkten oder stetigen Funktionen:

Definition 10.5.2. Seien (X, d), (X ′, d′) metrische Räume, dann definieren wir:

1. Eine Funktionf : X → X ′

heißt beschränkt, falls das Bild f(X) ⊆ X ′ beschränkt ist.

2. Die MengeB(X,X ′) =

{f : X → X ′ | f beschränkt

}ist die Menge der beschränkten Funktionen. Ist X ′ ein Vektorraum, so ist B(X,X ′)mit den punktweisen Operationen

(f + g)(x) := f(x) + g(x), x ∈ X,(λf)(x) := λ

(f(x)

), x ∈ X,

und der Nullfunktion als Nullelement ein Vektorraum.

3. Die Teilmenge (auch ein Untervektorraum) der beschränkten stetigen Funktionenwird als

Cb(X,X′) =

{f : X → X ′ | f beschränkt und stetig

}bezeichnet.

Nun wollen wir aus den Funktionenräumen metrische bzw. normierte Räume machen.Man kann sich jetzt schon mal merken: Je besser der Zielraum ist, so besser ist auch derFunktionenraum!

Definition 10.5.3. Seien (X, d), (X ′, d′) metrische Räume, so ist die Supremumsmetrikd∞ definiert als:

d∞ : B(X,X ′)×B(X,X ′)→ R, (f, g) 7→ supx∈X

d′(f(x), g(x)

).

FallsX ′ sogar ein normierter Vektorraum mit ‖·‖′ ist, so ist die Supremumsnorm definiertals

‖ · ‖∞ : B(X,X ′)→ R, f 7→ supx∈X‖f(x)‖′.

Beachte, ist d′ die von || · ||′ induzierte Metrik auf X ′, so ist auch d∞ die von || · ||∞induzierte Metrik auf B(X,X ′)

Die Konvergenz in der Supremumsmetrik bzw. Supremumsnorm wollen wir wie in Ana-lysis 1 wieder gleichmäßige Konvergenz nennen, im Gegensatz zur punktweisen Konver-genz:

Definition 10.5.4. Seien (X, d), (X ′, d′) metrische Räume und f : X → X ′ eine Ab-bildung, fn : X → X ′ eine Folge von Funktionen, dann definieren wir:

Page 32: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.5. FUNKTIONENRÄUME 30

1. (fn)n∈N konvergiert punktweise gegen f , falls limn→∞

fn(x) = f(x) für alle x ∈ X.

2. (fn)n∈N konvergiert gleichmäßig gegen f , falls limn→∞

d∞(fn, f) = 0.

3. f heißt dann punktweise beziehungsweise gleichmäßige Grenzfunktion der Funk-tionenfolge (fn)n∈N.

Um die Begrifflichkeiten in Definition 10.5.3 zu rechtfertigen, müssen wir noch zeigen,dass es sich tatsächlich um Metrik und Norm handelt:

Satz 10.5.5. Für die Abbildungen aus Definition 10.5.3 gelten:

1. d∞ ist eine Metrik auf B(X,X ′).

2. Ist (X ′, ‖ · ‖′) ein normierter Vektorraum, so ist ‖ · ‖∞ eine Norm.

3. Ist (X ′, ‖ · ‖′) eine normierte Algebra, so ist B(X,X ′) eine normierte Algebra mitder zusätzlichen punktweisen Multiplikation

(f • g)(x) := f(x) · g(x), x ∈ X,

und der oben definierten Norm ‖ · ‖∞.

4. Ist (X ′, d′) vollständig, so ist (B(X,X ′), d∞) vollständig.

Beweis. Die ersten drei Eigenschaften werden in der großen Übung und den Übungsauf-gaben diskutiert. 1.-3. ist zum üben. Wir zeigen nur die schwierige Aussage 4. Sei dazu(fn)n∈N eine Cauchyfolge in B(X,X ′). Das heißt, für alle ε > 0 existiert ein N ∈ N,sodass

supx∈X

d′(fn(x), fm(x)

)= d∞(fn, fm) < ε

für alle n,m ≥ N . Es gilt

d′(fn(x), fm(x)) ≤ supx∈X

d′(fn(x), fm(x)

)für alle x ∈ X. Somit ist (fn(x))n∈N eine Cauchyfolge in X ′ für beliebige x ∈ X. DieFolge (fn(x))n∈N konvergiert für alle x ∈ X, weil angenommen wird, dass die Menge X ′

vollständig ist. Wir definieren punktweise

f(x) := limn→∞

fn(x), x ∈ X.

Die Folge (fn)n∈N konvergiert somit punktweise gegen eine Grenzfunktion f . Im Folgen-den wird gezeigt, dass

i) limn→∞

d∞(fn, f) = 0, d.h. (fn)n∈N konvergiert gegen f gleichmäßig.

und

ii) f ∈ B(X,X ′)

Aus i) und ii) folgt dann die Aussage, weil die Cauchyfolge einen Grenzwert in (B(X,X ′), d∞)hat.

Page 33: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.5. FUNKTIONENRÄUME 31

i) Aufgrund der angenommenen Cauchyfolge existiert ein N ∈ N mit d∞(fn, fm) < ε2

für alle n,m ≥ N . Wegen der Definition der Abbildung f existiert für alle x ∈ Xein Nx ∈ N mit

d′(fm(x), f(x)

)<ε

2für alle m ≥ Nx. Zusammen gilt

d′(fn(x), f(x))4≤ d′

(fn(x), fm(x)

)+ d′

(fm(x), f(x)

)<ε

2+ε

2= ε

für alle m ≥ Nx und n ≥ N . Die linke Seite der Ungleichung ist nicht von mabhängig und somit gilt ingesamt, das für alle ε > 0 ein M ∈ N existiert mit

d′(fn(x), f(x)

)< ε

für alle x ∈ X und n ≥ N . Dies ist die Definition der gleichmäßigen Konvergenz.

ii) Sei ε > 0. Dann existiert N ∈ N mit d∞(fn, f) < ε für alle n ≥ N . Wegen derBeschränktheit von fN existieren r > 0 und y′ ∈ X ′ mit d′(y′, fN (x)) < r für allex ∈ X. Also gilt mit der Dreiecksungleichung, dass

d′(y′, f(x)) ≤ d′(y′, fN (x)) + d′(fN (x), f(x)) ≤ r + ε, x ∈ X.

Also ist f(x) ∈ B(y′, r + ε) für alle x ∈ X und damit ist das Bild von f inB(y′, r + ε) enthalten. Folglich ist das Bild eine beschränkte Menge in X ′ unddamit ist f ∈ B(X,X ′).

Satz 10.5.6. Sind (X, d), (X ′, d′) metrische Räume, so gelten:

1. Der Untervektorraum Cb(X,X′) ist abgeschlossen in B(X,X ′).

2. Ist X ′ vollständig, so ist auch Cb(X,X ′) vollständig.

Beweis. 1. Es gilt, dass eine Menge abgeschlossen ist, wenn alle konvergenten Folgen inder Menge auch ihren Grenzwert in der Menge besitzen (Proposition 10.3.4). Sei (fn)n∈Neine Folge in Cb(X,X ′), die bezüglich der Metrik von B(X,X ′) konvergiert. Es geltenfolgende Eigenschaften für Grenzwerte gleichmässig konvergenter Folgen:

i) Sei gn beschränkt für alle n ∈ N, dann ist der Grenzwert beschränkt (siehe Beweiszuvor).

ii) Sei gn stetig für alle n ∈ N, dann ist der Grenzwert stetig (Übung, wie in Analysis1).

Somit gilt für den Grenzwert der Folge (fn)n∈N, dass f ∈ Cb(X,X′) und somit ist

Cb(X,X′) abgeschlossen in B(X,X ′).

2. In Satz 10.5.5 wurde gezeigt, dass B(X,X ′) vollständig ist, sobald X ′ vollständig ist.Aufgrund der Abgeschlossenheit von Cb(X,X

′) in B(X,X ′) ist Cb(X,X ′) vollständignach Lemma 10.3.8.

Bemerkung 10.5.7. Beachte: Die Beschränktheit und die Stetigkeit überträgt sichnur wegen der gleichmässigen Konvergenz. Bei punktweiser Konvergenz muss das nichtmehr gelten (Beispiel in R überlegen!).

Page 34: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 32

10.6 Lineare Operatoren

Vorwort. In diesem Kapitel wird sich mit einem Werkzeug beschäftigt, dass für dasAbleiten im Rn bedeutsam ist.

Definition 10.6.1. Seien V,W K-Vektorräume und A : V → W eine Abbildung. Aheißt linear, falls für alle v, v′ ∈ V, λ ∈ K gilt, dass

A(v + v′) = A(v) +A(v′)

und

A(λv) = λA(v).

Anstatt A(v) wird auch Av geschrieben. Beachte: Für lineare Abbildungen brauchen wirVektorräume, allgemeine metrische Räume werden in diesem Kapitel also nicht auftau-chen.

Lineare Abbildungen sind aus der Linearen Algebra wohlbekannt, zumindest für endlichdimensionale Vektorräume. Hier zeigen wir ein paar schöne Eigenschaften der Analysis,die aus der Linearität folgen. Die komplette Verallgemeinerung der Linearen Algebra vonendlicher auf unendliche Dimension der Vektorräume ist Teil der Funktionalanalysis. Werneugierig ist, kann hier mal rumlesen und sich dann im nächsten Semester die Vorlesungreinziehen.

Satz 10.6.2. Seien(V, ‖ · ‖V

),(W, ‖ · ‖W

)normierte Vektorräume. Für eine lineare

Abbildungen A : V →W sind folgende Aussagen äquivalent:

1. A ist stetig in 0V .

2. A ist überall stetig.

3. A ist Lipschitz-Stetigkeit.

4. Es existiert ein C > 0 mit‖Av‖W ≤ C‖v‖V ,

für alle v ∈ V.

5. Es existiert ein C > 0 mit‖Av‖W ≤ C,

für v ∈ V mit ‖v‖ ≤ 1.

Beweis. 1.⇒ 5.: Es gilt

A(0V ) = A(0 · 0V )linear

= 0 ·A(0V ) = 0W

und aufgrund der Stetigkeit von A in 0V und der Definition der ε-δ Stetigkeit mit ε = 1gilt, dass ein δ > 0 existiert mit ‖y‖V ≤ δ impliziert ‖A(y)‖W ≤ 1. Aufgrund derEigenschaft einer Norm ist ‖y‖V ≤ 1 äquivalent dazu, dass

‖δ · y‖V ≤ |δ|

Page 35: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 33

für alle |δ| > 0. Für alle y ∈ V mit ‖y‖V ≤ 1 gilt wegen der Linearität für ein y ∈ V mit‖y‖V ≤ 1:

‖A(y)‖W =∥∥∥A · (δ

δy)∥∥∥

W

linear=

∥∥∥1

δA(δ · y)

∥∥∥W

=∣∣∣1δ

∣∣∣‖A(δ · y)‖W

≤ 1

δ=: C

5.⇒ 4.: Wegen der Linearität von A und der Normeigenschaften gilt

‖A(v)‖W =∥∥∥A( v

‖v‖V· ‖v‖V

)∥∥∥W

= ‖v‖V∥∥∥A( v

‖v‖V

)∥∥∥W

Zudem gilt ∥∥∥ v

‖v‖V

∥∥∥ =∣∣∣ 1

‖v‖V

∣∣∣ · ‖v‖V =1

‖v‖V· ‖v‖V = 1

und somit folgt die Behauptung aus 5.4.⇒ 3.: Sei v, v′ ∈ V , dann gilt

‖A(v)−A(v′)‖Wlinear

= ‖A(v − v′)‖W4.≤ C‖v − v′‖V

und damit ist die Abbildung A Lipschitz-stetig.3.⇒ 2. : Aus Lipschitz-Stetigkeit folgt Stetigkeit.2. ⇒ 1. : Die Abbildung ist in jedem Punkt stetig und somit insbesondere im Punkt0V .

Vorlesung 8

Bemerkung 10.6.3. Aufgrund von Satz 10.6.2 5. werden stetige lineare Operatorenauch beschränkte Operatoren genannt. Warnung: Als Abbildungen sind lineare Opera-toren niemals beschränkt!

Beispiel 10.6.4. • Ist A ∈ Rn×m, dann ist A(v) := Av eine lineare Abbildung vonRm nach Rn.

• Die Ableitungsabbildung

A : C∞c → C∞c , f 7→ f ′

ist linear aber nicht stetig. Hierbei wird C∞c mit der Supremumsnorm zu einemnormierten Vektorraum.

Bemerkung 10.6.5. Der Graph {(x,Ax) : x ∈ Rn} ⊆ Rn × Rm einer linearen Abbil-dung A : Rn → Rm mit n,m ∈ N beschreibt Ebenen. Für jede Ebene gibt es eine MatrixA, so dass die Ebene der Graph der linearen Abbildung x 7→ Ax ist.

Satz 10.6.6. Es sei ein normierter Vektorraum (W, ‖ · ‖W ), gegeben, dann ist jedelineare Abbildung A : Kn →W stetig bezüglich aller Normen auf Kn.

Page 36: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 34

Beweis. Sei

ei =

0...1...0

← i-te Stelle.

Wir zeigen Lipschitz-Stetigkeit. Es gilt mit Linearität, Normeigenschaft und der Dreicks-ungleichung

‖Av‖W = ‖A(v1e+ · · ·+ vnen)‖W= ‖A(v1e1) + · · ·+A(vnen)‖W= ‖v1A(e1) + · · ·+ vnA(en)‖W≤∥∥v1A(e1

)‖W + · · ·+

∥∥vnA(en)∥∥W

= |v1|∥∥A(e1)

∥∥W

+ · · ·+ |vn|∥∥A(en)

∥∥W

≤(|v1|+ · · ·+ |vn|

)max

{∥∥A(e1)∥∥W, . . . ,

∥∥A(en)∥∥W

}= ‖v‖1C,

wobei C = max{∥∥A(e1)

∥∥W, . . . ,

∥∥A(en)∥∥W

}. Somit ist die Abbildung A stetig bezüglich

‖ · ‖1 auf Kn. Die Stetigkeit bei äquivalenten Normen bleibt erhalten und da auf Kn alleNormen äquivalent sind, ist A stetig bezüglich allen Normen auf Kn.

Wie in den Übungen kann man sich überlegen, dass der selbe Beweis auch für beliebi-ge endlich dimensionale Vektorräume statt Kn funktioniert. Es sind also alle linearenAbbildungen mit endlich dimensionalen Bildraum stetig.

Bemerkung 10.6.7. (Erinnerung an Lineare Algebra)Sei A : Kn → Km eine lineare Abbildung, dann existiert eine Matrix (Darstellungsma-trix) MA ∈ Rm×n mit

A(x) = MA · x, x ∈ Kn.

Lineare Abbildungen von Kn nach Km sind also nichts anderes als Matrixmultiplikation!

Beweis. Es seien e1, . . . , en die Einheitsvektoren in Kn und es sei

si := A(ei) ∈ Km

für alle i ∈ 1, . . . , n. Dann definieren wir die Matrix

MA :=(s1, . . . , sn

).

Es gilt

MA · ei =(s1 . . . si . . . sn

)

0...1...0

= siDef.= A(ei)

Page 37: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 35

und wegen der Linearität von A folgt:

A(x) = A( n∑

i1

xiei

)=

n∑i=1

xiA(ei) =n∑i=1

xi ·MA · ei = MA

( n∑i=1

xiei

)= MA · x

Wir machen nun aus der Menge aller linearen Abbildungen zwischen zwei normiertenVektorräumen einen neuen normierten Raum. Das sieht natürlich zunächst etwas fiesaus, sollte aber direkt mit den Funktionnenräumen B(X,X ′) verglichen werden. Hiersind die Abbildungen linear statt beschränkt.

Definition 10.6.8. Es seien (V, ‖·‖V ) und (W, ‖·‖W ) normierte K-Vektorräume, dannsei

L(V,W ) ={A : V →W |A ist stetig und linear

}.

Die Operationen werden wie immer punktweise definiert:

+ : L(V,W )× L(V,W )→ L(V,W ), (A,B) 7→ (A+B)(v) := A(v) +B(v)

· : K× L(V,W )→ L(V,W ), (λ,A) 7→ (λ ·A)(v) := λA(v)

Die sogenannte Operatornorm auf L(V,W ) ist definiert als

‖A‖ = sup{‖Av‖W : ‖v‖V ≤ 1

}.

Die Operatornorm ‖A‖ = sup{‖Av‖W : ‖v‖V ≤ 1

}ist bereits in Satz 10.6.2 5. aufge-

taucht. Dort haben wir gezeigt, dass ein linearer Operator stetig ist genau dann, wenn||A|| <∞.

Bemerkung. Wenn wir genau hinschauen, sehen wir, dass die Operatornorm nichtsanderes ist als die Supremumsnorm auf B(0, 1). Konvergenz bezüglich der Operatornormbedeutet also gleichmässige Konvergenz auf B(0, 1). Diese kleine Beobachtung wird unsnoch nützlich sein.

Wie zuvor mit B(X,X ′) zeigen wir, dass L(V,W ) mit den definierten Operationen undder Norm einen normierter Vektorraum bildet.

Satz 10.6.9. L(V,W ) ist mit den Operatoren +, · und der Norm ‖ · ‖ ein normierterVektorraum.

Beweis. Der Beweis ist eine Übungsaufgabe, es müssen alle Eigenschaften geprüft wer-den. Dazu müssen die Eigenschaften auf die Eigenschaften der unterliegenden normiertenRäume reduziert werden, ein wenig ähnlich wie bei (B(X,X ′), || · ||∞).

Eine sehr nützliche Eigenschaft der Operatornorm, ist folgende Abschätzung. Diese wirdin fast allen Beweisen auftauchen.

Lemma 10.6.10. Für alle v ∈ V gilt

‖Av‖W ≤ ‖A‖‖v‖V .

Page 38: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 36

Beweis. Es gilt mit Linearität und Normeigenschaft

‖A(v)‖W =∥∥∥A( v

‖v‖V‖v‖V

)∥∥∥W

=∥∥∥A( v

‖v‖V

)∥∥∥W‖v‖V .

Zudem gilt erneut mit der Normeigenschaft∥∥∥ v

‖v‖V

∥∥∥V

=1

‖v‖V· ‖v‖V = 1

und mit der Definition von ‖ · ‖ folgt somit die Aussage.

Satz 10.6.11. Ist (W, || · ||W ) zusätzlich vollständig, so ist auch L(V,W ) vollständig.Das heißt L(V,W ) ist ein Banachraum.

Warnung. Der Satz erinnert stark an die analoge Aussage für B(X,X ′), hat damit abernichts zu tun, die Aussagen sehen nur ähnlich aus! Keine lineare Abbildung ist beschränkt(Das Bild ist keine beschränkte Menge weil wegen der Linearität v = A(x) impliziert,dass λv = λA(x) = A(λx) gilt, also auch λv für alle λ ∈ K im Bild liegt. Also kanndas Bild keine Teilmenge eines Balles sein.) Daher hat B(V,W ) nichts mit L(V,W ) zutun. Die Unbeschränktheit linearer Abbildungen verbietet es die Supremums-Norm zunutzen weil ||A||∞ =∞ gelten würde. Daher haben wir mit der Operatornorm eine neueNorm auf L(U, V ) definiert, die bei stetigen linearen Operatoren wohldefiniert ist.

Beweis. Der Beweis funktioniert ganz ähnlich wie der Beweis von Satz 10.5.5. Ausgehendvon einer Cauchyfolge wird der Grenzwert punktweise definiert. Dann wird gezeigt, dassder Grenzwert auch in L(V,W ) liegt und der Grenzwert in der Operatornorm ist.Sei also (An)n∈N eine Cauchyfolge in L(V,W ). Für alle v ∈ V gilt

‖(An −Am)(v)‖W10.6.10≤ ‖An −Am‖‖v‖V

und somit ist (Anv)n∈N eine Cauchyfolge, falls (An)n∈N eine Cauchyfolge bezüglich ‖ · ‖ist. Die punktweise Folge (Anv)n∈N konvergiert in dem Vektorraum W bezüglich derNorm ‖ · ‖W weil (W, ‖ · ‖W ) vollständig ist. Wir definieren nun wie angekündigt denGrenzwert punktweise:

A(v) := limn→∞

An(v).

Per Definition ist A : V →W eine Abbildung. Es bleibt zu zeigen:

i) limn→∞

‖An −A‖ = 0, d.h. A ist Grenzwert von (An)n∈N in L(V,W ).

ii) A ist eine lineare Abbildung.

iii) A ist eine stetige Abbildung.

zu i) Die Folge (An)n∈N ist eine Cauchyfolge und somit existiert für alle ε > 0 einN(ε) ∈ N mit

‖An −Am‖ <ε

2

für alle n,m ≥ N(ε). Sei ε > 0 fest gewÃďhlt. Nach Konstruktion gilt

Anv → Av, n→∞,

Page 39: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 37

und somit existiert für alle v ∈ V ein N(v) ∈ N, sodass

‖Av −Amv‖W = ‖(A−Am)v‖W <ε

2

für alle m ≥ N(v). Daher gilt für beliebige v ∈ V mit ‖v‖V ≤ 1, n ≥ N(ε) undm ≥ max{N(ε), N(v)} mit Lemma 10.6.10 und der Dreicksungleichung,

‖(An −A)v‖W ≤∥∥(A−Am)v

∥∥W

+∥∥(Am −An)v

∥∥W

≤∥∥(A−Am)v

∥∥W

+ ‖An −Am‖‖v‖v

2+ε

2‖v‖V

≤ ε.

Die linke Seite hängt nur von n ab, daher folgt, dass

∀n ≥ N(ε) : ‖(An −A)v‖W ≤ ε

und damit‖An −A‖ = sup

{‖(An −A)v‖W : ‖v‖ ≤ 1

}≤ ε

für alle n ≥ N(ε). Es gilt also limn→∞

‖An −A‖ = 0, was wir zeigen wollten.

zu ii) Es muss gezeigt werden, dass

• A(v + v′) = A(v) +A(v′)

und

• A(λv) = λA(v).

Seien dazu v, v′ ∈ V beliebig, dann gilt mit der Linearität von A

0 ≤∥∥A(v + v′)−

(A(v) +A(v′)

)∥∥W

=∥∥A(v + v′)−An(v + v′) +An(v) +An(v′)−

(A(v) +A(v′)

)∥∥W

4≤∥∥A(v + v′)−An(v + v′)

∥∥W

+∥∥An(v)−A(v)

∥∥W

+∥∥An(v′)−A(v′)

∥∥W.

Die drei Summanden konvergieren alle gegen Null und aus den Rechenregeln desGrenzwertes folgt dann∥∥A(v + v′)−

(A(v) +A(v′)

)∥∥W

= 0.

Aus der Definitheit der Norm folgt

A(v + v′)−(A(v) +A(v′)

)= 0

und somit giltA(v + v′) = A(v) +A(v′).

Die Aussage A(λv) = λA(v) kann analog gezeigt werden.

Page 40: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 38

zu iii) Die gleichmäßige Konvergenz impliziert Stetigkeit der Grenzfunktion einer Folgestetiger Funktionen, weil Konvergenz in der Operatornorm ||·|| gerade gleichmäßigeKonvergenz auf

B(0, 1) ={v ∈ V : ‖v‖V ≤ 1

}ist. Somit ist die Abbildung A stetig auf B(0, 1). Die Abbildung A ist nach ii)linear. Um Stetigkeit auf ganz V zu zeigen, reicht es nach Satz 10.6.2 bereits aus,die Stetigkeit in 0V zu zeigen. Es gilt 0 ∈ B(0, 1) und somit ist A stetig auf V .

Vorlesung 9

Satz 10.6.12. Es seien (U, ‖ · ‖U ), (V, ‖ · ‖V ), (W, ‖ · ‖W ) normierte Vektorräume undA ∈ L(U, V ), B ∈ L(V,W ) Abbildungen.

1. Für die Verknüpfung B ◦A gilt

i) B ◦A ∈ L(U,W )

und

ii) ‖B ◦A‖ ≤ ‖B‖‖A‖

2. Die Abbildung ◦ : L(U, V ) × L(V,W ) → L(U,W ), (A,B) 7→ B ◦ A ist stetigbezüglich der Produktnorm∥∥(A,B)

∥∥L(U,V )×L(V,W )

:= ‖A‖L(U,V ) + ‖B‖L(V,W )

auf L(U, V )× L(V,W ).

Beweis. Für 1. müssen wir hauptsächlich die Definitionen verwenden:

i) Zunächst wird Linearität gezeigt. Seien u, u′ ∈ U dann gilt:

B ◦A(u+ u′) = B(A(u+ u′))linear

= B(A(u) +A(u′)

)= B ◦A(u) +B ◦A(u′)

Die Eigenschaft B ◦ A(λu) = λ(B ◦ A)(u) kann analog gezeigt werden. Es giltVerknüpfungen stetiger Funktionen sind stetig und somit ist Stetigkeit gezeigt.

ii) Für ‖u‖U ≤ 1 gilt

‖(B ◦A)(u)‖W =∥∥B(A(u))

∥∥W

≤ ‖B‖∥∥A(u)

∥∥V

≤ ‖B‖‖A‖‖u‖U≤ ‖B‖‖A‖,

wobei wir zwei Mal 10.6.10 genutzt haben. Also gilt

‖B ◦A‖ = sup{‖(B ◦A)(u)‖W : ‖u‖U ≤ 1

}≤ ‖B‖‖A‖.

Page 41: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 39

2. Wir zeigen Folgenstetigkeit. Für zwei normierte Räume (U, ‖ · ‖U ), (V, ‖ · ‖V ) ist

‖ · ‖U×V : U × V → R, (u, v) 7→ ‖u‖U + ‖v‖V

eine Norm auf U × V . SeiL := L(U, V )× L(V,W ),

dann gilt für (A,B), (A′, B′) ∈ L:

‖B ◦A−B′ ◦A′‖ linear=

∥∥B ◦ (A−A′) + (B −B′) ◦A′∥∥

Norm,1.≤ ‖B‖‖A−A′‖+ ‖B −B′‖‖A′‖≤

(‖B‖+ ‖A′‖

)(‖A−A′‖+ ‖B −B′‖

)=

(‖B‖+ ‖A‖

)·∥∥(An, Bn)− (A,B)

∥∥L

Sei (A,B) fest und (An, Bn) eine Folge, die in L gegen (A,B) konvergiert. Die rechteSeite der Ungleichung konvergiert dan gegen 0 für n → ∞, also auch die linke Seite.Erinnerung: Nullfolge mal beschränkte Folge in R ist Nullfolge!

Korollar 10.6.13. Sei (V, ‖ · ‖V ) ein normierter Vektorraum, dann ist L(V, V ) mit

◦ : L(V, V )× L(V, V )→ L(V, V ), (A,B) 7→ A ◦B

und

‖ · ‖ : L(V, V )→ R, A 7→ ‖A‖

eine normierte Algebra. Ist V zusätzlich vollständig, so ist L(V, V ) eine Banachalgebra.

Beweis.

i) In Satz 10.6.9 wurde bewiesen, dass (L(V, V ), ‖·‖) mit den Operationen + und ·ein normierter Vektorraum ist.

ii) In Satz 10.6.11 wurde gezeigt, dass L(V, V ) eine Banachalgebra ist, wenn V voll-ständig ist.

iii) In Satz 10.6.12 wurde gezeigt, dass A ◦B ∈ L(V, V ).

iv) Die Algebraeigenschaften müssen selbständig nachgerechnet werden. In Satz 10.6.12wurde ‖A ◦B‖ ≤ ||A‖‖B‖ gezeigt.

Bemerkung. Im Gegensatz zur punktweisen Multiplikation auf B(V, V ′) zuvor ist dieOperation A ◦B ist nicht kommutativ. Also haben wir ein interessantes Beispiel dafür,dass bei einer Algebra keine Kommutativität für die Multiplikation gefordert wird! Dader Spezialfall von linearen Abbildungen von Km nach Kn durch Matrixmultiplikationgegeben ist, korrespondiert dies zu der bekannten Aussage, dass Matrixmultiplikationnicht kommutativ ist.

Definition 10.6.14. A ∈ L(V, V ) heißt inventierbar, falls ein B ∈ L(V, V ) exisitertsodass

A ◦B = 1 und B ◦A = 1.

Hierbei ist 1(v) = v für alle v ∈ V , die Identitätsabbildung. Wie üblich schreibt mandann A−1 für die inverse lineare Abbildung.

Page 42: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 40

Satz 10.6.15. (Neumann Reihe)Sei (V, ‖·‖V ) ein Banachraum und A ∈ L(V, V ) mit ‖A‖ < 1. Dann ist 1−A invertierbarmit

(1−A)−1 =∞∑k=0

Ak.

Bemerkung. Für Abbildungen A ∈ L(V, V ) und n ∈ N wird folgendes definiert:

A0 := 1

Ak := A ◦Ak−1 für k ≥ 1.

Ak bedeutet also, dass die Abbildung A k-mal nacheinander ausgeführt wird. Außerdemsei

∞∑k=0

Ak := limn→∞

n∑k=0

Ak.

Der Grenzwert ist im Sinne der Norm ‖·‖ auf L(V, V ) zu verstehen, d.h.∞∑k=0

Ak ∈ L(V, V )

ist eine lineare stetige Abbildung mit∥∥ ∞∑k=0

Ak −n∑k=0

Ak∥∥→ 0, n→∞.

Man beachte die Ähnlichkeit zur geometrischen Reihe aus Analysis 1: Für q ∈ (0, 1)haben wir gezeigt, dass

1

1− q= (1− q)−1 =

∞∑k=0

qk.

Der Beweis ist jedoch komplett anders.

Beweis von Satz 10.6.15. Wir zeigen, dass für ‖A‖ < 1 die Operatorreihe( n∑k=0

Ak)n∈N

eine Cauchyfolge in L(V, V ) ist. Unter Verwendung von Satz 10.6.12 gilt

‖Ak‖ ≤ ‖A‖k.

Außerdem gilt für m ≥ n∥∥∥ m∑k=0

Ak −n∑k=0

Ak∥∥∥ =

∥∥∥ m∑k=n+1

Ak∥∥∥ ≤ ∞∑

k=n+1

‖A‖k.

Die geometrische Reihe konvergiert für ‖A‖ < 1 und somit gibt es für ein ε > 0 einN ∈ N mit

m∑k=n

‖A‖k < ε

für alle m > n > N. Mit der obigen Abschätzung gilt, dass für alle ε > 0 ein N ∈ Nexistiert mit ∥∥∥ m∑

k=0

Ak −n∑k=0

Ak∥∥∥ < ε

für alle n,m ≥ N. Damit ist die Folge der Partialsummen einen Cauchyfolge in L(V, V ).Die Menge V ist vollständig und somit ist auch L(V, V ) vollständig. Daher konvergiert

Page 43: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

10.6. LINEARE OPERATOREN 41

die Reihe∞∑k=0

Ak in L(V, V ) und somit existiert der Grenzwert der Operatorfolge. Zudem

gilt:

(1−A) ◦∞∑k=0

Ak =

∞∑k=0

Ak −∞∑k=0

A ·Ak

=∞∑k=0

Ak −∞∑k=0

Ak+1

=∞∑k=0

Ak −∞∑k=1

Ak

= A0 = 1

Die Rechnung für∞∑k=0

Ak ◦ (1−A) = 1 ist analog.

Page 44: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

Kapitel 11

Differentialrechnung in Rn

Vorlesung 10Dieses Kapitel beschäftigt sich mit Ableitungen von Funktionen

f : Rn → Rm.

Wir machen die Vektorräume Rn mit der euklidischen Norm (p-Norm mit p = 2)

|x| =√x2

1 + x21 + · · ·+ x2

n

zu Banachräumen.

Bemerkung. Abbildungen der Form

f : R→ R

können durch zweidimensionale Graphen beschrieben werden. Abbildungen der Form

f : R2 → R

können durch dreidimensionale Graphen dargestellt werden.

Notation 11.0.1. Abbildungen der Form f : Rn → Rm werden folgendermaßen geschrie-ben:

f

x1...xn

=

f1

x1...xn

...

fm

x1...xn

oder kurz

f =

f1...fm

oder f(x) =

f1(x)...

fm(x)

.

Die Abbildungen fi : Rn → R heißen Koordinatenabbildungen. Es gibt natürlich vieleTools, um sich den Graphen visualisieren zu lassen! Hier ist der Link zu einer ganzeinfachen App versteckt.

42

Page 45: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 43

Beispiel. Für die Abbildung

f

(x1

x2

)=

(x2

1 + x22

x1 cos(x2)

)ist nach der obigen Notation

f1

(x1

x2

)= x2

1 + x22

und

f2

(x1

x2

)= x1 cos(x2).

Das Ziel des Kapitels ist es, die Differentialrechnung aus Analysis 1 zu verallgemeinern.Wir werden also das Konzept der Ableitung verallgemeinern um damit „Kurvendiskus-sion “ zu betreiben.

11.1 Totale und partielle Ableitungen

In dieser Sektion beschäftigen wir uns mit dem Konzept der Ableitung. Wie in einer Di-mension wird die Ableitung Information über Extrema etc. haben. Aber zunächst müssenwir uns mit Definitionen, Eigenschaften und Berechnungsmöglichkeiten beschäftigen.

Definition 11.1.1. Sei U ⊆ Rn eine offene Menge und f : U → Rm.

1. Die Abbildung f heißt differenzierbar in x0 ∈ U , falls eine Matrix A ∈ Rm×nexistiert, mit

limx→x0

|f(x)− f(x0)−A(x− x0)||x− x0|

= 0.

A heißt „totale Ableitung von f in x0“. Man schreibt auch f ′(x0) oder ddxf(x0)

statt A.

2. f heißt differenzierbar in U , falls f differenzierbar ist an jeder Stelle x0 ∈ U .

3. Die Abbildung f ′ : Rn → Rm×n, x 7→ f ′(x) heißt Ableitung von f .

Bemerkung. Wie auch in Analysis 1 können wir in der Definition äquivalent x − x0

ersetzen durch x+ h und x→ x0 durch h→ 0 (oder |h| → 0) ersetzen.

Bemerkung 11.1.2. Man sagt auch, dass eine Abbildung f in x0 differenzierbar ist,falls f in 1. Ordnung durch eine lineare Funktion in x0 approximiert werden kann. Diesbedeutet, dass ein A ∈ Rm×n existiert, sodass für

R(x, x0) := f(x)− f(x0)−A(x− x0)

gilt, dass limx→x0

|R(x,x0)||x−x0| = 0.

Beispiel 11.1.3. Es wird die Abbildung f((x1, x2)T ) = x21 + x2

2 betrachtet. Die Behaup-tung ist, dass

f ′((0, 0)T ) = (0, 0) =: A.

Page 46: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 44

Beweis. Es gilt mit x =(x1x2

)

limx→0

∣∣f(x)− f(0)−A(x− 0)∣∣

|x− 0|= lim

x→0

|x21 + x2

2 − 0− 0||x|

= limx→0

|x21 + x2

2|√x2

1 + x22

= limx→0

√x2

1 + x22

= limx→0|x|

stetig= | lim

x→0x|

= 0

Proposition 11.1.4. Die Ableitung einer Abbildung ist wohldefiniert, das heißt dieAbleitungsmatrix ist eindeutig, falls sie existiert.

Beweis. Angenommen A,A′ ∈ Rm×n erfüllen beide die Definition. Ohne Einschränkungsei x0 = 0, sonst betrachte die Hilfsfunktion (Verschiebung) f̃(x) = f(x+x0). Dann giltfür ein x ∈ Rm×n mit |x| = 1 :

∣∣(A−A′)x∣∣ |x|=1=

∣∣(A−A′)tx∣∣|tx|

=

∣∣f(tx)− f(tx) + f(0)− f(0) +Atx−A′tx∣∣

|tx|4≤ |f(tx)− f(0)−Atx|

|tx|+|f(tx)− f(0)−A′tx|

|tx|

Es gilttx→ 0, t→ 0

und weil nach Annahme A und A′ Ableitungen sind, konvergiert die rechte Seite derobigen Ungleichung gegen Null. Die linke Seite der Gleichung ist unabhängig von t undsomit gilt ∣∣(A−A′)x∣∣ = 0,

für |x| = 1. Somit giltAx = A′x

für alle |x| = 1 und insbesondere ist Aei = A′ei, für alle i = 1, . . . , n.

Beispiel 11.1.5. Ist c ∈ Rm und f(x) = c für alle x ∈ Rn. Dann ist f ′(x0) = 0 für allex ∈ Rn. Beachte, hier steht 0 für die Nullmatrix. Die Behauptung folgt direkt aus derDefinition:

limx→x0

|f(x)− f(x0)− 0 · (x− x0)||x− x0|

= limx→x0

|0||x− x0|

= 0.

Page 47: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 45

Beispiel 11.1.6. Sei M ∈ Rm×n und f(x) = M · x für x ∈ Rn. Dann ist f ′(x0) = Mfür alle x ∈ Rn. Die Behauptung folgt auch wieder direkt aus der Definition und derLinearität von M :

limx→x0

|f(x)− f(x0)−M · (x− x0)||x− x0|

= limx→x0

|M(x− x0)−M · (x− x0)||x− x0|

= 0.

Definition 11.1.7. Die Abbildungen

pi : Rn → R, (x1, . . . , xn)T 7→ xi

für i = 1, . . . , n heißen Projektion auf die i-te Koordinate.

Lemma 11.1.8. Projektionen sind linear und stetig.

Beweis. Linearität folgt aus Einsetzen, Stetigkeit folgt aus Folgenstetigkeit weil Folgenim Rn genau dann konvergieren, wenn jede Koordinate konvergiert (Lemma 10.3.15).

Proposition 11.1.9. (Reduktion auf m = 1)

Sei f =

f1...fm

mit fi : Rn → R für alle i = 1, . . . ,m. Die Abbildung f ist genau dann

differenzierbar in x0, wenn die Koordinatenabbildungen

fi : Rn → R, x 7→ (pi ◦ f)(x)

differenzierbar in x0 sind für alle i = 1, . . . ,m. Außerdem gilt

f ′(x0) =

f ′1(x0)...

f ′m(x0)

.

Konsequenz: Wir müssen nur den Fall m = 1 besser verstehen.

Beweis. Wegen Lemma 10.3.15 konvergieren Folgen in Rn wenn alle n Koordinatenfolgenkonvergieren und der Grenzwert ist der Vektor der koordinatenweisen Grenzwerte. Da

f(x)− f(x0)−A(x− x0) =

f1(x)...

fm(x)

− f1(x0)

...fm(x0)

−A1(x− x0)

...Am(x− x0)

=

f1(x)− f1(x0)−A1(x− x0)...

fm(x)− fm(x0)−Am(x− x0)

mit A =

A1...Am

gilt, ist

limx→x0

∣∣f(x)− f(x0)−A(x− x0)∣∣

|x− x0|= 0

Page 48: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 46

äquivalent zur Konvergenz von

limx→∞

∣∣fi(x)− fi(x0)−Ai(x− x0)∣∣

|x− x0|

für alle i ∈ 1, . . . ,m. Damit ist die totale Differenzierbarkeit von f äquivalent zur tota-len Differenzierbarkeit aller Koordinatenfunktionen fi und die Ableitung von f ist dieMatrix, die sich aus den Zeilen der Ableitungen der Koordinatenfunktionen ergibt.

Vorlesung 11

Satz 11.1.10. Ist die Abbildung f differenzierbar in x0, so ist sie auch stetig in x0.

Beweis. MitR(x, x0) = f(x)− f(x0)−A(x− x0)

gilt

limx→x0

∣∣R(x, x0)∣∣

|x− x0|= 0.

Insbesondere gilt wegen der Stetigkeit der Matrixmultiplikation x 7→ A · x

limx→x0

|f(x)− f(x0)| = limx→x0

|A(x− x0) +R(x, x0)|

4≤ lim

x→x0|A(x− x0)|+ lim

x→x0|R(x, x0)| = 0,

und daher folgt Folgenstetigkeit.

Jetzt zu den „üblichen“ Rechenregeln, Linearität und Verkettung. Da Ableitungen Ma-trizzen sind, wird hier alles natürlich etwas unübersichtlich.

Satz 11.1.11. (Linearität der Ableitung)Sind f, g : Rn ⊇ U → Rm differenzierbare Abbildungen in x0 und ist λ ∈ R, dann gilt

1. (f + g)′(x0) = f ′(x0) + g′(x0)

2. (λf)′(x0) = λf ′(x0).

Beweis. Es gilt:

limx→x0

∣∣(f + g)(x)− (f + g)(x0)− (f ′(x0) + g′(x0))(x− x0)∣∣

|x− x0|4≤ lim

x→x0

∣∣f(x)− f(x0)− f ′(x0)(x− x0)∣∣

|x− x0|+ limx→x0

|g(x)− g(x0)− g′(x0)(x− x0)||x− x0|

= 0

Die Eigenschaft (λf)′(x0) = λf ′(x0) kann ähnlich bewiesen werden.

Satz 11.1.12. (Kettenregel)Sind f : Rn ⊇ U → Rm, g : Rm ⊇ V → Rk differenzierbare Abbildungen undf(U) ⊆ V , dann ist g ◦ f : Rn ⊇ U → Rk differenzierbar mit

(g ◦ f)′(x0) = g′(f(x0)

)· f ′(x0), x0 ∈ U.

Beachte: Die Multiplikation ist Matrixmultiplikation!

Page 49: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 47

Beweis. Der Beweis ist ähnlich wie in Analysis 1. Wir werden nutzen, dass |Ax| ≤ ‖A‖|x|wobei ‖A‖ = sup{|Ax| : |x| ≤ 1} die Operatornorm ist. Nun schreiben wir mit y0 =f(x0) die Ableitung mit der Form der Approximation erster Ordnung

f(x) = f(x0) + f ′(x0) · (x− x0) +Rf (x, x0),

g(y) = g(y0) + g′(y0) · (y − y0) +Rg(y, y0),

wobei limx→x0|Rf (x,x0)||x−x0| = 0 und limy→y0

|Rg(y,y0)||y−y0| = 0. Stures einsetzen gibt

g(f(x)) = g(y0) + g′(y0) ·(f(x0) + f ′(x0) · (x− x0) +Rf (x, x0)− f(x0)

)+Rg

(f(x0) + f ′(x0) · (x− x0) +Rf (x, x0), y0

)= g(f(x0)) + g′(f(x0)) · f ′(x0) · (x− x0)

+ g′(f(x0)) ·Rf (x, x0) +Rg(f(x0) + f ′(x0) · (x− x0) +Rf (x, x0), y0

).

Zu zeigen ist also, dass die letzten zwei Summanden im Grenzwert verschwinden, wennwir durch |x− x0 teilen. Zunächst ist mit der Bemerkung vom Anfang

limx→x0

|g′(f(x0)) ·Rf (x, x0)||x− x0|

≤ ||g′(f(x0))|| limx→x0

|Rf (x, x0)||x− x0|

= 0.

Für den zweiten Summanden nutzen wir, dass (vergleiche Kettenregel Beweis in Analysis1) es ein h gibt mit limy→y0 h(y) = 0 und Rg(y, y0) = |y − y0|h(y). Damit ergibt sich

limx→x0

|Rg(f(x0) + f ′(x0) · (x− x0) +Rf (x, x0), y0

)|

|x− x0|

= limx→x0

|f ′(x0) · (x− x0) +Rf (x, x0)|h(f(x0) + f ′(x0) · (x− x0) +Rf (x, x0)

)|x− x0|

≤ limx→x0

(||f ′(x0)||+ Rf (x, x0)

|x− x0|

)h(f(x0) + f ′(x0) · (x− x0) +Rf (x, x0)

)).

Der erste Faktor konvergiert gegen ||f ′(x0)||, der zweite Faktor gegen 0 weil das Argu-ment gegen y0 = f(x0) konvergiert.

Wir beschäftigen uns nun mit der Frage, wie die totale Ableitung konkret ausgerechnetwerden kann. Sobald wir das Konzept der partiellen Ableitungen kennen, ist das amEnde ganz einfach. Dazu zunächst die Richtungsableitungen:

Definition 11.1.13. 1. v ∈ Rn heißt Richtungsvektor, falls |v| = 1.

2. Sei f : Rn ⊇ U → Rm eine Abbildung, x0 ∈ U und v ∈ Rn ein Richtungsvektor.Falls der Grenzwert(

Dvf)(x0) := lim

h↓0

f(x0 + hv)− f(x0)

h∈ Rm

existiert, so heißt f an der Stelle x0 in Richtung v differenzierbar.(Dvf

)(x0) heißt

Richtungsableitung von f in Richtung v. Wegen Lemma 10.3.15 ist die Definitionäquivalent zu

limh↓0

|f(x0 + hv)− f(x0)−Dvf(x0)h|h

= 0.

Page 50: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 48

3. Ist v = ei ein Einheitsvektor, so heißt (Deif)(x0) die ite partielle Ableitung in x0.Man schreibt auch ∂

∂xif(x0) statt (Deif)(x0) oder ∂xif(x0). Man sagt f ist partiell

nach der iten Koordinate differenzierbar oder f ist partiell differenzierbar nach xi.

Bemerkung 11.1.14. Fürm = 1 und v = ei haben wir mit g(xi) = f(x1, . . . , xi, . . . , xn)und xj fest für j 6= i:

∂xif(x) = lim

h→0

f(x1, . . . , xi + h, . . . , xn)− f(x1, . . . , xn)

h

= limh→0

g(xi + h)− g(xi)

h

= g′(xi).

Für allgemeines m gilt wie bei der totalen Ableitung: Die partielle Ableitung entstehtdurch Zusammensetzen aller partiellen Ableitungen der Koordinatenabbildungen f1, ...,fm.In Worten: Partielle Ableitungen ausrechnen ist wie Analysis 1. Wir behandeln alleKoordinaten bis auf die ite als Konstanten und leiten nach der iten Koordinate ab.

Proposition 11.1.15. (Reduktion auf m = 1)Analog zu Proposition 11.1.9 bildet sich die Richtungsableitungen einer Abbildung

f : Rn → Rm, x→

f1(x)...

fm(x)

durch Zusammensetzung der Richtungsableitungen der Koordinatenabbildungen:

(Dvf

)(x) =

(Dvf1

)(x)

...(Dvfm

)(x)

. (11.1)

Wir müssen also wieder nur den Fall m = 1 verstehen und reduzieren den allgemeinenFall auf m = 1 mit der Formel (11.1)

Nun zu einem der wichtigsten Sätze des Kapitels, der uns verrät, wie die totale Ableitungmit den Richtungsableitungen zusammenhängt. Insbesondere verstehen wir mit demSatz wie wir die totale Ableitung konkret ausrechnen können.

Satz 11.1.16. Ist f : Rn ⊇ U → Rm eine in x0 ∈ U totale differenzierbare Abbildung,dann ist f in alle Richtungen differenzierbar mit(

Dvf)(x0) = f ′(x0) · v.

Beweis. Es gilt:

limh→0

f(x0 + hv)− f(x0)

h= lim

h→0

f(x0 + hv)− f(x0)− f ′(x0)hv

h+f ′(x0)�hv

�h

= limh→0

f(x0 + hv)− f(x0)− f ′(x0)hv

h+ f ′(x0)v

= f ′(x0)v

Page 51: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 49

Hier ist nun das Rechenrezept für totale Ableitungen (wenn sie existieren). Beachte dazu,dass wir partielle Ableitungen durch Reduktion auf m = 1 und Analysis 1 berechnenkönnen! Später überlegen wir uns, wann totale Ableitungen existieren.

Satz 11.1.17. Wenn f : Rn ⊇ U → Rm total differenzierbar in x0 ∈ U ist, dann hat falle partiellen Ableitungen und die partielle Ableitungen nach der i-ten Koordinate istdie i-te Spalte von f ′(x0). Die ganze Ableitungsmatrix f ′(x0) erhalten wir also durchdas Nebeneinanderschreiben aller partiellen Ableitungen.

Beweis. Multiplikation einer Matrix mit dem iten Einheitsvekotor gibt die ite Spalte.Also folgt die Aussage aus Satz 11.1.16 mit der Wahl v = ei.

Zum Glück bekommen wir etwas später einen Satz, der besagt, dass f total differenzier-bar ist, wenn alle partiellen Ableitungen existieren und die partiellen Ableitungen stetigsind. Solange bringt uns der letzte Satz leider nicht viel.

Überlegen wir uns erstmal, was wir mit Ableitungen im Sinne von Kurvendiskussion(=Verständniss des Graphen) so machen können.

Definition 11.1.18. Ist m = 1 und f : Rn ⊇ U → R differenzierbar in x0 ∈ U , soheißt

∇f(x0) = grad f(x0) =

∂∂x1

f(x0)...

∂∂xn

f(x0)

= f ′(x0)T ∈ Rn

der Gradient von f in x0. Beachte: Der Gradient ist einfach nur die Ableitung als Zei-lenvektor geschrieben.

Es ist erstaunlich, wie viel geometrische Information in dem Gradienten steckt.

Definition 11.1.19.

1. Eine Funktion f : Rn → Rm heißt Vektorfeld.

2. Eine Funktion f : Rn → R heißt Skalarfeld.

Beachte: Der Gradient eines Skalarfelds ist ein Vektorfeld.Vorlesung 12

Definition 11.1.20. Eine Kurve (oder Weg) im Rn ist das Bild einer Abbildung

γ : [a, b]→ Rn.

γ heißt Parametrisierung und ist nicht eindeutig. Die Kurve heißt geschlossen, fallsγ(a) = γ(b) und stetig (differenzierbar), falls die Abbilung γ stetig (differenzierbar)ist. Als Interpretation stellt man sich ein Teilchen vor, dass sich von Zeit 0 bis zu Zeit tauf dem Bild der Kurve durch den Rn bewegt.

Warnung: Manchmal nennt man auch γ eine Kurve und meint dann das Bild der Para-metrisierung.

Beispiel 11.1.21.

• Die Parametrisierungen

Page 52: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 50

i) γ1 : [0, 2π]→ R2, φ 7→(r cos(φ)r sin(φ)

)und

ii) γ2 : [0, 1]→ R2, φ 7→(r cos(2πφ)r sin(2πφ)

)haben beide als Bild den Kreis mit Radius r (beachte sin2(x) + cos2(x) = 1).Bei γ1 ist die Bewegung langsamer und dauert länger als bei γ2. Wir haben alsoeine Kurve (den Kreis mit Radius r) mit verschiedenen Parametrisierungen. Mitdem selben Prinzip kann man immer aus einer Parametrisierung unendlich vieleParametrisierungen machen: Man lässt das Teilchen k-fach schneller laufen abernur für einen 1

k -fachen Teil der Zeit.

• Sei f : [a, b]→ R, dann ist die Kurve γ : [a, b]→ R, t 7→(

tf(t)

)eine Parametrisie-

rung des Graphen von f .

• Seien x, y ∈ Rn und γ : [0, 1]→ Rn, t 7→ tx+ (1− t)y. Dann ist γ eine Parametri-sierung der direkten Verbindung von a und b.

Darstellungen von Graphen von Abbildungen f : R2 → R werden oft durch sogenanntenHöhenlinien gegeben. Das beste Beispiel sind Wanderkarten, auf denen der Graph solcheiner Abbildung (die Oberfläche des Gebirges) zweidimensional durch die Kurven mitkonstanter Höhe angegegben werden. Hier verlinkt zum Beispiel für den Mutenkogel (woauch immer der Berg ist).

Definition 11.1.22. Es sei eine Funktion f : Rn → R gegeben. Eine Kurve γ : [a, b]→Rn mit

f(γ(t)) = c, t ∈ [a, b],

für ein c ∈ R heißt Höhenlinie zum Niveau c.

Wir kommen nun zu einer ersten einfachen Eigenschaft des Gradienten, die tatsächlicheine ganz essentielle Grundlage für Optimierung und aktuell für Deep Learning ist.Zunächst ein kurzes Beispiel zur Motivation:Beispiel 11.1.23. Wir haben schon gezeigt, dass f(x1, x2) = x2

1 + x22 differenzierbar in 0

ist. Wir sehen gleich noch, dass f überall total differenzierbar ist. Also kann die Ableitungdurch partielle Ableitungen berechnet werden: f ′(x1, x2) = (2x1, 2x2). Transponierengibt den Gradienten:

∇f(x1, x2) =

(2x1

2x2

).

Als Vektor im R2 zeigt dieser Gradient also immer weg vom Ursprung (Bildchen sieheVorlesung). Im diesem Beispiel kennen wir den Graphen, eine rotierte Parabel. Visuali-sieren wir den Graphen mit Niveaumengen, siehe Übungsblatt, sehen wir, dass die Hö-henlinien Nc :=

{(x1x2

): f(x1, x2) = c

}Kreise mit Radius

√c um den Ursprung sind.

In diesem Beispiel gilt also, dass der Gradient senkrecht auf den Höhenlinien steht. Dasist kein Zufall, gleich dazu mehr.Erinnerung Lineare Algebra (oder Schule für R2): Zwei Vektoren stehen senkrecht (=or-thogonal) aufeinander, falls 〈x, y〉 = 0. Das Skalarprodukt ist definiert als 〈x, y〉 =∑n

k=1 xkyk.

Page 53: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 51

Satz 11.1.24. (Bedeutung des Gradienten)Sei f : Rn → R differenzierbar, so gilt:

1. Der Gradient von f steht senkrecht auf den differenzierbaren Höhenlinien, in demSinne, dass ∇f(γ(t)) senkrecht auf γ′(t) steht, wenn γ eine Höhenlinie parametri-siert.

2. Ist ∇f(x) 6=, so zeigt der Gradienten in die Richtung des stärksten Anstiegs in x,in dem Sinne, dass |Dvf(x)| für v = ∇f(x) maximal ist.

Beweis. 1. Sei γ : [a, b]→ R eine Parametrisierung der differenzierbaren Höhenlinie. DieAbbildung g : t 7→ f

(γ(t)

)ist konstant, weil γ eine Höhenlinie ist. Nach Analysis 1 ist

die Ableitung von g konstant 0. Mithilfe der Kettenregel gilt also

0 = g′(t) = f ′(γ(t)

)· γ′(t) Def.

=⟨∇f(γ(t)

), γ′(t)

⟩und damit ist die erste Aussage gezeigt.

2. Mit Satz 11.1.16 gilt für jedes v ∈ Rn mit |v| = 1 wegen Cauchy-Schwarz:∣∣(Dvf)(x)| = |f ′(x) · v| Def.

= |〈∇f(x), v〉|CS≤ |∇f(x)||v| = |∇f(x)|.

Falls ∇f 6= 0 so ist also der Betrag der Richtungsableitung Dvf maximal in x, falls dieUngleichung eine Gleichheit ist. Das ist nach Cauchy-Schwarz genau dann der Fall, wenn∇f(x) und v linear abhängig sind, also (weil |v| = 1) wenn

v1 =∇f(x)

|∇f(x)|oder v2 = − ∇f(x)

|∇f(x)|.

Wir zeigen jetzt, dass f in x in Richtung ∇f(x) wächst und in Richtung −∇f(x) fällt,also ist der maximale Anstieg in Richtung v1. Dazu durchlaufen wir den Graphen inRichtung ∇f(x) mit der Hilfsfunktion

h(t) = f(x+ t

∇f(x)

|∇f(x)|

), t ∈ [−1, 1].

Schreiben wir h(t) = f(g(t)

)mit g(t) = x + t ∇f(x)

|∇f(x)| , so gilt unter Verwendung derKettenregel:

h′(t) = f ′(x+ t

∇f(x)

|∇f(x)|

)· ∇f(x)

|∇f(x)|Def.=⟨∇f(x+ t

∇f(x)

|∇f(x)|

),∇f(x)

|∇f(x)|

⟩.

Für den Wert t = 0 gilt

h′(0) =1

|∇f(x)|〈∇f(x),∇f(x)〉 > 0

also wächst f in Richtung ∇f(x). Damit ist die Aussage bewiesen.

Satz 11.1.25. (Mittelwertsatz)Ist eine Funktion f : Rn ⊇ U → R differenzierbar, x, y ∈ U und

Sx,y :={x ∈ Rn

∣∣x = x+ t(y − x), t ∈ [0, 1]}⊆ U

die Verbindungslinie von x und y. Dann existiert ein x0 ∈ Sx,y mit

f(y) = f(x) + f ′(x0) · (y − x).

Page 54: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 52

Beweis. Eine Parametrisierung der Strecke Sx,y ist gegeben durch

γ(t) = x+ t · (y − x), t ∈ [0, 1].

Zudem definieren wir die Funktion

F : [0, 1]→ R, t 7→ f(γ(t)),

welche wegen der Kettenregel differenzierbar ist. Der Mittelwertsatz für reellwertigeFunktionen (Analysis 1) impliziert die Existenz eines ξ ∈ (0, 1) mit

F (1) = F (0) + F ′(ξ)(1− 0).

Zudem gelten

F (1) = f(γ(1)) = f(y) und F (0) = f(γ(0) = f(x)

sowie wegen der Kettenregel

F ′(ξ) = f ′(γ(ξ)) · γ′(ξ) = f ′(γ(ξ)) · (y − x).

Durch das Einsetzen der Gleichungen in obige Formel und der Definition x0 := γ(ξ) istdie Aussage des Satzes gegeben.

Bemerkung 11.1.26.

1. Der Mittelwertsatz funktioniert auch allgemeiner: Ist γ eine Parametrisierung einerdifferenzierbaren Kurve von x nach y in U , so existiert ein ξ ∈ (0, 1) mit

f(y) = f(x) + f ′(γ(ξ)

)· γ′(ξ).

2. Der Fall m 6= 1 ist nicht analog.

Definition 11.1.27. U ⊆ Rn heißt wegzusammenhängend, falls für alle x, y ∈ U einstetiger Weg (Kurve) mit Endpunkten x und y existiert, der in U liegt.

Vorlesung 13

Satz 11.1.28. Sei U ⊆ Rn eine wegzusammenhängende Menge und f : U → R einedifferenzierbare Abbildung, dann sind folgende Aussagen äquivalent:

i) Die Abbildung f ist konstant.

ii) f ′(x) = 0 für alle x ∈ U . Hier steht 0 natürlich für den Nullvektor in Rn.

Beweis. „⇒“: Einsetzen in die Definition der Ableitung, alles kürzt sich weg.„⇐“: In einer wegzusammenhängenden Menge sind Teilmengen die sowohl offen als auchabgeschlossen sind entweder leer oder die ganze Menge. Wir besprechen das in denÜbungen und wenden es hier an.Sei x0 ∈ U beliebig und C = f(x0). Also ist M := f−1({C}) ⊆ U abgeschlossen weilf stetig ist. Wir zeigen, dass M auch offen ist, denn dann ist M = U weil M nicht-leer ist. Folglich ist dann also f konstant. Sei also x ∈ M . Weil U offen ist existiertδ > 0 mit B(x, δ) ⊆ U . Für y ∈ B(x, δ) gibt es nach dem Mittelwertsatz ein z aus derVerbindungslinie von x und z mit

f(x) = f(y) + f ′(z) · (x− y).

Weil die Ableitung verschwindet ist also f(x) = f(y), d.h. y ∈M . Also ist B(x, δ) ⊆Mund damit ist M offen.

Page 55: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 53

Wir kommen jetzt zu dem super wichtigen Satz, der uns Bedingungen gibt, wann f totaldifferenzierbar in x0 ist. Zur Erinnerung: Um die Ableitung durch partielle Ableitungenaufzustellen, forderte der Satz 11.1.16 die totale Differenzierbarkeit. Der Satz gab nurein Rezept, aber keine Bedingung, wann das Rezept genutzt werden darf!

Satz 11.1.29. Sei f : Rn ⊇ U → Rm eine Abbildung und sei x ∈ U . Falls alle partiellenAbleitungen ∂

∂x1f, ..., ∂

∂xnf in x existieren und stetig sind, so ist die Abbildung f in x

total differenzierbar. Es gilt dann

f ′(x) =

∂∂x1

f1(x) . . . ∂∂xn

f1(x)...

...∂∂x1

fm(x) . . . ∂∂xn

fm(x)

. (11.2)

Definition 11.1.30. Die Matrix (11.2) der partiellen Ableitungen heißt Jacobi-Matrix.

Beweis von Satz 11.1.29. Wegen Proposition 11.1.9 brauchen wir nur den Fall m = 1 zubetrachten. Sei ohne Beschränkung der Allgemeinheit sei h ∈ Rn „kurz genug“, also |h|klein genug, sodass für

x0 = x

x1 = x+ h1e1

x2 = x1 + h2e2

x3 = x2 + h3e3

...xn = xn−1 + hnen = x+ h

gilt, dass xk ∈ U für alle k ∈ N und alle Verbindungsstrecken Sk,k−1 der xk in U liegen.Dieses h existiert, weil U eine offene Menge ist und damit ein offener Ball um x existiert,der komplett in U liegt. Dann ist

f(x+ h)− f(x)Def.= f(xn)− f(x0)

Teleskop=

(f(xn)− f(xn−1)

)+(f(xn−1)− f(xn−2)

)+ · · ·+

(f(x1)− f(x0)

)1-dim MWS

=∂

∂xnf(cn)hn + · · ·+ ∂

∂x1f(c1)h1,

mit ck ∈ Sxk−1,xk für alle k = 1, . . . , n. Dabei wurde jeweils der eindimensionale Mittel-wertsatz auf die Hilfsfunktionen g1(t) = f(x+ te1), ..., gn(t) = f(xn−1 + ten) angewandt,die nach Annahme differenzierbar sind. Damit gilt∣∣∣f(x+ h)− f(x)−

( ∂

∂x1f(x), . . . ,

∂xnf(x)

)· h∣∣∣

=∣∣∣f(x+ h)− f(x)−

n∑k=1

∂xkf(x)hk

∣∣∣s.o.=

∣∣∣ n∑k=1

(∂

∂xkf(x)− ∂

∂xkf(ck)

)hk

∣∣∣4≤ |h|

n∑k=1

∣∣∣ ∂∂xk

f(x)− ∂

∂xkf(ck)

∣∣∣.

Page 56: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.1. TOTALE UND PARTIELLE ABLEITUNGEN 54

Es giltck → x, |h| → 0,

für k = 1, ..., n und somit folgt mit obiger Abschätzung und der Stetigkeit der partiellenAbleitungen

lim|h|→0

∣∣f(x+ h)− f(x)−(∂∂x1

f(x), . . . , ∂∂xn

f(x))· h∣∣

|h|s.o.≤ lim

|h|→0

|h||h|

n∑k=1

∣∣∣∣ ∂∂xk f(x)− ∂

∂xkf(ck)

∣∣∣∣=

n∑k=1

lim|h|→0

∣∣∣∣ ∂∂xk f(x)− ∂

∂xkf(ck)

∣∣∣∣Stetigkeit

= 0.

Damit ist die Abbildung f differenzierbar und die Jacobi Matrix ist die Ableitung.

Jetzt können wir endlich ohne Probleme haufenweise konkrete Ableitungen ausrechnen!Insbesondere ist das Beispiel 11.1.23 jetzt wasserdicht weil beide partiellen Ableitungenstetig sind. Alles was wir brauchen sind Abbildungen f : Rn → Rm deren Koordinaten-funktionen aus Funktionen bestehen, die wir in Analysis 1 kennengelernt haben. VormBeweis noch ein Beispiel zur Entspannung:

Beispiel 11.1.31. Sei die Abbildung

f : R2 → R2,

(x1

x2

)7→(

cos(x1)x2

x2

)gegeben. Es gelten

∂∂x1

f(x) =

(∂∂x1

f1(x)∂∂x1

f2(x)

)=

(−x2 sin(x1)

0

)und

∂∂x2

f(x) =

(∂∂x2

f1(x)∂∂x2

f2(x)

)=

(cos(x1)

1

).

Die partiellen Ableitungen existieren und sind stetig (nutze Folgenstetigkeit und dieRechenregel für Produkte konvergenter Folgen). Nach Satz 11.1.29 ist die Abbildung fdifferenzierbar mit

f ′(x) =

(− sin(x1)x2 cos(x1)

0 1

).

Warnung: Es ist wirklich wichtig, nicht nur die partiellen Ableitungen auszurechnen,sondern auch zu überprüfen, ob sie stetig sind! Es kann durchaus vorkommen, dass eineAbbildung partiell in alle Richtungen differenzierbar ist, jedoch nicht total differenzier-bar ist. Natürlich sind Beispiele dafür etwas künstlich, folgendes sollt ihr euch in denÜbungen anschauen:

Page 57: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 55

Beispiel 11.1.32. In den Übungen wird die Abbildung

f : R2 → R,(x1

x2

)7→

x21x2x21+x2

:

(x1

x2

)6=

(0

0

)

0 :

(x1

x2

)=

(0

0

)

betrachtet. Folgende Eigenschaften müssen gezeigt werden:

i) Die Abbildung f ist in dem Punkt (0, 0) partiell differenzierbar.

ii) Die partiellen Ableitungen von f sind nicht stetig in (0, 0).

iii) Die Abbildung f ist nicht total differenzierbar in (0, 0).

Wir sehen also, dass die Stetigkeit der partiellen Ableitungen nicht einfach ignoriertwerden darf!

11.2 Höhere Ableitungen und Folgerungen

Nun kommen wir zu Kurvendiskussion. Wie findet man lokale Maxima/Minima, was istkonvex/konkav?

Definition 11.2.1. Ist f : Rn ⊇ U → R eine Abbildung, dann heißt x ∈ U eine lokaleMaximalstelle in x (bzw. Minimalstelle in x), falls ein δ > 0 existiert mit

f(y) ≤ f(x) (bzw. f(y) ≥ f(x)),

für alle y ∈ B(x, δ)\{x}. Gilt sogar

f(y) < f(x) (bzw. f(y) > f(x)),

für alle y ∈ B(x, δ)\{x}, so heißt x eine isolierte (oder strikte) Maximumalstelle (bzw.Minimalstelle). Statt von Maximal- oder Minimalstelle spricht man auch von Extrem-stellen.

Wie in Analysis 1 spielt die (totale) Ableitung eine wesentliche Rolle, um Extremstellenzu finden:

Satz 11.2.2. (Notwendige Bedingung für Extremstellen)Sei eine Abbildung f : Rn ⊇ U → R differenzierbar. Ist x ∈ U eine lokale Extremstelle,so ist f ′(x) = 0.

Beachte: Da f ′(x) ein Zeilenvektor ist, bedeutet 0 natürlich den Nullvektor. Mit denErgebnissen des letzten Abschnittes heißt das, dass in x alle partiellen Ableitungen 0sind. Das lässt sich ganz einfach wie in Analysis 1 untersuchen.

Beispiel. Zum Spaß berechnen wir mal die Ableitung der Abbildung f(x1, x2) = x21 +x2

2

(die rotierte Parabel) und probieren den Satz aus. Weil die partiellen Ableitungen stetigsind, existiert die totale Ableitung und hat als Einträge die partiellen Ableitungen:

f ′(x1, x2) = (2x1, 2x2).

Page 58: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 56

Die notwendige Bedingung ist also, dass beide Einträge null ergeben, also kann eineExtremstelle nur in (0, 0) liegen. Aus der Theorie wissen wir noch nicht, dass (0, 0) eineExtremstelle ist, geschweige denn, ob es eine Maximal- oder Minimalstelle ist. Weil wirden Graphen jedoch kennen, wissen wir hier schon, dass (0, 0) eine Minimalstelle ist. DieTheorie dafür (zweite Ableitung) entwickeln wir im Folgenden.

Beweis. Wir definieren die reelle Hilfsfunktion hv(t) = f(x+ t · v) für einen Richtungs-vektor v ∈ Rn („Graphen in Richtung v schneiden“), die in einem offenen Intervall um 0definiert ist (x+ tv muss in U liegen damit h definiert ist). Es gilt h′v(0) = 0 weil x eineExtremstelle für die Abbildung f (also auch in alle Richtungen) ist. Damit gilt

Dvf(x)Def.= lim

t→0

f(x+ tv)− f(x)

t= lim

t→0

hv(t)− hv(0)

t= h′v(0) = 0

und somit ist die Richtungsableitung in jede beliebige Richtung Null. Damit gilt

0 = Dvf(x) = f ′(x) · v

und somit muss, wähle x = ei für alle i = 1, ..., n, f ′(x) = 0 gelten.

Eine notwendige Bedingung für eine lokale Extremstelle ist also Ableitung null. Demgeben wir wie im eindimensinalen den gewohnten Namen:

Definition 11.2.3. Für eine Abbildung f : Rn ⊇ U → R heißt x ∈ U kritische Stelle,falls f ′(x) = 0.

Wie im eindimensionalen wollen wir verstehen, ob es sich um ein Maximum oder einMinimum handelt. Es wird nicht überraschen, dass wir also die zweite Ableitung insn-dimensionale verallgemeinern müssen.

Definition 11.2.4. (Höhere partielle Ableitungen)Ist f : Rn ⊇ U → Rm an jeder Stelle partiell nach xi differenzierbar und die Abbildung

∂xif : U → Rm

partiell nach xj differenzierbar, dann schreibt man

∂xj

∂xif(x) =

∂xj

( ∂

∂xif)

(x)

oder ∂2

∂xj∂xif(x) oder ∂j∂if(x). Induktiv definiert man die partielle Ableitung k-ter Ord-

nung (oder einfach kte partielle Ableitung) als ∂k

∂xi1 ...∂xikf(x), wir werden damit aber

nicht viel machen.

Zu beachten ist, dass es keinen Grund zur Angst gibt. Da partielle Ableitungen wie inAnalysis 1 funktionieren, müssen wir also erst nach der Variablen xi und dann nach derVariablen xj ableiten (von rechts nach links die ∂xk durchgehen). Easy! Zum Beispiel

∂2

∂x1∂x1(x2

1 + x22) =

∂x12x1 = 2.

Page 59: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 57

oder

∂2

∂x1∂x2(x2

1 + x22) =

∂x12x2 = 0.

Noch ein Beispiel: f(x1, x2) =

(x1x2

x22

), dann gelten

∂x1f(x1, x2) =

(x2

0

)∂

∂x2f(x1, x2) =

(x1

2x2

)f ′(x1, x2) =

d

dxf(x1, x2) =

(x1 x2

0 2x2

)∂2

∂x1∂x2f(x1, x2) =

(10

)∂2

∂x2∂x1f(x1, x2) =

(10

)∂2

∂x1∂x1f(x1, x2) =

(00

)∂2

∂x2∂x2f(x1, x2) =

(02

)Vorlesung 14

Definition 11.2.5. (Ck Räume in Rn)Sei k ∈ N, so definiert man für eine offene Menge U ⊆ Rn den Raum der k-fach partielldifferenzierbaren Abbildungen als

Ck(U,Rm)

= {f : U → Rm | alle partiellen Abl. bis zur k-ten Ordnung existieren und sind stetig}.

An dem Beispiel sehen wir eine nützliche Symmetrie:

∂2

∂x1∂x2f(x1, x2) =

∂2

∂x2∂x1f(x1, x2) (11.3)

Wenn das immer gelten würde, könnten wir alle zweiten partiellen Ableitungen vielschneller berechnen. Leider gilt (11.3) nicht immer, wie folgendes Gegenbeispiel zeigt.Für die Abbildung

f(x1, x2) =

x1x2

x21−x22x21+x22

:

(x1

x2

)6=

(0

0

)

0 :

(x1

x2

)=

(0

0

)

gilt ∂2

∂x2∂x1f(0, 0) 6= ∂2

∂x1∂x2f(0, 0). Zum Glück ist dies ein besonders blödes Beispiel und

normalerweise gilt (11.3) schon:

Page 60: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 58

Satz 11.2.6. (Satz von Schwarz zur Vertauschung partieller Ableitungen)Ist U ⊆ Rn eine offene Menge und eine Abbildung f ∈ C2(U,Rm), dann gilt

∂2

∂xi∂xjf(x) =

∂2

∂xj∂xif(x),

für alle x ∈ U und i, j = 1, ..., n.

Das Gegenbeispiel zuvor zeigt, dass die Stetigkeit der zweiten partiellen Ableitungenwirklich gefordert werden muss.

Beweis. Leider ist der Beweis ein ziemlicher Indexsalat. Ohne Beschränkung der Allge-meinheit kann angenommen werden, dass m = 1 gilt (sonst die totale Ableitung auf dieKoordinatenableitungen f1, ..., fm reduzieren). Per Definition der partiellen Ableitungengilt

∂xjf(x) = lim

t→04tjf(x) (11.4)

mit 4tjf(x) =

f(x+t·ej)−f(x)t . Nochmal einsetzen gibt

4si

(4tjf)(x) =

4tif(x+ s · ei)−4t

jf(x)

s

und damit

lims→0

limt→04si (4t

jf)(x) = lims→0

limt→04tjf(x+ s · ei)− lim

t→04tjf(x)

s

= lims→0

∂∂xj

f(x+ s · ei)− ∂∂xj

f(x)

sDef.=

∂xi

( ∂

∂xjf)

(x)

=∂2

∂xi∂xjf(x)

und somit folgt

lims→0

limt→04si (4t

jf)(x) =∂2

∂xi∂xjf(x). (11.5)

Linearität der partiellen Ableitungen gibt auch

∂xi4tjf(x) =

( ∂∂xif)(x+ t · ej)− ( ∂

∂xif)(x)

t= 4t

j

( ∂

∂xif)

(x). (11.6)

Ist eine Abbildung g : Rn → R differenzierbar, so existiert ein α ∈ (0, 1) mit

g(x+ s · ei)− g(x)

s=

∂xig(x+ αs · ei). (11.7)

Page 61: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 59

Durch die bisher gezeigten Eigenschaften folgt

4si (4t

jf)(x)(11.7)

=∂

∂xi(4t

jf)(x+ α1s · ei)

(11.6)= 4t

j

( ∂

∂xif)

(x+ α1s · ei)

(11.7)=

∂xj

( ∂∂xi

f)

(x+ α1s · ei + α2t · ej)

und daher gilt

4si (4t

jf)(x) =∂

∂xj(∂

∂xif)(x+ α1s · ei + α2t · ej). (11.8)

Nach Voraussetzung sind die partiellen Ableitungen stetig und es gilt:

∂xi

∂xjf(x)

(11.5)= lim

s→0limt→04si4t

jf(x)

(11.8)= lim

s→0limt→0

∂xj

∂xif(x+ α1s · ei + α2t · ej)

stetig= lim

s→0

∂xj

∂xif(x+ α1s · · · ej)

stetig=

∂xj

∂xif(x)

Definition 11.2.7. Sei f ∈ C2(U,R) mit U ⊆ Rn.

1. Für x ∈ U ist die zweite Ableitung die Bilinearform

f ′′(x) : Rn × Rn → R, (v, w) 7→n∑

i,j=1

∂2

∂xi∂xjf(x)viwj .

2. Ist m = 1, so wird die Hessematrix als

Hess f(x) =

∂2

∂x1∂x1f(x) . . . ∂2

∂x1∂xnf(x)

......

∂2

∂xn∂x1f(x) . . . ∂2

∂xn∂xnf(x)

definiert.

Bemerkung 11.2.8. Nach dem Satz von Schwarz ist die Hessematrix symmetrisch.

Proposition 11.2.9. (Zweite Ableitung vs. Richtungsableitung)Sei f ∈ C2(U,R), wobei U ⊆ Rn und v ∈ Rn ein Richtungsvektor, dann gilt für hv(t) =f(x+ t · v) und x ∈ U , dass

h′′v(t) = f ′′(x+ t · v)(v, v).

Da konkav/konvex (man denke an eine Satelitenschüssel) natürlich auch etwas mit kon-kav/konvex aller Richtungsabbildungen hv zu tun haben wird (und nach Ana 1 hat daswas mit der zweiten Ableitung von hv zu tun), zeigt die Proposition, dass die zweiteAbleitung f ′′ etwas mit konkav/konvex zu tun haben wird.

Page 62: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 60

Beweis. Mit der Abbildung γ(t) = x+ v · t gilt

h′v(t) = (f ◦ γ)′(t)Ketten.

= f ′(γ(t)

)· γ′(t)

=

(∂

∂x1f(γ(t)

), . . . ,

∂xnf(γ(t)

))γ′1(t)...

γ′n(t)

=

n∑k=1

∂xkf(γ(t)

)vk

=n∑k=1

( ∂

∂xkf ◦ γ

)(t)vk.

Nochmal nach t ableiten gibt durch Verwendung der obigen Gleichung und Linearitätder Ableitung

h′′v(t) =

n∑k=1

( ∂

∂xkf ◦ γ

)′(t) vk

=

n∑k=1

( n∑i=1

∂xi

∂xkf(γ(t)

)vi

)vk

=

n∑k,i=1

∂2

∂xi∂xkf(x+ tv)vivk

Def.= f ′′(x+ t · v)(v, v).

Proposition 11.2.10. (Zweite Ableitung als Approximation zweiter Ordnung)Sei f ∈ C2(U,R) mit U ∈ Rn, dann gilt

limh→0

|f(x+ h)− f(x)− f ′(x)h− 12f′′(x)(h, h)|

|h|2= 0.

Beweis. Nach Taylor aus Analysis 1 (x = t, x0 = 0) gibt es für eine zweifach differen-zierbare Abbildung g ein s ∈ (0, t) mit

g(t) = g(0) + g′(0)t+g′′(s)

2t2. (11.9)

Erweitern gibt folgende Darstellung:

g(t)− g(0)− g′(0)t− g′′(0)t2

2= R(s)t2,

wobei R(s) = g′′(s)−g′′(0)2 . Die Formel wollen wir für unsere Lieblingsabbildung anwen-

den, den Richtungsschitt, diesmal in Richtung h. Mit g(t) = f(x + th) ist (siehe letzteProposition)

g′(t) = f ′(x+ th) · h =n∑i=1

∂xif(x+ th)hi

g′′(t) =

n∑i=1

n∑j=1

∂xj

∂xif(x+ th)hjhi

Def.= f ′′(x+ th)(h, h)

Page 63: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 61

und damit, nutze t = 1 in (11.9),

limh→0

∣∣∣f(x+ h)− f(x)− f ′(x) · h− 12f′′(x)(h, h)

∣∣∣|h|2

= limh→0

|∑n

i,j=1∂∂xj

∂∂xif(x+ sh)hjhi −

∑ni,j=1

∂∂xj

∂∂xif(x)hjhi|

|h|2

≤ limh→0

|h|2∑n

i,j=1 |∂∂xj

∂∂xif(x+ sh)− ∂

∂xj∂∂xif(x)|

|h|2

=n∑

i,j=1

limh→0

∣∣∣ ∂∂xj

∂xif(x+ sh)− ∂

∂xj

∂xif(x)

∣∣∣.Die rechte Seite ist 0 weil wir angenommen haben, dass f ∈ C2(U,R) ist und somit diezweiten partiellen Ableitungen stetig sind.

Es folgt ein Einschub mit nicht nummerierten Definitionen und Sätzen aus der LinearenAlgebra, welche für den weiteren Verlauf der Vorlesung wichtig sind. Dies ist nur eineWiederholung und wir verweisen auf Bücher der linearen Algebra für Beweise und mehrBeispiele.

Definition. Sind V,W K-Vektorräume, dann heißt die Abbildung

A : V ×W → R

Bilinearform, falls für alle λ1, λ2 ∈ K, v1, v2 ∈ V und w1, w2 ∈W gilt

A(λ1v1 + λ2v2, w1) = λ1A(v1, w1) + λ2A(v2, w1)

und

A(v1, λ1w1 + λ2 + w2) = λ1A(v1, w1) + λ2A(v1, w2).

Bemerkung. Wir behandeln hier nur den Fall, dass V = W = Rn.

Beispiel. Für ein Q ∈ Rn×n mit Q = (qij)i,j=1,...,n ist die Abbildung

AQ(v, w) = 〈v,Qw〉 =

n∑i,j=1

qijviwj

eine Bilinearform.

Ganz ähnlich wie bei linearen Abbildungen gibt es auch für Bilinearformen eine Matrix,so dass die allgemeine Bilinearform die einfache Form aus dem Beispiel annimmt.

Satz. Für jede Bilinearform A existiert eine darstellende Matrix Q ∈ Rn×n mit

A(v, w) := 〈v,QAw〉.

Die Matrix QA heißt darstellende Matrix der Bilinearform.

Page 64: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 62

Beispiel 11.2.11. Für eine Abbildung f ∈ C2(U,R) mit U ∈ Rn ist

f ′′(x)(v, w) =n∑

i,j=1

viwj∂2

∂xi∂xjf(x)

eine Bilinearform mit darstellender Matrix

Hessf(x) =

(∂2

∂xi∂xjf(x)

)i,j=1,...,n

.

Definition. Eine Bilinearform A : Rn × Rn → R heißt symmetrisch, falls

A(v, w) = A(w, v),

für alle v, w ∈ Rn.

Direkt einleuchtend ist natürlich der Zusammenhang von symmetrischen Bilinearformenund symmetrischen Matrizzen:

Proposition 11.2.12. Eine BilinearformA : Rn×Rn → R ist genau dann symmetrisch,wenn die darstellende Matrix Q symmetrisch ist.

Beweis. Einsetzen.

An dieser Stelle sehen wir die essentielle Bedeutung des Satzes von Schwarz: Ist f ∈C2(U,R), so ist die zweite Ableitung f ′′(x) eine symmetrische Bilinearform bzw. dieHessematrix ist symmetrisch.Die folgende Definition ist für unsere Wipäds vielleicht etwas schräg, in den Beweisenwird gleich aber sofort klar, warum Definitheit der zweiten Ableitung für die Untersuch-tung von Extreme total normal ist.

Definition. Eine Bilinearform A : Rn × Rn → R heißt

1. positiv definit, falls AQ(h, h) > 0 für alle h ∈ Rn\{0}.

2. negativ definit, falls AQ(h, h) < 0 für alle h ∈ Rn\{0}.

3. positiv semidefinit, falls AQ(h, h) ≥ 0 für alle h ∈ Rn\{0}.

4. negativ semidefinit, falls AQ(h, h) ≤ 0 für alle h ∈ Rn\{0}.

5. indefinit, wenn keine der obigen Eigenschaften zutrifft.

Wenig überraschend, die selbe Definition nun auch für die (darstellenden) Matrizzen:

Definition. Eine Matrix Q ∈ Rn×n heißt

1. positiv definit, falls 〈h,Qh〉 > 0 für alle h ∈ Rn\{0}.

2. negativ definit, falls 〈h,Qh〉 < 0 für alle h ∈ Rn\{0}.

3. positiv semidefinit, falls 〈h,Qh〉 ≥ 0 für alle h ∈ Rn\{0}.

4. negativ semidefinit, falls 〈h,Qh〉 ≤ 0 für alle h ∈ Rn\{0}.

Page 65: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 63

5. indefinit, wenn keine der obigen Eigenschaften zutrifft.

Beachte: Aufgrund der Defintion des Skalarprodukts sieht man oft die Form hTQh statt〈h,Qh〉.

Wegen der Verbindung von Bilinearform und darstellender Matrix A(h, h) = 〈h,Ah〉,ist also eine Bilinearform genauso definit wie ihre darstellende Matrix. Es gibt natürlichdirekt aus der Definition, dass Q positiv definit ist genau dann, wenn −Q negativ definitist.Um Extremstellen zu untersuchen, müssen wir gleich Definitheit der Hessematrix über-prüfen. Dafür ist es nützlich, ein Kriterium an der Hand zu haben. WICHTIG: DieBeweise zeigen gleich, dass genau die Definition der Definitheit uns Extremstellen er-klärt, äquivalente Formulierungen über Eigenwerte sind nur Werkzeuge unserer liebstenHilfswissenschaft - der linearen Algebra.Zunächst eine kleine Erinnerung, aus der auch wieder der Nutzen des Satzes von Schwarzklar wird:

Satz. Ist eine Matrix Q ∈ Rn×n symmetrisch, dann ist die Matrix diagonalisierbar, dasheißt es existiert eine orthogonale Matriz U ∈ Rn×n mit

U−1QU = diag(λ1, ...λn),

wobei λ1, . . . , λn die Eigenwerte der Matrix Q sind. Die Eigenwerte sind auch alle reell.

Nun zur Charakterisierung die wir wirklich nachrechnen können (charakteristischen Po-lynom und so....).

Satz. Eine symmetrische Matrix Q ∈ Rn×n ist

1. positiv definit, genau dann wenn alle Eigenwerte strikt positiv sind.

2. negativ definit, genau dann wenn alle Eigenwerte strikt negativ sind.

3. indefinit, wenn sie positive und negative Eigenwerte hat.

Definition. Eine führende Hauptminorante einer Matrix Q ∈ Rn×n ist die Determi-nante einer (n − k) × (n − k) Untermatrix, die entsteht, wenn die k letzten Zeilen undk letzten Spalten gestrichen werden.

Satz. Eine symmetrische Matrix Q ∈ Rn×n ist positiv definit genau dann, wenn alleführenden Hauptminoranten strikt positiv sind. Q ist negativ definit genau dann, wenndie Vorzeichen der führenden Hauptminoranten alternieren.

Beispiel. Sei die Matrix

Q =

1 2 34 5 67 8 9

gegeben, dann gilt

det

(1 24 5

)= 5− 8 = −3 und det

(1)

= 1.

Somit ist die Matrix Q nicht positiv definit.

Page 66: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 64

Zusammenfassend: Wir haben diskutiert was Definitheit insbesondere der zweiten Ab-leitung bedeutet (sowohl als Bilinearform als auch als Hessematrix) und Kochrezeptekennengelernt, die uns erlauben, die Definitheit zu testen (ausprobieren, Aufgaben rech-nen!!!). Vorlesung 15Nun endlich zurück zur Analysis. Wir zeigen jetzt, warum Definitheit der Hessematrixuns Auskunft über Maximal- und Minimalstellen gibt. Das wird ganz analog zur zweitenAbleitung in der Analysis 1 sein.

Lemma 11.2.13. Ist f ∈ C2(U,R), U ⊆ Rn und x ∈ U , dann existiert für

λ = inf{f ′′(x)(h, h) : |h| = 1

}ein h ∈ Rn mit |h| = 1, sodass

λ = f ′′(x)(h, h).

In anderen Worten: Das Infimum ist ein Minimum.

Beweis. Die Menge∂B(0, 1) =

{h ∈ Rn : |h| = 1

}ist kompakt und die Menge {f ′′(x)(h, h) : h ∈ ∂B(0, 1)} ist das Bild unter der Abbildungf ′′(x)(h, h). Die Abbildung

∂B(0, 1)→ R, h 7→ f ′′(x)(h, h)Def.=

n∑i,j=1

hihj∂2

∂xi∂xjf(x)

ist stetig als Summe von Produkten stetiger Funktionen. Die Abbildung pi(h) = hi isteine Projektionsabbildung und somit stetig. Mit Satz 10.4.7 haben Bilder stetiger Ab-bildungen nach R ein Maximum beziehungsweise ein Minimum, wenn der Urbildbereichkompakt ist.

Satz 11.2.14. (Min/Max Kriterium)Ist f ∈ C2(U,R), wobei U ∈ Rn und x ∈ U , dann gelten:

1. Ist f ′(x) = 0 und f ′′(x) positiv definit, so hat f in x ein isoliertes lokales Minimum.

2. Ist f ′(x) = 0 und f ′′(x) negativ definit, so hat f in x ein isoliertes lokales Maxi-mum.

3. Ist f ′(x) = 0 und f ′′(x) indefinit, so hat f kein lokales Extremum in x. f hat in xeinen Sattelpunkt, d.h. sowohl ein lokales Minimum als auch ein lokales Maximumin verschiedene Richtungen.

Beweis. 1. Es muss gezeigt werden, dass ein δ > 0 existiert mit f(x) < f(y) für alle y ∈B(x, δ)\{x}. Sei dazu

λ = inf{f ′′(x)(h, h) : |h| = 1

}aus Lemma 11.2.13. Wegen des Lemmas ist λ > 0 weil nach Voraussetzung f ′′(x)(h, h) >0 für alle h ∈ Rn. Nun wird die folgende Abbildung definiert:

R : U → R, x 7→f(x+ v)− f(x)−

=0︷ ︸︸ ︷f ′(x)v−1

2f′′(x)(v, v)

|v|2

Page 67: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 65

Proposition 11.2.10 impliziert, dass limv→0

R(v) = 0 und somit gibt es für alle ε > 0 ein

δ = δ(v) > 0 mit |R(v)| < ε für alle v ∈ B(0, δ)\{0}. Daraus folgt

f(x+ v)− f(x)

|v|2=

1

2f ′′(x)

(v

|v|,v

|v|

)+R(v) ≥ 1

2λ− ε, ∀v ∈ B(0, δ)\{0}.

Sei ε = 14λ, dann gilt

f(x+ v)− f(x) ≥ |v|2 1

4λ > 0

für alle v 6= 0 mit |v| < δ(34λ).

2. Die Behauptung folgt aus 1. indem die Abbildung −f betrachtet wird. Man beachtehierbei, dass

(−f)′′(x) = −f ′′(x)

und eine Matrix Q negativ definit ist genau dann, wenn −Q positiv definit ist.3. Ist f ′′(x) indefinit, so existiert v1, v2 ∈ Rn mit

i) f ′′(x)(v1, v1) > 0,

und

ii) f ′′(x)(v2, v2) < 0.

Mit Proposition 11.2.9 istf ′′(x)(v, v) = h′′v(0),

wobei hv(t) = f(x+ t · v) der Richtungsschnitt ist. Somit existiert eine Richtung h1, inder die Abbildung

g1 : R→ R, t 7→ f(x+ t · h1)

ein Minimum hat und eine Richtung h2 in der die Abbildung

g2 : R→ R, t 7→ f(x+ t · h2)

ein Maximum hat. Es kann angenommen werden, das die Abbildung f in x einen kri-tischen Punkt hat, welcher kein Minimum oder Maximum ist und somit liegt in x einSattelpunkt vor.

Beispiel 11.2.15. Wir führen eine Kurvendiskussion im Rn an der Abbildung

f : R2 → R, (x1, x2) 7→ x21 + x2

2

durch. Die partiellen Ableitungen existieren und stetig sind. Für die kritischen Punkte,muss die Bedingung

f ′(x1, x2) = (2x1, 2x2) = 0

erfüllt sein. Dies trifft nur auf den Punkt (0, 0) zu. Die Hessematrix der Abbildung f imPunkt (0, 0) ist gegeben durch

Hess f(x) =

(2 00 2

)und es gilt

Page 68: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 66

a) det(2)

= 2

b) det

(2 00 2

)= 4

Damit sind alle führenden Hauptminoren strikt positiv und die Hessematrix ist alsopositiv definit. Wir sehen natürlich auch sofort, dass der einzige Eigenwert 2 > 0 ist.Nach dem Satz gibt es nur mögliche Extremstelle und diese ist ein Minimum.

Definition 11.2.16. Eine Menge U ⊆ Rn heißt konvex, falls für alle a, b ∈ U gilt, dassSa,b ⊆ U .

Beispiel. B(0, 1) ist konvex. Warum?

Definition 11.2.17. Sei die Menge U ⊆ Rn konvex und f : U → R eine Abbildung.

1. Die Abbildung f heißt konvex, falls für alle a, b ∈ U gilt

f((1− t)a+ tb

)≤ (1− t)f(a) + tf(b),

für alle t ∈ (0, 1).

2. Die Abbildung f heißt konkav, falls für alle a, b ∈ U gilt

f((1− t)a+ tb

)≥ (1− t)f(a) + tf(b),

für alle t ∈ (0, 1).

Satz 11.2.18. (Konvexität)Ist U ∈ Rn eine konvexe Menge und f ∈ C2(U,R), dann sind folgende Aussagen äqui-valent:

1. Die Abbildung f ist konvex in der Menge U .

2. f ′′(x) ist positiv semidefinit für alle x ∈ U .

Bemerkung 11.2.19. Indem die Abbildung g := −f betrachtet wird, gilt: f ist einekonkave Abbildung in U genau dann, wenn f ′′(x) negativ semidefinit ist für alle x ∈ U .

Beweis von Satz 11.2.18. Um die Aussagen zu beweisen, werden die Äquivalenzen fol-gender vier folgenden Aussagen gezeigt:

i) f ist eine konvexe Abbildung in der Menge U .

ii) Es gilt f(y) ≥ f(x) + f ′(x) · (y − x) für alle x, y ∈ U.

iii) Es gilt(f ′(y)− f ′(x)

)· (y − x) ≥ 0 für alle x, y ∈ U.

iv) Es gilt f ′′(x) ist positiv semidefinit für alle x ∈ U.

Wir betrachten die Hilfsfunktion

φ(t) := (1− t)f(x) + tf(y)− f((1− t)x+ ty

),

für x, y ∈ U und t ∈ [0, 1]. Dann gelten

Page 69: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 67

• φ(0) = φ(1) = 0

• φ(t) > 0, für alle t ∈ (0, 1) genau dann, wenn die Abbildung f konvex ist.

• φ′(t) = f(y)− f(x)− f ′((1− t)x+ ty) · (y − x).Vorlesung 16

i)→ ii): Weil wir Konvexität annehmen, ist φ positiv. Weil zusätzlich φ(0) = 0 ist φ bei0 wachsend, d.h. limt→0 φ

′(t) > 0, mit obiger Ableitung gilt also

0 ≤ limt→0

φ′(t)

= limt→0

(−f(x) + f(y)− f ′((1− t)x+ ty) · (y − x))

= −f(x) + f(y)− f ′(x) · (y − x).

Auflösen gibt die Behauptung.ii)→ iii): Aufgrund der Voraussetzung gelten

f(y) ≥ f(x) + f ′(x) · (y − x) und f(x) ≥ f(y) + f ′(y) · (x− y).

Die Aussage ist gezeigt, indem die beiden Ungleichungen addiert werden.iii) → i): Wir starten mit einer kleinen Hilfsrechnung. Für 0 < t1 < t2 < 1 gilt durchdas Ableiten der Hilfsfunktion

φ′(t1)− φ′(t2) =(f ′((1− t2)x+ t2y

)− f ′

((1− t1)x+ t1y)

)· (y − x),

was mit der Abkürzungx(t) := (1− t)x+ ty

gerade (ausklammern und kürzen)

φ′(t1)− φ′(t2) =(f ′(x(t2)

)− f ′

(x(t1)

))·(x(t2)− x(t1)

t2 − t1

)gibt. Wegen iii) ist die rechte Seite positiv, also gilt φ′(t2) ≤ φ′(t1) für alle t1 < t2,also ist φ′ fallend. Angenommen, f ist nicht konvex. Dann gibt es also ein s ∈ (0, 1)mit φ(s) < 0. Weil φ(0) = φ(1) = 0 gilt, muss also φ eine Minimalstelle haben. Da φlinks von einer Minimalstelle fällt und rechts von der Minimalstelle wächst, gibt es alsot1 < t2 mit φ′(t1) < 0 < φ′(t2). Aber das ist ein Widerspruch, weil φ′ fallend ist.iv)→ ii): Es wird die Gleichung (11.9) wie in dem Beweis vom Satz 11.2.10 verwendetmit

• g(t) = f(x+ th)

• h = y − x

• t = 1

Weil g′(t) = f ′(x+ t(y − x)) · (y − x) und g′′(0) = f ′′(x)(h, h) ≥ 0 nach Voraussetzungiv) gilt, bekommen wir

f(y) ≥ f(x) + f ′(x) · (y − x) ≥ f(x) + f ′(x) · (y − x).

Das wollten wir zeigen.ii)→ iv): Für die Abbildung

g : U → R, y 7→ f(y)− f(x)− f ′(x) · (y − x)

gilt:

Page 70: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

11.2. HÖHERE ABLEITUNGEN UND FOLGERUNGEN 68

• g(y) ≥ 0 (wegen ii)

• g(x) = 0

• g′′(x) = f ′′(x)

Somit hat die Abbildung g im Punkt x eine Minimalstelle. Auf dem Übungsblatt zeigenwir, dass Minimalstelle von g in x impliziert, dass g′′(x) positiv definit ist. Folglich istf ′′(x) positiv definit.

Beispiel. Es wird die Abbildung

f : R2 → R, (x1, x2) 7→ x21 + x2

2,

betrachtet, dann gilt

Hess f(x1, x2) =

(2 00 2

)und somit ist die Abbildung f konvex im R2.

Page 71: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

Kapitel 12

Lebesgue Integration in Rd (und R)

Ziel dieses Kapitels ist es, die Integration von Funktionen f : Rd → R einzuführen.Wie vielleicht aus der Schule bekannt, ist das Integral für eindimensionale Funktionen -zumindest bei positiven Funktionen - der Flächeninhalt zwischen der x-Achse und demGraphen. Dies wird im Rd genau analog sein, wir müssen nur etwas entspannter mit derVorstellung von „Inhalt“ umgehen. Integrale im Rd auszurechnen ist komplizierter als inR, daher werden wir am Ende ganz ausführlich nochmal den Spezialfall R behandelnund die üblichen Regeln wie Substitution, partielle Integration und insbesondere denHauptsatz der Analysis diskutieren.

12.1 Treppenfunktionen

Die grundsätzliche Idee jeder Integration ist Funktionen durch „einfache“ Funktionenzu approximieren, für die es einfach ist etwas wie den „Flächeninhalt“ zu definieren.Ohne verwirren zu wollen, soll hier bemerkt werden, dass das Konzept der „einfachen“Funktionen bei Lebesgue- und Riemann Integration unterschiedlich ist.

Definition 12.1.1. Ein Quader in Rd ist ein d-faches Produkt von Intervallen:

Q = I1 × · · · × Id ={x ∈ Rd

∣∣ x1 ∈ I1, . . . , xn ∈ Id}⊆ Rd.

Die Intervalle dürfen die Ränder enthalten oder nicht, sie dürfen aus nur einem Punktbestehen, z.B. Ii = [a, a] = {a}, und die Intervalle müssen nicht beschränkt sein, z.b.Ii = (−∞, a).

Zum Integrieren brauchen wir das „Volumen“ der Quader:

Definition 12.1.2. Das Produkt der Längen der Intervalle Ii (d.h. |bi − ai| wenn aiund bi die Randpunkte sind) nennen wir Volumen des Quaders und schreiben dafürµ(Q). Beachte: Wir setzen dabei ∞ · 0 = 0 und ∞ · c = ∞ für jedes c ∈ R ohne dabeidem Symbol ∞ eine Bedeutung zu geben. Dies tritt auf, wenn eines der Intervalle nichtbeschränkt ist. Wir sagen Q hat endliches Volumen oder µ(Q) < ∞ wenn µ(Q) ∈ R,und Q hat unendliches Volumen wenn µ(Q) =∞.

Eine der größten Schwierigkeiten beim Verstehen der Lebesgue Integration sind soge-nannte Nullmengen. Das liegt daran, dass das Integral von Funktionen sich nicht ändernwird, wenn sich die Funktion auf sehr kleinen Mengen ändert. Insbesondere wird daraus

69

Page 72: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.1. TREPPENFUNKTIONEN 70

die Schwierigkeit entstehen, eine sinnvolle Norm durch Integrale zu definieren weil dieDefinitheit von Normen Probleme bereiteten wird. Definieren wir erstmal, was kleineMengen sein sollen:

Definition 12.1.3. Eine Teilmenge A ⊆ Rd heißt Nullmenge, wenn es für jedes ε > 0abzählbar viele Quader Q1, ... gibt mit

A ⊆∞⋃k=1

Qk und∞∑k=1

µ(Qk) < ε. (12.1)

Beispiel 12.1.4. Als konkretes Beispiel ist jeder Quader eine Nullmenge, wenn eines derIntervalle Länge null hat, d.h. Ii = [a, a] für ein i ∈ {1, . . . n}. Ganz konkret im R2

sind Geraden parallel zu den Achsen solche Nullmengen. Allgemeiner sind auch endlicheVereinigungen von Quadern ohne Volumen (d.h. µ(Q) = 0) Nullmengen.Etwas komplizierter geht das selbe auch mit abzählbaren Vereinigungen Nullmengensind Nullmengen.

Lemma 12.1.5. Höchstens abzählbare Vereinigungen von Nullmengen sind Nullmen-gen.

Beweis. Sei A = ∪∞i=1Ai eine höchstens abzählbare Vereinigung von Nullmengen undε > 0. Für jedes Ai gibt es eine Folge von Quadern (Qi,j)j∈N, die Ai enthalten und∑∞

j=1 µ(Qi,j) < ε2−i erfüllen. Da abzählbare Vereinigungen von höchstens abzählbarenMengen wieder abzählbar sind (Ana 1, Diagonalargument) sind all diese Quader zusam-men eine abzählbare Überdeckung von A. Desweiteren gilt

∑∞i,j=1 µ(Qi,j) <

∑∞i=1 ε2

−i =

ε, wobei wir den expliziten Wert der geometrischen Reihe∑∞

i=1 qk = 1

1−q für q = 12 ge-

nutzt haben (beachte Startindex!). Damit haben wir für A eine Überdeckung mit denEigenschaften 12.1 gefunden.

Nun wollen wir die einfachen Funktionen definieren.

Definition 12.1.6. 1. Die Indikatorfunktion 1A (auch charakteristische Funktiongenannt) einer Menge A ⊂ Rd ist definiert als

1A(x) =

{1 : x ∈ A0 : x /∈ A

.

2. Eine Treppenfunktion (auch einfache Funktion genannt) ist eine endliche Linear-kombination von Indikatorfunktionen von endlichen Quadern, d.h.

f(x) =

n∑k=1

αk1Qk(x), x ∈ Rd,

wobei αk ∈ R und Qk Quader mit µ(Qk) <∞ sind. Die αk werden auch Höhe derTreppenfunktion auf Qk genannt.

Vorlesung 17Eine kleine aber nützliche Bemerkung: Die konstanten α dürfen auch den Wert 0 an-nehmen. Wir können also auch mehr Quader dazunehmen, ohne die Treppenfunktion zuändern! Es ist auch sinnvoll zu bemerken, dass Indikatorfunktionen und einfache Funk-tionen zwar zum integrieren toll sein werden, ansonsten aber eher lässtig sind. Sie sindnicht stetig, geschweige denn differenzierbar!

Page 73: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.1. TREPPENFUNKTIONEN 71

Die Definition einer Treppenfunktion garantiert natürlich nicht, dass die Quader disjunkt(d.h. Qi ∩ Qj = ∅ für i 6= j) sind. Weil dies zum integrieren wichtig sein wird, zeigenwir zunächst, dass eine Treppenfunktion immer so umgeschrieben werden kann. KleinesBeispiel zum Verständniss:

f = 21[1,3] + 31[2,4)

= 21[1,2) + 51[2,3] + 31(3,4],

aber die gleiche Aussage gilt auch allgemein:

Proposition 12.1.7. 1. Vereinigungen endlich vieler Quader lassen sich in Vereini-gungen endlich viele paarweise disjunkte Quader zerlegen.

2. Jede Treppenfunktion ist eine endliche Linearkombination von Indikatorfunktionenvon paarweise disjunkten endlichen Quadern.

Beweis. 1. Für die endlich vielen Intervalle I1, . . . , Ik, die endliche Vereinigung der Qua-der generieren, ordnen wir alle endlichen Intervallgrenzen der Reihe nach an: −∞ ≤x1 < . . . xm ≤ +∞. Dadurch erhalten wir eine Zerlegung

R = (−∞, x1) ∪ {x1} ∪ (x1, x2) ∪ {x2} ∪ ...{xm} ∪ (xm,+∞) (12.2)

von R in endlich viele paarweise disjunkte Intervalle. Aus diesen diskunkten Intervallenlässt sich Q = ∪Qi generieren. Weil zwei kartesische Produkte Q1 = I1

1 × · · · × I1d und

Q2 = I21 × · · · × I2

d disjunkt sind wenn I1j und I2

j für ein j ∈ {1, ..., d}, sind wegen 12.2diese Quader disjunkt.

2. folgt direkt aus 1.

Wir definieren nun das Integral („Flächeninhalt“) für Treppenfunktionen:

Definition 12.1.8. 1. Für Indikatorfunktionen von Quadern definieren wir das In-tegral als

∫Rd 1Q(x) dx = µ(Q). Das Integral eines Indikators ist also das Volumen

des zugehörigen Quaders.

2. Ist f =∑n

k=1 αk1Qk eine Treppenfunktion, so definieren wir das Integral von f als∫Rdf(x) dx =

n∑k=1

αkµ(Qk).

Statt∫Rd f(x) dx schreibt man auch

∫Rd f(x)µ(dx).

Beachte: Für R (bzw. R2) und f ≥ 0 ist das Integral einer Treppenfunktion tatsächlichnichts als der Flächeninhalt (bzw. das bekannte Volumen) von Quadern zwischen derx-Achse (bzw. xy-Ebene) und dem Graphen. Wie in der Schule zählen negative Wertevon f negativ.

Damit die Definition des Integrals wohldefiniert (sinnvoll) ist, darf das Integral natür-lich nicht von der Darstellung der Treppenfunktion durch verschiedene Quader abhän-gen. Wie sollte das Integral sonst definiert werden? Zum Glück ist das Integral aberunabhängig von der Darstellung:

Page 74: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.1. TREPPENFUNKTIONEN 72

Proposition 12.1.9. Sei f eine Treppenfunktion mit zwei Darstellungen

f =l∑

j=1

αj1Qj =k∑j=1

βj1Rj ,

dann gilt ∫Rdf(x) dx =

l∑j=1

αjµ(Qj) =

k∑j=1

βjµ(Rj).

Bevor wir die Aussage beweisen, schauen wir das Beispiel von oben an. Darin gilt∫Rdf(x) dx = 2µ([1, 3]) + 3µ([2, 4]) = 8 = 2µ([1, 2)) + 5µ([2, 3]) + 3µ((3, 4]),

also geben beide Darstellungen von f nicht nur dieselbe Funktion sondern auch das selbeIntegral.

Beweis. Der Beweis basiert auf dem Beweis von Proposition 12.1.7 und basiert auf fol-gendem wesentlichen Fakt: Sind P , P1 und P2 Quader mit P = P1∪P2 und P1∩P2 = ∅,so gilt immer

µ(P ) = µ(P1) + µ(P2). (12.3)

Induktiv gilt das selbe für endlich viele Quader. Wie in dem Beweis von Proposition12.1.7 definiert gibt es endlich viele paarweise disjunkte Quader Pk, k = 1, ...,m, so dassalle Qj und Rj sich als disjunkte Vereinigungen von solchen Quadern schreiben lassen.Es gilt damit ∑

j:Qj⊇Pi

αj =∑

j:Rj⊇Pi

βj (12.4)

weil beide Seiten der Gleichung nichts anderes sind als f(x) für alle x ∈ Pk. Mit 12.3und 12.4 gilt also

l∑j=1

αjµ(Qj) =l∑

j=1

αj∑

i:Pi⊆Qj

µ(Pi)

=

m∑i=1

∑j:Qj⊇Pi

αjµ(Pi)

=m∑i=1

∑j:Rj⊇Pi

βjµ(Pi)

=k∑j=1

βj∑

i:Pi⊆Rj

µ(Pi) =k∑j=1

βjµ(Rj)

Damit ist das Integral einer Treppenfunktion unabhängig von der Darstellung durchverschiedene Quader.

Bemerkung 12.1.10. Mit punktweisen Operationen ist die Menge der Treppenfunk-tionen ein Vektorraum (warum eigentlich?). Die Abbildung f 7→

∫Rd f(x)dx ist eine

lineare Abbildung von dem Vektorraum der Treppenfunktionen nach R.

Page 75: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.1. TREPPENFUNKTIONEN 73

Eine einfache aber extrem wichtige Eigenschaft ist die Monotonie des Integrals:

Proposition 12.1.11. Seien f und g Treppenfunktionen mit f ≤ g, dann gilt auch∫Rdf(x)dx ≤

∫Rdg(x)dx.

Beachte: f ≤ g bedeutet f(x) ≤ g(x) für alle x ∈ Rd.

Beweis. Wir wählen wieder eine Menge von disjunkten Quadern Pk, k = 1, . . . ,m, sodass sich alle Quader in den Darstellung von f und g durch die Pk darstellen lassen.Auf jedem Quader ist g größer (oder gleich) f und damit folgt die Behauptung aus derDefinition.

Im Folgenden benutzen wir nicht nur das Volumen von Quadern sondern auch das „Vo-lumen“ von endlichen Vereinigungen disjunkter Quader. Wir nutzen auch die Notationµ:

Definition 12.1.12. Sind Q1, Q2, . . . abzählbar viele paarweise disjunkte Quader, sodefinieren wir

µ( n⋃k=1

Qk

)=

n∑k=1

µ(Qk)

und

µ( ∞⋃k=1

Qk

)=∞∑k=1

µ(Qk).

Im unendlichen Fall kann die rechte Seite natürlich unendlich sein. Weil der BegriffVolumen nicht mehr so schön passt (und weil man es allgemeiner so nennt), sprechenwir auch vom Maß der Vereinigung der Quader statt vom Volumen.

Weil für disjunkte Mengen A und B immer 1A∪B = 1A + 1B gilt (warum?), gilt alsoauch wegen der Linarität für disjunkte Quader

µ(∪nk=1Qk) =n∑k=1

µ(Qk) =n∑k=1

∫Rd

1Qk(x)dx =

∫Rd

n∑k=1

1Qk(x)dx =

∫Rd

1∪nk=1Qk(x)dx.

Solche kleinen Spielereien mit Mengen, Indikatoren und Integralen (es gilt zum Bei-spiel auch 1A∩B = 1A · 1B) werden uns jetzt ständig beschäftigen. Und wenn ihr erstStochastik 1 und Stochastik 2 hört....!Zum Schluss des Kapitels verbinden wir noch Treppenfunktionen mit Nullmengen: Mankann mit Treppenfunktionen Nullmengen wie folgt charakterisieren. Nett an folgenderProposition ist, dass wir genau sehen, was eigentlich Nullmengen sind. Wenn wir ehrlichsind, ist das aber ein wenig gelogen. Im Beweis sehen wir, dass wir eigentlich nur dieDefinition der Nullmenge etwas umformulieren.

Proposition 12.1.13. Für jede Nullmenge A ⊆ Rd gibt es eine monoton wachsen-de Folge (fn)n∈N von Treppenfunktionen mit konvergenter Folge von Integralen, d.h.limn→∞

∫Rd fn(x)dx existiert, so dass

A ⊆M :={x ∈ Rd

∣∣ Die Folge (fn(x))n∈N konvergiert nicht.}

Page 76: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.2. EIN PAAR TECHNISCHE LEMMAS DIE IMPLIZIT MAßTHEORIE NUTZEN, OBWOHL WIR EXPLIZIT MAßTHEORIE VERMEIDEN WOLLEN!74

Beweis. Weil A eine Nullmenge ist gibt es für jedes k ∈ N eine Überdeckung von Adurch abzählbar viele Quader mit „Gesamtvolumen“

∑∞i=1 µ(Qki ) < 2−k. Da abzählbare

Vereinigungen abzählbarer Mengen wieder abzählbar sind, seiQ1, Q2, . . . eine Abzählungall dieser Quader. Wir definieren

fk =

k∑i=1

1Qi , k ∈ N,

und bemerken, dass jedes x ∈ A zu unendlich vielen der Quader gehört (x gehörte zujeder Überdeckung). Folglich divergiert die Folge (fn(x))n∈N für alle x ∈ A und es giltA ⊆M . Schlussendlich müssen wir die Integrale beschränken: Es gilt, für alle n ∈ N,∫

Rdfn(x)dx =

∫Rd

n∑k=1

1Qk(x)dx

=

n∑k=1

∫Rd

1Qk(x)dx

=

n∑k=1

µ(Qk)

<

∞∑k=1

∞∑i=1

µ(Qki )

<

∞∑k=1

2−k = 1.

Damit ist die Folge der Integrale beschränkt und wir erinnern uns zum Glück an Ana 1:Beschränkte monotone Folgen konvergieren!

Wichtig wird später die Umkehrung des Satzes sein.Ein Integral nur für Treppenfunktionen ist natürlich langweilig (was ist dann das Inte-gral vom Cosinus?). Also müssen wir im nächsten Schritt die Menge der Integranden(also der Menge der Funktionen, für die das Integral definiert wird) vergrößern. Weilwir die Monotonie des Integrals gerade gezeigt haben, ist es nützlich, die Monotonieauch zu nutzen. Die Grundidee ist es, Funktionen durch Treppenfunktionen anzunähernund dann das Integral als Grenzwert der Integrale der Treppenfunktionen zu definieren.Dies wird gut funktionieren, nötigt uns zunächst aber einiges an fieser Arbeit ab. ZweiFragen sind dabei essentiell: Welche Funktionen kann man durch Treppenfunktionenapproximieren? Ist das Integral dann unabhängig von der approximierenden Folge vonTreppenfunktionen?

12.2 Ein paar technische Lemmas die implizit Maßtheo-rie nutzen, obwohl wir explizit Maßtheorie vermeidenwollen!

Wir quälen uns zunächst mit einem wirklich fiesen Lemma, in dem einige Ideen derMaßtheorie genutzt werden, die wir in Ana 2 nicht tiefer thematisieren wollen. NächstesSemester könnt ihr das zum Glück in der Vorlesung Maß- und Integrationstheorie abernachholen! Vorlesung 18

Page 77: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.2. EIN PAAR TECHNISCHE LEMMAS DIE IMPLIZIT MAßTHEORIE NUTZEN, OBWOHL WIR EXPLIZIT MAßTHEORIE VERMEIDEN WOLLEN!75

Proposition 12.2.1. (Monsterproposition)Sei (fn)n∈N eine monoton wachsende Folge von Treppenfunktionen für die der Grenzwertlimn→∞

∫Rd fn(x)dx existiert. Dann ist

M :={x ∈ Rd | Die Folge (fn(x))n∈N konvergiert nicht.

}eine Nullmenge in Rd.

Beweis. Sei δ > 0 und L eine obere Schranke der Menge{∫Rd

(fn(x)− f1(x)) dx∣∣∣ n ∈ N

}.

Diese existiert wegen der Linearität des Integrals für Treppenfunktionen. Nun definierenwir mit

Sn,δ ={x ∈ Rd

∣∣∣ fn(x)− f1(x) ≥ L

δ

}, n ∈ N,

eine monoton wachsende Folge (d.h. Sn,δ ⊆ Sm,δ für n ≤ m) von endlichen Vereinigungenvon Quadern. Die Monotonie ist klar und Sn,δ sind endliche Vereinigungen von Quadernweil alle fn−f1 Treppenfunktionen sind. Aus der Monotonie der Mengen (das hat nichtsmit der Definition der Sn,δ zu tun) folgt

Sδ ={x ∈ Rd

∣∣∣ Es gibt ein n ∈ N mit fn(x)− f1(x) ≥ L

δ

}=∞⋃n=1

Sn,δ

= S1,δ ∪∞⋃n=1

(Sn+1,δ\Sn,δ).

Weil das Komplement eines Quaders in einem anderen Quader eine disjunkte Vereinigungvon Quadern ist, ist die linke Seite eine abzählbare Vereinigung von disjunkten Quadern.Nach der Definition von Sn,δ ist

1Sn,δ(x) ≤ δ

L(fn(x)− f1(x)), x ∈ Rd.

Warum? Ist x ∈ Sn,δ, so ist die linke Seite 1 und die rechte Seite aufgrund der Definitionvon Sn,δ größer oder gleich 1. Ist x /∈ Sn,δ, so ist die linke Seite 0 und die rechte Seitepositiv weil f1 ≤ fn. Damit gilt aufgrund der Monotonie und der Linearität

µ(Sn,δ) =

∫Rd

1Sn,δ(x)dx ≤ δ

L

∫Rd

(fn − f1)(x)dx ≤ δ

LL = δ, ∀n ∈ N.

Wegen der Monotonie ist damit auch

µ(Sδ) = µ(S1,δ ∪

∞⋃n=1

(Sn+1,δ\Sn,δ))

= µ(S1,δ) +

∞∑n=1

µ(Sn+1,δ\Sn,δ)

= µ(S1,δ) + limn→∞

n∑k=1

µ(Sk+1,δ\Sk,δ)

= limn→∞

µ(Sn,δ)

≤ δ.

Page 78: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.2. EIN PAAR TECHNISCHE LEMMAS DIE IMPLIZIT MAßTHEORIE NUTZEN, OBWOHL WIR EXPLIZIT MAßTHEORIE VERMEIDEN WOLLEN!76

Weil (fk) monoton wächst, bedeutet „(fk(x)) konvergiert nicht“ automatisch, dass (fk(x))nach +∞ divergiert. Weil 1/δ beliebig groß ist für δ beliebig klein, gilt

M ={x ∈ Rd | (fn(x))n∈N ist unbeschränkt

}={x ∈ Rd

∣∣∣ Für alle δ > 0 gibt es ein n ∈ N mit fn(x)− f1(x) ≥ L

δ

}=⋂δ>0

{x ∈ Rd

∣∣∣ Es gibt ein n ∈ N mit fn(x)− f1(x) ≥ L

δ

}=⋂δ>0

⋃n∈N

Sn,δ

=⋂δ>0

Sδ ⊆ Sε,

für alle ε > 0. Weil Sε eine abzählbare Vereinigung von Quadern Q1, ... ist und (sieheDefinition 12.1.12)

∑∞i=1 µ(Qi) = µ(Sε) < ε gilt, ist die Definition der Nullmenge geprüft.

Definition 12.2.2. Man sagt, dass eine Eigenschaft A(x) fast überall (oder für fastalle x) gilt, falls das Komplement der Menge {x ∈ Rd | A(x) gilt} eine Nullmenge ist.

Wegen des Satzes ist unser erstes Beispiel für die neue Begrifflichkeit also folgendes: Ist(fk)k∈N eine monoton wachsende Folge von Treppenfunktionen für die Folge der Integralekonvergiert, so konvergiert fn(x) für fast alle x. In dem Beispiel des Satzes sieht mansofort anhand eines Beispiels, dass die Konvergenz nur fast überall gelten muss, jedochnicht für alle x ∈ Rd. Als konkretes Beispiel betrachtet man einfach fn = 1( 1

n,1] +n1{2}.

Die Folge konvergiert für x 6= 2, jedoch nicht für x = 2. Da die Menge {x} = [x, x]eine Nullmenge ist, passt der Satz. Die Krux an der Angelegenheit ist die Definition desIntegrals. Sobald ein Integral im Spiel ist, können wegen µ({x}) = 0 Änderungen aufNullmengen nicht mehr unterschieden werden. Obwohl die Funktionenfolge (fn) in demBeispiel unbeschränkt ist, gilt trotzdem

∫Rd fn(x)dx = 1− 1

n .

Nun kommen wir zur konkreten Vorbereitung des Lebesgue Integrals. Wir wollen folgen-des definieren: Eine Funktion f wird Lebesgue integrierbar heissen, falls es eine wach-sende Folge von Treppenfunktionen (fn) gibt, die fast überall gegen f konvergiert undfür die limn→∞

∫Rd fn(x)dx existiert. In dem Fall wird der Grenzwert das Integral von

f sein. Damit das ganze überhaupt Sinn macht, muss der Grenzwert unabhängig davonsein, welche gegen f konvergierende Folge von monoton wachsenden Treppenfunktionenman wählt. Das beweisen wir jetzt in mehreren Schritten.

Proposition 12.2.3. (Noch eine Monsterproposition)Sei (fn)n∈N eine monoton fallende Folge von Treppenfunktionen die fast überall gegen 0konvergiert. Dann gilt limn→∞

∫Rd fn(x)dx = 0.

Beweis. Zunächst bemerken wir, dass alle Integrale∫Rd fn(x)dx nicht-negativ sind. Sonst

müsste es nämlich einen Quader R mit positivem Volumen auf dem fn strikt negativ ist.Aber dann würde die Folge (fn(x)) für alle x ∈ R nicht gegen 0 konvergieren weil dieFolge (fn) monoton fällt.

Sei nun Q0 ein Quader der alle Quader der Treppenfunktionen f1, . . . enthält. Das funk-tioniert weil man für f1 solch einen Quader findet und dieser für alle anderen fn funk-

Page 79: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.2. EIN PAAR TECHNISCHE LEMMAS DIE IMPLIZIT MAßTHEORIE NUTZEN, OBWOHL WIR EXPLIZIT MAßTHEORIE VERMEIDEN WOLLEN!77

tioniert weil die Folge (fn) monoton fällt. Der Beweis funktioniert nun in etwa wie folgt:Es gibt zwei schlechte und einen guten Bereich des Definitionsbereichs:

• B, hier konvergiert die Folge gar nicht,

• A, hier können wir nicht nutzen, dass die fn in einer Umgebung konstant sind (dieVereinigung der Ränder der Quader),

• C := Q0\(A∪B), hier konvergieren alle (fn(x)) gegen 0 und alle fn sind konstantauf einer kleinen Umgebung um x

Zum Glück ist A ∪B eine Nullmenge und die Funktionenfolge ist hier durch

K := max{f1(x) | x ∈ Rd} <∞

beschränkt (man beachte, f1 ist eine harmlose Treppenfunktion). Weil A∪B eine Null-menge ist können wir für beliebiges ε > 0 eine Folge Q1, Q2, . . . von Quader finden (wirkönnen sogar annehmen, dass die Quader offen sind) mit

A ∪B ⊆∞⋃k=1

Qk und∞∑k=1

µ(Qk) < ε.

Jetzt folgt ein Kompaktheitsargument. Für jedes x ∈ C gibt es einen (kleinen) offenenQuader Rx mit x ∈ Rx, Rx ⊆ C und ein Nx ∈ N, so dass fn(y) < ε für alle n ≥ Nx undalle y ∈ Rx. Das liegt daran, dass die Folge (fn) monoton fallend ist und x auf keinerKante der Quader liegt (sonst wäre x ∈ A). Nun haben wir eine Überdeckung von Q0

durch offene Mengen:

Q0 ⊆∞⋃j=1

Qj ∪⋃x∈C

Rx.

Weil Q0 kompakt ist, reichen endlich viele dieser offenen Quader. Nennen wir dieseQ1, . . . , Qk und Rx1 , . . . , Rxm . Mit N := max{Nx1 , . . . , Nxm} gilt dann wegen der Mo-notonie des Integrals für Treppenfunktionen

0 ≤∫Rdfn(x)dx ≤ K

k∑j=1

µ(Qj) + µ(Q0)ε ≤ ε(K + µ(Q0)).

für alle n ≥ N . Damit haben wir gerade die Konvergenzdefinition nachgerechnet.

Vor dem entscheidenen Lemma führen wir noch eine Notation für reelle Zahlen ein

x+ =

{x : x ≥ 0

0 : x < 0= max{x, 0} und x− =

{−x : x < 0

0 : x ≥ 0= −min{x, 0},

die wir nun öfters nutzen werden.

Lemma 12.2.4. Seien (fn)n∈N und (gn)n∈N monoton wachsenden Folgen von Treppen-funktionen die beide fast überall gegen Grenzfunktionen f und g konvergieren, so dassbeide Folgen der Integrale konvergieren. Gilt f ≥ g fast überall, so gilt auch

limn→∞

∫Rdfn(x)dx ≥ lim

n→∞

∫Rdgn(x) dx.

Page 80: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 78

Beweis. Für m ∈ N fest erfüllt die Funktionenfolge ((gm− fn)+)n∈N die Vorraussetzungvon Proposition 12.2.3 weil nach Voraussetzung fast überall gm − f ≤ g − f ≤ 0 gilt.Folglich konvergieren die Integrale gegen 0. Wegen Proposition 12.1.11 folgt wegen gm−fn ≤ (gm − fn)+ also ∫

Rdgm(x)dx− lim

n→∞

∫Rdfn(x)dx ≤ 0

und damit auch (Rechenregeln für reelle Folgen)

limm→∞

∫Rdgm(x)dx− lim

n→∞

∫Rdfn(x)dx ≤ 0.

(ob nun bei dem Grenzwert die Variable m oder n heißt ist natürlich wurscht.)Vorlesung 19

Ein ganz einfaches aber essentielles Korollar erhalten wir für die Wahl f = g:

Proposition 12.2.5. Sei f : Rd → R und seinen (fn)n∈N und (f ′n)n∈N monotonwachsenden Folgen von Treppenfunktionen. Wenn beide Folgen fast überall gegen fkonvergieren, dann gelten: Die Folge der Integrale (

∫Rd fn(x)dx)n∈N konvergiert genau

dann, wenn die Folge der Integrale (limn→∞∫Rd f

′n(x) dx)n∈N konvergiert und im Falle

der Konvergenz gilt

limn→∞

∫Rdfn(x)dx = lim

n→∞

∫Rdf ′n(x) dx.

Beweis. Wir nutzen Lemma 12.2.4 zwei Mal und bekommen dadurch beide Ungleichun-gen die zusammen die Gleichheit geben. Die zweite Aussage ist eine Übungsaufgabe(Beweis von Lemma 12.2.4 durchgehen!).

Vielleicht kann man jetzt schon erraten, wie wir nun das Integral definieren werden?

12.3 Lebesgue integrierbare Funktionen und das Integral

Jetzt kommen wir zu dem gleichzeitig grandiosen wie frustrierenden Moment zu definie-ren, welche Funktionen wir integrieren können und was das Integral ist:

Definition 12.3.1. (Lebesgue Integral auf Rd) 1. f : Rd → R heißt Oberfunk-tion, wir schreiben f ∈ O(Rd), falls es eine monoton wachsende Folge (fn)n∈N vonTreppenfunktionen gibt, so dass

• f = limn→∞ fn gilt fast überall, d.h. die Menge

M ={x ∈ Rd | f(x) 6= lim

n→∞fn(x)

}ist eine Nullmenge.

• der Grenzwert limn→∞∫Rd fn(x)dx existiert,

Wir definieren dann das Integral von f als∫Rdf(x)dx := lim

n→∞

∫Rdfn(x)dx.

Page 81: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 79

2. f : Rd → R heißt Lebesgue integrierbar, falls

f = g − h mit g, h ∈ O(Rd).

Wir definieren dann das Lebesgue Integral von f als∫Rdf(x)dx =

∫Rdg(x)dx−

∫Rdh(x)dx.

L1(Rd) bezeichnet die Menge der Lebesgue integriebaren Funktionen.

Man fragt sich vermutlich sofort, warum wir nicht einfach nur O(Rd) betrachten. DerGrund ist der folgende: O(Rd) ist kein Vektorraum (nur ein Kegel, d.h. skalare Vielfachemit positiven Skalaren sind wieder in O(Rd))! Das sieht vielleicht nicht sehr wichtigaus, aber wie komisch wäre es, wenn eine Funktion f integrierbar ist, −f aber nichtintegrierbar ist? Natürlich gilt, O(Rd) ⊆ L1(Rd) weil g oder h als Nullfunktion gewähltwerden darf. Wir werden in den Übungen auf die Problematik O(Rd) vs. L1(Rd) genauereingehen.

Bemerkung. Statt f ∈ L1(Rd) sagt man auch, das Integral∫Rd f(x)dx existiert (oder

konvergiert).

Es ist ganz wichtig zu bemerken, dass wegen Proposition 12.2.5 das Integral von f ∈O(Rd) nicht von der Folge (fn) abhängt, man sagt, das Integral ist „wohldefiniert“. Sonstwäre die Definition natürlich unsinnig! Auch wegen Proposition 12.2.5 können wir zeigen,dass eine Funktion keine Oberfunktion ist, indem wir eine einzige wachsende Folge vonTreppenfunktionen finden, die fast überall gegen f konvergiert aber deren Integraledivergieren. Die Wohldefiniertheit des Integrals für f ∈ L1(Rd) muss auch noch geprüftwerden: Angenommen f = g − h = g′ − h′, so gilt also g + h′ = h+ g′ und damit∫

Rdg(x)dx+

∫Rdh′(x)dx =

∫Rdh(x)dx+

∫Rdg′(x)dx. (12.5)

Umstellen gibt dann∫Rd g(x)dx −

∫Rd h(x)dx =

∫Rd g

′(x)dx −∫Rd h

′(x)dx und damitist die Wohldefiniertheit gezeigt. Für den Beweis haben wir in (12.5) genutzt, dass dasIntegral der Summe von zwei Oberfunktionen die Summe der Integrale ergibt, das zeigenwir in folgendem Satz:

Proposition 12.3.2. (Eigenschaften)Seien f, g ∈ L1(Rd), dann gelten:

1. Linearität: Für α, β ∈ R gilt αf + βg ∈ L1(Rd) und es gilt∫Rd

(αf(x) + βg(x))dx = α

∫Rdf(x)dx+ β

∫Rdg(x)dx.

In Worten: L1(Rd) ist ein Vektorraum und das Integral ist eine lineare Abbildungzwischen den Vektorräumen L1(Rd) und R.

2. Positivität: Wenn f ≥ 0 fast überall gilt, dann gilt∫Rd f(x)dx ≥ 0.

3. Monotonie: Wenn f ≥ g fast überall gilt, dann gilt∫Rd f(x)dx ≥

∫Rd g(x)dx.

Page 82: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 80

4. Dreiecksungleichung für Integrale: |f | ∈ L1(Rd) und es gilt∣∣∣ ∫Rdf(x)dx

∣∣∣ ≤ ∫Rd|f(x)|dx.

Beweis. Die Beweise funktionieren ähnlich: Wegen der angenommenen Integrabilitätexistieren Folgen von monoton konvergierenden Treppenfunktionen. Dann rechnen wirmit den (einfachen) Eigenschaften des Integrals für Treppenfunktionen rum und über-tragen die Eigenschaft auf den Grenzwert. (Der Trick ist ungefähr so nützlich, wie esfrüher mal nützlich war zu lernen, sich die Schuhe selber zuzubinden.)1. Wir zeigen die Aussage nur für f, g ∈ O(Rd) und f + g (genutzt in (12.5)), denallgemeinen Fall lassen wir zum Üben für das Übungsblatt. Nach Definition gibt eszwei wachsende Folgen (fn) und (gn) die fast überall gegen f und g konvergieren undderen Integrale gegen die Integrale von f und g konvergieren (das ist die Definition desIntegrals). Weil nach Bemerkung 12.1.10 auch die Summe der Treppenfunktionen fn+gneine Treppenfunktion ist, diese auch wieder wachsend ist und aufgrund der Rechenregelnfür Grenzwerte fast überall gegen f + g konvergiert (beachte: Die Vereinigung zweierNullmengen ist eine Nullmenge), ist f + g ∈ O(Rd) ⊆ L1(Rd) und es gilt∫

Rd(f(x) + g(x))dx

Def.= lim

n→∞

∫Rd

(fn(x) + gn(x))dx

12.1.10= lim

n→∞

∫Rdfn(x)dx+ lim

n→∞

∫Rdgn(x)dx

Def.=

∫Rdf(x)dx+

∫Rdg(x)dx.

Damit ist die einfachste Aussage gezeigt, die allgemeinere Aussage muss durch Appro-ximation mit mehreren Folgen von Treppenfunktionen (gemäß Definition von L1(Rd))gezeigt werden.2. Weil f = g − h ≥ 0 mit g, h ∈ O(Rd), gibt es zwei monoton wachsende Folgen (gn)und (hn) von Treppenfunktionen mit konvergenten Integralen für die fast überall

limn→∞

gn = g ≥ h = limn→∞

hn

gilt. Wegen Lemma 12.2.4 und der Definition des Integrals für Oberfunktionen gilt dann∫Rdg(x)dx = lim

n→∞

∫Rdgn(x)dx ≥ lim

n→∞

∫Rdhn(x)dx =

∫Rdh(x)dx

und damit nach der Definition auch∫Rd f(x)dx > 0.

3. Folgt direkt aus 1. und 2.4. Die Hauptaufgabe besteht darin, |f | ∈ L1(Rd) zu zeigen. Sei dazu f = g−h und seien(gn) und (hn) wachsende Folgen von Treppenfunktionen mit konvergenten Integralen,die fast überall gegen g und h konvergieren. Das punktweise Maximum bzw. Minimumzweier Treppenfunktionen ist erneut eine Treppenfunktion und es gilt fast überall

max{gn, hn} → max{g, h} sowie min{gn, hn} → min{g, h}

für n → ∞. Wir haben damit wachsende Folgen von Treppenfunktionen gefunden, diefast überall gegen Maximum bzw. Minimum von g und h konvergieren. Weil

|f(x)| = max{g(x), h(x)} −min{g(x), h(x)}, x ∈ Rd,

Page 83: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 81

gilt (2 Fälle betrachten), müssen wir nur noch zeigen, dass die Integrale der approxi-mierenden Folgen konvergieren. Es reicht dafür zu zeigen, dass beide Folgen beschränktsind. Dafür nutzen wir

max{gn(x), hn(x)} ≤ gn(x) + hn(x)−min{gn(x), hn(x)}≤ gn(x) + hn(x)−min{g1(x), h1(x)}.

Jetzt benutzen wir die Linearität und die Monotonie der Integrale um zu folgern, dass∫Rd

max{gn(x), hn(x)} dx ≤∫Rdgn(x)dx+

∫Rdhn(x)dx−

∫Rd

min{gn(x), hn(x)}dx

≤∫Rdgn(x)dx+

∫Rdhn(x)dx−

∫Rd

min{g1(x), h1(x)}dx.

Die rechte Seite ist beschränkt weil die Integrale über die Folgen (gn) und (hn) beschränktsind. Genauso zeigt man auch, dass min{gn, hn} beschränkte Integrale hat. Zusammenhaben wir jetzt also die Definition von |f | ∈ L1(Rd) gezeigt.Die Integralabschätzung folgt jetzt aus der in 3. gezeigten Monotonie und −f ≤ |f |sowie f ≤ |f | weil dann∫

Rdf(x)dx ≤

∫Rd|f(x)|dx und −

∫Rdf(x)dx =

∫Rd−f(x)dx ≤

∫Rd|f(x)|dx

gelten.

Mit den Rechenregeln können wir aus Lebesgue integrierbaren Funktionen neue bildenund deren Integrale berechnen. Dennoch können wir bisher die Integrierbarkeit einergegebenen Funktion f nur durch die Definition testen, wir müssen also jedes Mal ei-ne passende Folge Treppenfunktionen mit konvergierenden Integralen finden. In vielenFällen funktioniert jedoch eine generische Folge:

Satz 12.3.3. Eine beschränkte Funktion f : Rd → R, die außerhalb einer beschränk-ten Menge null ist und deren Unstetigkeitsstellen eine Nullmenge bilden, ist Lebesgueintegrierbar (sogar in O(Rd)). Insbesondere sind also stetige Funktionen, die außerhalbeiner beschränkten Menge null sind, Lebesgue integrierbar auf Rd!

Vorlesung 20

Beweis. Wir müssen eine wachsende Folge von Treppenfunktionen (fn)n∈N angeben, diepunktweise gegen f konvergiert und deren Integrale konvergieren.Sei Q0 = [a1, b1]× · · · × [ad, bd] ein Quader, außerhalb dessen f null ist. Sei n ∈ N fest.Um fn zu definieren, zerlegen wir alle Intervalle [ai, bi] in n gleichlange Teilintervalle:

[ai, bi]

=[a1, a1 +

bi − ai2n

)∪[a1 +

bi − ai2n

, a1 + 2bi − ai

2n

)∪ · · ·

(a1 + (2n − 1)

bi − ai2n

, bi

].

Die kartesischen Produkte P1, ..., P2nd all dieser Teilintervalle sind disjunkt und ihreVereinigung ergibt Q0. Nun definieren wir fn als die Treppenfunktion

fn(x) =

{0 : x /∈ Q0

inf{f(x) : x ∈ Pi} : x ∈ Pi.

Page 84: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 82

In Worten: Die Treppenfunktion nimmt auf den Teilquadern P1, ..., P2nd jeweils denkleinsten Wert von f auf dem Teilquader an. Aus der Definition ist klar, dass die fnwachsend sind. Für die Integrale gilt wegen der Definition des Integrals für Treppen-funktionen direkt

∫Rd fn(x)dx ≤ ||f ||∞µ(Q0) für alle n ∈ N. Weil beschränkte monotone

Folgen in R konvergieren, konvergiert die Folge der Integrale. Also müssen wir nur nochzeigen, dass fn fast überall gegen f konvergiert. Weil die Unstetigkeitspunkte eine Null-menge sind, brauchen wir nur zu zeigen, dass limn→∞ fn(x) = f(x) für alle x ∈ Q0 gilt,an denen f stetig ist. Sei also f stetig in x0 und ε > 0 beliebig. Dann existiert ein δ > 0mit

|f(x0)− f(x)| < ε ∀x ∈ B(x0, δ). (12.6)

WähleN ∈ N derart, dassQ0 in B(0, Nδ) enthalten ist (Q0 ist beschränkt). Insbesondereist dann für alle n ≥ N der der Teilquader der Zerlegung der x0 enthält, in B(x0, δ)enthalten. Wegen (12.6) gilt insbesondere |fn(x0) − f(x0)| < ε für alle n ≥ N weil perDefinition fn(x0) = f(x) für ein x in dem Teilquader. Also konvergiert fn(x0) gegenf(x0) und das war zu zeigen.

Zusammenfassend haben wir eine wachsende Folge von Treppenfunktionen konstruiert,die fast überall gegen f konvergieren und deren Integrale konvergieren. Damit ist f nachDefinition Lebesgues integrierbar auf Rd.

Hier eine ganz wichtige Diskussion für das Verständniss. Die Definition der Integrierbar-keit ist natürlich etwas wild, soll aber in der Tat (fast) nur sagen, dass das „Volumen“zwischen Graph und Achse endlich ist. Es ist anfangs etwas irritierend, dass man dazuzum einen die Folge der Treppenfunktionen finden muss und zum anderen zeigen muss,dass die Integrale der Folge konvergieren (d.h. das Grenzvolumen endlich ist). In der Tatist die erste Eigenschaft quasi immer erfüllt (es ist schwierig überhaupt Gegenbeispielezu finden), und die zweite Eigenschaft ist die wichtigere. Als konkretes Beispiel zeigtihr in den Übungsaufgaben, dass z.B. alle stetigen Funktionen durch Treppenfunktionenapproximierte werden können (schaut euch einfach den letzten Beweis an, wozu habenwir die Beschränktheit genutzt?), deren Integrale aber nicht immer konvergieren. Einweiteres Beispiel sehen wir gleich im Beweis von Satz 12.3.7: Fallende Funktionen kön-nen immer durch wachsende Treppenfunktionen approximiert werden, deren Integralekonvergieren aber nicht immer.

Eine letzte Eigenschaft ist noch wichtig:

Proposition 12.3.4. Sei f1 ∈ L1(Rd) und f2 : Rd → R mit f1 = f2 fast überall, d.h.{x ∈ Rd : f1(x) 6= f2(x)} ist eine Nullmenge. Dann ist auch f2 ∈ L1(Rd) und es gilt∫

Rdf1(x)dx =

∫Rdf2(x)dx.

Beweis. Wir zerlegen zunächst f1 in Oberfunktionen: f1 = g1 − h1. Sei nun g2 := g1

und h2 := h1 + f1 − f2, also gilt f2 = g2 − h2. Es gilt g2, h2 ∈ O(Rd). Für g2 ist dasklar weil g1 ∈ O(Rd). Für h2 nutzen wir die Annahme f1 = f2 fast überall, woraus folgt,dass h1 = h2 fast überall. Damit ist jede approximierende Folge von Treppenfunktionenfür h1 auch eine für h2 (beachte: Die Konvergenz ist immer nur fast überall). Weilwir die selben approximierenden Folgen nutzen können, gilt nach der Definition auch∫Rd h1(x)dx =

∫Rd h2(x)dx. Zusammen gilt f2 = h1+f1−h2 = g1−h2 = g2−h2 ∈ L1(Rd)

Page 85: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 83

und wegen Linearität auch∫Rdf2(x)dx

Def.=

∫Rdg2(x)dx−

∫Rdh2(x)dx =

∫Rdg1(x)dx−

∫Rdh1(x)dx =

∫Rdf1(x)dx.

Als Konsequenz folgt insbesondere, dass sich weder die Integrierbarkeit noch das Integraleiner Funktion ändert, wenn wir sie auf einer Nullmenge beliebig umändern. Bevor wirnun zu dem aus der Schule bekannten Integral in R kommen, wollen wir das Integralnoch für kleinere Definitionsbereiche definieren:

Definition 12.3.5. (Lebesgue Integral auf Teilmengen)Sei B ⊆ Rd. Wir sagen f : Rd → R ist Lebesgue integrierbar auf B, falls f1B ∈ L1(Rd)und definieren dann ∫

Bf(x)dx =

∫Rdf(x)1B(x)dx.

Wir schreiben dann auch f ∈ L1(B) oder das Integral∫B f(x)dx existiert (oder konver-

giert). Ist B ein Quader (oder eine endliche Vereinigung von Quadern) und f Lebesgueintegrierbar auf Rd, so ist f immer auch integrierbar auf B (Übung, man muss sich nurüberlegen, was aus der approximierenden Folge von Treppenfunktionen wird, wenn fmit 1B multipliziert wird).

Weil für das Integral auf B nur die Funktionswerte von f auf B relevant sind (dieanderen werden durch Multiplikation mit dem Indikator auf 0 gesetzt), macht es Sinndas Integral auch für Funktionen f : B → R zu definieren. Etwas künstlich pressen wirdas in die Definition zuvor: Wir sagen f : B → R für B ⊆ Rd ist Lebesgue integrierbarauf B, falls

f̄(x) =

{f(x) : x ∈ B0 : x /∈ B

Lebesgue integrierbar auf B im Sinne der Definition 12.3.5 ist.

Analog zum Integral auf Rd gelten Rechenregeln in L1(B):

Proposition 12.3.6. (Eigenschaften)Seien f, g : B → R und f, g ∈ L1(B), dann gelten:

1. Linearität: Für α, β ∈ R gilt αf + βg ∈ L1(B) und es gilt∫B

(αf(x) + βg(x))dx = α

∫Bf(x)dx+ β

∫Bg(x)dx.

In Worten: L1(B) ist ein Vektorraum und das Integral ist eine lineare Abbildungzwischen den Vektorräumen L1(B) und R.

2. Positivität: Wenn f ≥ 0 fast überall gilt, dann gilt∫B f(x)dx ≥ 0.

3. Monotonie: Wenn f ≥ g fast überall gilt, dann gilt∫B f(x)dx ≥

∫B g(x)dx.

Page 86: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.3. LEBESGUE INTEGRIERBARE FUNKTIONEN UND DAS INTEGRAL 84

4. Dreiecksungleichung für Integrale: |f | ∈ L1(B) und es gilt∣∣∣ ∫Bf(x)dx

∣∣∣ ≤ ∫B|f(x)|dx.

5. Seien B2 ⊆ B1 Quader, so gilt∫B1

f(x)dx−∫B2

f(x)dx =

∫B1\B2

f(x)dx.

6. Seien B1, B2 disjunkte Quader, so gilt∫B1

f(x)dx+

∫B2

f(x)dx =

∫B1∪B2

f(x)dx.

Beweis. 1.-4. folgen sofort, wenn man Proposition 12.3.2 auf f̄ anwendet. 5. folgt direktaus den Rechenregeln und der Definition:∫

B1

f(x)dx−∫B2

f(x)dxDef.=

∫Rdf(x)1B1(x)dx−

∫Rdf(x)1B2(x)dx

Linearität=

∫Rdf(x)(1B1(x)− 1B2(x))dx

=

∫Rdf(x)1B1\B2

(x)dx

=

∫B1\B2

f(x)dx.

6. folgt direkt aus 5. weil B1 ⊆ B1 ∪B2.

Hier noch eine kleine Anwendung der Monotonie des Integrals für Reihen. Eine Reihe isttatsächlich nichts anderes als ein Integral! Wenn wir den Integranden f =

∑∞k=0 ak1[k,k+1)

betrachten, so ist∫R f(x)dx =

∑∞k=0 ak, sofern die Reihe absolut konvergiert.

Satz 12.3.7. (Reihen und Integrale)Sei f : [0,∞]→ [0,∞) eine monoton fallende Funktion, dann sind die folgenden Aussa-gen äquivalent:

1. Die Reihe∞∑k=0

f(k) konvergiert.

2. f ∈ L1([0,∞)).

Beweis. Da f monoton fallend ist, gibt es (wie im Beweis von Satz 12.3.3) eine Folge vonTreppenfunktionen, die fast überall gegen f konvergiert. Dazu zerlegen wir das Intervall[0, n] in n2n Teilintervalle 0 = a1 < a2 < ... < an2n mit ai = i

2n und nehmen auf jedemTeilintervall den kleinsten Wert von f (rechter Endpunkt weil f fallend ist):

fn(x) =

{0 : x /∈ (0, n2n]

f(ai+1) : x ∈ (ai, ai+1].

Es gibt für fallende Funktionen immer eine approximierende Folge von wachsenden Trep-penfunktionen. Die Frage ist nun, wann die Integrale dieser Folge konvergieren.

Page 87: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.4. DER EINDIMENSIONALE FALL 85

„⇒“: Nach Konstruktion der approximierenden Folge gilt∫R fn(x)dx ≤

∑∞k=0 f(k) für

alle n ∈ N. Die Folge der Integrale ist damit wachsend und beschränkt, also konvergent.Damit ist f eine Oberfunktion, also f ∈ L1([1,∞)).

„⇐ “: Das folgt direkt aus der Monotonie des Integrals: Es gilt fn ≤ f und damit∑nk=1 f(k) ≤

∫R fn(x)dx ≤

∫R f(x)dx. Damit ist die Folge der Partialsummen eine

wachsende beschränkte Folge und damit konvergent.

Wie auch bei Reihen spielt es keine Rolle, ob das Integral bei 0, 1 oder einer anderenreellen Zahl startet, es gilt beispielsweise auch

∑∞k=1 f(k) < ∞ genau dann wenn f ∈

L1([1,∞)) konvergiert.

Bemerkung 12.3.8. Aufgrund der Verbindung von Reihen und Integralen sagt manmanchmal auch

∫B f(x)dx konvergiert statt

∫B f(x)dx existiert oder f ∈ L1(B). Wie

bei Reihen sieht man dann auch die abkürzende Schreibweise∫B f(x)dx < ∞ bzw.∫

B f(x)dx =∞ wenn f /∈ L1(B).

Beispiel 12.3.9. Mit Satz 12.3.7 und Analysis 1 bekommen wir die Äquivalenz von

• Das Integral∫

[1,∞)

1xαdx konvergiert, also x 7→ 1

xα ∈ L1([1,∞)).

• Die Summe∞∑k=1

1kα konvergiert.

• α > 1.

Wie wir das Integral konkret berechnen ist bisher nicht klar. Damit werden wir uns inden nächsten Abschnitten beschäftigen.

Vorlesung 21

12.4 Der eindimensionale Fall

So, jetzt wollen wir mal was ausrechnen! Wir betrachten in diesem Abschnitt nur f : R→R. Im letzten Abschnitt haben wir definiert was es heißt, dass f Lebesgue integrierbarauf R bzw. auf B = [a, b] ist und was∫

Rf(x)dx bzw.

∫[a,b]

f(x)dx

ist. Zweiteres schreiben wir auch wie in der Schule als∫ ba f(x)dx. Man definiert auch

∫ b

af(x)dx = −

∫ a

bf(x)dx für a > b. (12.1)

Um das abstrakte in dieser Sektion konkret zu halten, betrachten wir hier meist denstetigen Fall: Wir betrachten stetige Integranden f : [a, b] → R, die aufgrund von Defi-nition 12.3.5 und Satz 12.3.3 immer integrierbar sind! Aus der Schule ist bekannt, dassintegrieren was mit Stammfunktionen zu tun hat, schauen wir uns also zunächst denHauptsatz der Analysis an:

Page 88: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.4. DER EINDIMENSIONALE FALL 86

12.4.1 Integral für f : [a, b]→ R und der Hauptsatz der Analysis

In einer Dimension und für stetige Funktionen (man braucht eigentlich etwas weniger alsstetig) lässt sich viel durch Stammfunktionen ausrechnen. Sei [a, b] ⊆ R und f : [a, b]→R stetig, also insbesondere f ∈ L1([a, b]), so definieren wir

F : [a, b]→ R, y 7→y∫a

f(x)dx.

Die Funktion F wird im Folgenden sehr wichtig sein. Hier zwei erste Eigenschaften:

Satz 12.4.1. Ist f : [a, b]→ R stetig, so gelten:

1. F ist Lipschitz stetig mit L = ‖f‖∞ mit ‖f‖∞ = supx∈[a,b] |f(x)|.

2. F ist differenzierbar in (a, b) und es gilt F ′(y0) = f(y0) für alle y0 ∈ (a, b).

Beweis. 1. Mit den Rechenregeln für Integrale gilt, für y, y0 ∈ [a, b],

|F (y)− F (y0)| Def.=

∣∣∣ y∫a

f(x)dx−y0∫a

f(x)dx∣∣∣

12.3.6=

∣∣∣ y0∫y

f(x)dx∣∣∣

∆≤

y0∫y

∣∣f(x)∣∣dx

Monotonie≤

y0∫y

∣∣|f ||∞dx = ||f ||∞|y0 − y|.

Beachte: Die letzte Gleichheit ist einfach nur die Definition des Integrals für Treppen-funktionen.2. In ε-δ Schreibweise bedeutet die Stetigkeit in y0

∀ε > 0 ∃δ > 0 : |y − y0| < δ ⇒ |f(y0)− f(y)| < ε.

Also gilt für alle y mit |y − y0| < δ, dass∣∣∣∣F (y)− F (y0)

y − y0− f(y0)

∣∣∣∣ =

∣∣∣∣∣∫ ya f(x)dx−

∫ y0a f(x)dx

y − y0−f(y0)

∫ yy0

1dy

y − y0

∣∣∣∣∣=

∣∣∣∣∣∫ yy0f(x)dx

y − y0−∫ yy0f(y0)dy

y − y0

∣∣∣∣∣=

∣∣∣∣∣∫ yy0

(f(x)− f(y0)

)dx

y − y0

∣∣∣∣∣Monotonie≤

|y − y0| supx∈[y0,y]

∣∣f(x)− f(y0)∣∣

|y − y0|< ε.

Page 89: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.4. DER EINDIMENSIONALE FALL 87

Daraus folgt

limy→y0

∣∣∣F (y)− F (y0)

y − y0− f(y)

∣∣∣ = 0

und damit gilt F ′(y) = f(y).

In Erinnerung an die Schule bemerken wir schonmal, dass wir gerade gezeigt haben, dassjede stetige Funktion eine Stammfunktion hat.Der folgende Satz ist oft sehr nützlich:

Satz 12.4.2. (Mittelwertsatz der Integralrechnung)Ist f : [a, b]→ R stetig, so existiert ζ ∈ (a, b) mit

b∫a

f(x)dx = f(ζ)(b− a).

Beweis. Übungsaufgabe.

Wir kommen nun zu dem zentralsten Satz der Analysis. Der Hauptsatz besagt, dass Inte-gration und Differentiation „inverse“ Operationen sind. Erst differenzieren, dann wiederintegrieren tut gar nichts:

Satz 12.4.3. (Hauptsatz der Analysis für stetige Funktionen)Seien f,G : [a, b]→ R stetig, so dass G in (a, b) differenzierbar ist mit G′ = f . Dann gilt

b∫a

f(x)dx = G(b)−G(a).

Beweis. Definiere wieder die Abbildung

F (y) =

y∫a

f(x)dx, y ∈ [a, b].

Dann gilt für alle y ∈ (a, b):

(F −G)′(y) = F ′(y)−G′(y)12.4.1

= f(y)− f(y) = 0.

Daraus folgt (Analysis 1, Mittelwertsatz), dass

F (y)−G(y) = C, y ∈ (a, b),

für ein C ∈ R. Zudem giltG(a) = −C,

weil F (a) = 0. Deswegen gilt

G(y)−G(a) = F (y).

Ersetzen wir y durch b ist die Behauptung gezeigt.

Page 90: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.4. DER EINDIMENSIONALE FALL 88

Der Hauptsatz ist sehr nützlich zum Berechnen von Integralen. Wie aus der Schulebekannt, braucht nur eine Stammfunktion von f gefunden werden („Aufleiten“).

Definition 12.4.4. Sei f : [a, b]→ R. Jede Funktion F : [a, b]→ R die stetig auf [a, b]und differenzierbar in (a, b) ist, heißt Stammfunktion von f , wenn F ′ = f gilt.

Warnung 12.4.5. Stammfunktionen sind nur bis auf die Konstante eindeutig bestimmt.Sei F eine Stammfunktion von f , dann ist F + c, für alle c ∈ R eine Stammfunktion vonf .

Satz 12.4.6. (Hauptsatz anders formuliert) 1. Ist f : [a, b] → R stetig, soexistiert eine Stammfunktion. Diese ist gegeben durch

F (y) =

y∫a

f(x)dx, y ∈ [a, b].

2. Ist F eine beliebige Stammfunktion von f , so giltb∫a

f(x)dx = F (b)− F (a) =: [F (x)]ba .

Beweis. 1. Siehe Satz 12.4.1.2. Siehe Satz 12.4.3.

Als Konsequenz des Hauptsatzes können wir nun viele Integrale berechnen, ohne denIntegranden durch Treppenfunktionen von Hand zu approximieren.Beispiel 12.4.7. Es folgen Beispiele zur Anwendung des Satzes 12.4.3 beziehungsweise12.4.6.

•π∫0

sin(x)dx = [− cos(x)]π0 = 2

•b∫axndx =

[1

n+1xn+1]ba

= 1n+1(bn+1 − an+1)

•2∫1

1xdx = [ln(x)]21 = ln(2)

•1∫−1

exdx = [ex]1−1 = e1 − e−1

12.4.2 Technik des Integrierens

Durch den Hauptsatz haben wir festgestellt, dass Differenzieren und Integrieren Opera-tionen sind, die miteinander in Beziehung stehen. Hier wollen wir die Rechentechnikendes Differenzierens auf das Integrieren übertragen.

Satz 12.4.8. (Partielle Integration ← Produktregel)Seien f, g : [a, b]→ R stetig differenzierbar, dann gilt

b∫a

f(x)g′(x)dx = [f(x)g(x)]ba −b∫a

f ′(x)g(x)dx.

Page 91: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.4. DER EINDIMENSIONALE FALL 89

Beweis. Aufgrund der Produktregel gilt

(fg)′ = f ′g + g′f. (12.1)

Durch Anwendung des Hauptsatzes auf die Gleichung (12.1) gilt

b∫a

(f(x)g′(x) + f ′(x)g(x)

)dx = [f(x)g(x)]ba .

Die Behauptung folgt dann aus der Linearität und Auflösen.

Beispiel. Mit partieller Integration gilt1∫

0

xexdx = [xex]10 −1∫

0

exdx = [xex]10 − [ex]10 = e1 − (e1 − 1) = 1.

Satz 12.4.9. (Substitutionsregel ← Kettenregel)Sei f : [a, b]→ R stetig differenzierbar und φ : [α, β]→ [a, b] eine stetig differenzierbareFunktion, dann gilt

φ(β)∫φ(α)

f(x)dx =

β∫α

f(φ(t)

)φ′(t)dt. (12.2)

Beweis. Im Folgenden sei F eine Stammfunktion von f , die aufgrund des Hauptsatzesexistiert. Wegen der Kettenregel aus Analysis 1 gilt

(F ◦ φ)′ = (F ′ ◦ φ) · φ′ = (f ◦ φ) · φ′.

Dies bedeutet, dass F ◦ φ eine Stammfunktion für (f ◦ φ) · φ′ ist. Nun wenden wir denHauptsatz auf beide Seiten von (12.2) separat an:

φ(β)∫φ(α)

f(x)dx = [F (x)]φ(β)φ(α) = F (φ(β))− F (φ(α))

undβ∫α

f(φ(t))φ′(t)dt = [(F ◦ φ)(t)]βα = F (φ(β))− F (φ(α)).

Folglich sind beide Seiten von (12.2) gleich und die Behauptung ist bewiesen.

Ist φ bijektiv, schreibt man den Satz auch etwas um:

Satz 12.4.10. (Transformation der Variablen)Sei die Abbildung

φ : [α, β]→ [a, b]

bijektiv und stetig differenzierbar. Ist f : [a, b]→ R stetig differenzierbar, so gilt

b∫a

f(x)dx =

φ−1(b)∫φ−1(a)

f(φ(t))φ′(t)dt.

Page 92: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.4. DER EINDIMENSIONALE FALL 90

Beweis. Der Beweis des Satzes ist analog zu dem Beweis von Satz 12.4.9. Beide Sei-ten werden separat mit dem Hauptsatz berechnet und dann wird festgestellt, dass dieStammfunktionen übereinstimmen. Aufgrund der Kettenregel ist der Ausdruck F ◦ φeine Stammfunktion für (f ◦ φ) · φ′, falls F eine Stammfunktion für f ist. Mithilfe desHauptsatzes gilt

φ−1(b)∫φ−1(a)

f(φ(t)

)φ′(t)dt = [F ◦ φ]

φ−1(b)φ−1(a)

= F(φ(φ−1(b)

)− F

(φ(φ−1(a)

)= F (b)− F (a)

sowie ∫ b

af(x)dx = F (b)− F (a)

und damit stimmen beide Seiten der Behaupteten Gleichung überein.Vorlesung 22

Beispiel 12.4.11. Es gilt

b∫a

f(x+ c)dx =

b+c∫a+c

f(x)dx

mit φ(t) = t+ c und φ′(t) = 1. Das ganze kann man natürlich auch direkt durch appro-ximation mit um c verschobenen Treppenfunktionen zeigen! Man nennt die Eigenschaftauch Translationsinvarianz des Lebesgue Integrals.

Partielle Integration wird häufig bei Produkten von Funktionen verwendet und Substi-tution/Transformation bei Verknüpfungen. Man muss natürlich gut raten, oder halt einpaar Tricks kennen. Hier ist einer:

Beispiel 12.4.12 (Logarithmische Transformation). Es sei eine Funktion f gegeben, dieDifferenzierbar auf (a, b) ist mit f(x) > 0 für alle x ∈ (a, b). Die Aufgabe ist, Integraleder Form

b∫a

f ′(x)

f(x)dx

zu bestimmen. Sei G(x) = 1x , dann gilt wegen ln′(x) = 1

x

b∫a

f ′(x)

f(x)dx =

b∫a

G(f(x)

)f ′(x)dx =

f(b)∫f(a)

1

xdx = [ln(x)]

f(b)f(a) = ln

(f(b)

)− ln

(f(a)

).

Als konkretes Beispiel der logarithmischen Transformation berechnen wir

1∫0

x

x2 + 1dx =

1

2

1∫0

2x

x2 + 1dx =

1

2

(ln(12 + 1)− ln(02 + 1)

)=

1

2ln(2).

Page 93: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.5. KONVERGENZSÄTZE 91

12.5 Konvergenzsätze

In diesem Abschnitt sei (fn)n∈N eine Folge integrierbarer Funktionen mit limn→∞ fn = ffast überall. Wir fragen uns: Ist auch f integrierbar und können wir dann das Integralvon f als Grenzwert der Integrale berechnen, d.h. gilt∫

Rdf(x)dx

Def.=

∫Rd

limn→∞

fn(x)ds = limn→∞

∫Rdfn(x)dx ? (12.1)

Dazu gibt es zwei berühmte Sätz: monotone und dominierte Konvergenz. Als Anwendungbetrachten wir als Fortsetzung von Abschnitt 12.4 sogenannte „uneigentliche Integrale“aus der Schule.

12.5.1 Monotone Konvergenz

Wir diskutieren hier die Konvergenzfrage (12.1) für monotone Folgen von integrierbarenFunktionen. Zunächst der Satz für Oberfunktionen, der Satz über monotone Konvergenzist dann die Verallgemeinerung auf L1(Rd).

Lemma 12.5.1. Sei (fn)n∈N eine monoton wachsende Folge von Oberfunktionen, sodass die Folge der Integrale konvergiert. Dann existiert eine Oberfunktion f , die fastüberall Grenzwert der Folge (fn)n∈N ist und für die∫

Rdf(x)dx = lim

n→∞

∫Rdfn(x)dx

gilt.

Beweis. Wir erinnern daran, dass die Aussage schon bewiesen wurde, wenn alle fnTreppenfunktionen sind. Das ist gerade die erste Monsterproposition 12.2.1, mit f :=limn→∞ fn(x). Um Proposition 12.2.1 anzuwenden, approximieren wir jedes fn durchTreppenfunktionen und bauen daraus eine gute monotone Folge. Sei dafür für jedesn ∈ N, (fn,k)k∈N eine wachsende Folge von Treppenfunktionen, die fast überall gegen fnkonvergiert. Nun definieren wir

φm(x) := max{fi,k(x) : i ≤ m, k ≤ m}, x ∈ Rd.

Dann ist die Folge (φm)m∈N auch eine wachsende Folge von Treppenfunktionen. Weilφm ≤ fm und das Integral monoton ist, gilt

∫Rd φm(x)dx ≤

∫Rd fm(x)dx. Weil die Inte-

grale über (fm)m∈N konvergieren, ist die Folge der Integrale über (φm)m∈N beschränktund damit konvergent. Nun folgt aus Proposition 12.2.1, dass die Folge (φm)m∈N fastüberall konvergiert, d.h. für alle x ∈ M = {x ∈ Rd : limm→∞ φm(x) existiert} defi-nieren wir f(x) = limm→∞ φm(x) und beliebig, z.B. f(x) = 0, für alle x /∈ M . DieFolge (φm)m∈N ist also eine approximierende Folge für f und damit gilt aufgrund derDefinition des Integrals für Oberfunktionen auch

limm→∞

∫Rdφm(x)dx =

∫Rdf(x)dx. (12.2)

Weil aufgrund der Definition φm ≤ fm für alle m ∈ N gilt, gilt aufgrund der Monotonieder Integrale auch ∫

Rdφm(x)dx ≤

∫Rdfm(x)dx ≤

∫Rdf(x)dx.

Mit (12.2) und Sandwich für Folgen folgt die Behauptung.

Page 94: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.5. KONVERGENZSÄTZE 92

Bevor wir jetzt den richtigen Satz formulieren, noch ein sehr nützliches Lemma. DasLemma besagt, dass L1(Rd) nicht so viel mehr ist als O(Rd).

Lemma 12.5.2. Sei f ∈ L1(Rd) und ε > 0. Dann gibt es g, h ∈ O(Rd) mit

• f = g − h,

• h ≥ 0,

•∫Rd h(x)dx < ε.

In Worten: Eigentlich ist L1(Rd) nicht so viel mehr er als O(Rd).

Beweis. Sei f = g1−h1 mit Oberfunktionen g1 und h1. Sei (hn)n∈N eine wachsende Folgevon Treppenfunktionen, die fast überall gegen h1 konvergiert. Es gibt also ein N ∈ Nmit

0 ≤∫Rdh1(x)dx−

∫RdhN (x)dx < ε.

Setze nun g2 := g1−hN und h2 := h1−hN . Dann gilt auch f = g2−h2, h2 ≥ 0 fast überallund h2, g2 ∈ O(Rd). Außerdem gilt aufgrund der Linearität auch

∫Rd h2(x)dx < ε. Jetzt

sind wir fast fertig. Definiere h = h+2 und g = f + h. Damit ist ist dann f = g − h mit

g, h ∈ O(Rd), weil fast überall h = h2 und g = g2. Weil h ≥ 0 und∫Rdh+

2 (x)dx12.3.4

=

∫Rdh(x)dx < ε

folgt die Behauptung.

Mit dem Lemma können wir nun die Aussage von Lemma 12.5.1 von Oberfunktionenauf alle integrierbaren Funktionen erweitern:

Satz 12.5.3. (Monotone Konvergenz)Sei (fn)n∈N eine monotone (fallend oder wachsend) Folge in L1(Rd), so dass die Folgeder Integrale konvergiert. Dann existiert ein f ∈ L1(Rd) mit

• f = limn→∞ fn fast überall

•∫Rd f(x)dx = limn→∞

∫Rd fn(x)dx

Beweis. Die Idee des Beweises ist ganz einfach, die Umsetzung aber etwas mühsamund auf dem letzten Lemma basierend. Als integrierbare Funktionen können wir die fnals Differenzen von Oberfunktionen schreiben. Die Darstellung ist nicht eindeutig, auchwenn das Integral von der Wahl unabhängig ist. Das Ziel ist es eine Darstellung fn =gn − hn zu finden, so dass beide Folgen (gn)n∈N und (hn)n∈N die Voraussetzungen dermonotonen Konvergenz erfüllen. Wenn wir das geschafft haben, dann folgt die Aussagesofort durch zweimalige Anwendung der monotonen Konvergenz für Oberfunktionen(Lemma 12.5.1).Ohne Einschränkung sei (fn)n∈N monoton wachsend (sonst betrachte die Folge (−fn)n∈N)und fn ≥ 0 (sonst betrachte die Hilfsfolge f̃n := fn − f1). Setze a1 := f1 und ak :=fk − fk−1 für alle k ≥ 2. Dann sind alle ak ∈ L1(Rd) und es gilt (Teleskopsumme)fk = a1 + · · ·+ ak. Aufgrund des letzten Lemmas gibt es Oberfunktionen bk und ck mitak = bk − ck, ck ≥ 0 und 0 ≤

∫Rd ck(x)dx < 1

2k. Setze nun gk := b1 + · · · + bk und

Page 95: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.5. KONVERGENZSÄTZE 93

hk = c1 + · · ·+ ck. Damit gilt gk, hk ∈ O(Rd) und fk = gk − hk. Ferner sind die Folgen(gk)k∈N und (hk)k∈N monoton wachsend, und es gilt∫

Rdhk(x)dx ≤

k∑j=1

1

2j< 1 und

∫Rdgk(x)dx =

∫Rdfk(x)dx+

∫Rdhk(x)dx

Die Folgen der Integrale von (hk)k∈N und (gk)k∈N sind also beschränkt weil die Folgeder Integrale über fk (und hk) beschränkt ist. Wegen Lemma 12.5.1 folgt die Existenzvon h, g ∈ O(Rd), gegen die Folgen (hk)k∈N und (gk)k∈N fast überall konvergieren. Eskonvergiert dann auch die Folge (fk)k∈N = (gk − hk)k∈N fast überall gegen h − g (derSchnitt zweier Nullmengen ist eine Nullmenge). Damit gilt f = g−h und nach Definitionf ∈ L1(Rd).Fehlt nur noch die Berechnung des Integrals:

limk→∞

∫Rdfk(x)dx = lim

k→∞

∫Rd

(gk(x)− hk(x))dx

= limk→∞

∫Rdgk(x)dx− lim

k→∞

∫Rdhk(x)dx

=

∫Rdg(x)dx−

∫Rdh(x)dx

=

∫Rdf(x)dx.

Bemerkung 12.5.4. Fast immer wird der Satz der monotonen Konvergenz anders (ein-facher) benutzt. In vielen Fällen ist die Grenzfunktion f bereits bekannt und man inter-essiert sich nur für das Vertauschen des Grenzwertes. Die Formulierung ist dann: Wenn(fn)n∈N eine monotone Folge in L1(Rd) ist deren Integrale konvergieren und (fn)n∈N fastüberall gegen eine Grenzfunktion f konvergiert, dann ist f ∈ L1(Rd) und es gilt∫

Rdf(x)dx = lim

n→∞

∫Rdfn(x)dx.

Korollar 12.5.5. Ist f ∈ L1(Rd), f ≥ 0 fast überall und∫Rd f(x)dx = 0. Dann ist

sogar f = 0 fast überall.

Beweis. Es gibt verschiedene Wege, die Aussage zu zeigen. In den Übungen soll dieAussage durch monotone Konvergenz gezeigt werden. Indirekt bekommt man sofort einenWiderspruch wenn man die wachsenden Funktionen fn(x) := nf(x) betrachtet, derenIntegrale konvergieren.

12.5.2 Dominierte Konvergenz (oder majorisierte Konvergenz)

Ein wenig einfacher zu beweisen ist der zweite wichtige Konvergenzsatz. Hierbei muss dieFolge nicht monoton sein, dafür durch etwas integrierbares majorisiert sein. Wir wollenfolgenden Satz beweisen:

Satz 12.5.6. (Dominierte Konvergenz oder majorisierte Konvergenz)Sei (fn)n∈N eine Folge in L1(Rd) und es gelte limn→∞ fn = f fast überall. Zusätzlichexistiere ein g ∈ L1(Rd) mit

|fn| ≤ g fast überall

Page 96: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.5. KONVERGENZSÄTZE 94

für alle n ∈ N. Dann ist f ∈ L1(Rd) und es gilt

limn→∞

∫Rdfn(x)dx =

∫Rd

limn→∞

fn(x)dx =

∫Rdf(x)dx.

Vorlesung 23Die auftauchende Funktion g nennt man auch integrierbare Majorante. Solch eine Funk-tion zu finden ist oft sehr schwierig! Die Aussage ist also ganz ähnlich zur monotonenKonvergenz, die Annahmen ist jedoch von ganz anderer Art (Monotonie vs. integrierbareMajorante).Für den Beweis brauchen wir noch eine nützliche Aussage. Dazu erinnern wir daran, dassder Limes Inferior einer Folge (an)n∈N, lim infn→∞ an, der kleinste Häufungspunkt derFolge ist. Wenn die Folge konvergiert, dann ist der Limes Inferior gerade der Grenzwert.

Satz 12.5.7. (Fatou’s Lemma)Sei (fn)n∈N eine Folge in L1(Rd) und es gibt eine Funktion g ∈ L1(Rd) sowie ein C ∈ Rmit

•∫Rd fn(x)dx ≤ C für alle n ∈ N,

• g ≤ fn für alle n ∈ N.

Dann gilt f := lim infn→∞ fn ∈ L1(Rd) und∫Rd

lim infn→∞

fn(x)dx ≤ lim infn→∞

∫Rdfn(x)dx.

Hier gibt es ein paar Kleinigkeiten zu beachten: Wir nehmen nicht an, dass die Folge(fn)n∈N monoton ist. Daher wissen wir nicht, ob es eine Grenzfunktion f gibt. Machtaber nichts, der Limes Inferior ist schließlich immer definiert. Oft nutzt man Fatou’sLemma jedoch in Situationen, in denen sowohl die Konvergenz der Integrale als auch dieKonvergenz der fn bereits bekannt ist.

Beweis von Fatou’s Lemma. Definiere punktweise

φk(x) = inf{fk(x), fk+1(x), ...}φk,m(x) = min{fk(x), ..., fm(x)}

für x ∈ Rd. Das punktweise Infimum existiert wegen der zweiten Annahme des Sat-zes (und dem Vollständigkeitsaxiom). Weil für zwei integrierbare Funktionen h1, h2 ∈L1(Rd) auch min{h1, h2} = 1

2(h1 + h2 − |h1 − h2|) ∈ L1(Rd), wegen der Rechenregelnin L1(Rd), sind alle φk,m ∈ L1(Rd). Desweiteren ist für alle k ∈ N die Folge (φk,m)m∈Nmonoton fallend und konvergiert punktweise gegen φk. Weil g ≤ fn für alle n ∈ N, istauch g ≤ φk,m ≤ φk,1, also gilt wegen Monotonie∫

Rdg(x)dx ≤

∫Rdφk,m(x)dx ≤

∫Rdφk,1(x)dx.

Damit ist die Folge der Integrale (∫Rd φk,m(x)dx)m∈N beschränkt (nach oben und unten).

Aus monotoner Konvergenz folgt φk ∈ L1(Rd) für alle k ∈ N. Weil φk ≤ fk für alle k ∈ Ngilt wegen der ersten Annahme∫

Rdφk(x)dx ≤

∫Rdfk(x)dx ≤ C

Page 97: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.5. KONVERGENZSÄTZE 95

für alle k ∈ N. Da die Folge (φk)k∈N auch monoton wachsend ist, können wir auf (φk)k∈Nmonotone Konvergenz anwenden. Es gibt also eine Grenzfunktion f ∈ L1(Rd) der Folge(φk)k∈N, d.h.

f = limn→∞

φk = lim infn→∞

fn(x)

gilt fast überall. Die zweite Gleichheit folgt aus der Definition des Limes Inferior und derDefinition der Folge (φk)k∈N. Aus monotoner Konvergenz folgt nicht nur die Existenzdes Grenzwertes, sondern auch die Vertauschbarkeit von Integral und Grenzwert:∫

Rdf(x)dx

Def.=

∫Rd

limk→∞

φk(x)dx

Monotone Konv.= lim

k→∞

∫Rdφk(x)dx

= lim infk→∞

∫Rdφk(x)dx

Monotonie≤ lim inf

k→∞

∫Rdfk(x)dx.

Und nun noch zum Beweis der majorisierten Konvergenz:

Beweis der majorisierten Konvergenz. Der Beweis ist ganz einfach, sieht nur schwierigaus: Wir nutzen Fatou zwei Mal, einmal für f und einmal für −f . Dann steht der Satzschon da.Ohne Einschränkung gelten die Voraussetzungen nicht nur fast überall sondern überall(d.h. punktweise). Sonst definiert man alle auftretenden Funktionen auf der Nullmengeals 0 ohne die Integrale zu ändern. Es gelten also

limn→∞

fn = f, −g ≤ fn,∫Rdfn(x)dx ≤

∫Rd|fn(x)|dx ≤

∫Rdg(x)dx =: C (12.3)

für alle n ∈ N. Damit gelten die Voraussetzungen von Fatou, wir bekommen also f ∈L1(Rd) und die erste Ungleichung∫

Rdf(x)dx =

∫Rd

lim infn→∞

fn(x)dx ≤ lim infn→∞

∫Rdfn(x)dx. (12.4)

Wenn wir jetzt noch die zweite Ungleichung

lim supn→∞

∫Rdfn(x)dx ≤

∫Rdf(x)dx (12.5)

zeigen können, haben wir die Gleichheit. Auch hierfür wollen wir Fatou benutzen, jetztaber für die Funktion −f . Es gilt hier analog zu (12.3)

limn→∞

−fn = −f, −g ≤ −fn,∫Rd−fn(x)dx ≤

∫Rd|fn(x)|dx ≤

∫Rdg(x)dx =: C

für alle n ∈ N. Damit gelten wieder die Voraussetzungen von Fatou (jetzt für (−fn)n∈N)und wir bekommen∫

Rd−f(x)dx =

∫Rd

lim infn→∞

(−fn(x))dx ≤ lim infn→∞

∫Rd−fn(x)dx = − lim sup

n→∞

∫Rdfn(x)dx.

Page 98: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.5. KONVERGENZSÄTZE 96

Zusammen mit (12.5) gibt das

lim supn→∞

∫Rdfn(x)dx ≤

∫Rdf(x)dx ≤ lim inf

n→∞

∫Rdfn(x)dx

also limn→∞∫Rd fn(x)dx =

∫Rd f(x)dx.

12.5.3 Uneigentliche Integrale

Wir haben im Abschnitt 12.4 Integrale∫ ba f(x)dx angeschaut, wenn f auf [a, b] stetig

ist. Diese Integrale nennt man oft eigentliche Integrale. Man spricht von uneigentlichenIntegralen

∫ ba f(x)dx, wenn entweder a oder b unendlich ist oder f nur auf (a, b) stetig

ist.

Beispiel 12.5.8. Welche folgender Integrale existieren/konvergieren, d.h. die Integrandensind integrierbar, und wie können sie berechnet werden?

1.∫∞

11xαdx

2.∫ 1

01xαdx

3.∫∞

01xαdx

4.∞∫−∞

11+x2

dx

Man beachte, dass keines der Beispiele in das Setting f : [a, b] → R stetig gehört. DieBerechnung solcher uneigentlicher Integrale ist eine nette Anwendung der monotonenKonvergenz. Gehen wir dazu die Beispiele durch:

1. Wir wollen f(x) = 1xα für α > 0 auf [1,∞) integrieren und definieren dafür zu-

nächst fn : R → R, f(x) = 1xα1[1,n]. Weil fn monoton gegen f : R → R, f(x) =

1xα1[1,∞) wächst, müssen wir für monotone Konvergenz nur den Grenzwert derIntegrale betrachten. Mit dem Hauptsatz gilt zunächst

limn→∞

∫ n

1

1

xαdx = lim

n→∞

{1

−α+1(n−α+1 − 1−α+1) : α 6= 1

ln(n)− ln(0) : α = 1

=

{+∞ : α ≤ 1

1α−1 : α > 1

.

(12.6)

Ist α > 1 so folgt nun mit monotoner Konvergenz∫∞

11xαdx = 1

α−1 . Für α ≤ 1 istf /∈ L1(R). Sonst wäre nämlich für alle n ∈ N auch fn ∈ L1(R) und es müsstefür alle n ∈ N wegen der Monotonie

∫ n1

1xαdx ≤

∫∞1

1xαdx gelten. Da wegen (12.6)

die linke Seite jedoch gegen +∞ konvergiert, hätten wir einen Widerspruch. Wirhaben also mit der Notation aus Bemerkung 12.3.8

∫ ∞1

1

xαdx =

{∞ : α ≤ 1

1α−1 : α > 1

.

Page 99: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.6. BERECHNUNG MEHRDIMENSIONALER INTEGRALE 97

2. Wir gehen ganz analog vor, schneiden die Funktion aber auf [1/n, 1] ab, wir be-trachten also monotone Konvergenz mit fn : [1/n, 1]→ R, f(x) = 1

xα . In Analogiehaben wir nun

limn→∞

∫ 1

1n

1

xαdx = lim

n→∞

1−α+1

(11−α −

(1n

)α−1): α 6= 1

ln(1)− ln(1/n) : α = 1

=

{+∞ : α ≥ 1

11−α : α < 1

.

Mit dem analogen Argument gibt uns monotone Konvergenz also∫ 1

0

1

xαdx =

{∞ : α ≥ 1

11−α : α < 1

.

3. Sauber zu argumentieren, dass in diesem Fall f für kein α > 0 integrierbar ist,lassen wir für die Übungsaufgaben.

4. Hier schneiden wir auf [−n, n] ab und nutzen die letzte Vorlesung von Analysis 1,um eine Stammfunktion zu erraten. Damit gilt aufgrund des Hauptsatzes

limn→∞

∫ n

−n

1

1 + x2dx = lim

n→∞(arctan(n)− arctan(−n)) =

(π2−(− π

2

))= π

und daher ist x 7→ 11+x2

∈ L1(R) und es gilt∫ ∞−∞

1

1 + x2dx = π.

12.6 Berechnung mehrdimensionaler Integrale

Wir haben gelernt wie wir eigentliche und uneigentliche Integrale in einer Dimensionberechnen können. Dafür brauchen wir nur den Hauptsatz und die Konvergenzsätze. Alldas bringt uns leider nichts, um mehrdimensionale Integrale zu berechnen. Hier lernenwir zwei Sätze kennen: Fubini und den Transformationssatz. Mit Fubini können wir denmehrdimensionalen Fall auf den eindimensionalen Fall reduzieren, mit dem Transforma-tionssatz können wir Integrationsbereiche B verändern.

12.6.1 Fubini

Der Satz von Fubini erlaubt es uns, durch n-fache eindimensionale Integration ein n-dimensionales Integral zu berechnen. Das ist ein wenig so, wie eine Ableitungsmatrixdurch alle partiellen Ableitungen zu berechnen. Wie beim Ableitungen betrachten wir„partielle Funktionen“ bei denen nur einzelne Koordinaten bewegt werden. Für f : Rd →R schreiben einen Vektor in Rd als (y1, y2) um, indem wir die ersten k und die letzten d−kvielen Einträge hintereinander als y1 = (x1, ..., xk) und y2 = (xk+1, ..., xd) umschreiben.Das gibt dann die Abbildungen

y1 7→ f(y1, y2),

in denen die Koordinaten y2 festgehalten werden.

Page 100: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.6. BERECHNUNG MEHRDIMENSIONALER INTEGRALE 98

Satz 12.6.1. Sei f ∈ L1(Rd) und k ∈ {1, ..., d − 1} beliebig. Dann ist, für fast alley2 ∈ Rd−k, die durch y2 festhalten entstandene Funktion

y1 7→ f(y1, y2), y1 ∈ Rk,

integrierbar, d.h. in L1(Rk). Auch die fast überall definierte Funktion

y2 7→∫Rkf(y1, y2)dy1, y2 ∈ Rd−k,

ist integrierbar, d.h. in L1(Rd−k). Zusätzlich gilt∫Rdf(x)dx =

∫Rd−k

(∫Rkf(y1, y2)dy2

)dy1 =

∫Rk

(∫Rd−k

f(y1, y2)dy2

)dy1. (12.7)

In (12.7) stecken sogar zwei Aussagen. Zum einen die iterative Berechnung und zumanderen, dass die Reihenfolge der Berechnung keine Rolle spielt. Bevor wir uns denBeweis anschauen, ein konkretes Beispiel mit d = 1 und k = 1. In dem Fall nennen wirwie üblich x = (x1, x2) und Fubini gibt∫

R2

f(x)dx =

∫R

(∫Rf(x1, x2)dx1

)dx2

oder (wir können die Reihenfolge aussuchen)∫R2

f(x)dx =

∫R

(∫Rf(x1, x2)dx2

)dx1.

Genau analog kann auch durch iteratives Anwenden von Fubini ein höher dimensionalesIntegral so geschrieben werden und iterativ durch eindimensionale Integrale berechnetwerden: ∫

Rdf(x)dx =

∫R

(∫R...(∫

Rf(x1, ..., xd)dx1

)dx2

)...)dxn.

Hier mal ein konkretes Zahlenbeispiel:

Beispiel 12.6.2. Wegen Lemma 12.2.4 ist f : R2 → R, (x1, x2) 7→ 1√x1x2

1(0,1]×(0,1](x1, x2)

integrierbar. Mit Fubini können wir das Integral berechnen:∫R2

f(x)dx =

∫R2

1√x1√x2

1(0,1](x1)1(0,1](x2)dx

=

∫R1

(∫R1

1√y1√y2

1(0,1](y1)1(0,1](y2)dy1

)dy2

=

∫R1

(∫R1

1√y1

1(0,1](y1)dy11√y2

1(0,1](y2))dy2

=

∫ 1

0

(∫ 1

0

1√y1dy1

1√y2

)dy2

=

∫ 1

02

1√y2dy2

= 4,

wobei die eindimensionalen Integrale∫ 1

01√xdx = 2 in dem Beispiel 12.5.8 berechnet

wurden. Als ganz einfache Routineübung berechnet mal∫

[0,1]31√

x1x2x3dx.

Page 101: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.6. BERECHNUNG MEHRDIMENSIONALER INTEGRALE 99

Um nun Fubini zu beweisen brauchen wir noch ein Lemma. Den Großteil der Arbeithaben wir schon in dem furchtbaren Kapitel erledigt. Weil wir Fubini nur für d = 1beweisen werden, formulieren wir das Lemma auch nur für d = 2. Hinweis: Zum erstenVerständniss könnt ihr dieses „technische“ Lemma weglassen, der Grund für Fubini lässtsich im Beweis auch ohne das Lemma klar erkennen. Vorlesung 24

Lemma 12.6.3. Sei A ⊆ R2 eine Nullmenge. Dann ist auch

Ax1 :={x2 ∈ R : (x1, x2) ∈ A

}für fast alle x1 ∈ R eine Nullmenge in R. Die Aussage gilt analog für Ax2 durch Vertau-schen der Rollen von x1 und x2.

Kurz zur Vorstellung, was ist die Menge Ax1? Ax1 ist nichts weiter, als der Schnitt derMenge A mit der verschobenen Achse durch (0, x2). Die Behauptung ist vielleicht rechteinleuchtend, der Beweis jedoch etwas fusselig. Ein ganz einfaches Beispiel zeigt, warumdie Aussage nur für fast alle x1 gelten kann: Ist A die Strecke von (0, 0) zu (0, 1). Dannist A eine Nullmenge in R2. Es ist Ax1 = ∅ für alle x1 6= 0 und daher eine Nullmengein R. Es ist jedoch A0 = [0, 1], also keine Nullmenge in R. Also gilt die Aussage für fastalle x1, d.h. die Menge auf der es nicht gilt (hier {0}) ist eine Nullmenge.

Beweis. Nach Lemma 12.1.13 gibt es eine monoton wachsende Folge (fn)n∈N von Trep-penfunktionen, so dass (fn)n∈N außerhalb der Menge A konvergiert und die Folge derIntegrale konvergiert. Wenn wir bei einer Treppenfunktion in zwei Variablen eine Koor-dinate festhalten, so bekommen wir eine eindimensionale Treppenfunktion. Setze damit

φn(x1) =

∫R2

fn(x1, x2)dx2, x1 ∈ R.

Die Folge (φn)n∈N ist eine Folge eindimensionaler wachsender Treppenfunktionen undes gilt (Definition Integral für Treppenfunktionen)∫

R2

fn(x)dx =

∫Rφ(x1)dx1.

Wegen Proposition 12.2.1 gibt es eine Nullmenge N1 ⊂ R, so dass (φn(x1))n∈N für allex1 /∈ N1 konvergiert. Damit konvergiert auch die Integralfolge (

∫R2 fn(x1, x2)dx2)n∈N für

alle x1 /∈ N1. Ist x1 /∈ N1, so folgt durch eine weitere Anwendung von Proposition 12.2.1die Existenz einer Nullmenge N2(x1) ⊂ R, so dass (fn(x1, x2))n∈N für alle x1 /∈ N1 undx2 /∈ N2(x1) konvergiert. Sei nun x2 ∈ Ax1 , d.h. (x1, x2) ∈ A, also (fn(x1, x2))n∈N istdivergent (so waren die fn definiert). Also ist auch x2 ∈ N2(x1), d.h. Ax1 ⊆ N2(x1). DaTeilmengen von Nullmengen wieder Nullmengen sind, ist Ax eine Nullmenge.

Beweis Fubini für d = 2. Wir folgen der Definition des Integrals und zeigen die Aussageerst für Indikatorfunktionen, dann (wegen Linearität) für Treppenfunktionen und an-schließend durch Grenzwerte für Oberfunktionen und dann auch noch durch Differenzenfür integrierbare Funktionen.1. Sei f = 1I1×I2 für zwei Intervalle I1, I2 ⊆ R. Dann sind für alle x1 ∈ R auch dieSchnitte

x2 7→ f(x1, x2) = 1I1(x1)1I2(x2)

Page 102: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.6. BERECHNUNG MEHRDIMENSIONALER INTEGRALE 100

Indikatorfunktionen (entweder über die leere Menge oder über I2). Es gilt natürlich∫Rf(x1, x2)dx2 = µ(I2)1I1(x1)

und auch das ist wieder eine Indikatorfunktion (in x1) und damit wieder integrierbar.Wieder mit der Definition des Integrals einer Treppenfunktion (Höhe mal Breite) undder Definition des Volumens eines Quaders gilt∫

R

(∫Rf(x1, x2)dx2

)dx1 =

∫R1I1(x1)µ(I2)dx1 = µ(I1)µ(I2) = µ(I) =

∫R2

f(x)dx.

Das ist die eine Aussage von Fubini. Natürlich können wir das selbe Argument anders-herum durchführen und bekommen auch∫

R

(∫Rf(x1, x2)dx1

)dx2 =

∫R2

f(x)dx.

Damit ist Fubini für Indikatoren gezeigt.2. Die Aussage für Treppenfunktion f =

∑nk=1 αk1Qk folgt aus der Linearität des Inte-

grals auf beiden Seiten der Gleichung (Summe und Konstanten mit Linearität rausziehenund dann die Aussage für Indikatoren anwenden).3. Nun müssen wir für f ∈ O(R2) Grenzwerte nehmen. Sei (fn)n∈N eine Folge vonwachsenden Treppenfunktionen die fast überall gegen f konvergiert. Die Aufgabe ist eszu zeigen, dass dann auch die Folge gn(x2) :=

∫R fn(x1, x2)dx1 eine wachsende Folge

von Treppenfunktionen ist, die fast überall gegen g(x2) :=∫R f(x1, x2)dx1 konvergiert

und deren Folge von Integralen konvergiert. Wenn wir das gezeigt haben, folgt nämlichg ∈ O(R) und mit 2.∫

R2

f(x)dxDef.= lim

n→∞

∫R2

fn(x)dx

2.= lim

n→∞

∫R

(∫Rfn(x1, x2)dx1

)dx2

Def.= lim

n→∞

∫Rgn(x2)dx2

!=

∫Rg(x2)dx2

Def.=

∫R

(∫Rf(x1, x2)dx1

)dx2

und das wäre die Behauptung. Das einzig schwierige für „!“ ist die richtigen Nullmengenzusammenzustellen.Sei also f ∈ O(Rd) eine Oberfunktion und (fn)n∈N eine wachsende Folge von Trep-penfunktionen, die außerhalb einer Nullmenge A ⊆ R2 gegen f konvergiert. Bevor wirweiter machen, nennen wir noch N2 ⊆ R die Nullmenge (existiert wegen Lemma 12.6.3),so dass Ax2 eine Nullmenge ist für alle x2 /∈ N2. Als nächstes bemerken wir, dass wie inSchritt 2 alle gn wieder Treppenfunktionen sind. Überdies ist die Folge wachsend. Fehltalso nur die Konvergenz der Integrale und die fast überall Konvergenz von gn gegen g.Weil nach Schritt 2 und der Definition der Oberfunktionen∫

Rgn(x2)dx2

2.=

∫R2

fn(x)dx→∫R2

f(x)dx, n→∞,

Page 103: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.6. BERECHNUNG MEHRDIMENSIONALER INTEGRALE 101

gilt, ist die Konvergenz der Integrale schon gezeigt. Überdies gibt es also nach Proposition12.2.1 eine Nullmenge N ′2 ⊆ R, so dass (gn(x2))n∈N für alle x2 /∈ N ′2 konvergiert. Es seinun N = N2 ∪N ′2 ⊆ R, N ist auch eine Nullmenge. Für alle x2 /∈ N gilt also sowohl Ax2ist eine Nullmenge als auch (gn(x2))n∈N konvergiert. Es gilt also fast überall (nämlichfür fast alle x2 /∈ N fest), dass

limn→∞

fn(x1, x2) = f(x1, x2) fast überall

und

limn→∞

∫Rfn(x1, x2)dx1

Def.= lim

n→∞gn existiert.

In anderen Worten: Bis auf x2 in einer Nullmenge ist x1 7→ f(x1, x2) eine Oberfunktionund es gilt dann

g(x2) =

∫Rf(x1, x2)dx1 = lim

n→∞

∫Rfn(x1, x2)dx1 = lim

n→∞gn(x2).

Damit ist die Definition des Integrals nachgerechnet und „!“ ist gezeigt.4. Schließlich nehmen wir Differenzen. Ist f = g − h für g, h ∈ O(Rd) so gilt∫

R2

f(x)dxDef.=

∫R2

g(x)dx−∫R2

h(x)dx

3.=

∫R

(∫Rg(x1, x2)dx1

)dx2 −

∫R

(∫Rh(x1, x2)dx1

)dx2

Linearität=

∫R

(∫R

(g(x1, x2)− h(x1, x2)

)dx1

)dx2

f=g−h=

∫R

(∫Rf(x1, x2)dx1

)dx2.

Die andere Reihenfolge der Integration spielt in dem Beweis keine Rolle und kann analogbewiesen werden.

12.6.2 Transformationssatz

Ein zweiter wichtiger Satz zur Berechnung mehrdimensionaler Integralen ist der Trans-formationssatz, der sich gut mit Fubini kombinieren lässt. Den Beweis werden wir nichtgeben, der ist zu lang für diese Vorlesung.

Satz 12.6.4. Sei M ⊆ Rd offen und G ∈ C1(M,Rd) injektiv mit detG′(x) 6= 0 füralle x ∈ M . Sei f : G(M) → R eine auf G(M) integrierbare Funktion. Dann ist auchf ◦G| detG′| auf M integrierbar und es gilt die Transformationsformel∫

G(M)f(x)dx =

∫Mf ◦G(y)|detG′(y)|dy.

Bevor wir völlig durchdrehen, schauen wir uns den Spezialfall d = 1 an. In dem Fall istG′(x) eine 1× 1-Matrix und die Determinante ist gerade der Eintrag. Also gilt∫ G(b)

G(a)f(x)dx =

∫ b

af(G(y))G′(y)dy.

Page 104: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

12.6. BERECHNUNG MEHRDIMENSIONALER INTEGRALE 102

Das ist gerade die Substitutionsregel in einer Dimension! Man beachte, dass der Betragnur regelt, ob das das Integral

∫ G(b)G(a) oder

∫ G(a)G(b) ist. Ist G′ > 0 so ist ist G wachsend und

die Intervallgrenzen drehen sich nicht um. Ist G′ negativ, so drehen sich die Grenzenund das Vorzeichen regelt

∫ ab = −

∫ ba .

Beispiel 12.6.5. (Kreisfläche durch Polarkoordinaten)Wir berechnen als Beispiel das Integral

∫KR

1dx, wobei KR den Kreis vom Radius Rbezeichnet. In Analogie zum Volumen eines Quaders µ(Q) =

∫Q 1dx bezeichnet man

µ(KR) :=∫KR

1dx als Kreisfläche. Sei

G : (0, R)× (0, 2π)→ R2,

(rφ

)7→(r cos(φ)r sin(φ)

).

Wegen der Polarkoodinatendarstellung komplexer Zahlen bildet G also M = (0, R) ×(0, 2π) auf den Kreis KR mit Radius R ab. Jetzt setzen wir einfach in den Transforma-tionssatz mit f = 1 ein: ∫

KR

1dx =

∫(0,R)×(0,2π)

rd

(r

φ

), (12.8)

wobei wir f ◦G = 1 und

|detG′(r, φ)| = |r(cos2(φ) + sin2(φ))| = r

genutzt haben. Die andere Bezeichnung des zweidimensionalen Vektors (y1, y2) als (r, φ)sollte nicht stören, bei Polarkoordinaten schreibt man das so, um die Bedeutung derKoordinaten (Radius und Winkel) zu behalten. Jetzt berechnen wir mit Fubini die rechteSeite von (12.8) nochmal ganz ausführlich:∫

(0,R)×(0,2π)rd

(r

φ

)=

∫R2

1(0,R)×(0,2π)rd

(r

φ

)Fubini

=

∫R

∫R1(0,R)1(0,2π)rdφdr

=

∫ R

0r

∫ 2π

0dφdr

= 2π

∫ R

0rdr

= πR2.

Eine Sache haben wir noch ignoriert. Warum ist f ∈ L1(Rd)?Wegen Satz 12.2.4 brauchenwir, dass der Rand vom Kreis eine Nullmenge ist. Das kann man genauso machen, wieeine Gerade mit kleinen Quadern zu überdecken.

Beispiel. Zum Üben bietet es sich an, das gleiche für das Kugelvolumen zu machen. DerTrick ist, die Polarkoordinaten durch sogenannte Kugelkoordinaten zu ersetzen. Mansetzt dann wieder die Funktion f = 1 ein und rechnet ganz analog mit Transformations-satz und Fubini.

Page 105: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

Kapitel 13

Banachscher Fixpunktsatz undAnwendungen

Vorlesung 2513.1 Banachscher Fixpunktsatz

Eines der wichtigsten Resultate für vollständige metrische Räume mit sehr vielen Folge-rungen ist der Banachsche Fixpunktsatz. Dieser gibt Bedingungen für die Existenz undEindeutigkeit von Fixpunkten stetiger Abbildungen (d.h. Werten mit φ(x) = x). Es gibtauch viele andere Fixpunktsätze unter anderen Annahmen. Die Variante von Banach istbesonders nützlich weil gleichzeitig ein Approximationsverfahren herausfällt, das auchin der Praxis genutzt wird.

Definition 13.1.1. Ist (M,d) ein metrischer Raum, so heißt eine Abbildung φ : M →M Kontraktion („Zusammenziehung“), falls es ein L ∈ (0, 1) gibt mit

d(φ(x), φ(y)

)≤ L · d(x, y),

für alle x, y ∈M.

Bemerkung. Eine Kontraktion ist eine Lipschitz-stetige Abbildung, deren Lipschitz-Konstante echt kleiner als 1 ist.

Satz 13.1.2. (Banachscher Fixpunktsatz)Ist (M,d) ein vollständiger metrischer Raum und die Abbildung φ : M → M eineKontraktion, so besitzt die Abbildung φ genau einen Fixpunkt in der Menge M . Dasbedeutet, es existiert genau ein x ∈ M mit φ(x) = x. Es gilt noch mehr: Definiert manfür ein beliebiges x0 ∈ M die Folge xn = φ(xn−1), n ∈ N, so konvergiert (xn)n∈N gegenden Fixpunkt x. Es gilt

d(xn, x) ≤ Ln

1− Ld(x1, x0). (13.1)

für alle n ∈ N.

Der Banachsche Fixpunktsatz gibt also nicht nur die Existenz eines Fixpunktes, sondernauch eine Methode den Fixpunkt zu approximieren. Die Ungleichung (13.1) gibt eineobere Schranke für die „Konvergenzgeschwindigkeit“.

103

Page 106: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.1. BANACHSCHER FIXPUNKTSATZ 104

Beweis. Es sei (xn)n∈N die Folge xn = φ(xn−1), n ∈ N, für ein x0 ∈M beliebig.Dann gilt

d(xn, xn+1)Def.= d

(φ(xn−1), φ(xn)

)Kontr.≤ L · d(xn−1, xn)

Def.= L · d

(φ(xn−2), φ(xn−1)

)Kontr.≤ L2 · d(xn−2, xn−1)

≤ . . .

≤ Ln · d(x0, x1)

(sauber natürlich mit Induktion!) und damit folgt

d(xn, xn+m)4≤ d(xn, xn+1) + d(xn+1, xn+2) + · · ·+ d(xn+m−1, xn+m)

≤ d(xn, xn+1) + L · d(xn, xn+1) + · · ·+ L · d(xn+m−2, xn+m−1)

≤ . . .

≤ d(xn, xn+1)(1 + L+ L2 + L3 · · ·+ Lm−1)

L>0≤ Lnd(x0, x1)

∞∑k=0

Lk

geo.= d(x0, x1)Ln

1

1− L.

Es gilt L < 1 und somit folgt

d(x0, x1)Ln

1− L→ 0, n→∞.

Die Folge (xn)n∈N ist daher eine Cauchyfolge und konvergiert gegen ein x ∈M , weil Mvollständig ist.Darüberhinaus gilt

φ(x) = φ(

limn→∞

xn) stetig

= limn→∞

φ(xn) = limn→∞

xn+1 = x

und somit ist der Punkt x ∈M ein Fixpunkt. Die Existenz ist also gezeigt.Die Eindeutigkeit des Fixpunktes muss noch geprüft werden. Es seien dazu x′, x Fix-punkte der Abbildung φ, dann gilt

0 ≤ d(x, x′) = d(φ(x), φ(x′)

)≤ L · d(x, x′).

Weil L < 1 gilt, folgt d(x, x′) = 0. Aufgrund der Definitheit einer Metrik folgt x′ = x.

Die Ungleichung (13.1) wird wie folgt gezeigt:

d(xn, x)Def.= d

(xn, lim

m→∞xm+n

)stetig= lim

m→∞d(xn, xm+n)

s.o.≤ lim

m→∞d(x0, x1)

Ln

1− L

= d(x0, x1)Ln

1− L

Page 107: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.2. LOKALE UMKEHRBARKEIT 105

13.2 Lokale Umkehrbarkeit

In diesem Abschnitt wird sich mit der Frage auseinandergesetzt, ob eine Abbildungf : Rd → Rd invertiert werden kann, ob es also eine Umkehrfunktion f−1 vom Bild vonf nach Rd gibt und ob diese differenzierbar ist. Zunächst der eindimensionale Fall:

Beispiel. f : R → R, f(x) = x2 ist nicht invertierbar (umkehrbar) weil f nicht bijektivist. Die Einschränkung auf (0,∞) oder (−∞, 0) ist jedoch bijektiv und damit umkehrbar!Die Problemstelle ist x = 0 und da gilt f ′(x) = 0. Umkehrbarkeit sollte also etwas mitder Ableitung zu tun haben.

Die allgemeine Situation ist ganz ähnlich. Das liegt daran, dass wir in einer Dimensiondas Konzept der Monotonie haben.

Satz 13.2.1. (Globale Umkehrbarkeit in Dimension 1)Sei f ∈ C1

((a, b),R

). Ist f ′(x) 6= 0 für alle x ∈ (a, b), so ist die Abbildung f invertierbar

auf (a, b) und es gilt

(f−1)′ =1

f ′ ◦ f−1.

Beweis. Nach Voraussetzung ist die Abbildung f ′ stetig. Der Zwischenwertsatz impli-ziert, dass entweder

f ′(x) > 0 oder f ′(x) < 0

für alle x ∈ (a, b) gilt. Die Abbildung f ist daher monoton und auch injektiv. Das Bildunter der Abbildung f ist dazu ein Intervall (c, d). Daher existiert eine Umkehrabbildung

f−1 : (c, d)→ (a, b),

welche nach den Regeln aus Analysis I differenzierbar ist mit (f−1)′ = 1f ′◦f−1 .

Im mehrdimensionalen fragt man sich natürlich, wodurch man f ′(x) 6= 0 ersetzen muss.Zum Beispiel mit f ′(x) invertierbar, d.h det f ′(x) 6= 0 wie folgendes Beispiel suggeriert.

Beispiel. Sei die Abbildungf(x) = Ax,

mit A ∈ Rn×n gegeben. f ist natürlich genau dann invertierbar, wenn die Matrix Ainvertierbar ist. Weil f ′(x) = A ist also f invertierbar genau dann, wenn det

(f ′(x)

)6= 0

für alle x ∈ Rd. Existenz der Umkehrfunktion könnte also etwas mit der Determinanteder Ableitung zu tun haben. Beachte, dass es in diesem Beispiel eine „globale Umkehr-abbildung“ existiert, das heißt für alle x ∈ Rd.

Das nächste Beispiel zeigt, dass det f ′(x) 6= 0 für globale (d.h. überall) Umkehrbarkeitausreichen kann:

Beispiel. Sei

f : R2 → R2,

(x1

x2

)7→(ex1 cos(x2)ex1 sin(x2)

),

dann existieren alle partiellen Ableitungen und diese sind stetig. Also wissen wir, dassf total differenzierbar ist und können die Ableitung berechnen: Es gilt

f ′(x1

x2

)=

(ex1 cos(x2) −ex1 sin(x2)ex2 sin(x2) ex1 cos(x2)

)

Page 108: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.2. LOKALE UMKEHRBARKEIT 106

mit

det

(f ′(xy

))= ex1

(cos2(x2) + sin2(x2)

)= ex1 6= 0,

für alle(x1

x2

)∈ R2. Die Abbildung f ist nicht injektiv, denn

f

(x1

x2 + 2kπ

)= f

(x1

x2

),

für k ∈ N und somit ist f nicht (global) invertierbar.

Die Beispiele zeigen, dass die Invertierbarkeit der Ableitung etwas mit der Umkehrbarkeitzu tun haben könnte, sie aber nicht vollständig charakterisiert. Jedenfalls nicht globaleUmkehrbarkeit, also nicht auf dem ganzen Definitionsbereich.Vor dem wichtigsten Satz erinnern wir uns kurz daran, was eine Umgebung eines Punktesx0 ∈ Rd ist. O ⊆M heißt Umgebung von x0, falls es ein r > 0 gibt mit B(x, r) ⊆ O.

Satz 13.2.2. (Satz über lokale Umkehrbarkeit in allen Dimension)Sei f ∈ C1(V,Rd) mit V ⊆ Rd offen und sei f ′(x0) ∈ Rn×n invertierbar. Dann gibt eseine offene Umgebung U ⊆ V von x0, sodass W = f(U) eine Umgebung von y0 = f(x0)ist, f : U →W bijektiv ist und f−1 ∈ C1(W,V ). Für die Ableitung der Umkehrfunktiongilt

(f−1)′(y) =(f ′(f−1(y)

))−1

für alle y ∈W.

Eine kleine Warnung: Der Beweis basiert auf dem Banachschen Fixpunktsatz und gibtnur eine Existenzaussage. Wir wissen am Ende nicht wie f−1 konkret aussieht. Allerdingskennen wir die Ableitung, das ist schon mal hilfreich.

Beweis. Der Beweis läuft in mehreren Schritten ab. In den ersten Schritten zeigen wir dieUmkehrbarkeit (=Invertierbarkeit). Anschliessend leiten wir die Formel für die Ableitungder Umkehrfunktion her.Lokale Umkehrbarkeit: U finden, auf dem f injektiv istOhne Beschränkung der Allgemeinheit kann angenommen werden, dass x0 = 0 bezie-hungsweise y0 = 0. Andernfalls wird statt der Abbildung f die folgende Abbildungbetrachtet:

f̃x0(x) = f(x0 + x)− f(x0).

Es sei

A := f ′(0) und Rf (x) := f(x)−Ax.

Dann sind die folgende Aussagen für alle x, y ∈ Rd natürlich äquivalent weil nach An-nahme A invertierbar ist:

f(x) = y ⇔ Ax+Rf (x) = y ⇔ x = A−1(y −Rf (x)

).

Wir betrachten die Hilfsfunktion

φy(x) := A−1(y −Rf (x)

).

Page 109: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.2. LOKALE UMKEHRBARKEIT 107

Um zu zeigen, dass die Abbildung f lokal injektiv ist, muss gezeigt werden, dass ineiner geeigneten Umgebung für alle y höchstens ein x existiert, sodass f(x) = y. DieseAussage ist äquivalent zu der Aussage, dass die Abbildung φy(x) nur einen Fixpunkthat. Also schauen wir uns die Fixpunkteigenschaften von φy an. Um Fixpunkte zu findennutzen wir den Banachschen Fixpunktsatz. Zunächst wird die Kontraktionseigenschaftder Abbildung φy(x) untersucht. Sei dazu

∆ = ‖A−1‖ <∞,

wobei ‖ · ‖ die Operatornorm bezeichnet. Nach Voraussetzung ist die Abbildung

R′f (x) = f ′(x)−A

stetig mitR′f (0) = f ′(0)−A = A−A = 0.

Daher existiert ein δ0 > 0 mit B(0, δ0) ⊆ V und

‖R′f (x)‖ = ‖R′f (x)−R′f (0)‖ ≤ 1

2∆(13.2)

für alle x ∈ B(0, δ0). Das ist gerade die ε-δ-Stetigkeit mit ε := 12∆ . Aufgrund des

Schrankensatzes gilt deshalb auch

|Rf (x1)−Rf (x2)| ≤ 1

2∆|x1 − x2| (13.3)

für alle x1, x2 ∈ B(0, δ0). Somit folgt

|φy(x1)− φy(x2)| Def.= |A−1(Rf (x1)−Rf (x2)|≤ ‖A−1‖|Rf (x1)−Rf (x2)|= ∆|Rf (x1)−Rf (x2)|

(13.3)

≤ 1

2|x1 − x2| (13.4)

für alle x1, x2 ∈ B(0, δ0). Zudem gilt auch noch

|φy(x)|Def.≤ ‖A−1‖|y −Rf (x)|4≤ ‖A−1‖

(|y|+ |Rf (x)|

)= ‖A−1‖

(|y|+ |Rf (x)−Rf (0)|

)≤ ‖A−1‖

(|y|+ 1

2∆|x|)

= ∆|y|+ 1

2|x|

für alle x ∈ B(0, δ0). Sei nun

δ < δ0 und η =δ

2∆

mit δ klein genug, sodass

det(f ′(x)

)6= 0 (13.5)

Page 110: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.2. LOKALE UMKEHRBARKEIT 108

für alle x ∈ B(0, δ) (die Determinante ist stetig). Die Eigenschaft (13.5) spielt erst spätereine Rolle. Mit diesem δ gilt

|φy(x)| ≤ ∆η +1

2δ = δ, (13.6)

für alle x ∈ B(0, δ) und y ∈ B(0, η). Aufgrund von Ungleichung (13.4) existiert einη > 0, sodass für alle y ∈ B(0, η) die Abbildung

φy : B(0, δ)→ B(0, δ) (13.7)

eine Kontraktion mit Kontraktionskonstante L = 12 ist. Aus dem Banachschen Fixpunkt-

satz folgt die Aussage, dass für alle y ∈ B(0, η) genau ein x ∈ B(0, δ) existiert, sodassφy(x) = x. Diese Aussage ist äquivalent zu der Aussage, dass für alle y ∈ B(0, η) genauein x ∈ B(0, δ) existiert, sodass f(x) = y.

Jetzt können wir endlich U und W definieren:

U := f−1(B(0, η)

)∩B(0, δ) ⊆ V

und W = f(U). Weil x0 = 0 und f−1(B(0, δ)

)eine offene Menge ist, die die 0 enthält

ist U eine offene Umgebung von x0. Nach obigem ist f auf U invertierbar. Somit ist dieAussage über lokale Umkehrbarkeit bewiesen.Differenzierbarkeit der Umkehrabbildung f−1 : W → V in 0

Es soll gezeigt werden, dass die Abbildung f−1 : W → V differenzierbar ist. Es gilt

|f−1(y)| Konstruktion= |φy(f−1(y))|

siehe oben≤ ∆|y|+ 1

2

∣∣f−1(y)∣∣

≤ ∆|y|+ 1

2

(∆|y|+ 1

2|f−1(y)|

)≤ . . .

≤ ∆|y|(

1 +1

2+

1

2· 1

2+ . . .

)= ∆|y|

∞∑k=0

(1

2

)kgeom.

= ∆|y| 1

1− 12

.

Damit ist f−1 Lipschitz stetig bei der Null, insbesondere stetig. Die Abbildung f−1 istbijektiv und daher gilt wegen unserer Annahme f(0) = 0 (also f−1(0) = 0)

|f−1(y)− f−1(0)−A−1y||y|

Def.=

∣∣φy(f−1(y))−A−1y

∣∣|y|

Def.=

∣∣A−1Rf(f−1(y)

)∣∣|y|

≤‖A−1‖

∣∣Rf(f−1(y))|

|f−1(y)∣∣ |f−1(y)|

|y|

=∆∣∣Rf(f−1(y)

)|

|f−1(y)∣∣ |f−1(y)|

|y|.

Beide Faktoren der rechten Seite betrachten wir jetzt einzeln im Grenzwert für y → 0.Wir starten mit dem ersten:

Page 111: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.3. SATZ ÜBER IMPLIZITE FUNKTIONEN 109

i) Es gilt nach Definition

limx→0

|Rf (x)||x|

= limx→0

|f(x)− f(0)− f ′(0) · x||x|

= 0,

denn die Abbildung f ist differenzierbar.

ii) Die Abbildung f−1 ist stetig in 0 mit f−1(0) 6= 0 und somit gilt wegen der Stetigkeitvon Rf auch

limy→0

∣∣Rf(f−1(y))∣∣

|f−1(y)|= 0.

Für den zweiten Faktor nutzen wir die Abschätzung von oben:

|f−1(y)||y|

≤ 2∆,

also folgt aus der Abschätzung des Differenzenquotienten und den Abschätzungen dereinzelnen Faktoren

limy→0

∣∣f−1(y)− f−1(0)−A−1y∣∣

|y|= 0.

Deswegen ist die Abbildung f−1 differenzierbar in Null.Differenzierbarkeit der Umkehrabbildung f−1 : W → V

Als nächstes zeigen wir die Differenzierbarkeit der Abbildung f−1 in der ganzen MengeW . Wegen der Wahl von δ ist f ′(x) invertierbar für alle x ∈ B(0, δ). Sei y ∈ W, y 6= 0,dann gilt für ein x̃0 ∈ B(0, δ)

x̃0 = f−1(y).

Aufgrund von (13.5) giltdet(f ′(x̃0)

)6= 0

und der exakt gleiche Beweis für die Verschiebung f̃x0 liefert die Differenzierbarkeit iny.Formel für die AbleitungFehlt noch die Ableitungsformel nachzurechnen. Es gilt für alle y ∈W

f ◦ f−1(y) = y

und aus der Kettenregel folgt

(f ◦ f−1)′(y) = f ′(f−1(y)

)(f−1)′(y) = id.

Durch Umformungen gilt

(f−1)′(y) =(f ′(f−1(y)

))−1.

Die Invertierung funktioniert wegen die Determinante von f ′(x) für alle x ∈ U ungleichnull ist.Stetigkeit von (f−1)′

In dieser Vorlesung wird f−1 ∈ C1(W,V ) nicht bewiesen.

Page 112: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.3. SATZ ÜBER IMPLIZITE FUNKTIONEN 110

13.3 Satz über implizite FunktionenVorlesung 26

In diesem Kapitel werden Höhenlinien von Abbildungen lokal durch Kurven beschrieben,indem gewisse Mengen parametrisiert werden. Eine Anwendung des Satzes ist der Beweisfür Extrema unter Nebenbedingungen im folgenden Kapitel.

Beispiel 13.3.1. Betrachten wir die Abbildung

g(x, y) = x2 + y2

auf dem R2. Die Niveaulinie

A ={

(x, y) ∈ R2 | g(x, y) = 1}

zum Niveau 1 ist der Einheitskreis in R2. Wir möchten versuchen diese Menge in derForm eines Graphen irgendeiner reellen Abbildung h zu parametrisieren:

A ={

(x, h(x)) | x ∈ U}

oder A ={

(h(y), y) | y ∈ U}.

Es ist in diese Beispiel klar, dass dies nicht für die komplette Menge A funktioniert,sondern nur für Teilmengen (lokal). Sei U = R × (0,∞) die obere Halbebene, dann isteine Parametrisierung der oberen Hälfte der Höhenlinie A gegeben durch

A ∩ U ={

(x, y) ∈ U∣∣ x2 + y2 = 1

}={(x,√

1− x2) ∣∣∣ x ∈ (−1, 1)

}.

SeiW = (0,∞)×R die rechte Halbebene, dann ist eine Parametrisierung der Höhenliniein dieser Form nicht möglich weil für einen x-Wert zwei y-Werte benötigt würden. Dasist für Abbildungen aber nicht erlaubt. Was aber funktioniert ist folgende GraphenParametrisierung wenn die Rollen von x und y getauscht werden:

A ∩W ={

(x, y) ∈W∣∣ x2 + y2 = 1

}={(√

1− y2, y) ∣∣ y ∈ (−1, 1)

}.

Wenn es funktioniert, haben wir die Parametrisierung durch Auflösen der Gleichung x2+y2 = 1 nach einer der Variable gefunden. Doch wann funktioniert das? Was sich gleichherausstellen wird ist eine Verbindung zu den partiellen Ableitungen der Abbildung g,deren Höhenlinien wir anschauen. Berechnen wir diese mal in dem einfachen Beispiel:

∂xg(1, 0) = 2 6= 0,

∂xg(0, 1) = 0,

∂yg(1, 0) = 0,

∂yg(0, 1) = 2 6= 0.

Was wir in diesem Beispiel sehen ist folgendes: Wenn die partielle Ableitung an einerStelle nicht 0 ist, so können wir „lokal“ um diese Stelle herum die Gleichung g(x, y) = 1nach dieser Koordinate auflösen, also die Koordinate eliminieren und die Höhenlinie alsGraphen bezüglich der anderen Kooordinate schreiben. Genau das ist die Aussage desSatzes über implizite Funktionen (lokales Auflösen von Gleichungen).

Notation 13.3.2. Für eine Abbildung g : Rm × Rk → Rk bezeichnet

• Dxg(x0, y0) ∈ Rk×m die Ableitung von x 7→ g(x, y0) an der Stelle x0 für ein festesy0 ∈ Rk,

• Dyg(x0, y0) ∈ Rk×k die Ableitung von y 7→ g(x0, y) an der Stelle y0 für ein festesx0 ∈ Rm.

Page 113: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.3. SATZ ÜBER IMPLIZITE FUNKTIONEN 111

Für m = k = 1 sind Dx und Dy nichts anderes als die partiellen Ableitungen.

Bemerkung. Es gilt

g′(x0, y0) =(Dxg(x0, y0), Dyg(x0, y0)

)mit der üblichen Notation, in der zwei Matrizzen hintereinander in eine Matrix zusam-mengefasst werden.

Beispiel. Sei

g : R3 = R2 × R→ R, (x, y) 7→ g((x1, x2), y) = x1 + x2 sin(y),

dann gelten

∂x1g(x1, x2, y) = 1,

∂x2g(x1, x2, y) = sin(y),

∂yg(x1, x2, y) = x2 cos(y).

Daraus folgt

Dxg(x1, x2, y) =(1, sin(y)

), Dyg(x1, x2, y) =

(x2 cos(y)

)und zusammengesetzt

g′(x1, x2, y) = (1, sin(y), x2 cos(y)).

Satz 13.3.3. (Implizite Funktion oder lokales Auflösen von Gleichungen)Sei D ⊆ Rm × Rk eine offene Menge und sei die Abbildung g ∈ C1(D,Rk). Ist

g(x0, y0) = z

und Dyg(x0, y0) invertierbar, so gibt es eine offene Umgebung U von x0, V von y0 undeine Abbildung hz ∈ C1(U, V ), sodass

g(x, y) = z ⇔ y = hz(x)

für alle (x, y) ∈ U × V . Die Auflösefunktion hz ist nicht explizit bekannt, jedoch dieAbleitung: h′z(x0) = −

(Dyg(x0, y0)

)−1Dxg(x0, y0)

Im Sinne der Darstellung von Niveaus aus dem motivierenden Beispiel gilt also in U ×V{(x, y) ∈ U × V | g(x, y) = z

}={

(x, hz(x)) | x ∈ U}

und die rechte Seite ist wieder der Graph der Abbildung x 7→ hz(x).

Beispiel. Es wird das Beispiel 13.3.1 fortgeführt und es wurde bereits gezeigt, dass zumBeispiel

Dyg(0, 1) =∂

∂yg(0, 1) = 2 6= 0.

Indem die Gleichungg(x, y) = 1

nach y aufgelöst wird, gilty = h1(x) =

√1− x2.

Dies funktioniert zum Beispiel in der Menge U × V = (0, 2)× (−1, 1)

Page 114: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.3. SATZ ÜBER IMPLIZITE FUNKTIONEN 112

Bemerkung. Der Satz über implizite Funktionen trägt seinen Namen, weil die Funk-tion hz nicht explizit angegeben wird, sondern nur implizit. Es wird sich in dem Beweisfür den Satz zeigen, dass die Existenz durch ein Fixpunktproblem bewiesen wird undsomit die Form der Abbildung unbekannt bleibt. Für viele Anwendungen, zum BeispielExtrema unter Nebenbedingungen, braucht man tatsächlich nur die Existenz und nichtdie konkrete Form.

Beweis von Satz 13.3. Im Prinzip ist der Beweis sehr einfach, die ungewohnte Notationverkompliziert alles ein wenig. Die Idee ist, die Funktion g zu einer Funktion G zwischengleichdimensionalen Räumen trivial zu „erweitern“, denn das war die Voraussetzung fürden Satz über lokale Umkehrbarkeit. Die Vorraussetzungen an g reichen aus, dass Ginvertiert werden kann. Die Erweiterung spielt bei der Invertierung gar keine Rolle, unddie gesucht Auflösungsfunktion hz kann direkt abgelesen werden.

Wir definieren die „erweiterte“ Hilfsfunktion

G : Rm × Rk → Rm × Rk,(xy

)7→(

xg(x, y)

)=

x1...xm

g1(x, y)...

gk(x, y)

.

1. Der Satz der lokalen Umkehrbarkeit soll auf die Abbildung G angewandt werden. DieMatrix G′(x0, y0) ist in Blockform gegeben durch

G′(x0, y0) =

(1m 0m

Dxg(x0, y0) Dyg(x0, y0)

),

wobei

1m die m×m-Einheitsmatrix ist

und

0m die m×m-Nullmatrix ist.

Für die Determinante gilt (Blockmatrix Formel)

det(G′(x0, y0)

)= det(1m) det

(Dyg(x0, y0)

)= 1 det

(Dyg(x0, y0)

)6= 0,

denn nach Annahme ist Dyg(x0, y0) invertierbar.

2. Es gibt nach Satz 13.2.2 eine Umgebung von (x0, y0) auf der die Abbildung G um-kehrbar ist. In dieser Umgebung existiert ein Ball um (x0, y0) und somit existiert eineMenge U × V wie im Satz 13.2.2, welche in der Umgebung enthalten ist. Also existierteine Abbildung

G−1 : W → U × V ⊂ Rm × Rk

mit W = G(U × V ). Wir schreiben G−1 =

(G−1

1

G−12

)für die ersten m und letzten k

Koordinatenabbildungen von G−1.

Page 115: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 113

3. Für alle (x, y) ∈ U × V gilt:(xy

)= G−1

(G(x, y)

) Def.= G−1

(x, g(x, y)

)=

(G−1

1

(x, g(x, y)

)G−1

2

(x, g(x, y)

)) .Also ist schon mal G−1

1 (x, y) = x. Interessanter ist aber der zweite Eintrag G−12 . Wir

definieren daraus

hz(x) = G−12 (x, z),

denn damit können wir auflösen:

g(x, y) = z ⇔ G(x, y) =

(x

g(x, y)

)=

(xz

)⇔

(xy

)= G−1(x, z) =

(x

hz(x)

)⇔ y = hz(x).

Damit ist die Behauptung des Auflösens bewiesen.4. Wir betrachten noch die Ableitung der Abbildung von hz. Die Abbildung

x 7→ g(x, hz(x)

)ist konstant, weil nach Konstruktion von hz

g(x, hz(x)

)= z,

für alle x ∈ U. Aus der Kettenregel folgt:

0 = g′(x, hz(x)

)( 1h′z(x)

)=

(Dxg(x, hz(x)), Dyg(x, hz(x))

)( 1h′z(x)

)= Dxg

(x, hz(x)

)+Dyg

(x, hz(x)

)h′z(x)

Nach Annahme ist die Matrix

Dyg(x0, hz(x0)

)= Dyg(x0, y0)

invertierbar und deswegen kann die Gleichung gelöst werden und es gilt

h′z(x0) = −(Dyg(x0, y0)

)−1Dxg(x0, y0).

13.4 Extrema unter Nebenbedinungen

Vorwort. Es wird das Extrema einer Abbildung gesucht, wobei sich Variablen nicht freibewegen können, sondern eine Nebenbedingung erfüllen müssen. Der Satz, dass einestetige Abbildung f : K → Rm, wobei K eine kompakte Menge ist, ihr Maximumbeziehungsweise Minimum in K annimmt, ist in diesem Kapitel von Bedeutung.

Page 116: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 114

Beispiel 13.4.1. Es stellt sich die Frage, wo die Abbildung

f : R3 → R, (x1, x2, x3) 7→ x1 · x2 · x3

ihr Maximum in der Menge B(0, 1) annimmt. Die Menge B(0, 1) ist eine kompakteMenge und die Abbildung f ist stetig. Somit gibt es ein Maximum der Abbildung f inder Menge B(0, 1).Nach Kapitel 12 ist die notwendige Bedingung

f ′(x1, x2, x3) = (x2 · x3, x1 · x3, x2 · x1)!

= (0, 0, 0).

Daraus folgt, dass mindestens zwei Variablen den Wert Null annehmen.Es gilt

a) f(0, 0, 0) = 0,

b) f(1, 1, 1) = 1

und

c) f(

14 ,

14 ,−

14

)= − 1

43< 0.

In Kapitel 12 wurden Extrema für offene Mengen bestimmt. In diesem Beispiel wirdjedoch eine Menge B(0, 1) betrachtet, welche nicht offen ist. Die Hessematrix wird be-rechnet, um zu zeigen, dass die kritischen Punkte mit zwei Koordinaten, welche ungleichNull sind, keine Extremstellen, sondern Sattelpunkte sind.Die Randpunkte der Menge B(0, 1) können nicht durch die Eigenschaften

i) f ′(x),

ii) f ′′(x) > 0

und

iii) f ′′(x) < 0

untersucht werden.Anmerkung. Um das Problem zu lösen wird sich mit der Frage auseinandergesetzt, wel-che Eigenschaften ein x ∈ M erfüllen muss, damit x ein lokales Extrema ist, wenn dieMenge M nicht offen ist. Wenn die Menge M beispielsweise lokal durch eine Kurve

γ : [a, b]→M

parametrisiert werden kann und γ eine differenzierbare Abbildung ist, mit

γ′(t0) = x, t0 ∈ [a, b],

so muss die Abbildungh(t) = f(γ(t))

ein lokales Extrema in t0 haben. Die notwendige Bedingung an x ist, dass

h′(t0) = (f ◦ γ)′(t0) = 0.

Dieser Ansatz wirft das Problem auf, dass die Parametrisierung γ bekannt sein muss,um

h′(t0) = 0

zu berechnen. Im Folgenden wird gezeigt, dass eine Parametrisierung γ im Spezialfallfür zwei-dimensionale Abbildungen nicht benötigt wird.

Page 117: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 115

Definition 13.4.2. Für eine Abbildung f :→ R und Nebenbedingungen g1, . . . , gm :→R hat die Abbildung f in x eine Extrema unter Nebenbedingungen g1(x = · · · = gm(x) =0, falls mit

M ={x ∈: g1(x) = · · · = gm(x) = 0

}f|M in x ein lokales Extremum hat.

Beispiel. Das Beispiel 13.4.1 kann in die Form von Definition 13.4.2 umgeschriebenwerden. Es wird das Extremum der Abbildung f unter der Nebenbedingung g gesuchtmit

a) f(x1, x2, x3) = x1 · x2 · x3

und

b) g(x1, x2, x3) = x21 + x2

2 + x23 − 1

Beispiel 13.4.3. Die Nebenbedinungen g(x) = 0 wird benutzt, um geometrische Mengenzu beschreiben, über welche das Maximum beziehungsweise Minimum bestimmt wird.

a) Die Nebenbedingung g(x1, x2) = x21 + x2

2 − 1 = 0 beschreibt den Einheitskreis imR2.

b) Die Nebenbedingung g(x1, x2) = x1 − 1 = 0 beschreibt eine senkrechte Gerade imR2.

c) Die Nebenbedingungen g1(x1, x2, x3) = x1− 1 = 0 und g2(x1, x2, x3) = x2− 1 = 0beschreiben zusammen eine Gerade im R3.

Satz 13.4.4. (Extrema unter Nebenbedingungen, notwendige Bedingung)Seien die Abbildungen f, g ∈ C1(D,R), wobei D ⊆ eine offene Menge ist und f habe inx ein lokales Extremum unter der Nebenbedingung g(x) = 0. Dann gilt

(1) g′(x) = 0 und g(x) = 0

oder

(2) es existiert λ ∈ R mit Of(x) = λOg(x) und g(x) = 0.

Bemerkung 13.4.5. Fall (1) heißt singulärer Fall und ist unabhängig von der Abbil-dung f .

Bemerkung 13.4.6. λ heißt Lagrange-Multiplikator und spielt keine weitere Rolle.(2) kann mit der Lagrangefunktion

L(x, λ) = f(x)− λg(x)

geschrieben werden als

OL(x, λ) =

∂∂x1

L(x, λ)...

∂∂xn

L(x, λ)

−g(x)

= 0.

Page 118: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 116

Bemerkung 13.4.7. Der Satz 13.4.4 gibt nur eine notwendige Bedingung für lokaleExtrema an. Es muss noch getestet werden, ob die Punkte, die die Bedingung erfüllen,tatsächlich lokale Extrema sind. Oft rettet man sich wie folgt, wenn M kompakt ist:Wegen der Kompaktheit von M und der Stetigkeit von f gibt es globales Minimum undglobales Maximum. Satz 13.4.4 gibt alle möglichen Extremstellen an. Vergleiche also alleFunktionswerte an diesen Stellen, der größte Funktionswert ist das globale Maximum,der kleinste das globale Minimum.

Bemerkung 13.4.8. (Algorithmus) (1) Finde alle x ∈ mit g′(x) = g(x) = 0.

(2) Löse das Gleichungssystem:

Of(x) = λOg(x) und g(x) = 0.

(3) Prüfe alle x, die in (1) und (2) gefunden werden auf Extremität.

Beweis. (von Satz 13.4.4)Es wird nur der Fall n = 2 behandelt. Angenommen es gilt Fall (1), dann ist die Be-hauptung gezeigt.Angenommen es gilt nicht Fall (1), dann gilt

g′(x) =

(∂∂x1

g(x)∂∂x2

g(x)

)6= 0.

Wir nehmen ohne Beschränkung der Allgemeinheit an, dass

∂x2g(x) 6= 0.

Mit Satz 13.3 existiert U × V ⊆ D, eine Menge M ={

(x1, x2 : g(x1, x2) = 0}und eine

durch g implizit gegeben Abbildung h, sodass die folgenden beiden Aussagen äquivalentsind:

a) (x1, x2) ∈M ∩ (U × V )

b) (x1, x2) =(x1, h(x1)

)Somit folgt, dass x ∈ U × V .Wir betrachten die Abbildung

H :

{R ⊇ U → Rx 7→ f

(x, h(x)

) .Die Annahme, dass x = (x1, x2) ein lokales Extremum in der Menge M ist, impliziert,dass x1 ein lokales Extremum für die Abbildung H ist.Mit der Kettenregel gilt:

0 = H ′(x1)

= f ′(x1, h(x1)

)( 1h′(x1)

)=

⟨Of(x1, h(x1)

),

(1

h′(x1)

)⟩

Page 119: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 117

Aufgrund der Nebenbedingung g(x1, x2) = 0 gilt

x1 7→ g(x1, h(x1)

)= 0,

für alle x1 ∈ U.Mithilfe der Kettenregel gilt

0 = g′(x1, h(x1))

=⟨Og(x1, h(x1)

),

(1

h′(x1)

)⟩und dies gilt insbesondere für x1 = x1.

Somit ist(

1h′(x1)

)orthogonal zu

a) Of(x1, h(x1))

und

b) Og(x1, h(x1)).

und daraus folgt:

Og(x) = Og(x1, x2

)= Og

(x1, h(x1)

)= λf

(x1, h(x1)

)= λOf

(x1, x2

)= λOf(x)

Satz 13.4.9. (Extremum unter mehreren Nebenbedingungen, notwendigeBedingung)Seien die Abbildungen f, g1, . . . , gm ∈ C1(D,R), wobei D ⊆ eine offene Menge ist undm < n. Hat die Abbildung f in x ein lokales Extremum unter den Nebenbedingungeng1(x) = · · · = gm(x) = 0, so gilt:

(1) rang(g′(x)

)< m und g(x) = 0

oder

(2) es gibt einen Lagrange-Multiplikatoren λ1, . . . , λm ∈ R mit

Of(x) = λ1Og1(x) + · · ·+ λmOgm(x) und g1(x) = · · · = gm(x) = 0.

Zum Schluss wollen wir noch ein ausführliches Beispiel ausrechne:

Beispiel 13.4.10. Untersuche die Abbildung f(x1, x2, x3) = x1 · x2 · x3 auf Extrema inB(0, 1). Die Menge (0, 1) ist kompakt und die Abbildung f ist stetig und daher gibt esein globales Maximum und ein globales Minimum.

Page 120: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 118

(1) Die Menge B(0, 1) ist eine offene Menge ist und daher kann für lokale Extrema inB(0, 1) die Theorie von Kapitel 12 angewandt werden:

Of(x) =

x2x3

x1x3

x1x2

!= 0

Dies ist der Fall genau dann, wenn x auf einer der drei Achsen liegt. An der Funk-tion ist jedoch zu erkennen, dass auf den Achsen keine lokalen Extrema vorliegenkönnen.Zum Beispiel gilt für jedes x = (x1, x2, x3) mit x1 = x2 = 0 und x3 > 0, dass fürjedes δ > 0 ein y = (y1, y2, y3) ∈ B(x, δ) existiert mit

y1 < 0, y2 > 0, y3 > 0

und daher f(y) < 0. Andererseits existiert aber für auch für jedes δ > 0 einz = (z1, z2, z3) ∈ B(x, δ) mit z1 > 0, z2 > 0, z3 > 0, also f(z) > 0. Also kann diesesx kein Extremum sein.

(2) Weil keine lokalen Extrema in B(0, 1) liegen, müssen das globale Maximum unddas globale Minimum auf dem Rand ∂B(0, 1) liegen.Betrachte also Extrema von f unter der Nebenbedingung

g(x1, x2, x3) = x21 + x2

2 + x23 − 1 = 0.

(1) Der singuläre Fall gibt

Og(x) = 0 und g(x) = 0.

Also:

2

x1

x2

x3

= 0 und x21 + x2

2 + x23 = 1.

Weil die erste Bedingung x = 0 impliziert, kann die zweite Bedingung nichterfüllt sein.

2) Folglich gibt der singuläre Fall kein mögliches Extremum. Betrachte also dieLagrangefunktion

L(x, λ) = f(x)− λg(x),

und löse das Gleichungssystem

∂x1f(x) = λ

∂x1

∂x2= λ

∂x2g(x)

∂x3f(x) = λ

∂x3g(x)

g(x) = 0

Einsetzen gibt:

I x2x3 = 2λx1

Page 121: Analysis II - wima5.math.uni-mannheim.de · falls der Grenzwert existiert. Auch hier lässt sich alles auf die Reihen des Real- und Imaginärteilsreduzieren: X1 k=1 z k= X1 k=1 x

13.4. EXTREMA UNTER NEBENBEDINUNGEN 119

II x1x3 = 2λx2

III x1x2 = 2λx3

IV x21 + x2

2 + x23 = 1

Addieren der ersten drei Gleichungen und Einfügen in die Vierte gibt

3

2x1x2x3 = λ.

Einsetzen von λ gibt zusammen mit der vierten Gleichung:

a =

001

, b =

010

, c =

001

, d =

±√

13

±√

13

±√

13

Die ersten drei fallen raus, weil f an diesen Stellen Null ist und somit wederein Minimum noch Maximum sein kann. Bei den weiteren Extremwerten gilt

f(x) = 1

332

, wenn x ∈

13√13√13

,

−√

13

−√

13√

13

,

13

−√

13

−√

13

,

−√

13√

13

−√

13

und

f(x) = − 1

332

, wenn x ∈

−√

13

−√

13

−√

13

,

−√

13√

13√13

,

13

−√

13√

13

,

13√13

−√

13

.