145
Ralf Gerkmann Mathematisches Institut Ludwig-Maximilians-Universität München Analysis mehrerer Variablen (Version 19. März 2018) Inhaltsverzeichnis § 1. Euklidische Vektorräume ................................................. 3 § 2. Topologie und Stetigkeit im Mehrdimensionalen ................................. 31 § 3. Differenzierbarkeit mehrdimensionaler Funktionen ............................... 74 § 4. Integration mehrdimensionaler Funktionen .................................... 110 Literaturverzeichnis ........................................................ 145

Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

  • Upload
    others

  • View
    1

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Ralf Gerkmann

Mathematisches Institut

Ludwig-Maximilians-Universität München

Analysis mehrerer Variablen

(Version 19. März 2018)

Inhaltsverzeichnis

§ 1. Euklidische Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

§ 2. Topologie und Stetigkeit im Mehrdimensionalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

§ 3. Differenzierbarkeit mehrdimensionaler Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

§ 4. Integration mehrdimensionaler Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

Page 2: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Ausführliches Inhaltsverzeichnis

§ 1. Euklidische Vektorräume . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.1 Abstände, Winkel und das euklidische Standard-Skalarprodukt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2 Bilinearformen und allgemeine Skalarprodukte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3 Orthonormalbasen, Hurwitz-Kriterium und Hauptachsentransformation . . . . . . . . . . . . . . . . . . . . . . 22

§ 2. Topologie und Stetigkeit im Mehrdimensionalen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.1 Normen und Metriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2.2 Konvergenz in metrischen Räumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.3 Stetigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.4 Offene und abgeschlossene Menge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2.5 Kompaktheit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.6 Zusammenhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

§ 3. Differenzierbarkeit mehrdimensionaler Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.1 Partielle Differenzierbarkeit und Richtungsableitungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3.2 Totale Differenzierbarkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

3.3 Höhere Ableitungen und lokale Extremstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

3.4 Extrema unter Nebenbedingungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

§ 4. Integration mehrdimensionaler Funktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.1 Definition des mehrdimensionalen Riemann-Integrals . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

4.2 Der Satz von Fubini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

4.3 Nullmengen und Lebesguesches Integrabilitätskriterium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

4.4 Jordan-messbare Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

4.5 Integration über Normalbereiche und Cavalierisches Prinzip . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138

Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

Page 3: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

§ 1. Euklidische Vektorräume

1.1 Abstände, Winkel und das euklidische Standard-Skalarprodukt

Inhaltsübersicht

FF axiomatische Charakterisierung der Länge von Vektoren, der Orthogonalität ⊥ und des Winkels

FF Herleitung von Formeln für Längen und Winkel im aus dieser Charakterisierung

FF Definition des euklidischen Standard-Skalarprodukts auf demRn

FF Orthogonalprojektion und Cauchy-Schwarzsche Ungleichung

Wir stellen uns in diesem Abschnitt die Aufgabe, einfache Formeln für die Länge von Vektoren und für dieWinkel zwischen Vektoren herzuleiten, zunächst in der (zweidimensionalen) Ebene, später dann für beliebigeDimension. Dazu überlegen wir uns, welchen Gesetzmäßigkeiten solche Formeln unterliegen müssten, da-mit sie unseren intuitiven, durch die Schulmathematik geprägten geometrischen Vorstellungen genügen. EineFunktion, die jedem Vektor v ∈ R2 seine Länge zuordnet, sollte auf jeden Fall die folgenden Eigenschaftenbesitzen.

(L0) Die Einheitsvektoren besitzen die Länge 1, also ‖e1‖ = ‖e2‖ = 1,wobei e1 = (1, 0) und e2 = (0, 1) ist.

(L1) Für alle v ∈ R2 gilt ‖v‖ = 0 genau dann, wenn v = (0, 0) ist.

(L2) Skalieren wir einen Vektor v ∈ R2 mit einer reellen Zahl λ, dann ändert sich die Länge umden Faktor |λ|. Es sollte also ‖λv‖ = |λ|‖v‖ für alle λ ∈ R und v ∈ R2 gelten.

(L3) Es gilt die sog. Dreiecksungleichung ‖v + w‖ ≤ ‖v‖+ ‖w‖ für alle v, w ∈ R2.

Sind P,Q ∈ R2 zwei beliebige Punkte, dann bezeichnen wir mit ‖PQ‖ wie in der Schulmathematik die Längeder Verbindungsstrecke zwischen P undQ, also die Länge des Vektors v =

−−→PQ. Unter einem Dreieck verstehen

wir die eingeschlossene Fläche, die man erhält, wenn drei Punkte A,B,C ∈ R2, die nicht auf einer gemein-samen affinen Geraden liegen, miteinander verbindet. Sind zum Beispiel v, w ∈ R2 zwei linear unabhängigeVektoren, bilden A = O = (0, 0), B = v und C = v + w die Eckpunkte eines Dreiecks.

A

B

C

vw

v + w

Die Dreiecksungleichung (L3) ergibt sich aus der Beobachtung, dass die Seitenlänge ‖AC‖ = ‖v + w‖ desDreiecks stets kleiner als die Summe der beiden Seitenlängen ‖AB‖ = ‖v‖ und ‖BC‖ = ‖(v + w) − v‖ = ‖w‖

—– 3 —–

Page 4: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

ist. Offenbar ist in dieser Situation die Gleichheit ‖v + w‖ = ‖v‖+ ‖w‖ nur möglich, wenn die Punkte A,B,Cauf einer Geraden liegen, also kein „echtes“, sondern nur ein „entartetes“ Dreieck bilden, zum Beispiel fürA = (0, 0), B = (1, 0) und C = (2, 0). In diesem Fall wäre v =

−−→AB = (1, 0), w =

−−→BC = (1, 0) und v+w =

−→AC =

(2, 0) und somit ‖AC‖ = 2 = 1 + 1 = ‖AB‖+ ‖BC‖.

Seien nun v, w ∈ R2 zwei Vektoren ungleich dem Nullvektor. Wir verwenden die Schreibweise v ⊥ w umanzuzeigen, dass die Vektoren v undw senkrecht aufeiander stehen, also orthogonal zueinander sind. Offenbarhandelt es sich bei ⊥ um eine Relation auf der Menge R2 \ {(0, 0)}, die folgenden Bedingungen genügt.

(O0) Die Einheitsvektoren stehen senkrecht aufeinander, es gilt also e1 ⊥ e2.

(O1) Für kein v ∈ R2 \ {(0, 0)} gilt v ⊥ v.

(O2) Die Relation ⊥ ist symmetrisch, d.h. für alle Vektoren v, w ∈ R2 ungleich Null gilt dieÄquivalenz v ⊥ w ⇔ w ⊥ v.

(O3) Die Relation⊥ besitzt folgende Linearitätseigenschaft: Seien u, v, w ∈ R2 ungleich Null mitu ⊥ v und u ⊥ w. Dann gilt u ⊥ (v + w), sofern v + w ungleich dem Nullvektor ist, undaußerdem u ⊥ (λv) für alle λ ∈ Rmit λ 6= 0.

Neben diesen Eigenschaften kennen wir aus der Schulmathematik noch einen wichtigen Satz, der die Seiten-längen von Dreiecken mit der Orthogonalitätsrelation verbindet.

(1.1) Satz (Satz des Pythagoras)

Seien A,B,C ∈ R2 die Eckpunkte eines Dreiecks und a = ‖BC‖, b = ‖CA‖, c = ‖AB‖seine Seitenlängen. Genau dann gilt a2 + b2 = c2 wenn das Dreieck im Punkt C einenrechten Winkel besitzt, wenn also

−→CA ⊥

−−→CB erfüllt.

In der Schulmathematik wird dieser Satz in der Regel aus den Kongruenz- und Ähnlichkeitssätzen für Drei-ecke abgeleitet. Wir erinnern daran, dass zwei Dreiecke kongruent („deckungsgleich“) genannt werden, wennsie durch Drehungen, Spiegelungen und Translationen ineinander überführt werden können. Man nennt sieähnlich, wenn eines der Dreiecke so skaliert (also um einen bestimmten Faktor vergrößert oder verkleinert)werden kann, dass es zum anderen Dreieck kongruent wird. Aus der Schulgeometrie ist bekannt, dass zweiDreiecke mit gleichen Seitenlängen kongruent sind. Zwei Dreiecke, bei denen alle Winkel übereinstimmen,sind ähnlich.

elementarer Beweis des Satzes des Pythagoras:

Für die Richtung „⇐“ setzen wir voraus, dass der Winkel γ im Punkt C tatsächlich ein rechter Winkel ist.Wir fällen von C aus das senkrechte Lot auf die Seite AB des Dreiecks, was uns den Punkt D ∈ AB und dieHöhe h = ‖CD‖ des Dreiecks ∆(ABC) liefert. Außerdem setzen wir p = ‖DB‖ und q = ‖AD‖. Nun stehtdie Strecke BD senkrecht auf CD, und BC steht senkrecht auf CA. Daraus folgt, dass der von BD und BC

eingeschlossene Winkel β mit dem von CD und CA eingeschlossenen Winkel δ übereinstimmt.

—– 4 —–

Page 5: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

AB

C

D c

pq

ab

γ

ββ

δδ

Die Dreiecke ∆(ACD) und ∆(ABC) sind also ähnlich zueinander, ebenso ∆(CBD) und ∆(ABC). Bildenwir beim ersten Dreieckspaar jeweils das Verhältnis von Gegenkathete zu Hypothenuse, beim zweiten dasVerhältnis von Ankathete zu Hypothenuse, so erhalten wir

q

b=b

cund

p

a=a

c.

Es folgt a2 = pc, b2 = qc und somit a2 + b2 = (p + q)c = c2. Für die Richtung „⇒“ setzen wir voraus,dass die Gleichung a2 + b2 = c2 erfüllt ist. Wir betrachten ein Dreieck ∆(A′, B′, C ′) mit der Eigenschaft, dassdie Seiten

−−→C ′A′ und

−−−→C ′B′ senkrecht aufeinander stehen und außerdem ‖B′C ′‖ = a und ‖C ′A′‖ = b erfüllt

ist. Sei c′ = ‖A′B′‖. Auf Grund der bereits gezeigten Richtung gilt (c′)2 = a2 + b2 = c2 und somit c′ = c.Bei den Dreiecken ∆(A,B,C) und ∆(A′, B′, C ′) stimmen also alle drei Seitenlängen überein. Folglich sind siekongruent, und somit muss ∆(A,B,C) ein rechtwinkliges Dreieck sein. Da der rechte Winkel stets der längstenSeite gegenüberliegt, muss sich der rechte Winkel im Punkt C befinden. �

Entscheidend ist nun die folgende Beobachtung, die wir im weiteren Verlauf genauer ausführen: Setzen wirvoraus, dass unsere Längenfunktion v 7→ ‖v‖ die Bedingungen (L0) bis (L3) und unsere Relation ⊥ die Bedin-gungen (O0) bis (O3) erfüllt, und dass außerdem der Satz des Pythagoras gültig ist, dann gibt es nur eine einzigeMöglichkeit, diese zu definieren! Für alle v, w ∈ R2 mit v = (v1, v2) und w = (w1, w2) sei zur Abkürzung

〈v, w〉 = v1w1 + v2w2.

Weiter unten in (1.8) werden wir sehen, dass zwangsläufig ‖v‖ =√〈v, v〉 für alle v ∈ R2 und 〈v, w〉 = 0 für

alle v, w ∈ R2 mit v, w 6= (0, 0) gelten muss, wenn alle oben genannten Bedingungen für die Längenfunktionund die Orthogonalitätsrelation gelten sollen. Uns bleibt also gar nichts anderes übrig, als zu definieren

(1.2) Definition Die Länge eines Vektors v ∈ R2 ist definiert durch

‖v‖ =√〈v, v〉.

Zwei Vektoren v, w ∈ R2 ungleich Null sind orthogonal zueinander (Notation v ⊥ w),wenn 〈v, w〉 = 0 gilt.

Es bleibt zu zeigen, dass die Funktion ‖ · ‖ und die Relation ⊥ tatsächlich die Eigenschaften (L0) bis (L3),(O0) bis (O3) besitzen und der Satz des Pythagoras erfüllt ist. Wir werden das weiter unten in allgemeinererForm beweisen. Der Ausdruck 〈v, w〉wird im weiteren Verlauf eine sehr wichtige Rolle spielen. Wir definierenallgemein für den n-dimensionalen Raum

—– 5 —–

Page 6: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.3) Definition Das euklidische Standard-Skalarprodukt zweier Vektoren v, w ∈ Rn,v = (v1, ..., vn) und w = (w1, ..., wn) ist gegeben durch

〈v, w〉 =

n∑k=1

vkwk.

Wie im Fall n = 2 definieren wir ‖v‖ =√〈v, v〉 und legen fest, dass v ⊥ w ⇔ 〈v, w〉 = 0 für

alle v, w ∈ Rn mit v, w 6= 0Rn gilt.

Um mit dem Standard-Skalarprodukt effektiv arbeiten zu können, beweisen wir zunächst einige Rechenregeln.

(1.4) Proposition Für alle v, v′, w, w′ ∈ Rn und λ ∈ R gilt

(i) 〈v + v′, w〉 = 〈v, w〉+ 〈v′, w〉 (iv) 〈v, w〉 = 〈w, v〉(ii) 〈v, w + w′〉 = 〈v, w〉+ 〈v, w′〉 (v) 〈v, v〉 > 0 falls v 6= 0Rn

(iii) 〈λv,w〉 = 〈v, λw〉 = λ〈v, w〉

Beweis: Sämtliche Gleichungen beweist man durch Einsetzen der Definition und einfaches Nachrechnen. Wirführen dies hier exemplarisch für die Gleichung (i) durch und überlassen die anderen Teile dem Leser alsÜbung. Seien also v, v′, w ∈ Rn vorgegeben, mit v = (v1, ..., vn), v′ = (v′1, ..., v

′n) und w = (w1, ..., wn). Dann

gilt v + v′ = (v1 + v′1, ..., vn + v′n) und somit

〈v + v′, w〉 =

n∑k=1

(vk + v′k)wk =

n∑k=1

vkwk +

n∑k=1

v′kwk = 〈v, w〉+ 〈v′, w〉. �

Folgende Eigenschaften des Standard-Skalarprodukts werden im weiteren Verlauf eine wichtige Rolle spielen.

(1.5) Proposition Seien v, w ∈ Rn mit v 6= 0Rn vorgegeben und λ = 〈v,w〉‖v‖2 . Dann gilt

〈v, w−λv〉 = 0. Wir bezeichnen den Vektor λv als die Orthogonalprojektion von w auf denUntervektorraum lin(v) von Rn.

v

w

λv

w − λv

Orthogonalprojektion des Vektors w auf den Untervektorraum lin(v)

Beweis: Dies ergibt sich aus der einfachen Rechnung

〈v, w − λv〉 = 〈v, w〉 − λ〈v, v〉 = 〈v, w〉 − 〈v, w〉‖v‖2

〈v, v〉

= 〈v, w〉 − 〈v, w〉〈v, v〉

〈v, v〉 = 〈v, w〉 − 〈v, w〉 = 0. �

—– 6 —–

Page 7: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.6) Satz (Cauchy-Schwarzsche Ungleichung)

Für alle v, w ∈ Rn gilt |〈v, w〉| ≤ ‖v‖‖w‖ mit Gleichheit genau dann, wenn v und w linearabhängig sind.

Beweis: Ist einer der Vektoren gleich Null, dann sind v, w linear abhängig, und die Ungleichung ist mit Gleich-heit erfüllt, da beide Seiten von |〈v, w〉| ≤ ‖v‖‖w‖ gleich Null sind. Also sind in diesem Fall alle Aussagenerfüllt. Nun setzen wir v, w 6= 0Rn voraus. Es gilt 〈w − λv,w − λv〉 ≥ 0 mit dem Wert λ = 〈v,w〉

‖v‖2 aus (1.5), unddie Rechenregeln für das Skalarprodukt liefern

〈w − λv,w − λv〉 = 〈w,w − λv〉 − λ〈v, w − λv〉 =

〈w,w〉 − λ〈w, v〉 − λ〈v, w〉+ λ2〈v, v〉 = 〈w,w〉 − 2λ〈v, w〉+ λ2〈v, v〉.

Setzen wir den Wert von λ in die Ungleichung ein, so erhalten wir

〈w,w〉 − 2〈v, w〉‖v‖2

〈v, w〉+〈v, w〉2

‖v‖4〈v, v〉 ≥ 0

was wegen ‖v‖2 = 〈v, v〉 umgeformt werden kann zu

〈w,w〉 − 2〈v, w〉2

〈v, v〉+〈v, w〉2

〈v, v〉≥ 0.

Dies wiederum ist äquivalent zu 〈w,w〉 ≥ 〈v,w〉2〈v,v〉 und 〈v, w〉2 ≤ 〈v, v〉〈w,w〉. Durch Wurzelziehen auf beiden

Seiten erhalten wir wegen ‖v‖ =√〈v, v〉 und ‖w‖ =

√〈w,w〉 die Cauchy-Schwarzsche Ungleichung.

Nun überprüfen wir noch die Äquivalenzaussage im Fall v, w 6= 0Rn . Sind v, w linear abhängig, dann giltw = µv für ein µ ∈ R mit µ 6= 0. Die linke Seite der Cauchy-Schwarzschen Ungleichung ist dann gegebendurch |〈v, µv〉| = |µ|〈v, v〉, die rechte durch ‖v‖‖µv‖ = ‖v‖

√〈µv, µv〉 = ‖v‖|µ|

√〈v, v〉 = |µ|‖v‖2 = |µ|〈v, v〉, also

stimmen beiden Seiten überein. Setzen wir nun umgekehrt die Gleichung |〈v, w〉| = ‖v‖‖w‖ voraus, und führenwir die Umformungsschritte von oben in umgekehrter Reihenfolge durch, so erhalten wir 〈w−λv,w−λv〉 = 0.Mit (1.4) (v) erhalten wir w − λv = 0 und w = λv. Dies zeigt, dass v, w linear abhängig sind. �

Nachdem wir nun für die Länge von Vektoren und für die Orthogonalität eine geeignete Form gefundenhaben, soll als nächstes für den Winkel ^(v, w) zwischen zwei Vektoren v, w ∈ R2 mit v, w 6= (0, 0) eineDefinition festgelegt werden. Wie in der Mathematik allgemein üblich, soll der Winkel im Bogenmaß angebenwerden. Wir erinnern daran, dass 1◦ dem Bogenmaß π

180 entspricht, also 2π = 360◦ gilt. Der Winkel ^(v, w)

zwischen zwei Vektoren v, w sollte mindestens 0◦ = 0 (wenn die Vektoren gleichgerichtet sind) und höchstens180◦ = π betragen (wenn die Vektoren in entgegengesetzte Richtungen zeigen).

π = 180◦0 = 0◦ 12π = 90◦

—– 7 —–

Page 8: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Außerdem sollte die Zuordnung (v, w) 7→ ^(v, w) folgende Eigenschaften besitzen.

(W0) Es gilt ^(v, w) = ^(w, v) und ^(v, v) = 0.

(W1) Für alle λ ∈ R+ gilt ^(v, λw) = ^(v, w).

(W2) Gilt (w − v) ⊥ v, dann folgt daraus cos^(v, w) = ‖v‖‖w‖ .

(W3) Es gilt ^(v,−w) = π − ^(v, w).

Alle Aussagen ergeben sich direkt aus den vom Schulunterricht her bekannten Eigenschaften des Winkelszwischen zwei Vektoren. Der Punkt (W0) ist unmittelbar einleuchtend, ebenso (W1), da die Vektoren w undλw gleichgerichtet sind. Für (W2) ist zu beachten, dass die Vektoren v, w und w − v unter der angegebenenVoraussetzung ein rechtwinkliges Dreieck bilden, mit ‖w‖ als Hypothenuse und ‖v‖ als Ankathete des Winkels^(v, w). Der letzte Punkt (W3) ergibt sich unmittelbar aus der folgenden Zeichnung.

v

w

−w

^(v, w)

^(v,−w)

Der rote Winkel und der blaue Winkel ergänzen sich zu π = 180◦.

Auch hier werden wir zeigen, dass es für die Funktion ^ nur eine einzige Möglichkeit gibt, wenn (W0) bis (W3)erfüllt sein sollen. Dies führt uns zu folgender Definition.

(1.7) Definition Seien v, w ∈ R2 mit v, w 6= (0, 0). Dann ist der Winkel zwischen v und wdie eindeutig bestimmte Zahl ^(v, w) ∈ [0, π] mit der Eigenschaft

cos^(v, w) =〈v, w〉‖v‖‖w‖

.

Wir werden nun diese Definitionen auf den Rn verallgemeinern. Die Forderungen, die wir an Länge, Ortho-gonalität und Winkel im R2 gestellt haben, sind weitgehend unverändert auch für den Rn mit beliebigemn ∈ N sinnvoll. Lediglich die Bedingung (L0) muss durch ‖ek‖ = 1 für 1 ≤ k ≤ n und die Bedingung (O0)durch ej ⊥ ek für 1 ≤ j < k ≤ n ersetzt werden. Der Satz des Pythagoras kann ohne Änderung übernommenwerden; an Stelle eines ebenen Dreiecks betrachtet man ein Dreieck imRn, das natürlich in einem zweidimen-sionalen affinen Unterraum von Rn enthalten ist.

—– 8 —–

Page 9: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.8) Proposition ( Eindeutigkeit von ‖ · ‖ und ⊥ )

Sei Rn → R+, v 7→ ‖v‖ eine Abbildung und ⊥ eine Relation auf Rn \ {0Rn}, so dass dieBedingungen (L0) bis (L3) und (O0) bis (O3) sowie der Satz des Pythagoras in der soebenangegebenen, verallgemeinerten Form erfüllt sind. Dann gilt ‖v‖ =

√〈v, v〉 für alle v ∈ Rn

und v ⊥ w ⇔ 〈v, w〉 = 0 für alle v, w ∈ Rn \ {0Rn}.

Beweis: Wir führen den Beweis durch vollständige Induktion über n. Im Fall n = 1 ist jeder Vektor v ∈ R1

nur eine reelle Zahl, und aus (L0) und (L2) ergibt sich unmittelbar, dass ‖e1‖ = 1 und ‖v‖ = ‖ve1‖ = |v| geltenmuss. Die Orthogonalitätsrelation v ⊥ w ist für kein Paar (v, w) von Vektoren ungleich Null erfüllt, denn ausv ⊥ w würde wegen w = w

v v auch v ⊥ v folgen, was im Widerspruch zu (L1) steht. Andererseits ist auch〈v, w〉 = vw = 0 nur dann erfüllt, wenn einer der Vektoren v, w ∈ R1 gleich Null ist. Somit ist die Äquivalenzv ⊥ w ⇔ 〈v, w〉 = 0 für alle v, w ∈ R1 \ {0R1} gültig.

Sei nun n > 1, und setzen wir die Aussage für denRn−1 voraus. Da wir die VektorräumeRn−1 undRn−1×{0}durch die bijektive Abbildung v 7→ (v, 0) miteinander identifizieren können, gibt es auch auf Rn−1 × {0} nureine Längenfunktion und eine Orthogonalitätsrelation, und diese sind nach Induktionsvoraussetzung gegebendurch

‖v‖ =√〈v, v〉 =

√√√√n−1∑k=1

v2k und v ⊥ w ⇔

n−1∑k=1

vkwk = 0

für alle v ∈ Rn−1×{0} bzw. für alle v, w ∈ Rn−1×{0} ungleich Null. Sei nun v ∈ Rn vorgegeben. Wir schreibenv = v′ + vnen mit v′ = (v1, ..., vn−1, 0), wobei wir vn 6= 0 voraussetzen können, da wir die Eindeutigkeit derLängenfunktion für Vektoren aus Rn−1 × {0} bereits verifiziert haben. Ist v′ = 0Rn , dann ist v = vnen unddie Gleichung ‖v‖ =

√〈v, v〉 jedenfalls erfüllt, denn nach (L2) gilt ‖v‖2 = ‖vnen‖2 = |vn|2‖en‖2 = v2

n, undandererseits 〈v, v〉 = 〈vnen, vnen〉 = v2

n〈en, en〉 = v2n.

Setzen wir nun v′ 6= 0Rn voraus. Nach (O0) gilt ek ⊥ en für 1 ≤ k < n, und durch mehrfache Anwendung von(O3) erhalten wir v′ ⊥ en für die Summe v′ =

∑n−1k=1 vkek. Nochmals mit (O3) folgt v′ ⊥ vnen. Wir können nun

den Satz des Pythagoras anwenden und erhalten

‖v‖2 = ‖v′‖2 + ‖vnen‖2 = 〈v′, v′〉+ 〈vnen, vnen〉 =

n−1∑k=1

v2k + v2

n =

n∑k=1

v2k = 〈v, v〉.

Damit ist die Eindeutigkeit der Längenfunktion auf Rn bewiesen. Überprüfen wir nun, dass es auch für dieRelation ⊥ nur eine einzige Möglichkeit gibt. Seien v, w ∈ Rn Vektoren ungleich Null, und betrachten wirzunächst den Fall, dass v und w linear unabhängig sind. Dann bilden die Punkte C = 0Rn , A = v und B = w

ein nicht-entartetes Dreieck. Nach dem Satz von Pythagoras gilt v ⊥ w genau dann, wenn ‖AB‖2 = ‖BC‖2 +

‖AC‖2 erfüllt ist, und dies wiederum ist äquivalent zu

‖w − v‖2 = ‖w‖2 + ‖v‖2 ⇔ 〈w,w〉 − 2〈w, v〉+ 〈v, v〉 = 〈w,w〉+ 〈v, v〉

⇔ −2〈w, v〉 = 0 ⇔ 〈v, w〉 = 0.

Sind v und w linear abhängig, dann gibt es ein λ ∈ R \ {0} mit w = λv. Wäre v ⊥ w, dann würde mit (O3)daraus v ⊥ v folgen, was aber nach (O1) ausgeschlossen ist. Andererseits ist in diesem Fall auch 〈v, w〉 =

〈v, λv〉 = λ〈v, v〉 6= 0. Also ist die Äquivalenz auch in diesem Fall erfüllt. �

—– 9 —–

Page 10: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.9) Proposition ( Eindeutigkeit der Winkelfunktion)

Sei α eine Vorschrift, die jedem Paar (v, w) von Vektoren aus Rn ungleich Null eine Zahlα(v, w) ∈ [0, π] zuweist zuordnet derart, dass die Bedingungen (W0) bis (W3) erfüllt sind.Dann gilt α(v, w) = ^(v, w), wobei ^wie in (1.7) definiert ist.

Beweis: Seien v, w ∈ Rn mit v, w 6= 0Rn , und betrachten wir zunächst den Fall, dass v, w linear unabhängigsind. Wie wir in (1.5) nachgerechnet haben, besitzt der Wert λ = 〈v,w〉

‖v‖2 die Eigenschaft, dass w − λv auf v, undsomit auch auf λv, senkrecht steht. Ist nun λ > 0, dann erhalten wir mit (W1) und (W2) die Gleichung

cosα(v, w) = cosα(λv,w) =‖λv‖‖w‖

=|〈v, w〉|‖v‖2

· ‖v‖‖w‖

=〈v, w〉‖v‖‖w‖

.

Ist λ < 0, dann setzen wir w′ = −w. Wegen−λ > 0 und (w′− (−λ)v) ⊥ v erhalten wir mit (W3) und der bereitsbewiesenen Gleichung

cosα(v, w) = cos (π − α(v, w′)) = − cosα(v, w′) = − 〈v, w′〉

‖v‖‖w′‖=

〈v, w〉‖v‖‖w‖

(1.1)

Nun zeigen wir, dass diese Gleichung auch im linear abhängigen Fall erfüllt ist. Dann gibt es ein µ ∈ R, µ 6= 0

mit w = µv. Ist µ > 0, dann gilt |µ| = µ, außerdem α(v, w) = α(v, v) = 0 nach (W0) und (W1) und somit

cosα(v, w) = cos(0) = 1 =µ〈v, v〉|µ|〈v, v〉

=〈v, µv〉‖v‖‖µv‖

=〈v, w〉‖v‖‖w‖

.

Im Fall µ < 0 können wir wiederum w′ = −w setzen und (W3) anwenden, was genau wie in der Zeile 1.1 diegewünschte Gleichung liefert. �

Wir bemerken noch die Äquivalenz v ⊥ w ⇔ 〈v, w〉 = 0 ⇔ cos^(v, w) = 0 ⇔ ^(v, w) = 12π, was natürlich zu

erwarten war, da der rechte Winkel durch 90◦ = 12π gegeben ist.

(1.10) Satz Die in (1.3) definierte Längenfunktion auf dem Rn erfüllt die Bedingungen(L0) bis (L3). Ebenso sind für die dort definierte Relation ⊥ die Bedingungen (O0) bis (O3)erfüllt, und der Satz des Pythagoras ist gültig.

Beweis: Die Eigenschaft (L0) gegeben durch ‖ek‖ = 1 für 1 ≤ k ≤ n rechnet man direkt nach, und (L1) ergibtsich durch ‖v‖ = 0 ⇔ ‖v‖2 = 0 ⇔ 〈v, v〉 = 0 ⇔

∑nk=1 v

2k = 0 ⇔ vk = 0 für 1 ≤ k ≤ n ⇔ v = 0Rn . Es gilt

‖λv‖2 = 〈λv, λv〉 = λ2〈v, v〉 = λ2‖v‖2, woraus man durch Wurzelziehen ‖λv‖ = |λ|‖v‖, also (L2) erhält. Fürdie Dreiecksungleichung (L3) betrachten wir die Äquivalenzumformung

‖v + w‖ ≤ ‖v‖+ ‖w‖ ⇔ ‖v + w‖2 ≤ (‖v‖+ ‖w‖)2 ⇔

〈v + w, v + w〉 ≤ ‖v‖2 + 2‖v‖‖w‖+ ‖w‖2 ⇔

〈v, v〉+ 2〈v, w〉+ 〈w,w〉 ≤ ‖v‖2 + 2‖v‖‖w‖+ ‖w‖2 ⇔ 〈v, w〉 ≤ ‖v‖‖w‖.

Nach Cauchy-Schwarz (1.6) ist die letzte Ungleichung tatsächlich erfüllt, denn es gilt 〈v, w〉 ≤ |〈v, w〉| ≤‖v‖‖w‖. Die Eigenschaft (O0) der Orthgonalitätsrelation ⊥ gegeben durch ek ⊥ e` für 1 ≤ k < ` ≤ n kann wie-derum mühelos nachgerechnet werden, und (O1) ergibt sich aus 〈v, v〉 =

∑nk=1 v

2k 6= 0 für alle v ∈ Rn \ {0Rn}.

—– 10 —–

Page 11: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Die Bedingung (O2) folgt aus der Eigenschaft 〈v, w〉 = 〈w, v〉 des Skalarprodukts, und (O3) erhält man durchdie Gleichungen 〈u, v + w〉 = 〈u, v〉+ 〈u,w〉 und 〈u, λv〉 = λ〈u, v〉, siehe (1.6).

Um den Satz des Pythagoras zu überprüfen, seien A,B,C ∈ Rn die Eckpunkte eines Dreiecks. Definieren wirdie Vektoren v =

−→AC und w =

−−→CB, dann gilt offenbar v + w =

−−→AB. Liegt nun im Punkt C ein rechter Winkel

vor, dann gilt v ⊥ w, also 〈v, w〉 = 0 und ‖AB‖2 = ‖v + w‖2 = 〈v + w, v + w〉 = 〈v, v〉 + 2〈v, w〉 + 〈w,w〉 =

‖v‖2 + ‖w‖2 = ‖AC‖2 + ‖CB‖2. Ist andererseits die Pythagoras-Gleichung erfüllt, so zeigt die Rechnung, dass〈v, w〉 = 0 gelten und das Dreieck im Punkt C einen rechten Winkel haben muss. �

(1.11) Satz Die durch (1.7) eindeutig festgelegte Winkelfunktion ^ besitzt die Eigen-schaften (W0) bis (W3).

Beweis: Die Eigenschaft ^(v, w) = ^(w, v) folgt direkt aus der Eigenschaft 〈v, w〉 = 〈w, v〉. Weiter ist 〈v,v〉‖v‖‖v‖ =

‖v‖2‖v‖2 = 1, wegen cos(0) = 1 gilt also ^(v, v) = 0. Damit ist (W0) nachgewiesen. Die Eigenschaft (W1) gegebendurch ^(v, λw) = ^(v, w) für λ ∈ R+ erhält man durch die Rechnung

〈v, λw〉‖v‖‖λw‖

=λ〈v, w〉|λ|‖v‖‖w‖

=〈v, w〉‖v‖‖w‖

wobei im letzten Schritt |λ| = λ verwendet wurde. Für den Nachweis von (W2) seien v, w ∈ Rn \ {0Rn} mit(w − v) ⊥ v vorgegeben. Zu zeigen ist 〈v,w〉

‖v‖‖w‖ = ‖v‖‖w‖ , denn daraus folgt cos^(v, w) = ‖v‖

‖w‖ wie gewünscht.Diese Gleichung wiederum erhält man durch

〈v, w〉‖v‖‖w‖

=〈v, w〉‖v‖‖w‖

+〈v, v − w〉‖v‖‖w‖

=〈v, w + (v − w)〉‖v‖‖w‖

=〈v, v〉‖v‖‖w‖

=‖v‖2

‖v‖‖w‖=

‖v‖‖w‖

.

Für den Beweis von (W3) erinnern wir daran, dass die Kosinusfunktion die Eigenschaften cos(x+π) = − cos(x)

und cos(−x) = cos(x) besitzt, also cos(π − x) = − cos(−x) = − cos(x) für alle x ∈ R gilt. Wenden wir dies aufx = ^(v, w) an, dann folgt

cos^(v,−w) =〈v,−w〉‖v‖‖ − w‖

= − 〈v, w〉‖v‖‖w‖

= − cos^(v, w) = cos(π − ^(v, w))

und somit ^(v, w) = π − ^(v, w) wie gewünscht. �

—– 11 —–

Page 12: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

1.2 Bilinearformen und allgemeine Skalarprodukte

Inhaltsübersicht

FF Definition der Bilinearformen auf einem beliebigenR-Vektorraum

FF Beschreibung von Bilinearformen durch Darstellungsmatrizen

FF Umrechnung von Darstellungsmatrizen bei Koordinatenwechsel

FF Skalarprodukte als natürliche Verallgemeinerung des euklidischen Standard-Skalarprodukts auf demRn

Die Definition des euklidischen Skalarprodukts aus dem letzten Abschnitt ist nur für denRn sinnvoll. Um diedamit zusammenhängenden geometrischen Konzepte (Abstände und Winkel) auf beliebigenR-Vektorräumenzur Verfügung zu haben, müssen wir die Definition verallgemeinern.

(1.12) Definition Sei V ein R-Vektorraum. Eine Bilinearform auf V ist eine Abbildungb : V × V → R, die für v, v′, w, w′ ∈ V und λ ∈ R die folgende Bedingungen erfüllt.

(i) b(v + v′, w) = b(v, w) + b(v′, w) (iii) b(λv,w) = λb(v, w)

(ii) b(v, w + w′) = b(v, w) + b(v, w′) (iv) b(v, λw) = λb(v, w)

Die Definition lässt sich auch folgendermaßen formulieren: Eine Bilinearform auf einem R-Vektorraum V isteine Abbildung b : V × V → R, so dass

(i) für jedes v ∈ V die Abbildung w 7→ b(v, w) und(ii) für jedes w ∈ V die Abbildung v 7→ b(v, w)

eine lineare Abbildung V → R ist. Man sagt auch, die Abbildung b ist in beiden Komponenten linear (ähnlichwie die Determinantenfunktion, die in jeder Komponente linear ist, wenn man eine Matrix als Tupel vonn Zeilenvektoren betrachtet). Unter anderem lassen sich die folgende konkrete Beispiele für Bilinearformenangeben.

(i) Das euklidische Skalarprodukt 〈·, ·〉 : Rn × Rn → R ist eine Bilinearformen auf dem Rn,denn die Rechenregeln aus (1.12) entsprechen genau den Regeln (i) bis (iii) aus (1.4).

(ii) Ist A ∈Mm×n,R und bezeichnet 〈·, ·〉 das euklidische Skalarprodukt auf dem Rm, dann istdurch b(v, w) = 〈Av,Aw〉 eine Bilinearform auf dem Rn definiert. Denn für v, v′, w ∈ Rn

gilt

b(v + v′, w) = 〈A(v + v′), Aw〉 = 〈Av +Av′, Aw〉

= 〈Av,Aw〉+ 〈Av′, Aw〉 = b(v, w) + b(v′, w).

Genauso überprüft man die Gültigkeit der Bedingungen (ii) bis (iv).

—– 12 —–

Page 13: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(iii) Seien V,W zwei R-Vektorraum, b eine Bilinearform auf W und φ : V → W eine lineareAbbildung. Dann ist durch b(v, w) = b(φ(v), φ(w)) eine Bilinearform auf V definiert. Hierverifziert man die Bedingung (i) für v, v′, w ∈ V durch die Rechnung

b(v + v′, w) = b(φ(v + v′), φ(w)) = b(φ(v) + φ(v′), φ(w)) =

b(φ(v), φ(w)) + b(φ(v′) + φ(w)) = b(v, w) + b(v, w′).

(iv) Sei V der R-Vektorraum der differenzierbaren Funktionen auf R. Dann ist durch b(f, g) =

f ′(0)g′(0) eine Bilinearform auf V definiert. Hier beweist man die Bedingung (ii) für f, g, h ∈V durch die Rechnung

b(f, g + h) = f ′(0)(g + h)′(0) = f ′(0) (g′(0) + h′(0))

= f ′(0)g′(0) + f ′(0)h′(0) = b(f, g) + b(f, h).

Der Beweis der übrigen drei Bedingungen läuft wiederum vollkommen analog.

(v) Seien a, b ∈ R mit a < b und V der R-Vektorraum der stetigen Funktionen auf dem abge-schlossenen Intervall [a, b]. Dann ist durch

b(f, g) =

∫ b

a

f(x)g(x) dx

eine Bilinearform auf V definiert. Für f, g, h ∈ V gilt beispielsweise

b(f + g, h) =

∫ b

a

(f + g)(x)h(x) dx =

∫ b

a

(f(x) + g(x))h(x) dx =

∫ b

a

f(x)h(x) dx+

∫ b

a

g(x)h(x) dx = b(f, h) + b(g, h).

Aus der Linearen Algebra ist bekannt, dass eine lineare Abbildung φ : V → W zwischen R-VektorräumenV,W Linearkombinationen in V auf Linearkombinationen in W abbildet. Genauer gilt

φ

(n∑k=1

λkvk

)=

n∑k=1

λkφ(vk)

für beliebige n ∈ N, v1, ..., vn ∈ V und λ1, ..., λn ∈ R. Ist nun b eine Bilinearform auf V und bezeichnen v, w ∈ Vbeliebige weitere Vektoren, dann gilt auf Grund der Linearität in beiden Komponenten

b

(n∑k=1

λkvk, w

)=

n∑k=1

λkb(vk, w) und b

(v,

n∑k=1

λkvk

)=

n∑k=1

λkb(v, vk).

Durch zweimalige Anwendung dieser Rechenregel erhält man

b

(n∑k=1

λkvk,

n∑`=1

µ`v`

)=

n∑k=1

n∑`=1

λkµ`b(vk, v`)

für beliebige λ1, ..., λn, µ1, ..., µn ∈ R. Ist insbesondere v1, ..., vn eine Basis von V , dann ist b also durch dieWerte b(vk, v`) mit 1 ≤ k, ` ≤ n bereits eindeutig festgelegt. Dies liefert uns die Möglichkeit, eine Bilinearformauf einem endlich-dimensionalen R-Vektorraum auf kompakte Art und Weise durch Angabe einer Matrix zudefinieren.

—– 13 —–

Page 14: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.13) Definition Sei V ein endlich-dimensionaler R-Vektorrau, B = (v1, ..., vn) einegeordnete Basis und b eine Bilinearform auf V . Dann nennt man die reelle n × n-MatrixA = (aij) mit den Einträgen

aij = b(vi, vj) für 1 ≤ i, j ≤ n

die Darstellungsmatrix MB(b) von b bezüglich B.

Wir illustrieren den Begriff der Darstellungsmatrix an einer Reihe von Beispielen.

(i) Sei V = Rn und E die Basis bestehend aus den Einheitsvektoren e1, ..., en. Dann ist dieDarstellungsmatrix des euklidischen Skalarprodukts 〈·, ·〉 bezüglich E die Einheitsmatrix.Denn für alle k, ` mit 1 ≤ k, ` ≤ n gilt 〈ek, e`〉 = δk`, und dies sind genau die Einträge derEinheitsmatrix I(n).

(ii) Sei V = R3. Diesmal betrachten wir das euklidische Skalarprodukt bezüglich einer anderenBasis, nämlich B = (v1, v2, v3) bestehend aus den Vektoren v1 = (1, 0, 2), v2 = (3, 3,−1)

und v3 = (5,−1, 2). Die erste Zeile der DarstellungsmatrixMB(b) = (aij) erhält man durchdie Berechung der Skalarprodukte

a11 = 〈v1, v1〉 , a12 = 〈v1, v2〉 und a13 = 〈v1, v3〉 = 9.

Berechnet man nach demselben Schema auch die zweite und dritte Zeile, so erhält maninsgesamt die Matrix

MB(b) =

5 1 9

1 19 10

9 10 30

.

(iii) Sei V der Vektorraum der Polynomfunktionen vom Grad ≤ 1 und die Bilinearform b :

V × V → R definiert durch

b(f, g) =

∫ 1

0

f(x)g(x) dx für f, g ∈ V.

Seien nun f1, f2 ∈ V definiert durch f1(x) = x und f2(x) = x + 1. Dann ist B = (f1, f2)

eine geordnete Basis von V . Es gilt

b(f1, f1) =

∫ 1

0

f1(x)2 dx =

∫ 1

0

x2 dx =[

13x

3]10

= 13 ,

b(f1, f2) = b(f2, f1) =

∫ 1

0

f1(x)f2(x) dx =

∫ 1

0

(x2 + x) dx =[

13x

3 + 12x

2]10

= 13 + 1

2 = 56

—– 14 —–

Page 15: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und

b(f2, f2) =

∫ 1

0

f2(x)2 dx =

∫ 1

0

(x2 + 2x+ 1) dx =

[13x

3 + x2 + x]10

= 13 + 1 + 1 = 8

3 .

Wir erhalten somit die Darstellungsmatrix

MB(b) = 16

(2 5

5 16

).

Jeder Bilinearform auf einem endlich-dimensionalen R-Vektorraum kann also (nach Wahl einer geordnetenBasis) eine Matrix zugeordnet werden. Umgekehrt existiert zu jeder Matrix eine entsprechende Bilinearform.

(1.14) Satz Sei V ein n-dimensionalerR-Vektorraum und B = (v1, ..., vn) eine geordneteBasis. Dann gibt es für jede Matrix A ∈Mn,R eine eindeutig bestimmte Bilinearform b aufV mit MB(b) = A.

Beweis: Existenz: Zu einer vorgegebenen n× n-Matrix A = (aij) definieren wir eine Abbildung b : V × V →R, indem wir einem Paar von Vektoren (v, w) ∈ V × V mit den (eindeutig bestimmten) Basisdarstellungenv =

∑ni=1 λivi und w =

∑nj=1 µjvj , λi, µj ∈ R für 1 ≤ i, j ≤ n das Bild

b(v, w) =

n∑i=1

n∑j=1

λiµjaij zuordnen.

Dann gilt insbesondere b(vi, vj) = aij für 1 ≤ i, j ≤ n. Es muss nun überprüft werden, dass auf diese Weisetatsächlich eine Bilinearform auf V definiert ist. Wir beschränken uns auf den Nachweis der Gleichung b(v +

v′, w) = b(v, w) + b(v′, w) für alle v, v′, w ∈ V . Seien also v, v′, w ∈ V mit den Basisdarstellungen v =∑ni=1 λivi,

v′ =∑ni=1 λ

′ivi, w =

∑nj=1 µjvj . Dann besitzt der Vektor v + v′ die Basisdarstellung

∑ni=1(λi + λ′i)vi, und es

folgt

b(v + v′, w) =

n∑i=1

n∑j=1

(λi + λ′i)µjaij =

n∑i=1

n∑j=1

λiµjaij +

n∑i=1

n∑j=1

λ′iµjaij

= b(v, w) + b(v′, w).

Der Beweis der Gleichungen b(v, w+w′) = b(v, w)+b(v, w′) und b(λv,w) = b(v, λw) = λb(v, w) für v, v′, w ∈ Vund λ ∈ R funktioniert nach demselben Schema.

Eindeutigkeit: Seien b, b′ zwei Bilinearformen mit b(vi, vj) = b′(vi, vj) = aij für 1 ≤ i, j ≤ n. Seien v, w ∈ V mitBasisdarstellungen v =

∑ni=1 λivi und w =

∑nj=1 µjvj . Durch Anwendung der der Bilinearität der Abbildung

b erhalten wir

—– 15 —–

Page 16: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

b(v, w) = b

(n∑i=1

λivi, w

)=

n∑i=1

λib(vi, w) =

n∑i=1

λib

vi, n∑j=1

µjvj

=

n∑i=1

n∑j=1

λiµjb(vi, vj) =

n∑i=1

n∑j=1

λiµjaij .

Durch eine analoge Rechnung überprüft man auch die Gleichung b′(v, w) =∑ni=1

∑nj=1 λiµjaij . �

Für viele Anwendungen ist es wichtig, Darstellungsmatrizen von Bilinearformen bezüglich verschiedener Ba-sen ineinander umrechnen zu können, auf ähnliche Weisen, wie wir bereits in der Linearen Algebra Darstel-lungsmatrizen von linearen Abbildungen umgerechnet haben.

Sei V ein endlich-dimensionaler R-Vektorraum, b eine Bilinearform auf V und B = (v1, ..., vn) eine geordneteBasis von V . In der Linearen Algebra haben wir jedem v ∈ V einen Koordinatenvektor ΦB(v) = t(λ1, ..., λn) ∈Rn zugeordnet, dessen Einträge λk ∈ R jeweils die Gleichung v =

∑nk=1 λkvk erfüllen. Es zeigt sich nun, dass

die Bilinearform für vorgegebene Vektoren auch mit Hilfe der Koordinatenvektoren und der Darstellungsma-trix ausgedrückt werden kann.

(1.15) Proposition Unter den angegebenen Voraussetzungen gilt für alle v, w ∈ V jeweils

b(v, w) = tΦB(v)MB(b)ΦB(w).

Beweis: Diese Gleichung kann direkt nachgerechnet werden. Seien die Koordinatenvektoren von v und w

bezüglich B gegeben durch ΦB(v) = t(λ1, ..., λn) und ΦB(w) = t(µ1, ..., µn). Dann gilt v =∑nk=1 λkvk

und w =∑n`=1 µ`v`, und die Einträge ak` der Darstellungsmatrix MB(b) sind durch b(vk, v`) gegeben, für

1 ≤ k, ` ≤ n. Das Produkt tΦB(v)MB(b) ist ein Zeilenvektor der Länge n. Bezeichnen wir dessen Einträge mitλ1, ..., λn, dann gilt nach Definition des Matrix-Vektor-Produkts jeweils

λ` =

n∑k=1

λkb(vk, v`) für 1 ≤ ` ≤ n.

Für die rechte Seite der Gleichung erhalten wir damit insgesamt den Wert

n∑`=1

λ`µ` =

n∑`=1

(n∑k=1

λkb(vk, v`)

)µ` =

n∑k=1

n∑`=1

λkµ`b(vk, v`).

Auf der linken Seite der Gleichung gilt

b(v, w) = b

(n∑k=1

λkvk,

n∑`=1

µ`w`

)=

n∑k=1

n∑`=1

λkµ`b(vk, v`).

Also stimmen die beiden Seiten überein. �

—– 16 —–

Page 17: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Im Beispiel (ii) auf Seite 14 hat der Vektor v = 1·v1+1·v2+1·v3 bezüglich der Basis B = (v1, v2, v3) den Darstel-lungsvektor ΦB(v) = t(1, 1, 1). Mit Hilfe der Darstellungsmatrix des euklidischen Standard-Skalarproduktsbezüglich B können wir den Wert 〈v, v〉 ausrechnen. Es gilt

〈v, v〉 = tΦB(v)MB(b)ΦB(v) =(

1 1 1)5 1 9

1 19 10

9 10 30

1

1

1

=(

15 30 49)1

1

1

= 94.

Andererseits können wir 〈v, v〉 natürlich auch direkt ausrechnen. Es gilt v = v1 + v2 + v3 = (9, 2, 3) und somit〈v, v〉 = 92 + 22 + 32 = 94.

(1.16) Satz (Transformationsformel für Bilinearformen)

Sei V ein n-dimensionaler R-Vektorraum und b eine Bilinearform auf V . Seien A und B

zwei geordnete Basen von V und A = MA (b), B = MB(b) die Darstellungsmatrizen vonb bezüglich dieser Basen. Sei T = TA

B die Matrix des Basiswechsels von A nach B. Danngilt A = tTBT .

Beweis: Sei A = (aij), B = (bij) und T = (tij). Wir überprüfen, dass tTBT die Darstellungsmatrix von b

bezüglich A ist und beweisen auf diesem Weg die Gleichung A = tTBT . Der Eintrag der Matrix C = BT ander Stelle (k, `) ist ck` =

∑nj=1 bkjtj`. Der Eintrag von tTC = tTBT an der Stelle (k, `) ist folglich durch die

Summen∑i=1

tikci` =

n∑i=1

n∑j=1

tikbijtj` =

n∑i=1

n∑j=1

tiktj`bij gegeben.

Sei A = (v1, ..., vn) und B = (w1, ..., wn). Weil T die Matrix des Basiswechsels von A nach B ist, gilt vk =∑ni=1 tikwi für 1 ≤ k ≤ n. Für 1 ≤ k, ` ≤ n ist somit

b(vk, v`) = b

n∑i=1

tikwi,

n∑j=1

tj`wj

=

n∑k=1

n∑`=1

tiktj`b(wi, wj) =

n∑k=1

n∑`=1

tiktj`bij .

Also ist tTBT tatsächlich die Darstellungsmatrix von b bezüglich der Basis A . �

Man beachte hierbei die Analogie zur Transformationsformel für linearen Abbildungen aus dem vorherigenSemester: Ist φ : V → V ein Endomorphismus von V , dann besteht zwischen den Darstellungsmatrizen von φbezüglich der beiden geordneten Basen A und B der Zusammenhang MA (φ) = T−1MB(φ)T , wobei T = TA

B

wieder die Matrix des Basiswechsels bezeichnet. Bei Bilinearformen muss also lediglich die inverse Matrix T−1

durch die transponierte Matrix tT ersetzt werden!

Im weiteren Verlauf betrachten wir nun Bilinearformen mit gewissen zusätzlichen Eigenschaften. Diese Ei-genschaften sollen es ermöglichen, die geometrischen Konzepte (Abstände und Winkel) aus dem vorherigenAbschnitt auf möglichst beliebige R-Vektorräume zu übertragen.

(1.17) Definition Eine Bilinearform b auf einem R-Vektorraum V wird symmetrisch ge-nannt, wenn b(v, w) = b(w, v) für alle v, w ∈ V gilt.

—– 17 —–

Page 18: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Alle bisher behandelten Beispiele von Bilinearformen, insbesondere das euklidische Standard-Skalarproduktauf dem Rn, sind symmetrisch. Eine Matrix A ∈Mn,R bezeichnet man als symmetrisch, wenn A = tA gilt.

(1.18) Proposition Sei V ein n-dimensionaler R-Vektorraum und b eine Bilinearform aufV . Sei B eine beliebige Basis von V und A = MB(b). Unter diesen Voraussetzungen ist bgenau dann symmetrisch, wenn A symmetrisch ist.

Beweis: Sei A = (aij) und B = (v1, ..., vn). Nach Definition der Darstellungsmatrix gilt b(vi, vj) = aij für1 ≤ i, j ≤ n. Sei die Abbildung b : V × V → R gegeben durch

b(v, w) = b(w, v) für alle v, w ∈ V.

Man überprüft unmittelbar, dass auch b eine Bilinearform ist. Offenbar ist b genau dann symmetrisch, wennb = b gilt. Wegen b(vi, vj) = b(vj , vi) = aji für 1 ≤ i, j ≤ n gilt MB(b) = tA. Nach (1.14) stimmen zweiBilinearformen genau dann überein, wenn ihre Darstellungsmatrizen gleich sind. Also ist b = b äquivalent zurMatrixgleichung A = tA. �

(1.19) Definition Eine symmetrische Bilinearform b auf einem R-Vektorraum V wirdpositiv definit genannt, wenn b(v, v) > 0 für alle v ∈ V mit v 6= 0 gilt. Man bezeichneteine solche Bilinearform auch als Skalarprodukt auf V . Ein Paar (V, b) bestehend aus ei-nem R-Vektorraum V und einem Skalarprodukt b auf V wird ein euklidischer Vektorraumgenannt.

Nach (1.4) (v) ist das euklidische Standard-Skalarprodukt positiv definit. Wir zeigen, dass auch die symme-trische Bilinearform b aus Beispiel (iii) auf dem R-Vektorraum der Polynomfunktionen vom Grad ≤ 1 positivdefinit ist. Sei f ∈ V , f(x) = ax+ b mit a, b ∈ R. Dann zeigt die Rechnung

b(f, f) =

∫ 1

0

f(x)2 dx =

∫ 1

0

(ax+ b)2 dx =

∫ 1

0

(a2x2 + 2abx+ b2) dx =

[13a

2x3 + abx2 + b2x]10

= 13a

2 + ab+ b2 = 13a

2 + ab+ b2 =

13a

2 + ab+ 34b

2 + 14b

2 =(a√3

+ b√

32

)2

+ 14b

2.

das stets b(f, f) ≥ 0 erfüllt ist. Außerdem sieht man, dass aus b(f, f) = 0 jeweils a = b = 0 und somit f = 0

folgt.

Euklidische Vektorräume (V, b) besitzen in vielerlei Hinsicht ähnliche Eigenschaften wie der Rn mit dem eu-klidischen Standard-Skalarprodukt. Beispielsweise kann durch ‖v‖b =

√b(v, v) auf V eine Längenfunktion

und durch v ⊥b w ⇔ b(v, w) = 0 eine Orthogonalitätsrelation auf V definiert werden. Auch die Cauchy-Schwarzsche Ungleichung bleibt, wie wir gleich sehen werden, gültig. Allerdings können euklidische Vektor-räume auch unendlich-dimensional sein.

—– 18 —–

Page 19: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.20) Lemma Sei V ein R-Vektorraum und b eine symmetrische Bilinearform auf V .Seien v, w ∈ V mit b(v, v) 6= 0 vorgegeben und λ = b(v,w)

b(v,v) . Dann gilt b(v, w − λv) = 0. Wirbezeichnen den Vektor λv als die Orthogonalprojektion von w auf den Untervektorraumlin(v) von V .

Beweis: Dies ergibt sich genau wie in (1.5) aus der Rechnung

b(v, w − λv) = b(v, w)− λb(v, v) = b(v, w)− b(v, w)

b(v, v)b(v, v)

= b(v, v)− b(v, v) = 0. �

(1.21) Satz In jedem euklidischen Vektorraum (V, b) gilt für alle v, w ∈ V

(i) die Cauchy-Schwarzsche Ungleichung |b(v, w)| ≤ ‖v‖b‖w‖b(ii) die Dreiecksungleichung ‖v + w‖b ≤ ‖v‖b + ‖w‖b.

Dabei ist die Ungleichung (i) genau dann mit Gleichheit erfüllt, wenn v, w linear abhängigsind.

Beweis: Die Beweise stimmen fast wortwörtlich mit den in (1.6) und (1.10) gegebenen überein. Für den Beweisvon (i) unterscheiden wir auch hier zwei Fälle. Ist einer der Vektoren gleich Null, dann sind v, w linear abhän-gig, und die Ungleichung ist mit Gleichheit erfüllt, da beide Seiten von |b(v, w)| ≤ ‖v‖b‖w‖b gleich Null sind.Also sind in diesem Fall alle Aussagen erfüllt. Nun setzen wir v, w 6= 0V voraus. Es gilt b(w − λv,w − λv) ≥ 0

mit dem Wert λ = b(v,w)‖v‖2b

aus (1.21), und auf Grund der Eigenschaft der Eigenschaften von b erhalten wir

b(w − λv,w − λv) = b(w,w − λv)− λb(v, w − λv) =

b(w,w)− λb(w, v)− λb(v, w) + λ2b(v, v) = b(w,w)− 2λb(v, w) + λ2b(v, v).

Setzen wir den Wert von λ in die Ungleichung ein, so ergibt sich

b(w,w)− 2b(v, w)

‖v‖2b+b(v, w)2

‖v‖4bb(v, v) ≥ 0

was wegen ‖v‖2b = b(v, v) umgeformt werden kann zu

b(w,w)− 2b(v, w)2

b(v, v)b(v, w) +

b(v, w)2

b(v, v)≥ 0.

Dies wiederum ist äquivalent zu b(w,w) ≥ b(v,w)2

b(v,v) und b(v, w)2 ≤ b(v, v)b(w,w). Durch Wurzelziehen auf bei-den Seiten erhalten wir wegen ‖v‖b =

√b(v, v) und ‖w‖b =

√b(w,w) die Cauchy-Schwarzsche Ungleichung.

Nun überprüfen wir noch die Äquivalenzaussage im Fall v, w 6= 0V . Sind v, w linear abhängig, dann giltw = µv für ein µ ∈ R mit µ 6= 0. Die linke Seite der Cauchy-Schwarzschen Ungleichung ist dann gegebendurch |b(v, µv)| = |µ|b(v, v), die rechte durch ‖v‖b‖µv‖b = ‖v‖

√b(µv, µv) = ‖v‖b|µ|

√b(v, v) = |µ|‖v‖2b =

|µ|b(v, v), also stimmen beiden Seiten überein. Setzen wir nun umgekehrt die Gleichung |b(v, w)| = ‖v‖b‖w‖bvoraus, und führen wir die Umformungsschritte von oben in umgekehrter Reihenfolge durch, so erhalten wir

—– 19 —–

Page 20: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

b(w − λv,w − λv) = 0. Da b positiv definit ist, folgt daraus w − λv = 0 und w = λv. Dies zeigt, dass v, w linearabhängig sind.

Die Dreiecksungleichung in Teil (ii) erhalten wir durch die Rechnung

b(v + w, v + w) = b(v, v) + 2b(v, w) + b(w,w) ≤ ‖v‖2b + 2‖v‖b‖w‖2b + ‖w‖2b = (‖v‖b + ‖w‖b)2

und anschließendes Wurzelziehen auf beiden Seiten. �

Der folgende Begriff wird in den folgenden Kapiteln bei der Entwicklung der mehrdimensionalen Analysiseine wichtige Rolle spielen.

(1.22) Definition Eine Norm auf einemR-Vektorraum V ist eine Abbildung ‖·‖ : V → R+,die folgende Bedingungen erfüllt.

(i) Für alle v ∈ V gilt ‖v‖ = 0 genau dann, wenn v = 0V ist.

(ii) Es gilt ‖λv‖ = |λ|‖v‖ für alle λ ∈ R und v ∈ V .

(iii) Für alle v, w ∈ V gilt ‖v + w‖ ≤ ‖v‖+ ‖w‖.

Das Paar (V, ‖ · ‖) bezeichnet man als normierten Vektorraum.

Viele Normen kommen durch Skalarprodukte zu Stande.

(1.23) Satz Ist (V, b) ein euklidischer Vektorraum, dann ist durch ‖v‖b =√b(v, v) eine

Norm auf V definiert. Man bezeichnet ‖ · ‖b als die durch b induzierte euklidische Norm.

Beweis: Die Dreiecksungleichung, also Teil (iii) der Definition einer Norm, haben wir für ‖ · ‖b in (1.21) bereitsverifiziert. Weil b positiv definit ist, gilt für alle v ∈ V auch die Äquivalenz

‖v‖b = 0 ⇔ ‖v‖2b = 0 ⇔ b(v, v) = 0 ⇔ v = 0V

also (i). Für alle λ ∈ R und v ∈ V gilt auch ‖λv‖2b = b(λv, λv) = λ2b(v, v) = λ2‖v‖2b . Wurzelziehen auf beidenSeiten liefert ‖λv‖b = |λ|‖v‖b und somit Bedingung (ii). �

Nicht jede Norm auf einem Vektorraum V wird durch ein Skalarprodukt induziert. Ob dies für eine vorgege-bene Norm der Fall ist, kann mit Hilfe eines geometrischen Kriteriums überprüft werden.

—– 20 —–

Page 21: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

v

w

v + w

v − w

geometrische Interpretation der Parallelogrammgleichung:

Die Quadrate der vier Seitenlängen des Parallelogramms summieren sich zum gleichen Wert wie die Quadrate der Diagonallängen.

(1.24) Satz Sei V ein R-Vektorraum. Eine Norm ‖ · ‖ auf V wird genau dann durch einSkalarprodukt b induziert, wenn für alle v, w ∈ V die sog. Parallelogrammgleichung

‖v + w‖2 + ‖v − w‖2 = 2(‖v‖2 + ‖w‖2) erfüllt ist.

Beweis: „⇒“ Sei b ein Skalarprodukt mit ‖ · ‖ = ‖ · ‖b. Wir müssen überprüfen, dass die Parallelogrammglei-chung in diesem Fall gültig ist. Tatsächlich gilt für alle v, w ∈ V die Gleichung

‖v + w‖2 + ‖v − w‖2 = b(v + w, v + w) + b(v − w, v − w) =

b(v, v) + 2b(v, w) + b(w,w) + b(v, v)− 2b(v, w) + b(w,w) =

2b(v, v) + 2b(w,w) = 2(‖v‖2 + ‖w‖2

).

Der Beweis der Richtung „⇐“ ist deutlich aufwändiger und wird deshalb hier nicht wiedergegeben. �

Sei (V, b) ein euklidischer Vektorraum. Auf Grund der Cauchy-Schwarzschen Ungleichung gilt für beliebigeVektoren v, w ∈ V ungleich Null jeweils −1 ≤ b(v,w)

‖v‖b‖w‖b ≤ 1. Deshalb ist nun auch hier die folgende Definitionsinnvoll.

(1.25) Definition Sei (V, b) ein euklidischer Vektorraum. Der Winkel zwischen zwei Vek-toren v, w ∈ V mit v, w 6= 0V ist die eindeutig bestimmte Zahl ^b(v, w) ∈ [0, π] mit

cos^b(v, w) =b(v, w)

‖v‖b‖w‖b.

Zwei Vektoren v, w ∈ V sind bezüglich b orthogonal (v ⊥b w), wenn b(v, w) = 0 ist.

—– 21 —–

Page 22: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

1.3 Orthonormalbasen, Hurwitz-Kriterium und Hauptachsentransformation

Inhaltsübersicht

FF Definition der Orthonormalbasen in einem euklidischen Vektorraum

FF Konstruktion von Orthonormalbasen mit dem Gram-Schmidt-Verfahren

FF Erkennung positiv definiter Matrizen mit dem Hurwitz-Kriterium

FF Diagonalisierung symmetrischer Matrizen (Hauptachsentransformation)

(1.26) Definition Sei V ein n-dimensionaler R-Vektorraum und b eine symmetrische Bili-nearform auf V . Eine geordnete Basis B = (v1, ..., vn) von V wird Orthonormalbasis (kurzON -Basis) genannt, wenn

b(vk, v`) = δk` für 1 ≤ k, ` ≤ n erfüllt ist.

Mit anderen Worten, die Darstellungsmatrix MB(b) ist die Einheitsmatrix.

Die Einheitsvektoren e1, ..., en bilden eine ON -Basis des Rn bezüglich des euklidischen Standard-Skalarpro-dukts, denn es gilt 〈ei, ej〉 = δij für 1 ≤ i, j ≤ n. Für den trivialenR-Vektorraum V = {0V }mit der Bilinearformgegeben durch b(0V , 0V ) = 0 sehen wir das leere Tupel ∅ als ON-Basis an. Wir werden nun zeigen, dass injedem endlich-dimensionalen euklidischen Vektorraum eine ON -Basis exisiert.

(1.27) Definition Sei (V, b) ein R-Vektorraum mit einer symmetrischen Bilinearform undU ein Untervektorraum. Eine Orthogonalprojektion von V aufU ist eine lineare AbbildungπU : V → U mit der Eigenschaft πU |U = idU und (v − πU (v)) ⊥b U für alle v ∈ V .

Dabei bedeutet w ⊥b U für einen Vektor w ∈ V und einen Untervektorraum U , dass v ⊥b u für alle u ∈ U gilt.

U

v

πU (v)

—– 22 —–

Page 23: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.28) Proposition Sei (V, b) ein R-Vektorraum mit einer symmetrischen Bilinearform. SeiU ⊆ V ein Untervektorraum der endlichen Dimension n und (u1, ..., un) eine ON-Basis vonU . Dann ist durch

πU (v) =

n∑k=1

b(uk, v)uk eine Orthogonalprojektion auf U definiert.

Beweis: Als erstes überprüfen wir, dass πU linear ist. Seien v, w ∈ V und λ ∈ R vorgegeben. Dann gilt

πU (v + w) =

n∑k=1

b(uk, v + w)uk =

n∑k=1

(b(uk, v) + b(uk, w))uk

=

n∑k=1

b(uk, v)uk +

n∑k=1

b(uk, w)uk = πU (v) + πU (w)

und ebenso πU (λv) =∑nk=1 b(uk, λv)uk =

∑nk=1 λb(uk, v)uk = λ (

∑nk=1 b(uk, v)uk) = λπU (v). Damit ist die

Linearität nachgewiesen. Sei nun v ∈ V vorgegeben. Zunächst zeigen wir, dass v−πU (v) auf jedem Basisvektoru` mit 1 ≤ ` ≤ n senkrecht steht. Es gilt

b(u`, v − πU (v)) = b

(u`, v −

n∑k=1

b(uk, v)uk

)= b(u`, v)−

n∑k=1

b(u`, b(uk, v)uk) =

b(u`, v)−n∑k=1

b(uk, v)b(u`, uk) = b(u`, v)−n∑k=1

b(uk, v)δ`k = b(u`, v)− b(u`, v) = 0.

Ist nun u ∈ U beliebig, dann gibt es λ1, ..., λn ∈ Rmit u =∑n`=1 λ`u`. Wir erhalten

b(u, v − πU (v)) = b

(n∑`=1

λ`u`, v − πU (v)

)=

n∑`=1

λ`b(u`, v − πU (v)) =

n∑`=1

λ` · 0 = 0.

Es gilt also (v − πU (v)) ⊥ U . Zum Beweis der zweiten Eigenschaft einer Orthogonalprojektion sei u ∈ U

vorgegeben. Dann gibt es λ1, ..., λn ∈ Rmit u =∑nk=1 λkuk. Auf Grund der Linearität von πU erhalten wir

πU (u) =

n∑k=1

λkπU (uk) =

n∑k=1

λk

(n∑`=1

b(u`, uk)u`

)=

n∑k=1

λk

(n∑`=1

δ`ku`

)=

n∑k=1

1λkuk = u wie gewünscht. �

Wir geben nun ein Verfahren an, mit dem sich für jeden Untervektorraum U eines euklidischen Vektorraums(V, b) eine ON-Basis konstruieren lässt.

(1.29) Satz (Gram-Schmidt-Orthonormalisierung)

Sei (V, b) ein euklidischer Vektorraum.

(i) Sei U ein Untervektorraum der Dimension n ∈ N0 von V , (u1, ..., un) eine ON-Basis und U ′ ⊇ U ein (n+ 1)-dimensionaler Untervektorraum. Dann existiertein Vektor un+1 ∈ U ′, so dass (u1, ..., un, un+1) eine ON-Basis von U ′ ist.

(ii) Jeder endlich-dimensionale euklidische Vektorraum besitzt eine ON-Basis.

—– 23 —–

Page 24: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: zu (i) Sei v ∈ U ′ \ U beliebig gewählt und w = v − πU (v). Dann gilt w ⊥b U nach (1.29). Setzenwir un+1 = 1

‖w‖bw, dann gilt b(un+1, un+1) = 1 = δn+1,n+1. Weil mit w auch un+1 auf U senkrecht steht, giltaußerdem b(uk, un+1) = b(un+1, uk) = 0 = δk,n+1 für 1 ≤ k ≤ n. Für alle k, ` mit 1 ≤ k, ` ≤ n ist b(uk, u`) = δk`

erfüllt, weil (v1, ..., vn) eine ON-Basis von U ist. Insgesamt ist (u1, ..., un+1) also eine ON-Basis von U ′.

zu (ii) Wir beweisen die Aussage durch vollständige Induktion über die Dimension. Die nulldimensionaleneuklidischen Vektorräume besitzen das leere Tupel ∅ als ON-Basis. Sei nun n ∈ N0, und setzen wir die Aussagefür n voraus. Sei (V, b) ein euklidischer Vektorraum mit dimV = n+ 1. Bezeichnen wir mit U einen beliebigenn-dimensionalen Untervektorraum von V , dann existiert nach Induktionsvoraussetzung eine ON-Basis vonU . Nach Teil (i) können wir diese zu einer ON-Basis von V erweitern. �

Aus den letzten beiden Sätzen können wir das folgende Verfahren zur Bestimmung einer ON-Basis ableiten.Sei (V, b) ein euklidischer Vektorraum und U ein Untervektorraum der endlichen Dimension n.

(1) Wähle eine beliebige Basis B = (v1, ..., vn) und setze k = 0, B′ = ∅.

(2) Im Fall k = n ist das Verfahren beendet. Ansonsten nehmen wir an, dass B′ = (u1, ..., uk)

bereits eine ON -Basis von Uk = lin(v1, ..., vk) ist.

(3) Berechne gemäß (1.28) die Orthogonalprojektion wk+1 = πUk(vk+1) von vk+1 auf Uk durch

wk+1 =

k∑`=1

b(u`, vk+1)u`.

(4) Definiere den Vektor uk+1 = vk+1 − wk+1 und normiere ihn zu uk+1 = ‖uk+1‖−1b uk+1.

(5) Erweitere B′ um den Vektor uk+1, ersetze k durch k + 1, und gehe zurück zu (2).

Wenn man bereits über eine ON-Basis B′ für einen Untervektorraum von U verfügt, kann das Verfahren auchgenutzt werden, um B′ zu einer ON-Basis von ganz U zu erweitern.

Als konkretes Beispiel betrachten wir im V = R3 mit dem euklidischen Standard-Skalarprodukt den Vektoru1 = ( 1

3 ,23 ,

23 ) und den Untervektorraum lin(u1). Unser Ziel besteht darin, die ON-Basis B′ = (u1) dieses

Untervektorraums zu einer ON-Basis von R3 zu erweitern. Dafür müssen wir den oben angegebenen Algo-rithmus über zwei „Runden“ laufen lassen. Mit den dort verwendeten Bezeichnungen gilt

k = 1 〈u1, e2〉 = 23

w2 = 〈u1, e2〉u1 = 23u1 = 2

3 ( 13 ,

23 ,

23 ) = (2

9 ,49 ,

49 )

u2 = e2 − w2 = (0, 1, 0)− ( 29 ,

49 ,

49 ) = (− 2

9 ,59 ,−

49 )

‖u2‖ =√

(− 29 )2 + ( 5

9 )2 + (− 49 )2 =

√4581 = 1

3

√5

u2 = ‖u2‖−1u2 = 3√5(− 2

9 ,59 ,−

49 ) = (− 2

3√

5, 1

3

√5,− 4

3√

5)

—– 24 —–

Page 25: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

k = 2 〈u1, e3〉 = 23 , 〈u2, e3〉 = − 4

3√

5

w3 = 〈u1, e3〉u1 + 〈u2, e3〉u2 = 23 ( 1

3 ,23 ,

23 )− 4

3√

5(− 2

3√

5, 1

3

√5,− 4

3√

5)

= ( 29 ,

49 ,

49 ) + ( 8

45 ,−49 ,

1645 ) = ( 2

5 , 0,45 )

u3 = e3 − w3 = (0, 0, 1)− ( 25 , 0,

45 ) = (− 2

5 , 0,15 )

‖u3‖ =√

(− 25 )2 + 02 + ( 1

5 )2 =√

15 = 1√

5

u3 = ‖u3‖−1u3 =√

5(− 25 , 0,

15 ) = (− 2√

5, 0, 1√

5)

Also ist (u1, u2, u3) bestehend aus den Vektoren u1 = ( 13 ,

23 ,

23 ), u2 = (− 2

3√

5, 1

3

√5,− 4

3√

5), u3 = (− 2√

5, 0, 1√

5)

eine ON-Basis von R3. Es empfiehlt sich, zur Sicherheit die Gleichungen 〈uk, u`〉 = δk` für 1 ≤ k, ` ≤ 3 zuüberprüfen.

Bisher haben wir noch kein Kriterium zur Verfügung, mit dem sich anhand der Darstellungsmatrix feststellenlässt, ob eine Bilinearform ein Skalarprodukt definiert. Mit Hilfe der Orthogonalprojektionen sind wir nun inder Lage, dafür ein Kriterium anzugeben.

(1.30) Definition Eine Matrix A ∈ Mn,R wird als positiv definit bezeichnet, wenn die(eindeutig bestimmte) Bilinearform b auf Rn mit der Darstellungsmatrix MEn

(b) = A be-züglich der Einheitsbasis En positiv definit ist.

Nach (1.15), angewendet auf die Einheitsbasis En des Rn, ist A genau dann positiv definit, wenn A symme-trisch ist und außerdem tvAv > 0 für alle v ∈ Rn mit v 6= 0 gilt.

(1.31) Satz (Hurwitz-Kriterium)

Sei A ∈ Mn,R eine symmetrische Matrix und Ak jeweils die linke obere k × k-Teilmatrix,für 1 ≤ k ≤ n. Genau dann ist A positiv definit, wenn det(Ak) > 0 für 1 ≤ k ≤ n erfüllt ist.

Zunächst zeigen wir an einem Beispiel, wie man das Kriterium anwendet. Die MatrixA ∈M3,R gegeben durch

A =

5 1 9

1 19 10

9 10 30

ist positiv definit, denn es gilt

det((5)) = 5 > 0 , det

(5 1

1 19

)> 0 und detA = 961 > 0.

—– 25 —–

Page 26: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis des Hurwitz-Kriteriums:

Wir führen folgende Bezeichnungen ein: Für k ∈ {1, ..., n} sei Ek = (e1, ..., ek) jeweils das k-Tupel beste-hend aus den ersten k Einheitsvektoren im Rn. Dann spannt Ek jeweils den Untervektorraum Uk = lin(Ek) =

Rk × {0}n−k von Rn auf. Wir bezeichnen mit b die eindeutig bestimmte Bilinearform auf Rn mit der Darstel-lungsmatrix A und mit bk jeweils die Einschränkung von b auf den Untervektorraum Uk. Nach Definition derDarstellungsmatrix gilt Ak = MEk

(bk) für 1 ≤ k ≤ n.

„⇒“ IstA positiv definit, dann gibt es nach dem Satz (1.29) eine Basis B = (v1, ..., vn), so dass Bk = (v1, ..., vk)

jeweils eine ON-Basis von Uk ist, für 1 ≤ k ≤ n. Nach Definition gilt I(k) = MBk(bk) für 1 ≤ k ≤ n, die

Darstellungsmatrizen bezüglich Bk sind also die Einheitsmatrizen. Setzen wir nun Tk = T Ek

Bkfür jedes k, dann

erhalten wir nach (1.16) jeweils

Ak = MEk(bk) = tT Ek

BkMBk

(bk)T Ek

Bk= tTkI(k)Tk = tTkTk

und folglich det(Ak) = det(Tk)2 > 0. Denn als Matrix des Basiswechsels ist Tk invertierbar und deshalbdet(Tk) 6= 0.

„⇐“ Hier zeigen wir durch vollständige Induktion über k, dass die Bilinearform bk auf Uk positiv definit ist.Setzen wir A = (ak`), dann gilt A1 = (a11), und aus det(A1) > 0 folgt a11 > 0. Dies wiederum bedeutet, dassb1 positiv definit ist. Für jeden Vektor v ∈ U1 mit v 6= 0 gibt es nämlich ein λ ∈ R× mit v = λe1, und es folgtb(v, v) = λ2b(e1, e1) = λ2a11 > 0. Damit ist der Induktionsanfang abgeschlossen.

Sei nun k ∈ N mit 1 ≤ k < n und setzen wir voraus, dass bk positiv definit ist. Nach (1.29) besitzt Uk eineON-Basis (u1, ..., uk) bezüglich bk. Setzen wir nun w = ek+1 − πUk

(ek+1), dann gilt w ⊥bk Uk nach Definitionder Orthogonalprojektion πUk

. Mit ek+1 ist außerdem auch w in Uk+1 \ Uk enthalten. Dies zeigt, dass durchB = (u1, ..., uk, w) eine Basis von Uk+1 gegeben ist. Auf Grund der ON-Eigenschaft von (u1, ..., uk) und wegenw ⊥bk Uk hat bk+1 bezüglich B die Darstellungsmatrix

MB(bk+1) =

(I(k) 0

0 a

),

mit einem geeigneten a ∈ R. Setzen wir nun T = TEk+1

B , dann gilt wegen (1.16) die Gleichung

Ak+1 = MEk+1(bk+1) = tT

Ek+1

B MB(bk+1)TEk+1

B = tT

(I(k) 0

0 a

)T.

Es folgt det(Ak+1) = det(T )2a. Nach Voraussetzung ist det(Ak+1) > 0, daraus folgt a > 0. Damit können wirnun zeigen, dass bk+1 positiv definit ist. Sei v ∈ Uk+1 mit v 6= 0. Setzen wir t(λ1, ..., λk+1) = ΦB(v), dann istmindestens ein λ` ungleich Null, und folglich gilt nach (1.15) dann

bk+1(v, v) =(λ1 · · · λk λk+1

)(I(k) 0

0 a

)λ1

...λk

λk+1

=(λ1 · · · λk aλk+1

)

λ1

...λk

λk+1

=

k∑`=1

λ2` + aλ2

k+1 > 0. �

—– 26 —–

Page 27: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.32) Definition Eine Matrix A ∈Mn,R wird orthogonal genannt, wenn tAA = I(n) gilt.Eine Matrix A ∈Mn,C heißt unitär, wenn tAA = I(n) und hermitesch, wenn tA = A gilt.

Wie man leicht überprüft, ist für zwei orthogonale MatrizenA,B auch das ProduktAB und die inverse MatrixA−1 orthogonal. Denn aus tAA = I(n) und tBB = I(n) folgt tAB(AB) = tB tAAB = tBI(n)B = tBB = I(n);aus tAA = I(n) folgt außerdem tA = A−1 und somit t(A−1)A−1 = t( tA)A−1 = AA−1 = I(n). Die ortho-gonalen Matrizen bilden also eine Gruppe, die sogenannte orthogonale Gruppe. Ebenso bilden die unitärenMatrizen die sogenannte unitäre Gruppe.

Das euklidische Skalarprodukt, das wir zu Beginn eingeführt haben, lässt sich durch

〈v, w〉 =

n∑k=1

vkwk für v = (v1, ..., vn), w = (w1, ..., wn)

zu einer Abbildung Cn × Cn → C ausdehnen. Wie man durch Nachrechnen unmittelbar überprüft, hat diesedie Eigenschaft

〈v + v′, w〉 = 〈v, w〉+ 〈v′, w〉 , 〈v, w + w′〉 = 〈v, w〉+ 〈v, w′〉 , 〈λv,w〉 = λ〈v, w〉 ,

〈v, λw〉 = λ〈v, w〉 und 〈w, v〉 = 〈v, w〉

für alle v, v′, w, w′ ∈ Cn und λ ∈ C, wobei λ jeweils die zu λ konjugiert-komplexe Zahl bezeichnet. Auf Grunddieser Rechenregeln spricht man von einer hermiteschen Sesquilinearform auf dem Vektorraum Cn.

(1.33) Satz

(i) Eine Matrix A ∈ Mn,R ist genau dann orthogonal, wenn 〈Av,Aw〉 = 〈v, w〉und symmetrisch genau dann, wenn 〈Av,w〉 = 〈v,Aw〉 für alle v, w ∈ Rn gilt.

(ii) Eine Matrix A ∈ Mn,C ist genau dann unitär, wenn 〈Av,Aw〉 = 〈v, w〉 undhermitesch, wenn 〈Av,w〉 = 〈v,Aw〉 für alle v, w ∈ Cn gilt.

Beweis: Wir beschränken uns auf den komplexen Fall. Sei A ∈ Mn,C mit Spaltenvektoren a1, ..., an ∈ Cn.Offenbar ist eine Matrix A genau dann unitär, es gilt also tAA = I(n) genau dann, wenn für 1 ≤ k, ` ≤ n

jeweils〈Aek, Ae`〉 = 〈ak, a`〉 = δk`

erfüllt ist, denn die komplexe Zahl 〈ak, a`〉 ist genau der Eintrag der Produktmatrix tAA an der Stelle (k, `).Setzen wir diese Gleichung für alle k, ` voraus, dann folgt für v, w ∈ Cn mit v =

∑nk=1 λkek undw =

∑n`=1 µ`e`

jeweils

〈Av,Aw〉 =

⟨A

(n∑k=1

λkek

), A

(n∑`=1

µ`e`

)⟩=

⟨n∑k=1

λkAek,

n∑`=1

µ`Ae`

⟩=

n∑k=1

n∑`=1

λkµ`〈Aek, Ae`〉 =

n∑k=1

n∑`=1

λkµ`〈Aek, Ae`〉δk` =

n∑k=1

λkµ` = 〈v, w〉.

—– 27 —–

Page 28: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Setzen wir umgekehrt voraus, dass 〈Av,Aw〉 = 〈v, w〉 für alle v, w ∈ Cn gilt, dann ist insbesondere

〈Aek, Ae`〉 = 〈ek, e`〉 = δk` für 1 ≤ k, ` ≤ n.

Zum Nachweis der zweiten Äquivalenz bezeichnen wir die Einträge der Matrix A ∈ Mn,C mit ak` für 1 ≤k, ` ≤ n, so dass die Spaltenvektoren jeweils durch a` = (a1`, ..., an`) gegeben sind. Die Matrix A ist genaudann hermitesch, wenn a`k = ak` für alle k, ` erfüllt ist. Wegen 〈Aek, e`〉 = 〈ak, e`〉 = a`k und 〈ek, Ae`〉 =

〈ek, a`〉 = ak` sind diese Gleichungen äquivalent zu

〈Aek, e`〉 = 〈ek, Ae`〉

für 1 ≤ k, ` ≤ n. Setzen wir diese Gleichungen voraus, dann erhalten wir für beliebige v, w ∈ Cn mit v =∑nk=1 λkek und w =

∑n`=1 µ`e` die Gleichung

〈Av,w〉 =

⟨A

(n∑k=1

λkek

),

n∑`=1

µ`e`

⟩=

⟨n∑k=1

λkAek,

n∑`=1

µ`e`

⟩=

n∑k=1

n∑`=1

λkµ`〈Aek, e`〉 =

n∑k=1

n∑`=1

λkµ`〈ek, Ae`〉 =

⟨n∑k=1

λkek,

n∑`=1

µ`Ae`

⟩=

⟨n∑k=1

λkek, A

(n∑`=1

µ`e`

)⟩= 〈v,Aw〉.

Setzen wir dies umgekehrt für alle v, w voraus, dann gilt insbesondere 〈Aek, e`〉 = 〈ek, Ae`〉 für 1 ≤ k, ` ≤ n. �

Durch den soeben bewiesenen Satz wird die folgende Verallgemeinerung der gerade eingeführten Begriffe na-hegelegt: Sei (V, b) ein euklidischer Vektorraum. Ein Endomorphismus φ ist orthogonal, wenn b(φ(v), φ(w)) =

b(v, w) für alle v, w ∈ V gilt, und symmetrisch (man sagt auch selbstadjungiert), wenn b(φ(v), w) = b(v, φ(w))

für alle v, w ∈ V gilt.

Wie wir im Beweis gesehen haben, ist eine Matrix A ∈ Mn,R genau dann orthogonal, wenn ihre Spaltenvek-toren eine ON-Basis bilden. Diese Beobachtungen wird im weiter unten folgenden Beweis des Satzes über dieHauptachsentransformation eine Rolle spielen.

(1.34) Proposition Sei (V, b) ein euklidischer Vektorraum, B eine ON-Basis von V , φ :

V → V ein Endomorphismus und A = MB(φ). Der Endomorphismus φ ist genau dannorthogonal, wenn A orthogonal ist und genau dann selbstadjungiert, wenn A symmetrischist.

Beweis: Sei ΦB : V → Rn die Koordinatenabbildung. Weil B eine ON-Basis bezüglich b ist, gilt MB(b) = I(n).Nach (1.15) gilt damit

b(v, w) = tΦB(v)I(n)ΦB(w) = 〈ΦB(v),ΦB(w)〉

für alle v, w ∈ V . Nach Definition der Darstellungsmatrix eines Endomorphismus gilt ΦB(φ(v)) = AΦB(v) füralle v ∈ V , also b(φ(v), φ(w)) = 〈AΦB(v), AΦB(w)〉 für alle v, w ∈ V . Insgesamt zeigt dies, dass die Gleichungb(φ(v), φ(w)) = b(v, w) für alle v, w ∈ V äquivalent ist zu 〈Av,Aw〉 = 〈v, w〉 für alle v, w ∈ Rn. Ebenso istb(φ(v), w) = b(v, φ(w)) äquivalent zu 〈Av,w〉 = 〈v,Aw〉 für alle v, w ∈ V . �

—– 28 —–

Page 29: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(1.35) Proposition Jede symmetrische Matrix A ∈Mn,R besitzt einen reellen Eigenwert.

Beweis: Aus der Linearen Algebra ist bekannt, dass jedes Polynom in C[x] vom Grad ≥ 1 eine Nullstellebesitzt. Fassen wir das charakteristische Polynom χA von A als komplexes Polynom auf, dann liefert uns dasdie Existenz einer Nullstelle λ ∈ C von χA. Daraus folgt, dass der Endomorphismus φ : Cn → Cn, v 7→ Av denWert λ als Eigenwert besitzt. Sei v ∈ Cn ein beliebiger zugehöriger Eigenvektor.

Als reelle symmetrische Matrix ist A auch hermitesch. Mit (1.33) erhalten wir

λ〈v, v〉 = 〈λv, v〉 = 〈Av, v〉 = 〈v,Av〉 = 〈v, λv〉 = λ〈v, v〉.

Division dieser Gleichung durch 〈v, v〉 6= 0 liefert λ = λ. Die Nullstelle λ von χA ist also reell. �

(1.36) Satz (Satz von der Hauptachsentransformation)

Sei A ∈ Mn,R symmetrisch. Dann gibt es eine orthogonale Matrix T , so dass D = tTAT

eine Diagonalmatrix ist.

Beweis: Sei (V, b) ein endlich-dimensionaler euklidischer R-Vektorraum. Wir beweisen durch vollständigeInduktion über n = dimV die folgende Aussage: Ist φ : V → V ein selbstadjungierter Endomorphismus, danngibt es eine ON-Basis B von V bestehend aus Eigenvektoren von φ. Für n = 1 ist jeder Vektor v ∈ V mit v 6= 0V

zwangsläufig ein Eigenvektor. Setzen wir v1 = 1‖v‖b v und B = (v1), so ist B eine Basis mit der gewünschten

Eigenschaft.

Sei nun n ∈ N und dimV = n + 1, und setzen wir die Aussage für n voraus. Sei B eine ON-Basis von V .Weil φ selbstadjungiert ist, ist A = MB(φ) nach (1.34) eine symmetrische Matrix. Nach (1.35) besitzt A einenreellen Eigenwert λ; damit gilt dasselbe auch für die Abbildung φ. Sei v ∈ V ein zugehöriger Eigenvektor undv1 = 1

‖v‖v. Offenbar ist durchU = {w ∈ V | b(v1, w) = 0}

ein Untervektorraum V gegeben. Es gilt φ(U) ⊆ U , denn für alle w ∈ U gilt b(v1, φ(w)) = b(φ(v1), w) =

b(λv1, w) = λb(v1, w) = λ0 = 0 und somit φ(w) ∈ U . Damit ist durch φ|U ein selbstadjungierter Endomor-phismus von U gegeben. Außerdem ist dimU = n. Denn die lineare Abbildung ψ : V → R, w 7→ b(v1, w)

hat U als Kern und ist wegen ψ(αv1) = b(v1, αv1) = αb(v1, v1) = α für alle α ∈ R surjektiv. Damit folgtdimU = dim ker(ψ) = dimV − dimR = (n+ 1)− 1 = n.

Wir können nun die Induktionsvoraussetzung auf den Endomorphismus φ|U anwenden und erhalten eineON-Basis (v2, ..., vn+1) von U bestehend aus Eigenvektoren von φ|U . Wegen v1 ⊥b vk für 2 ≤ k ≤ n + 1 istB = (v1, ..., vn) eine ON-Basis von V mit der gewünschten Eigenschaft.

Sei nun φ der Endmorphismus von Rn gegeben durch φ : Rn → Rn, v 7→ Av mit der vorgegebenen Matrix A.Es gilt dann A = ME (φ) bezüglich der Einheitsbasis E = (e1, ..., en) von Rn. Nach (1.34) ist φ selbstadjungiertbezüglich des euklidischen Standard-Skalarprodukts. Durch Anwendung der soeben bewiesenen Aussage er-halten wir eine ON-Basis B = (v1, ..., vn) bestehend aus Eigenvektoren von φ. Damit ist D = MB(φ) danneine Diagonalmatrix.

—– 29 —–

Page 30: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Tragen wir die Vektoren v1, ..., vn als Spalten in eine Matrix T ein, so gilt T = T BE , und T ist orthogonal, weil

die Spalten von T eine ON-Basis von Rn bilden. Es gilt also tT = T−1 = T EB . Wir erhalten damit

D = MB(φ) = T EB ME (φ)T B

E = tTAT. �

—– 30 —–

Page 31: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

§ 2. Topologie und Stetigkeit im Mehrdimensionalen

2.1 Normen und Metriken

Inhaltsübersicht

FF Definition der p-Norm aufRn für p ∈ [1,+∞].(Der Nachweis der Dreiecksungleichung erfordert die Höldersche Ungleichung.)

FF Definition der Äquivalenz von Normen

FF Je zwei Normen aufRn sind äquivalent.

FF Definition von Metriken auf beliebigen Mengen

FF Jede Norm auf einemR-Vektorraum V induziert eine Metrik auf V .

Den Begriff der Norm auf einem R-Vektorraum V haben wir bereits im letzten Abschnitt kennengelernt, unddort sind uns auch schon die ersten Beispiele begegnet: die Normen der Form ‖·‖b, die durch ein Skalarproduktb auf V induziert werden. Wir werden nun zunächst einige weitere Beispiele für Normen angeben, die in derAnalysis eine wichtige Rolle spielen. In diesem Abschnitt bezeichnet n stets eine natürliche Zahl, und mit(x1, ..., xn) bezeichnen wir stets die Standard-Koordinaten eines Vektors x ∈ Rn.

(2.1) Satz Auf dem R-Vektorraum V = Rn ist für jedes p ∈ R, p ≥ 1 durch

‖x‖p = p

√√√√ n∑i=1

|xi|p , x = (x1, ..., xn) ∈ V

eine Norm definiert, die sogenannte p-Norm. Eine weitere Norm erhält man durch

‖x‖∞ = max{|x1|, ..., |xn|} , die Supremumsnorm.

Beweis: Wir überprüfen zunächst die Normeigenschaften der Supremumsnorm. Offenbar gilt ‖x‖∞ = 0 genaudann, wenn |x1| = ... = |xn| = 0 gilt, und dies wiederum genau dann der Fall, wenn x = 0Rn ist. Sei nun x ∈ Vund λ ∈ R. Für den Beweis der Gleichung ‖λx‖∞ = |λ|‖x‖∞ sei i ∈ {1, ..., n} so gewählt, dass |xi| ≥ |xj | für1 ≤ j ≤ n erfüllt ist. Dann gilt auch |λxi| ≥ |λxj | für alle j, und es folgt ‖λx‖∞ = |λxi| = |λ||xi| = |λ|‖x‖∞.Zum Beweis der Dreiecksungleichung seien x, y ∈ Rn vorgegeben. Für 1 ≤ i ≤ n gilt jeweils

|xi + yi| ≤ |xi|+ |yi| ≤ ‖x‖∞ + ‖y‖∞ ,

also auch ‖x+ y‖∞ ≤ ‖x‖∞ + ‖y‖∞. Damit ist ‖ · ‖∞ tatsächlich eine Norm auf V .

Wenden wir uns nun dem Beweis der Norm-Eigenschaften für die p-Norm zu, wobei p ∈ R und p ≥ 1 ist. Fürjedes x ∈ V gilt auch hier ‖x‖p = 0 genau dann, wenn die Beträge |xi| der Koordinaten alle gleich Null sind,

—– 31 —–

Page 32: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und dies ist wiederum äquivalent zu x = 0Rn . Für alle x ∈ Rn und λ ∈ R gilt

‖λx‖p = p

√√√√ n∑i=1

|λxi|p = |λ| p√√√√ n∑

i=1

|xi|p = |λ|‖x‖p. (2.2)

Also ist auch die zweite Bedingung erfüllt. Der Beweis der Dreiecksungleichung ist leider nur für p = 1 einfach.Hier folgt sie durch die Rechung

‖x+ y‖1 =

n∑i=1

|xi + yi| ≤n∑i=1

|xi|+n∑i=1

|yi| = ‖x‖1 + ‖y‖1. �

Für den Beweis der Dreiecksungleichung im Fall p > 1 benötigen wir als zusätzliches Hilfsmittel die Hölder-sche Ungleichung. Der Beweis dieser Ungleichung erfordert allerdings ein wenig Vorbereitung.

(2.2) Lemma Seien p, q ∈ R, p, q > 1 mit 1p + 1

q = 1 und x, y ∈ R+. Dann gilt

x1/py1/q ≤ x

p+y

q.

Beweis: Wir können voraussetzen, dass x, y 6= 0 sind, denn im Fall x = 0 oder y = 0 ist die Ungleichungoffensichtlich erfüllt. Aus Symmetriegründen können wir außerdem x ≥ y annehmen, da wir ansonsten dieAussage durch Vertauschung von x und y bzw. p und q auf diesen Fall zurückführen können. Schließlichkönnen wir auch noch x > y voraussetzen, denn im Fall x = y reduziert sich die Aussage auf die ebenfallsoffensichtliche Ungleichung x ≤ x.

Dividieren wir die Ungleichung durch y und setzen wir ξ = xy , dann erhalten wir auf der rechten Seite den

Term1pξ + 1

q = 1pξ + 1− 1

p = 1p (ξ − 1) + 1 ,

auf der linken Seite x1/py1/q−1 = (xy )1/py1/p+1/q−1 = ξ1/p. Es genügt also, für ξ > 1 die Ungleichung ξ1/p ≤1p (ξ − 1) + 1 zu beweisen. Setzen wir η = ξ − 1, so erhalten wir nach Subtraktion von 1 auf beiden Seiten dieäquivalente Ungleichung

(η + 1)1/p − 1 ≤ 1pη für η > 0

Diese kann nun durch den Mittelwertsatz der Differentialrechnung bewiesen werden. Dazu betrachten wir dieFunktion φ(t) = (t+ 1)1/p auf dem abgeschlossenen Intervall [0, η]. Auf Grund des Mittelwertsatzes gibt es eint0 ∈ ]0, η[ mit φ(η) − φ(0) = ηφ′(t0). Die linke Seite dieser Gleichung ist gleich (η + 1)1/p − 1, die rechte Seiteist wegen φ′(t) = 1

p (t+ 1)1/p−1 gleich η · 1p (t0 + 1)1/p−1. Wegen t0 + 1 > 1 und 1

p − 1 < 0 kann die rechte Seitedurch 1

p (t0 + 1)1/p−1 ≤ 1pη abgeschätzt werden. �

(2.3) Proposition (Höldersche Ungleichung)Seien x, y ∈ Rn, x = (x1, ..., xn) und y = (y1, ..., yn), und seien p, q ∈ R mit p, q > 1 und1p + 1

q = 1 vorgegeben. Dann gilt

n∑i=1

|xi| · |yi| ≤ ‖x‖p‖y‖q

—– 32 —–

Page 33: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Nach (2.2), angewendet auf die nicht-negativen Zahlen |xi|p‖xi‖pp und |yi|q

‖yi‖qq gilt

|xi|‖xi‖p

|yi|‖yi‖q

≤ 1

p

|xi|p

‖xi‖pp+

1

q

|yi|q

‖yi‖qqfür 1 ≤ i ≤ n.

Daraus folgt

n∑i=1

|xi|‖x‖p

· |yi|‖y‖q

≤n∑i=1

(1

p

|xi|p

‖x‖pp+

1

q

|yi|q

‖y‖qq

)≤

1

p

1

‖x‖pp

n∑i=1

|xi|p +1

q

1

‖y‖qq

n∑i=1

|yi|p =1

p

1

‖x‖pp‖x‖pp +

1

q

1

‖y‖qq‖y‖qq =

1

p+

1

q= 1.

Durch Multiplikation dieser Ungleichung mit ‖x‖p‖y‖q erhalten wir die Höldersche Ungleichung. �

Beweis der Dreiecksungleichung für die p-Norm, für p > 1:

Seien x, y ∈ Rn vorgegeben. Wir können x + y 6= 0Rn annehmen, weil die Dreiecksungleichung ansonstenoffensichtlich sogar mit Gleichheit erfüllt ist. Sei q ∈ R die eindeutig bestimmte (positive) reelle Zahl mit1p + 1

q = 1, nämlich q = pp−1 . Außerdem sei z ∈ Rn der Vektor mit den Komponenten zi = (xi + yi)

p−1 für1 ≤ i ≤ n. Es gilt dann

‖x+ y‖pp =

n∑i=1

|xi + yi|p ≤n∑i=1

|xi||xi + yi|p−1 +

n∑i=1

|yi||xi + yi|p−1 =

n∑i=1

|xi||zi|+n∑i=1

|yi||zi|

≤ ‖x‖p‖z‖q + ‖y‖p‖z‖q = ‖x‖p

(n∑i=1

|xi + yi|(p−1)q

)1/q

+ ‖y‖p

(n∑i=1

|xi + yi|(p−1)q

)1/q

= ‖x‖p

(n∑i=1

|xi + yi|p)(p−1)/p

+ ‖y‖p

(n∑i=1

|xi + yi|p)(p−1)/p

= ‖x‖p · ‖x+ y‖p−1p + ‖y‖p · ‖x+ y‖p−1

p

wobei im vierten Schritt die Höldersche Ungleichung und im sechsten Schritt die Gleichungen q = pp−1 und

1q = p−1

p verwendet wurden. Division durch ‖x+ y‖p−1p auf beiden Seiten liefert das gewünschte Ergebnis.

Die Verwendung vom Index ∞ bei der Supremumsnorm ist auf Grund der folgenden Beziehung zwischenp-Norm und Supremumsnorm gerechtfertigt.

(2.4) Proposition Für alle x ∈ Rn gilt limp→∞

‖x‖p = ‖x‖∞.

Beweis: Für x = 0 ist die Gleichung offensichtlich erfüllt, denn dann gilt ‖x‖∞ = 0 und ‖x‖p = 0 für allep ∈ N. Sei nun x 6= 0 und xk die Komponente von x mit dem größten Betrag. Dann können wir ‖x‖p auch inder Form

|xk|

(n∑i=1

|xi|p

|xk|p

)1/p

schreiben. Alle Summanden mit |xi| < |xk| laufen für p → ∞ gegen Null, wärend die Summanden mit|xi| = |xk| konstant gleich 1 sind. Deshalb läuft der Term in der Klammer für p → ∞ gegen die Anzahl

—– 33 —–

Page 34: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

` der Summanden mit |xi| = |xk|. Insbesondere gilt ` ≤∑ni=1

|xi|p|xk|p ≤ 2` für hinreichend großes p. Aus

limp→∞

p√` = lim

p→∞p√

2` = 1 folgt nun mit dem Sandwich-Lemma aus der Analysis einer Variablen

limp→∞

‖x‖p = |xk| · limp→∞

(n∑i=1

|xi|p

|xk|p

)1/p

= |xk| · 1 = ‖x‖∞. �

Häufig lassen sich Normen durch eine Konstante gegeneinander abschätzen. So gilt für alle x ∈ Rn zumBeispiel

‖x‖2 =

(n∑k=1

|xk|2)1/2

≤ (n|xi|2)1/2 =√n‖x‖∞ ,

wobei xi wieder eine Komponente von x mit maximalem Betrag |xi| bezeichnet. Eine ebenso einfache Rech-nung zeigt ‖x‖∞ ≤ ‖x‖2. Zwischen der 1- und der Supremumsnorm hat man die Abschätzungen ‖x‖1 ≤n‖x‖∞ und ‖x‖∞ ≤ ‖x‖1.

(2.5) Definition Zwei Normen ‖ · ‖ und ‖ · ‖′ auf einem R-Vektorraum V werden alsäquivalent bezeichnet, wenn reelle Konstanten γ1, γ2 > 0 mit der Eigenschaft

γ1‖x‖ ≤ ‖x‖′ ≤ γ2‖x‖ für alle x ∈ V existieren.

Offenbar gleichwertig mit dieser Bedingung ist die Existenz von reellen Konstanten δ1, δ2 > 0 mit ‖x‖ ≤ δ1‖x‖′

und ‖x‖′ ≤ δ2‖x‖ für alle x ∈ V .

Es ist nicht schwer zu sehen, dass jede Norm auf einem R-Vektorraum V zu sich selbst äquivalent ist. Ist eineNorm ‖·‖ auf V äquivalent zu ‖·‖′, dann ist auch ‖·‖′ äquivalent zu ‖·‖. Sind ‖·‖, ‖·‖′, ‖·‖′′ drei Normen auf V ,wobei ‖·‖ äquivalent zu ‖·‖′ und ‖·‖′ äquivalent zu ‖·‖′′, dann ist auch ‖·‖ äquivalent zu ‖·‖′′. Die Ausarbeitungder Details ist eine leichte Übungsaufgabe. Man fast die drei Aussagen zusammen in der Feststellung, dassdurch den Begriff der Äquivalenz auf der Menge der Normen von V eine Äquivalenzrelation gegeben ist.

Dem Begriff der Äquivalenz lässt sich folgendermaßen eine anschauliche Bedeutung geben. Für alle r ∈ R+

und a ∈ V bezeichnen wir mit

B‖·‖,r(a) = {x ∈ V | ‖x− a‖ < r} bzw. B‖·‖,r(a) = {x ∈ V | ‖x− a‖ ≤ r}

den offenen bzw. abgeschlossenen Ball vom Radius r um den Punkt a bezüglich der Norm ‖ · ‖. Ebenso defi-nieren wir B‖·‖′,r und B‖·‖′,r für die Norm ‖ · ‖′. Die folgende Graphik zeigt die abgeschlossenen Bälle einigerNormen auf dem R2, wobei der blaue Punkt jeweils den Koordinatenursprung kennzeichnet.

—– 34 —–

Page 35: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

{x ∈ R2 | ‖x‖1 ≤ 1} {x ∈ R2 | ‖x‖2 ≤ 1} {x ∈ R2 | ‖x‖∞ ≤ 1}

(2.6) Proposition Sei δ ∈ R+. Dann ist die Ungleichung ‖x‖′ ≤ δ‖x‖ für alle x ∈ V

gleichbedeutend mit B‖·‖,r(a) ⊆ B‖·‖′,δr(a) für a ∈ V und r ∈ R+. Eine entsprechendeAussage gilt auch für die abgeschlossenen Bälle.

Beweis: Wir beschränken uns darauf, die Äquivalenzaussage für die offenen Bälle zu beweisen.

„⇒“ Setzen wir ‖x‖′ ≤ δ‖x‖ für alle x ∈ V voraus. Ist nun x ∈ B‖·‖,r(a) vorgegeben, dann gilt ‖x − a‖ < r,damit δ‖x− a‖ < δr und ‖x− a‖′ < δr. Es folgt x ∈ B‖·‖′,δr(a).

„⇐“ Nehmen wir an, dass B‖·‖,r(a) ⊆ B‖·‖′,δr(a) für alle r ∈ R+ und a ∈ V erfüllt ist, zugleich aber einx ∈ V mit ‖x‖′ > δ‖x‖ existiert. Setzen wir r = ‖x‖′, dann gilt ‖δx‖ = δ‖x‖ < r und somit δx ∈ B‖·‖,r(0V ).Andererseits ist ‖x‖′ = r, also ‖δx‖′ = δr und damit δx /∈ B‖·‖′,δr(0V ). Dies steht zur angenommenen Inklusionim Widerspruch. �

Dem folgenden Resultat hat für die Analysis endlich-dimensionaler Vektorräume eine zentrale Bedeutung.

(2.7) Satz Auf einem endlich-dimensionalen R-Vektorraum V sind je zwei Normenäquivalent.

Wir schicken dem Beweis von (2.7) ein einfaches Lemma voraus.

(2.8) Lemma Seien V,W zwei R-Vektorräume, φ : W → V eine injektive lineare Abbil-dung und ‖ · ‖ eine Norm auf V . Dann ist durch ‖w‖′ = ‖φ(w)‖ eine Norm auf W definiert.

Beweis: Wir überprüfen, dass die Abbildung ‖ · ‖′ die Eigenschaften einer Norm besitzt, indem wir diese aufdie Norm-Eigenschaften von ‖ · ‖ zurückführen. Zunächst gilt ‖0W ‖′ = ‖φ(0W )‖ = ‖0V ‖ = 0. Ist w ∈ W einVektor mit ‖w‖′ = 0, dann folgt ‖φ(w)‖ = 0 ⇒ φ(w) = 0V und somit w = 0W auf Grund der Injektivität vonφ. Für alle w ∈ V und λ ∈ R gilt ‖λw‖′ = ‖φ(λw)‖ = ‖λφ(w)‖ = |λ|‖φ(w)‖ = |λ|‖w‖′, und für vorgegebenew1, w2 ∈ V ist wegen ‖w1 +w2‖′ = ‖φ(w1 +w2)‖ = ‖φ(w1) +φ(w2)‖ ≤ ‖φ(w1)‖+ ‖φ(w2)‖ = ‖w1‖′+ ‖w2‖′ dieDreiecks-Ungleichung erfüllt. �

—– 35 —–

Page 36: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis von (2.7):

Seien ‖ · ‖ und ‖ · ‖′ zwei Normen auf V . Beim Nachweis der Äquivalenz beschränken wir uns zunächst aufden Fall V = Rd, für beliebiges d ∈ N. Es genügt zu zeigen, dass ‖ · ‖ äquivalent zur 1-Norm ‖ · ‖1 ist. Weil ‖ · ‖nämliche eine beliebig gewählte Norm ist, folgt aus dem Beweis dann auch die Äquivalenz von ‖ ·‖′ und ‖ ·‖1,und auf Grund der Bemerkungen von oben erhalten wir somit insgesamt die Äquivalenz von ‖ · ‖ und ‖ · ‖′.

Sei δ1 = max{‖e1‖, ..., ‖ed‖}, wobei ei ∈ Rd jeweils den i-ten Einheitsvektor bezeichnet. Für einen beliebigenVektor v ∈ Rn mit v = (v1, ..., vn) gilt dann

‖v‖ =

∥∥∥∥∥d∑i=1

viei

∥∥∥∥∥ ≤d∑i=1

|vi|‖ei‖ ≤ δ1

d∑i=1

|vi| = δ1‖v‖1.

Um zu zeigen, dass auch eine Konstante δ2 mit der Eigenschaft ‖v‖1 ≤ δ2‖v‖ existiert, betrachten wir dieMenge S = {w ∈ Rd | ‖w‖1 = 1} und definieren γ = inf{ ‖w‖ | w ∈ S}. Angenommen, wir können zeigen,dass γ > 0 ist. Für einen Vektor v ∈ Rd, v 6= 0Rd ist w = ‖v‖−1

1 v in S enthalten, es gilt also ‖v‖−11 ‖v‖ = ‖w‖ ≥ γ

und somit ‖v‖1 ≤ γ−1‖v‖. Im Fall v = 0Rd ist die Ungleichung ‖v‖1 ≤ γ−1‖v‖ offenbar auch erfüllt. Setzenwir also δ2 = γ−1, dann gilt ‖v‖1 ≤ δ2‖v‖ für alle v ∈ Rd, und die Äquivalenz der beiden Normen ist damitbewiesen.

Die Ungleichung γ > 0 erhalten wir durch den folgenden Widerspruchsbeweis. Angenommen, es ist γ = 0.Dann gibt es eine Folge (w(n))n∈N von Vektoren w(n) ∈ S mit limn ‖w(n)‖ = 0. Wegen ‖w(n)‖1 = 1 gilt jeweils|w(n)i | ≤ 1 für die Komponenten von w(n) (für alle n ∈ N, 1 ≤ i ≤ d). Insbesondere die Folge (w

(n)1 )n∈N

ist also ganz im Intervall [−1, 1] enthalten. Nach dem Satz von Bolzano-Weierstraß aus der Analysis einerVariablen gibt es eine Teilfolge von (w

(n)1 )n∈N, die gegen eine Zahl a1 ∈ R konvergiert. Durch Übergang zu

einer Teilfolge von (wn)n∈N können wir also erreichen, dass limn w(n)1 = a1 erfüllt ist. Indem wir die Folge

noch weiter ausdünnen, können wir sogar

limn→∞

w(n)i = ai für 1 ≤ i ≤ d annehmen.

Setzen wir a = (a1, ..., ad) ∈ Rd, so folgt limn ‖a− w(n)‖1 = limn

∑di=1 |ai − w

(n)i | = 0. Aus w(n) ∈ S folgt nun

einerseits ‖w(n)‖ = 1 für alle n ∈ N und somit auch

‖a‖1 =

d∑i=1

|ai| = limn→∞

d∑i=1

|w(n)i | = lim

n→∞‖w(n)‖1 = 1.

Also ist auch a in S enthalten. Betrachten wir andererseits für jedes n ∈ N die Ungleichung ‖a‖ ≤ ‖a−w(n)‖+

‖w(n)‖ ≤ δ1‖a − w(n)‖1 + ‖w(n)‖ und lassen wir n gegen Unendlich laufen, so folgt ‖a‖ = 0. Auf Grund derNorm-Eigenschaft von ‖ · ‖müsste a = 0Rd gelten. Aber in diesem Fall kann a kein Element von S sein, dennes gilt ‖0Rd‖1 = 0. Wir haben die Annahme γ = 0 auf einen Widerspruch geführt. Damit ist der Beweis fürV = Rd insgesamt abgeschlossen.

Sei nun V ein beliebiger d-dimensionaler R-Vektorraum, und seien ‖ · ‖ und ‖ · ‖′ zwei Normen auf V . Ausder Linearen Algebra ist bekannt, dass je zwei R-Vektorräume derselben Dimension isomorph sind. Es gibtalso einen Isomorphismus φ : Rd → V von R-Vektorräumen. Nach (2.8) sind durch ‖v‖∗ = ‖φ(v)‖ und‖v‖′∗ = ‖φ(v)‖′ Normen auf Rd definiert. Wie wir bereits gezeigt haben, sind zwei Normen auf Rd äquivalent,

—– 36 —–

Page 37: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

also gibt es Konstanten δ1, δ2 ∈ R+ mit ‖v‖′∗ ≤ δ1‖v‖∗ und ‖v‖∗ ≤ δ2‖v‖′∗ für alle v ∈ Rd. Für ein beliebigvorgegebenes w ∈ V setzen wir v = φ−1(w). Es gilt dann φ(v) = w und folglich

‖w‖′ = ‖φ(v)‖′ = ‖v‖′∗ ≤ δ1‖v‖∗ = δ1‖φ(v)‖ = δ1‖w‖.

Genauso beweist man die Abschätzung ‖w‖ ≤ δ2‖w‖′. �

Wie bereits erwähnt, liefert eine Norm ‖ · ‖ auf einem R-Vektorraum V einen Abstandsbegriff: Sind x, y ∈ V ,dann kann ‖y − x‖ als Abstand der Punkte x und y interpretiert werden. Für die folgende Theorie ist es aberwünschenswert, auch auf allgemeineren Mengen einen Abstandsbegriff zur Verfügung zu haben. Eine solcheallgemeinere Fassung erhält man durch den Begriff der Metrik.

(2.9) Definition SeiX eine Menge. Eine Metrik aufX ist eine Abbildung d : X×X → R+

mit den folgenden Eigenschaften.(i) Für alle x, y ∈ X gilt d(x, y) = 0 genau dann, wenn x = y ist.

(ii) Es gilt d(x, y) = d(y, x) für alle x, y ∈ X .(iii) Für alle x, y, z gilt d(x, z) ≤ d(x, y) + d(y, z). (Dreiecksungleichung)

Das Paar (X, d) bezeichnet man als metrischen Raum.

Genau wie bei den normierten Vektorräumen definieren wir

(2.10) Definition Sei (X, d) ein metrischer Raum. Für jeden Punkt x ∈ X und jede Zahlr ∈ R+ bezeichnet man Br(x) = {y ∈ X | d(x, y) < r} bzw. Br(x) = {y ∈ X | d(x, y) ≤ r}als den offenen bzw. den abgeschlossenen Ball vom Radius r um den Punkt x.

Durch die folgende Bemerkung können die normierten Vektorräume den metrischen Räumen untergeordnetwerden.

(2.11) Proposition Sei (V, ‖ · ‖) ein normierter Raum und X ⊆ V eine Teilmenge. Dann istdurch die Definition d(x, y) = ‖x− y‖ für x, y ∈ X eine Metrik auf X gegeben. Man nenntsie die von der Norm ‖ · ‖ induzierte Metrik.

Beweis: Wir überprüfen die Bedingungen (i) bis (iii) aus der Definition. Für alle x ∈ X gilt d(x, x) = ‖x− x‖ =

‖0V ‖ = 0. Sind umgekehrt x, y ∈ X mit d(x, y) = ‖x − y‖ = 0, dann folgt x − y = 0V aus der Normdefinitionund somit x = y. Damit ist (i) bewiesen. Für alle x, y ∈ X gilt

d(x, y) = ‖x− y‖ = ‖(−1)(y − x)‖ = | − 1|‖y − x‖ = ‖y − x‖ = d(y, x) ,

also ist auch Bedingung (ii) gültig. Seien schließlich x, y, z ∈ X vorgegeben. Aus der Dreiecksungleichung fürdie Norm folgt dann d(x, z) = ‖x− z‖ = ‖(x− y) + (y − z)‖ ≤ ‖x− y‖+ ‖y − z‖ = d(x, y) + d(y, z). �

—– 37 —–

Page 38: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Ist speziell V = Rd für ein d ∈ N und ‖ · ‖ = ‖ · ‖p für ein p ∈ Rmit p ≥ 1 oder p =∞, dann bezeichnen wir dieinduzierte Metrik mit dp. Ein wichtiger Spezialfall ist die von der 1-Norm (und auch von der gewöhnlicheneuklidischen Norm) auf R induzierte Metrik gegeben durch d2(x, y) = |x − y| für x, y ∈ R. Aber nicht jedeMetrik wird von einer Norm induziert, selbst dann nicht, wenn die unterliegende Menge X Teilmenge einesR-Vektorraums ist.

(2.12) Definition Auf jeder MengeX ist die diskrete Metrik δX folgendermaßen definiert:Für alle x ∈ X ist δX(x, x) = 0, und für alle x, y ∈ X mit x 6= y setzt man δX(x, y) = 1.

Die Überprüfung der Metrik-Eigenschaften von δX ist dem Leser als Übungsaufgabe überlassen. Ist nun V

ein mindestens eindimensionaler R-Vektorraum, dann wird δV nicht durch eine Norm ‖ · ‖ auf V induziert.Denn nehmen wir an, dies wäre doch der Fall. Für einen beliebigen Vektor v 6= 0V gilt dann δV (v, 0V ) = ‖v‖und δV (2v, 0V ) = ‖2v‖ = 2‖v‖. Aus der ersten Gleichung und der Definition der diskreten Metrik folgt dann‖v‖ = δV (v, 0V ) = 1. Durch erneute Anwendung der Definition erhalten wir dann aber den Widerspruch1 = δV (2v, 0V ) = ‖2v‖ = 2‖v‖ = 2.

Für das Verständnis ist es noch hilfreich sich zu überlegen, wie die offenen bzw. abgeschlossenen Bälle bezüg-lich der diskreten Metrik auf einer Menge X aussehen. Für alle x ∈ X und r < 1 ist Br(x) = Br(x) = {x}. Fürr = 1 gilt Br(x) = {x} und Br(x) = X . Im Fall r > 1 gilt schließlich Br(x) = Br(x) = X .

—– 38 —–

Page 39: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

2.2 Konvergenz in metrischen Räumen

Inhaltsübersicht

FF Grenzwerte in metrischen Räumen, konvergente und divergente Folgen

FF NormierteR-Vektorräume mit äquivalenten Normen haben die gleichen konvergenten Folgen.

FF Cauchyfolgen und Vollständigkeit metrischer Räume

FF Banachscher Fixpunktsatz

In der Analysis einer Variablen haben wir die Schreibweise (xn)n∈N für Folgen reeller Zahlen verwendet. Alsmathematisches Objekt ist eine solche Folge lediglich eine Abbildung N → R. Unter einer Folge in einemmetrischen Raum (X, d) verstehen wir nun entsprechend eine Abbildung N → X und verwenden für solcheFolgen Bezeichnungen der Form (x(n))n∈N. Den Index n des Folgengliedes setzen wir nach oben, da es sichbei unseren metrischen Räumen oft um Teilmengen des Rn handelt und wir den unteren Index zur Bezeich-nung der Komponenten des Vektors benötigen. Die Komponenten eines Folgenglieds x(n) im Vektorraum Rm

bezeichnen wir üblicherweise mit x(n)k für 1 ≤ k ≤ m. In dieser Schreibeweise gilt dann x(n) = (x

(n)1 , ..., x

(n)m ).

(2.13) Definition Sei (X, d) ein metrischer Raum, (x(n))n∈N eine Folge in X und a ∈ Xein Punkt. Man sagt, die Folge konvergiert in (X, d) gegen a und schreibt

limn→∞

x(n) = a ,

wenn für jedes ε ∈ R+ ein N ∈ N existiert, so dass x ∈ Bε(a) für alle n ≥ N gilt. Der Punktawird in diesem Fall ein Grenzwert der Folge genannt. Eine Folge, die gegen keinen Punktvon X konvergiert, bezeichnet man als divergent.

Nach Definition ist die Bedingung x ∈ Bε(a) äquivalent zu d(x, a) < ε. Die Konvergenz der Folge (x(n))n∈N

ist also äquivalent dazu, dasslimn→∞

d(x(n), a) = 0 gilt. (2.3)

Die folgende Abbildung zeigt, wie man sich die Konvergenz im R2 aussehen könnte: Egal wie klein die graueUmgebung des rot eingezeichneten Grenzpunktes a gewählt wird, es liegen immer alle bis auf endlich vielePunkte innerhalb der Umgebung und nur endlich viele außerhalb.

x(1)

x(2)

x(4) x(3)

—– 39 —–

Page 40: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Im speziellen metrischen Raum (R, d1) ist die Konvergenz einer Folge (x(n))n∈N gegen einen Punkt a ∈ Rgleichbedeutend mit der Konvergenz, wie wir sie in der Analysis einer Variablen definiert haben. In diesemFall hat die Bedingung (2.3) einfach die Form limn |x(n) − a| = 0. Wie in der Analysis einer Variablen gilt auchhier

(2.14) Proposition Jede Folge in einem metrischen Raum hat höchstens einen Grenzwert.

Beweis: Sei (X, d) ein metrischer Raum und (x(n))n∈N eine Folge in X . Nehmen wir an, dass die Folge in(X, d) die beiden Grenzwerte a, b ∈ X besitzt, wobei a 6= b ist. Sei ε = d(a, b). Dann gibt es ein N ∈ N, so dasszugleich d(x(n), a) < 1

2ε und d(x(n), b) < 12ε für alle n ≥ N erfüllt ist. Dies führt nun zu dem Widerspruch

ε = d(a, b) ≤ d(a, x(N)) + d(x(N), b) < 12ε+ 1

2ε = ε. �

Bezüglich der diskreten Metrik lässt sich die Konvergenz einer Folge besonders einfach beschreiben.

(2.15) Proposition Sei X eine beliebige Menge. Eine Folge (x(n))n∈N im metrischen Raum(X, δX) ausgestattet mit der diskreten Topologie konvergiert genau dann gegen einenPunkt a ∈ X , wenn ein N ∈ Nmit x(n) = a für alle n ≥ N existiert.

Beweis: „⇐“ Sei N eine natürliche Zahl mit der angegebenen Eigenschaft und ε > 0 vorgegeben. Für allen ≥ N gilt dann δX(x(n), a) = δX(a, a) = 0 < ε, also ist die Konvergenzbedingung erfüllt. „⇒“ NachVoraussetzung gibt es für ε = 1 ein N ∈ N, so dass δX(x(n), a) < 1 für alle n ≥ N gilt. Weil δX nur dieWerte 0 und 1 annimmt, ist δX(x(n), a) = 0 für alle n ≥ N . Nach Definition der diskreten Metrik bedeutet dieswiederum x(n) = a für alle n ≥ N . �

(2.16) Proposition Sei V ein R-Vektorraum mit zwei äquivalenten Normen ‖ · ‖ und‖ · ‖′, und seien d, d′ die beiden von den Normen induzierten Metriken. Sei a ∈ V und(x(n))n∈N eine Folge. Genau dann konvergiert die Folge (x(n))n∈N gegen a im metrischenRaum (V, d), wenn sie im metrischen Raum (V, d′) gegen a konvergiert.

Beweis: Nach Definition der Äquivalenz gibt es Konstanten δ, δ′ ∈ R+ mit ‖v‖′ ≤ δ‖v‖ und ‖v‖ ≤ δ′‖v‖′

für alle v ∈ V . Aus Symmetriegründen genügt es zu zeigen: Konvergiert (x(n))n∈N im Raum (V, d) gegena, dann auch im Raum (V, d′). Setzen wir ersteres also voraus. Dann gibt es für jedes ε > 0 ein N ∈ N mit‖x(n) − a‖ = d(x(n), a) < δ−1ε für alle n ≥ N . Es folgt dann

d′(x(n), a) = ‖x(n) − a‖′ ≤ δ‖x(n) − a‖ < δδ−1ε = ε für alle n ≥ N.

Dies zeigt, dass (x(n))n∈N im metrischen Raum (X, d′) konvergiert. �

Nach (2.7) sind je zwei Normen auf einem endlich-dimensionalen R-Vektorraum äquivalent. Sei V ein solcherVektorraum, ‖ · ‖ eine beliebige Norm, d die induzierte Metrik und X ⊆ V eine Teilmenge. Bezeichnen wir dieEinschränkung der Abbildung d auf die Teilmenge X ×X ⊆ V × V ebenfalls mit d, so ist (X, d) ein metrischerRaum. Eine Folge inX bezeichnen wir als konvergent gegen einen Punkt a ∈ X , wenn sie im metrischen Raum(X, d) gegen a konvergiert. Nach (2.16) ist diese Definition von der Wahl der Norm ‖ · ‖ unabhängig.

—– 40 —–

Page 41: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.17) Satz Sei m ∈ N. Eine Folge (x(n))n∈N im Rm konvergiert genau dann gegen einenPunkt a ∈ Rm, wenn lim

n→∞x

(n)k = ak für 1 ≤ k ≤ m erfüllt ist.

Beweis: „⇐“ Wie im Absatz zuvor erläutert wurde, genügt es zu zeigen, dass (x(n))n∈N im metrischen Raum(Rm, d∞) gegen a konvergiert. Sei ε ∈ R+ vorgegeben. Auf Grund der Voraussetzung gibt es für jedes k ∈{1, ...,m} einNk ∈ N, so dass jeweils |x(n)

k −ak| < ε für alle n ≥ Nk erfüllt ist. Setzen wirN = max{N1, ..., Nm},dann gilt für alle n ≥ N die Abschätzung

d∞(x(n), a) = ‖x(n) − a‖∞ = max{|x(n)1 − a1|, ..., |x(n)

m − am|} < ε.

Nach Definition bedeutet das, dass (x(n))n∈N im metrischen Raum (Rm, d∞) konvergiert.

„⇒“ Sei (x(n))n∈N eine Folge, die im metrischen Raum (Rm, d∞) gegen a konvergiert. Zu zeigen ist limn x(n)k =

ak für 1 ≤ k ≤ m. Sei dazu ε ∈ R+ vorgegeben und N ∈ N so gewählt, dass d∞(x(n), a) < ε für alle n ≥ N gilt.Dann folgt

|x(n)k − ak| ≤ max{|x(n)

1 − a1|, ..., |x(n)m − am|} = ‖x(n) − a‖∞ = d∞(x(n), a) < ε

für alle n ≥ N und 1 ≤ k ≤ m. Damit ist die Behauptung bewiesen. �

Beispielsweise ist die Folge (an)n∈N im R2 gegeben durch an = ( 1n , (−1)n) divergent, weil die zweite Kompo-

nente (−1)n der Folge divergiert. Die Folge (bn)n∈N gegeben durch

bn =

(1 +

2

n,

3n2 − 7n+ 6

4n2 − 5

)ist dagegen konvergent, es gilt

limn→∞

bn =

(limn→∞

(1 +

2

n

), limn→∞

3n2 − 7n+ 6

4n2 − 5

)= (1, 3

4 ).

(2.18) Definition Eine Folge (x(n))n∈N ein einem metrischen Raum (X, d) wird Cauchy-folge genannt, wenn für jedes ε ∈ R+ ein N ∈ N existiert, so dass d(x(m), x(n)) < ε für allem,n ∈ Nmit m,n ≥ N gilt.

(2.19) Proposition Sei V einR-Vektorraum mit zwei äquivalenten Normen ‖ · ‖ und ‖ · ‖′,und seien d, d′ die beiden von den Normen induzierten Metriken. Sei (x(n))n∈N eine Folge.Genau dann ist die Folge (x(n))n∈N eine Cauchyfolge in (V, d), wenn sie eine Cauchyfolgein (V, d′) ist.

Beweis: Dieser Beweis ist dem Beweis von (2.16) über die Konvergenz sehr ähnlich. Die Ausführung derDetails ist eine leichte Übungsaufgabe. �

Da je zwei Normen auf einem endlich-dimensionalen R-Vektorraum V äquivalent sind, können wir in Teil-mengen X ⊆ V von Cauchyfolgen schlechthin sprechen, ohne Festlegung einer Metrik. Gemeint ist dannimmer die Cauchyfolgen-Eigenschaft bezüglich der von einer (beliebig gewählten) Norm induzierten Metrik.

—– 41 —–

Page 42: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Jede konvergente Folge (x(n))n∈N in einem metrischen Raum (X, d) mit einem Grenzwert a ∈ X ist auch eineCauchyfolge. Sei nämlich ε ∈ R+ vorgegeben und N ∈ N so gewählt, dass d(x(n), a) < 1

2ε für alle n ≥ N

erfüllt ist. Dann folgt d(x(m), x(n)) ≤ d(x(m), a) + d(a, x(n)) < 12ε+ 1

2ε = ε für alle m,n ≥ N .

Andererseits gibt es in einigen metrischen Räumen durchaus Cauchyfolgen, die nicht konvergieren. Als Bei-spiel betrachten wir (Q, d) mit der Metrix d(a, b) = |a − b|. Aus der Analysis einer Variablen ist bekannt, dassjede (rationale oder irrationale) Zahl als Grenzwert einer Folge rationaler Zahlen dargestellt werden kann.Zum Beispiel gibt es eine Folge (x(n))n∈N in Q, die gegen

√2 (im gewöhnlichen Sinn) konvergiert. Diese Folge

ist in (Q, d) eine Cauchyfolge, denn für vorgegebenes ε ∈ R+ können wir ein N ∈ N mit |x(n) −√

2| < 12ε für

alle n ≥ N finden, und es gilt dann d(x(m), x(n)) = |x(m) − x(n)| ≤ |x(m) −√

2| + |√

2 − x(n)| < 12ε + 1

2ε füralle m,n ≥ N . Aber andererseits ist (x(n))n∈N im metrischen Raum (Q, d) nicht konvergent, denn das würdebedeutet, dass (x(n))n∈N zwei verschiedene reelle Grenzwerte im gewöhnlichen Sinn besitzen würde, nämlichneben

√2 noch einen rationalen. Dies ist, wie wir bereits aus der Analysis einer Variablen wissen, unmöglich.

(2.20) Definition Ein metrischer Raum (X, d) heißt vollständig, wenn jede Cauchyfolgein (X, d) konvergiert. Ein normierter R-Vektorraum, der vollständig bezüglich der indu-zierten Metrik ist, wird Banachraum genannt.

(2.21) Satz Jeder normierte, endlich-dimensionaleR-Vektorraum (V, ‖ · ‖) ist ein Banach-raum.

Beweis: Zunächst betrachten wir den Fall V = Rd für ein d ∈ N. Sei (x(n))n∈N eine Cauchyfolge in V . Dann ist(x(n))n∈N insbesondere eine Cauchyfolge im metrischen Raum (Rd, d∞). Wir zeigen, dass die Folgen (x

(n)k )n∈N

für 1 ≤ k ≤ dCauchyfolgen im Sinne der Analysis einer Variablen sind. Sei dazu k ∈ {1, ..., d} beliebig gewähltund ε ∈ R+ vorgegeben. Weil (x(n))n∈N eine Cauchyfolge ist, gibt es ein N ∈ N, so dass d∞(x(m), x(n)) < ε füralle m,n ≥ N erfüllt ist. Es folgt

|x(m)k − x(n)

k | ≤ max{|x(m)1 − x(n)

1 |, ..., |x(m)d − x(n)

d |} = ‖x(m) − x(n)‖∞ = d∞(x(m), x(n)) < ε

für alle m,n ≥ N . Also ist jede Folge (x(n)k )n∈N) tatsächlich eine Cauchyfolge in R. Aus der Analysis einer

Variablen ist bekannt, dass jede Cauchyfolge in R konvergiert. Es gibt also a1, ..., ad ∈ R, so dass

limn→∞

x(n)k = ak für 1 ≤ k ≤ d

erfüllt ist. Nach (2.17) konvergiert die Folge (x(n))n∈N im metrischen Raum (Rd, d∞) gegen den Punkt a =

(a1, ..., ad).

Sei nun V ein beliebiger endlich-dimensionaler R-Vektorraum. Dann gibt es ein d ∈ R und einen Isomorphis-mus φ : Rd → V vonR-Vektorräumen. Nach (2.8) ist auf V durch ‖v‖ = ‖φ−1(v)‖∞ auf V eine Norm definiert.Sei nun (y(n))n∈N eine Cauchyfolge in V . Dann ist (y(n))n∈N auch eine Cauchyfolge bezüglich der durch ‖ · ‖

—– 42 —–

Page 43: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

induzierten Metrik, die wir mit dV bezeichnen. Für jedes n ∈ N sei x(n) = φ−1(y(n)). Für alle m,n ∈ N gilt

d∞(x(m), x(n)) = d∞(φ−1(y(m)), φ−1(y(n))) = ‖φ−1(y(m))− φ−1(y(n))‖∞ =

‖y(m) − y(n)‖ = dV (y(m), y(n))

nach Definition, also ergibt sich aus der Cauchyfolgen-Eigenschaft von (y(n))n∈N in (V, dV ) dieselbe Eigen-schaft für die Folge (x(n))n∈N in (Rd, d∞). Wie bereits gezeigt, konvergiert die Cauchyfolge (x(n))n∈N in(Rd, d∞) gegen einen Grenzwert a ∈ Rd. Sei nun b = φ(a) ∈ V . Für alle n ∈ N gilt dann

d∞(x(n), a) = d∞(φ−1(y(n)), φ−1(b)) = ‖φ−1(y(n))− φ−1(b)‖∞ = ‖y(n) − b‖ = dV (y(n), b).

Aus der Konvergenz von (x(n))n∈N gegen a im metrischen Raum (Rd, d∞) ergibt sich also die Konvergenz von(y(n))n∈N gegen b in (V, dV ). �

(2.22) Definition Sei (X, d) ein metrischer Raum. Eine Abbildung φ : X → X wird Kon-traktion genannt, wenn eine Konstante γ ∈ ]0, 1[ existiert, so dass d(φ(x), φ(y)) ≤ γd(x, y)

für alle x, y ∈ X erfüllt ist.

(2.23) Satz (Banachscher Fixpunktsatz)

Sei (X, d) ein vollständiger metrischer Raum. Dann besitzt jede Kontraktion φ : X → X

genau einen Fixpunkt. Es gibt also ein eindeutig bestimmtes z ∈ X mit φ(z) = z.

Beweis: Existenz: Sei γ ∈ R+ eine Konstante mit γ < 1 und d(φ(x), φ(y)) ≤ γd(x, y) für alle x, y ∈ X . Wirwählen x(0) ∈ X beliebig und definieren rekursiv x(n+1) = φ(x(n)) für alle n ∈ N. Als erstes schätzen wir nundie Abstände d(x(n), x(n+p)) für beliebige n, p ∈ N ab. Für jedes n ∈ N gilt

d(x(n+1), x(n+2)) = d(φ(x(n)), φ(x(n+1))) ≤ γd(x(n), x(n+1)) ,

und durch vollständige Induktion über p zeigt man leicht

d(x(n+p), x(n+p+1)) ≤ γpd(x(n), x(n+1)).

Mit der Summenformel∑p−1k=0 γ

k = (1− γp)/(1− γ) aus der Analysis einer Variablen und der Dreiecksunglei-chung erhalten wir für alle p ∈ N jeweils

d(x(n), x(n+p)) ≤p−1∑k=0

d(x(n+k), x(n+k+1)) ≤p−1∑k=0

γkd(x(n), x(n+1)) =

1− γp

1− γd(x(n), x(n+1)) ≤ 1

1− γd(x(n), x(n+1)) ≤ γn

1− γd(x(0), x(1)).

Wegen limn γn = 0 ist (x(n))n∈N somit eine Cauchyfolge in X . Auf Grund der Vollständigkeit von (X, d)

existiert der Grenzwert z = limn→∞

x(n).

—– 43 —–

Page 44: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Um zu zeigen, dass z ein Fixpunkt von φ ist, beweisen wir, dass die Folge (x(n))n∈N auch gegen φ(z) konver-giert. Ist ε ∈ R+ vorgegeben, dann existiert ein N ∈ Nmit d(x(n), z) < ε für alle n ≥ N . Daraus folgt

d(x(n+1), φ(z)) = d(φ(x(n)), φ(z)) ≤ γd(x(n), z) < γε < ε

für alle n ≥ N . Aus der Eindeutigkeit des Grenzwertes von (x(n))n∈N folgt φ(z) = z.

Eindeutigkeit: Angenommen, z′ ∈ X ist ein weiterer Fixpunkt von φ. Aus φ(z) = z und φ(z′) = z′ folgt dannd(z, z′) = d(φ(z), φ(z′)) ≤ γd(z, z′). Wegen γ < 1 ist dies nur für d(z, z′) = 0, also z = z′, möglich. �

(2.24) Proposition Für den Abstand der Folgenglieder zum Fixpunkt z hat man die„a priori“-Abschätzung

d(x(n), z) ≤ γn

1− γd(x(0), x(1)).

Beweis: Es gilt die Abschätzung

d(x(n), z) ≤ d(x(n), x(n+1)) + d(x(n+1), z) = d(x(n), x(n+1)) + d(φ(x(n)), φ(z))

≤ γnd(x(0), x(1)) + γd(x(n), z) ,

was zu (1− γ)d(x(n), z) ≤ γnd(x(0), x(1))⇔ d(x(n), z) ≤ γn

1−γ d(x(0), x(1)) umgeformt werden kann. �

Als Anwendungsbeispiel setzen wir uns zum Ziel, den Wert von√

2 numerisch durch Anwendung des Ba-nachschen Fixpunktsatzes mit hoher Genauigkeit zu bestimmen. Der naheliegende Ansatz,

√2 als Fixpunkt

der Abbildung φ(x) = 2x zu betrachten, führt nicht zum Ziel, weil diese Abbildung in einer Umgebung von√

2 keine Kontraktion ist. Statt dessen definieren wir φ : R+ → R durch φ(x) = 12 (x + 2

x ). Zunächst zeigenwir, dass φ auf dem Intervall X = [1, 3

2 ] eine Kontraktion ist. Es gilt φ′(x) = 12 −

1x2 für alle x ∈ R+. Auf dem

offenen Intervall ]1, 32 [ gilt die Abschätzung

− 12 = φ′(1) < φ′(x) < 1

18 = φ′( 32 ).

Seien nun x, y ∈ [1, 32 ] vorgegeben. Nach dem Mittelwertsatz der Differentialrechung gibt es ein x0 ∈ ]1, 3

2 [ mit

φ′(x0) =φ(x)− φ(y)

x− y⇔ φ(x)− φ(y) = φ′(x0)(x− y).

Es folgt |φ(x) − φ(y)| = |φ′(x0)||x − y| ≤ 12 |x − y|. Also ist φ auf X tatsächlich eine Kontraktion, und mit der

Konstanten γ = 12 ist die Abschätzung |φ(x) − φ(y)| ≤ γ|x − y| erfüllt. Definieren wir nun x(0) = 1.5 und

x(n+1) = φ(x(n)) für alle n ∈ N, dann erhalten wir die Werte

n x(n)

0 1.5

1 1.41666666666666667

2 1.41421568627450980

3 1.41421356237468991

4 1.41421356237309505

—– 44 —–

Page 45: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Die Abstand |x(0) − x(1)| kann durch den Wert 0.084 nach oben abgeschätzt werden. Auf Grund der obenbeschriebenen Fehlerabschätzung gilt nach vier Schritten |x(4) −

√2| < 0.105, nach zwanzig Schritten bereits

|x(20) −√

2| < 1.6 · 10−7. Die Tabelle zeigt aber, dass die Approximation in der Praxis deutlich besser ist: Esgilt√

2 ≈ 1.414213562373095048801, also sind schon für das Folgenglied x(4) alle angegebenen Dezimalstellenkorrekt.

—– 45 —–

Page 46: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

2.3 Stetigkeit

Inhaltsübersicht

FF Definition der Stetigkeit und der Funktionsgrenzwerte für Abbildungen zwischen metrischen Räumen

FF Rechenregeln für Stetigkeit

FF Homöomorphismen zwischen metrischen Räumen

FF Polar-, Zylinder- und Kugelkoordinaten

FF Stetigkeit linearer Abbildungen, Operatornorm

(2.25) Definition Seien (X, dX) und (Y, dY ) metrische Räume. Eine Abbildung f : X → Y

wird stetig in einem Punkt a ∈ X bezüglich der Metriken dX und dY genannt, wenn fürjede Folge (x(n))n∈N die Implikation

limn→∞

x(n) = a in (X, dX) ⇒ limn→∞

f(x(n)) = f(a) in (Y, dY ) gilt.

Wir bezeichnen f insgesamt als stetig, wenn f in jedem Punkt x ∈ X stetig ist.

Funktionsgraph einer unstetigen und eine stetigen Funktion auf demR2. Die unstetige Funktion besitzt unendlich viele

Unstetigkeitsstellen, nämlich alle (x, 0) und (0, y) mit x ≤ 0 und y ≤ 0

Eine Funktion f : X → R auf einem metrischen Raum (X, dX) bezeichnen wir als stetig, wenn sie bezüglichdX und der von der 1-Norm induzierten Metrik d1(a, b) = |a−b| aufR stetig ist. Ist auchX eine Teilmenge vonR und dX = d1, dann stimmt der Stetigkeitsbegriff mit dem Begriff aus der Analysis einer Variablen überein.

—– 46 —–

Page 47: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.26) Proposition Seien (X, dX), (Y, dY ) und (Z, dZ) metrische Räume.

(i) Jede konstante Funktion auf X ist stetig.

(ii) Seien f : X → Y und g : Y → Z Abbildungen und a ∈ X ein Punkt, so dass fin a und g in f(a) stetig ist. Dann ist auch g ◦ f in a stetig.

Beweis: zu (i) Sei c ∈ R und f : X → R gegeben durch f(x) = c für alle x ∈ X . Sei außerdem a ∈ X einbeliebig gewählter Punkt und (x(n))n∈N eine Folge mit limn x

(n) = a. Dann gilt

limn→∞

f(x(n)) = limn→∞

c = c = f(a).

zu (ii) Sei (x(n))n∈N eine Folge in X mit limn x(n) = a. Weil f in a stetig ist, gilt f(a) = limn f(x(n)), und auf

Grund der Stetigkeit von g im Punkt f(a) erhalten wir

(g ◦ f)(a) = g(f(a)) = limn→∞

g(f(x(n))) = limn→∞

(g ◦ f)(x(n)).

Damit ist die Stetigkeit von g ◦ f in a bewiesen. �

Auch der Grenzwertbegriff für Funktionen lässt sich auf beliebige metrische Räume übertragen.

(2.27) Definition Seien (X, dX) und (Y, dY ) metrische Räume, f : D → Y eine Abbildungauf einer Teilmenge D ⊆ X und a ein Punkt in X \D. Wir bezeichnen b ∈ Y als Grenzwertvon f für x→ a, wenn eine Folge (x(n)) in D existiert, so dass limn x

(n) = a in (X, dX) giltund außerdem für jede solche Folge jeweils

limn→∞

f(x(n)) = b in (Y, dY ) erfüllt ist.

Sind X und Y Teilmengen von endlich-dimensionalen R-Vektorräumen, dann bezeichnen wir eine Funktionf : X → Y als stetig in einem Punkt a ∈ X , wenn sie bezüglich der induzierten Metriken von beliebiggewählten Normen auf X und Y stetig ist. Wegen (2.16) (Unabhängigkeit der Konvergenz von der gewähltenNorm) hat die Wahl der Norm keinen Einfluss auf die Stetigkeitseigenschaft. Wichtig ist nur, dass die MetrikendX und dY überhaupt von einer Norm induziert werden.

(2.28) Proposition Die Abbildung πi : Rm → R, (x1, ..., xm) 7→ xi ist stetig, für 1 ≤ i ≤ m.

Beweis: Sei a ∈ Rm und (x(n))n∈N eine Folge mit limn→∞ x(n) = a. Nach (2.17) gilt dann insbesonderelimn→∞

x(n)i = ai, also insgesamt

limn→∞

πi(x(n)) = lim

n→∞x

(n)i = ai = πi(a). �

—– 47 —–

Page 48: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.29) Satz (ε-δ-Kriterium)

Seien (X, dX) und (Y, dY ) metrische Räume. Eine Abbildung f : X → Y ist genau dannstetig im Punkt a bezüglich dX und dY , wenn für jedes ε ∈ R+ ein δ ∈ R+ existiert, so dassdie Implikation

dX(a, x) < δ ⇒ dY (f(a), f(x)) < ε für alle x ∈ X erfüllt ist.

Beweis: „⇐“ Sei (x(n))n∈N eine Folge mit limn x(n) = a. Zu zeigen ist limn f(x(n)) = f(a). Sei ε ∈ R+

vorgegeben und δ ∈ R+ so gewählt, dass die Implikation dX(a, x) < δ ⇒ dY (f(a), f(x)) < ε erfüllt ist. AufGrund der Konvergenz von (x(n))n∈N gibt es ein N ∈ N, so dass dX(a, xn) < δ für alle n ≥ N erfüllt ist. Esfolgt dann dY (f(a), f(xn)) < ε für alle n ≥ N .

„⇒“ Nehmen wir an, dass die Funktion f in a stetig, aber das ε-δ-Kriterium nicht erfüllt ist. Dann gibt esein ε ∈ R+ mit der Eigenschaft, dass für jedes δ ∈ R+ ein x ∈ X mit dX(a, x) < δ aber dY (f(a), f(x)) ≥ ε

existiert. Insbesondere gibt es für n ∈ N ein x(n) ∈ X mit dX(a, x(n)) < 1n und dY (f(a), f(x(n))) ≥ ε. Es ist

dann (x(n))n∈N eine Folge mit limn x(n) = a, aber die Folge (f(x(n)))n∈N konvergiert nicht gegen f(a), im

Widerspruch zur Stetigkeit. �

(2.30) Proposition Sei (X, dX) ein metrischer Raum, r ∈ N und f : X → Rd eine Funktionmit den Komponenten f1, ..., fd : X → R, so dass also f(x) = (f1(x), ..., fd(x)) für allex ∈ X gilt. Genau dann ist f in einem Punkt a ∈ X stetig, wenn die Funktionen f1, ..., fd

alle in a stetig sind.

Beweis: „⇒“ Sei (x(n))n∈N eine Folge, die in (X, dX) gegen a konvergiert. Weil die Funktion f in a stetig ist,gilt limn f(x(n)) = f(a). Nach (2.17) folgt daraus limn fk(x(n)) = fk(a) für 1 ≤ k ≤ d. Dies wiederum bedeutet,dass die Funktionen f1, ..., fd in a stetig sind. „⇐“ Sei wieder (x(n))n∈N eine Folge mit limn x

(n) = a. NachVoraussetzung sind die Funktionen f1, ..., fd in a stetig, es gilt also limn fk(x(n)) = fk(a) für 1 ≤ k ≤ n. Nach(2.17) folgt daraus limn f(x(n)) = a. Also ist f im Punkt a stetig. �

(2.31) Proposition Die folgenden Abbildungen α : R2 → R, (x, y) 7→ x + y, µ : R2 → R,(x, y) 7→ xy und δ : R×R× → R, (x, y) 7→ x

y sind stetig.

Beweis: Sei (a, b) ∈ R×R und ((x(n), y(n)))n∈N eine Folge inR×Rmit limn→∞(x(n), y(n)) = (a, b). Nach (2.17)gilt dann limn x

(n) = a und limn y(n) = b. Auf Grund der Grenzwertsätze aus der Analysis einer Variablen gilt

limn→∞

α(x(n), y(n)) = limn→∞

(x(n) + y(n)) = limn→∞

x(n) + limn→∞

y(n) = a+ b = α(a, b)

und ebenso

limn→∞

µ(x(n), y(n)) = limn→∞

x(n)y(n)) =(

limn→∞

x(n))·(

limn→∞

y(n))

= ab = µ(a, b)

Genauso leitet man die Stetigkeit von δ aus dem Grenzwertsatz für Quotientenfolgen ab. �

—– 48 —–

Page 49: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.32) Folgerung Sei (X, dX) ein metrischer Raum, und seien f, g : X → R stetigeFunktionen. Dann sind auch die Funktionen

(f + g)(x) = f(x) + g(x) und (fg)(x) = f(x)g(x) stetig.

Gilt zusätzlich g(x) 6= 0 für alle x ∈ X , dann ist auch (f/g)(x) = f(x)/g(x) stetig.

Beweis: Nach (2.30) ist die Abbildung (f, g) : X → R2 gegeben durch (f, g)(x) = (f(x), g(x)) stetig. NachDefinition gilt f+g = α◦ (f, g), fg = µ◦ (f, g) und f/g = δ ◦ (f, g). Weil die Komposition stetiger Abbildungennach (2.26) (ii) stetig ist, sind also f + g, fg und f/g stetige Funktionen. �

Als Anwendungsbeispiel zeigen wir

(2.33) Proposition Die Funktion f : R2 → R, (x, y) 7→ x3y + 5xy

x2 + y4 + 1ist stetig.

Beweis: Wie wir in (2.28) gezeigt haben, sind die Abbildungen (x, y) 7→ x und (x, y) 7→ y stetig. Ebenso istnach (2.26) (i) die konstante Abbildung (x, y) 7→ 5 eine stetige Funktion. Weil die Abbildung (x, y) 7→ x2 durchpunktweise Multiplikation der Abbildung (x, y) 7→ x mit sich selbst zu Stande kommt, können wir (2.32)anwenden und erhalten die Stetigkeit von (x, y) 7→ x2. Die Abbildung (x, y) 7→ x3 kommt durch punktweiseMultiplikation von (x, y) 7→ x2 und (x, y) 7→ x zu Stande. Durch eine weitere Anwendung der Folgerung erhältman die Stetigkeit von (x, y) 7→ x3. Indem man weiter so vorgeht, beweist man nacheinander die Stetigkeitvon (x, y) 7→ x3y, (x, y) 7→ 5x, (x, y) 7→ 5xy und (x, y) 7→ x3y + 5xy. Genauso beweist man die Stetigkeit derFunktion (x, y) 7→ x2 +y4 +1 im Nenner. Diese ist offenbar für alle (x, y) ∈ R2 ungleich Null. Durch eine letzteAnwendung von (2.32) erhält man schließlich die Stetigkeit von f . �

(2.34) Lemma Sei (V, ‖ · ‖) ein normierter R-Vektorraum. Dann gilt

|‖v‖ − ‖w‖| ≤ ‖v − w‖ für alle v, w ∈ V.

Beweis: Seien v, w ∈ V . Dann gilt auf Grund der Dreiecksungleichung einerseits ‖v‖ = ‖w + (v − w)‖ ≤‖w‖+‖v−w‖, also ‖v‖−‖w‖ ≤ ‖v−w‖. Andererseits gilt auch ‖w‖ = ‖v−(w−v)‖ ≤ ‖v‖+‖w−v‖ = ‖v‖+‖v−w‖und somit ‖w‖−‖v‖ ≤ ‖v−w‖. Da der Betrag |‖v‖−‖w‖| immer mit ‖v‖−‖w‖ oder ‖w‖−‖v‖ übereinstimmt,erhalten wir insgesamt |‖v‖ − ‖w‖| ≤ ‖v − w‖. �

(2.35) Folgerung Sei (V, ‖ · ‖) ein normierter R-Vektorraum. Dann ist V → R, x 7→ ‖x‖eine stetige Funktion.

Beweis: Sei v ∈ V und (x(n)) eine Folge in V mit limn x(n) = v. Zu zeigen ist limn ‖x(n)‖ = ‖v‖. Sei ε ∈

R+ vorgegeben. Nach Definition gibt es ein N ∈ N mit ‖x(n) − v‖ < ε für alle n ≥ N . Durch (2.34) folgt|‖x(n)‖ − ‖v‖| ≤ ‖x(n) − v‖ < ε für alle n ≥ N . �

—– 49 —–

Page 50: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.36) Definition Eine Abbildung f : X → Y zwischen metrischen Räumen (X, dX) und(Y, dY ) wird Homöomorphismus genannt, wenn sie bijektiv, stetig und die Umkehrabbil-dung f−1 : Y → X ebenfalls stetig ist. Metrische Räume, zwischen denen ein Homöomor-phismus existiert, nennt man homöomorph.

Das folgende Beispiel zeigt, dass Homöomorphismen auch zwischen Räumen ganz unterschiedlicher Gestaltexistieren können.

(2.37) Proposition Sei ‖ · ‖ eine beliebige Norm auf V = Rn. Dann ist der offene BallB1(0V ) vom Radius 1 um den Ursprung homöomorph zum Rn.

Beweis: Die Abbildungen f : B1(0V )→ Rn und g : Rn → B1(0V ) gegeben duch

f(x) =1

1− ‖x‖x und g(x) =

1

1 + ‖x‖x

sind nach (2.35) beide stetig. Wir überprüfen, dass sie außerdem zueinander invers sind, woraus dann dieBijektivität folgt. Für alle x ∈ B1(0V ) gilt einerseits

(g ◦ f)(x) = g(f(x)) = (1 + ‖f(x)‖)−1f(x) =

(1 +

∥∥∥∥ 1

1− ‖x‖x

∥∥∥∥)−11

1− ‖x‖x

=(1 + (1− ‖x‖)−1‖x‖

)−1 1

1− ‖x‖x =

((1− ‖x‖)−1(1− ‖x‖+ ‖x‖)

)−1 1

1− ‖x‖x

= (1− ‖x‖) 1

1− ‖x‖x = x = idB1(0V )(x).

Andererseits erhalten wir für x ∈ Rn jeweils

(f ◦ g)(x) = f(g(x)) = (1− ‖g(x)‖)−1g(x) =

(1−

∥∥∥∥ 1

1 + ‖x‖x

∥∥∥∥)−11

1 + ‖x‖x

=(1− (1 + ‖x‖)−1‖x‖

)−1 1

1 + ‖x‖x =

((1 + ‖x‖)−1(1 + ‖x‖ − ‖x‖)

)−1 1

1 + ‖x‖x

= (1 + ‖x‖) 1

1 + ‖x‖x = x = idB1(0V )(x). �

Die Umkehrabbildung einer bijektiven, stetigen Abbildung ist im allgemeinen nicht stetig, wie folgendes Bei-spiel zeigt.

(2.38) Proposition Sei die Abbildung φ : R → R2 gegeben durch φ(t) = (cos t, sin t) füralle t ∈ [0, 2π[ und ∂B = {(x, y) ∈ R2 | ‖(x, y)‖2 = 1}. Dann gilt:

(i) Die Abbildung φ ist stetig.(ii) Sie bildet das halboffene Intervall [0, 2π[ bijektiv auf ∂B ab.

(iii) Die Umkehrabbildung φ−1 : ∂B → [0, 2π[ ist im Punkt (1, 0) unstetig.

Beweis: zu (i) Aus der Analysis einer Variablen ist bekannt, dass die Sinus- und die Kosinusfunktion auf ganzR stetig sind. Nach (2.30) ist eine Funktion auf einem metrischen Raum nach R2 genau dann stetig, wenn ihrebeiden Komponentenfunktionen stetig sind.

—– 50 —–

Page 51: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

zu (ii) Für alle t ∈ [0, 2π[ gilt ‖φ(t)‖2 =√

(cos t)2 + (sin t)2 = 1. Dies zeigt, dass φ eine Abbildung von[0, 2π[ nach ∂B ist. Zum Nachweis der Surjektivität sei (x, y) ∈ ∂B vorgegeben. Dann gilt x2 + y2 = 1

und insbesondere −1 ≤ x, y ≤ 1. Die Kosinusfunktion bildet das Intervall [0, π] bijektiv und streng mono-ton fallend auf [−1, 1] ab. Es gibt also ein eindeutig bestimmtes t ∈ [0, π] mit cos(t) = x. Außerdem gilt| sin(t)| =

√1− (cos t)2 =

√1− x2 = |y|, also sin t = y oder sin t = −y. Im Fall sin t = y ist φ(t) = (x, y)

erfüllt. Ansonsten setzen wir t′ = 2π − t. Wir erhalten cos t′ = cos(2π − t) = cos(−t) = cos t = x undsin(2π − t) = sin(−t) = − sin t = −(−y) = y, insgesamt also φ(t′) = (x, y).

Für den Beweis der Injektivität seien t, t′ ∈ [0, 2π[ mit φ(t) = φ(t′) vorgegeben. Dann gilt cos t = cos t′ undsin t = sin t′. Nehmen wir an, dass t 6= t′ ist. Dann folgt aus cos t = cos t′ die Gleichung t′ = 2π − t. Es folgt− sin t = sin(−t) = sin(2π − t) = sin t′ = sin t, also sin t = 0 und somit t = 0 oder t = π. Der Fall t = 0

ist ausgeschlossen, weil sonst t′ = 2π − t nicht im Intervall [0, 2π[ liegen würde. Im Fall t = π erhalten wirt′ = 2π − t = 2π − π = π = t, im Widerspruch zur Annahme t 6= t′.

zu (iii) Sei (t(n))n∈N gegeben durch t(n) = 2π − 1n , und sei die Folge (a(n))n∈N in ∂B gegeben durch a(n) =

φ(t(n)) für alle n ∈ N. Dann konvergiert die Folge (t(n))n∈N gegen 2π. Weil die Abbildung φ nach Teil (i) stetigist, gilt

limn→∞

a(n) = limn→∞

φ(t(n)) = φ(2π) = (cos 2π, sin 2π) = (1, 0).

Wegen φ(0) = (cos 0, sin 0) = (1, 0) ist die Umkehrfunktion φ−1 an der Stelle (1, 0) durch φ−1(1, 0) = 0 gegeben.Wäre φ−1 im Punkt (1, 0) stetig, dann müsste wegen limn a

(n) = (1, 0) die Folge der Werte φ−1(a(n)) gegenφ−1(1, 0) = 0 konvergieren. Statt dessen aber gilt limn φ

−1(an) = limn tn = 2π. �

In vielen physikalischen Anwendungen spielen die folgenden Abbildungen eine wichtige Rolle.

ρpol : R+ × [0, 2π[ −→ R2, (r, ϕ) 7→ (r cosϕ, r sinϕ)

ρzyl : R+ ×R× [0, 2π[ −→ R3 , (r, h, ϕ) 7→ (r cosϕ, r sinϕ, h)

ρkug : R+ × [−π2 ,π2 ]× [0, 2π[ −→ R3 , (r, ϑ, ϕ) 7→ (r cosϑ cosϕ, r cosϑ sinϕ, r sinϑ)

Man bezeichnet die Abbildung ρpol als Polar-, die Abbildung ρzyl als Zylinder- und die Abbildung ρkug alsKugelkoordinaten-Abbildung. Diese Abbildungen sind offenbar stetig, und bei geeigneter Einschränkung ihresDefinitionsbereichs werden sie zu Homöomorphismen.

Hinweis:

In der Theoretischen Physik hat die Kugelkoordinaten-Abbildung eine geringfügig abweichende Definition.Die hier angegebene Definition hat den Vorteil, dass sie besser mit den Polarkoordinaten verträglich ist, dennfür ϑ = 0 erhält man in der x-y-Ebene die Polarkoordinaten zurück. Außerdem ist die der Anschauung besserzugänglich, weil ϑ dem Breiten- undϕ dem Längengrad auf der Erdkugel entspricht (wenn man davon absieht,dass der Längengrad eigentlich von −180◦ bis 180◦, also von −π bis π statt von 0 bis 2π laufen müsste).

—– 51 —–

Page 52: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.39) Satz (Koordinatenabbildungen als Homöomorphismen)

(i) Die Abbildungen ρpol, ρzyl und ρkug sind auf ihrem gesamten Definitionsbe-reich stetig.

(ii) Die Abbildung ρpol bildet die Menge R+ × [0, 2π[ bijektiv auf R2 \ {(0, 0)} ab.Sie definiert einen Homöomorphismus zwischen den Mengen R+× ]0, 2π[

und R2 \ (R+ × {0}).

(iii) Die Abbildung ρzyl bildet die Menge R+ × R × [0, 2π[ bijektiv auf die MengeR3 \ ({0}× {0}×R) ab. Sie definiert einen Homöomorphismus zwischen denMengen R+ ×R× ]0, 2π[ und R3 \ (R+ × {0} ×R).

(iv) Die Abbildung ρkug bildet die Menge R+× ] − π2 ,

π2 [ × [0, 2π[ bijektiv auf die

MengeR3\({0}×{0}×R) ab. Sie definiert einen Homöomorphismus zwischenR+× ]− π

2 ,π2 [ × ]0, 2π[ und der Menge R3 \ (R+ × {0} ×R).

Beweis: Die Stetigkeit der drei Abbildungen folgt mit (2.30) aus der Tatsache, dass ihre Komponentenfunk-tionen jeweils stetig sind. Im weiteren Verlauf beschränken wir uns auf den Beweis der Aussagen (ii) und(iv) und zeigen hier jeweils nur die Bijektivität der genannten Abbildungen. Dazu werden wir die bereits in(2.38) bewiesene Bijektivität der Abbildung φ : [0, 2π[ → B, t 7→ (cos t, sin t) verwenden. Den Nachweis derHomöomorphismus-Eigenschaft verschieben wir auf später, weil er sich mit den dann zur Verfügung stehen-den Hilfsmitteln wesentlich einfacher bewerkstelligen lässt.

zu (ii) Die Bildmenge von R+ × [0, 2π[ ist in R2 \ {(0, 0)} enthalten, denn für alle (r, ϕ) in R+ × [0, 2π[ gilt‖ρpol(r, ϕ)‖22 = ‖(r cosϕ, r sinϕ)‖22 = r2((cosϕ)2 + (sinϕ)2) = r2 > 0 und somit ρpol(r, ϕ) 6= (0, 0). Nun zeigenwir, dass ρpol als Abbildung von R+ × [0, 2π[ nach R2 \ {(0, 0)} surjektiv ist. Sei dazu (x, y) ∈ R2 \ {(0, 0)}vorgegeben. Setzen wir r =

√x2 + y2 = ‖(x, y)‖2, dann ist (xr ,

yr ) in B1 enthalten. Auf Grund der Surjektivität

von φ gibt es ein ϕ ∈ [0, 2π[ mit (cosϕ, sinϕ) = φ(ϕ) = (xr ,yr ). Es folgt ρpol(r, ϕ) = (r cosϕ, r sinϕ) = (x, y).

Zum Nachweis der Injektivität seien (r, ϕ), (r′, ϕ′) ∈ R+× [0, 2π[ mit ρpol(r, ϕ) = ρpol(r′, ϕ′) vorgegeben. Dann

gilt (r cosϕ, r sinϕ) = (r′ cosϕ′, r′ sinϕ′) und somit r2 = ‖(r cosϕ, r sinϕ)‖22 = ‖(r′ cosϕ′, r′ sinϕ′)‖22 = r′2, alsor = r′. Es folgt φ(ϕ) = (cosϕ, sinϕ) = (cosϕ′, sinϕ′) = φ(ϕ′), und aus der Injektivität von φ folgt ϕ = ϕ′.

Nun zeigen wir, dass man durch weitere Einschränkung von ρpol auf die Teilmenge R+× ]0, 2π[ eine Bijektionauf R2 \ (R+ × {0}) erhält. Dafür genügt es zu zeigen, dass für die Menge A = R+ × {0} und B = R+ × {0}die Gleichung ρpol(A) = B erfüllt ist. Aus der bereits bewiesenen Bijektivität von ρpol folgt dann nämlich

ρ(R+× ]0, 2π[) = ρ(R+ × [0, 2π[ \ A) = ρ(R+ × [0, 2π[) \ ρ(A) =

(R2 \ {(0, 0)}) \B = R2 \ (R+ × {0}) ,

also ist ρpol als Abbildung zwischenR+× ]0, 2π[ undR2 \(R+×{0}) surjektiv. Natürlich ist die Einschränkungvon ρpol auf die Teilmenge R+× ]0, 2π[ auch injektiv.

—– 52 —–

Page 53: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

zu (iv) Zunächst zeigen wir, dass das Bild der MengeR+× ]− π2 ,

π2 [× [0, 2π[ unter ρkug inR3 \ ({0}×{0}×R)

enthalten ist. Nehmen wir an, es gibt ein Tupel (r, ϑ, ϕ) ∈ R+× ]−π2 ,

π2 [× [0, 2π[ mit ρkug(r, ϑ, ϕ) ∈ {0}×{0}×R,

also ρkug(r, ϑ, ϕ) = (0, 0, z) für ein z ∈ R. Dann gilt (cosϕ)(cosϑ) = (sinϕ)(cosϑ) = 0, somit (cosϑ)2 =

(cosϑ)2((cosϕ)2 + (sinϕ)2) = (cosϑ cosϕ)2 + (cosϑ sinϕ)2 = 0, also cosϑ = 0. Da aber ϑ im Intervall ]− π2 ,

π2 [

liegt, ist das nicht möglich.

Nun beweisen wir die Surjektivität von ρkug. Sei (x, y, z) ∈ R3 \ ({0}×{0}×R) vorgegeben. Dann gilt (x, y) 6=(0, 0). Setzen wir r =

√x2 + y2 + z2, dann gilt folglich | zr | < 1. Weil die Abbildung sin : ] − π

2 ,π2 [→ ] − 1, 1[

bijektiv ist, gibt es ein ϑ ∈ ]− π2 ,

π2 [ mit sinϑ = z

r . Aus (sinϑ)2 = ( zr )2 folgt (cosϑ)2 = (xr )2 + (yr )2. Setzen wir

x′ =x

r cosϑ, y′ =

y

r cosϑ,

dann gilt also (x′)2+(y′)2 = 1, was zu (x′, y′) ∈ B äquivalent ist. Die Surjektivität der Abbildung φ : [0, 2π[→ B

zeigt, dass es ein ϕ ∈ [0, 2π[ mit cosϕ = x′ und sinϕ = y′ gibt. Insgesamt erhalten wir

ρkug(r, ϑ, ϕ) = (r cosϕ cosϑ, r sinϕ cosϑ, r sinϑ) =

(rx′ cosϑ, ry′ cosϑ, r sinϑ) = (x, y, z).

Zum Beweis der Injektivität seien (r, ϑ, ϕ), (r′, ϑ′, ϕ′) ∈ R+× ] − π2 ,

π2 [ × [0, 2π[ vorgegeben, die von ρkug auf

denselben Punkt (x, y, z) ∈ R3 \ ({0} × {0} ×R) abgebildet werden. Dann gilt also

x = r cosϕ cosϑ = r′ cosϕ′ cosϑ′ , y = r sinϕ cosϑ = r′ sinϕ′ cosϑ′ und z = r sinϑ = r′ sinϑ′.

Dann gilt zunächst r2 = x2 + y2 + z2 = r′2 und somit r = r′. Aus r sinϑ = r′ sinϑ′ = r sinϑ′ erhalten wirdarüber hinaus sinϑ = sinϑ′, und auf Grund der Injektivität von sin : ] − π

2 ,π2 [ → ] − 1, 1[ folgt ϑ = ϑ′. Die

Kosinusfunktion hat im Intervall ] − π2 ,

π2 [ keine Nullstelle. Aus der Gleichung r cosϕ cosϑ = r cosϕ′ cosϑ

folgt also cosϕ = cosϕ′, und aus r sinϕ cosϑ = r sinϕ′ cosϑ erhalten wir ebenso sinϕ = sinϕ′. Die Injektivitätder Abbildung φ zeigt, dass aus den Gleichungen cosϕ = cosϕ′ und sinϕ = sinϕ′ insgesamt ϕ = ϕ′ folgt.Insgesamt haben wir damit (r, ϑ, ϕ) = (r′, ϑ′, ϕ′) nachgerechnet.

Um zu zeigen, dass auch die eingeschränkte Abbildung R+× ] − π2 ,

π2 [ × ]0, 2π[→ R3 \ (R+ × {0} × R) noch

bijektiv ist, genügt es wie unter (ii) nachzurechnen, dass ρkug(A) = B für die beiden Mengen A = R+× ] −π2 ,

π2 [×{0} und B = R+ × {0} × R erfüllt ist. Zum Nachweis von „⊆“ sei (r, ϑ, 0) ∈ A vorgegeben. Dann gilt

ρkug(r, ϑ, 0) = (r cosϑ, 0, r sinϑ). Wegen r cosϑ > 0 liegt ρkug(r, ϑ, 0) in B. Sei nun umgekehrt (x, 0, z) ∈ B, alsoinsbesondere x > 0. Setzen wir r =

√x2 + z2, dann gilt(x

r

)2

+(zr

)2

= 1,

also (xr ,zr ) ∈ B. Auf Grund der Surjektivität von φ finden wir ein ϑ′ ∈ [0, 2π[ mit cosϑ′ = x

r , sinϑ′ = yr . Aus

cosϑ′ = xr > 0 folgt ϑ′ ∈ [0, π2 [ oder ϑ′ ∈ ]− 3

2π, 2π[. Im ersten Fall setzen wir ϑ = ϑ′, im zweiten Fall ϑ = ϑ′−2π.Auf jeden Fall gilt dann ϑ ∈ ]− π

2 ,π2 [ , also (r, ϑ, 0) ∈ A und

ρkug(r, ϑ, 0) = (r cosϑ, 0, r sinϑ) = (r cosϑ′, 0, r sinϑ′) = (x, 0, z). �

—– 53 —–

Page 54: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Im letzten Teil dieses Abschnitts untersuchen wir die Stetigkeit von linearen Funktionen.

(2.40) Satz Eine lineare Abbildung φ : V →W zwischen normiertenR-Vektorräumen istgenau dann stetig, wenn eine Konstante γ ∈ R+ mit ‖φ(v)‖ ≤ γ‖v‖ für alle v ∈ V existiert.

Beweis: „⇒“ Auf Grund der Stetigkeit von φ in 0V gibt es für ε = 1 ein δ ∈ R+ mit ‖v‖ < δ ⇒ ‖φ(v)‖ < 1

für alle v ∈ V . Sei nun γ = 2δ−1 und v ∈ V mit v 6= 0V vorgegeben. Dann ist v′ = 1γ‖v‖v ein Vektor mit

‖v′‖ = 12δ < δ. Es folgt ‖φ(v′)‖ < 1 und wegen v = γ‖v‖v′ und der Linearität von φ schließlich ‖φ(v)‖ =

‖φ(γ‖v‖v′)‖ = γ‖v‖‖φ(v′)‖ < γ‖v‖.

„⇐“ Sei γ ∈ R+ eine Konstante wie angegeben und a ∈ V beliebig. Für alle v ∈ V mit dann

‖φ(v)− φ(a)‖ ≤ ‖φ(v − a)‖ ≤ γ‖v − a‖.

Ist nun (v(n))n∈N eine Folge mit limn v(n) = a, dann gilt limn ‖v(n) − a‖ = 0. Aus den Ungleichungen

0 ≤ ‖φ(v(n))− φ(a)‖ ≤ γ‖v(n) − a‖ für n ∈ N folgt limn ‖φ(v(n))− φ(a)‖ = 0 und somit limn φ(v(n)) = φ(a). �

(2.41) Proposition Sei V der R-Vektorraum der Polynomfunktionen auf dem Intervall[0, 1], ausgestattet mit der Supremumsnorm ‖f‖∞ = sup{ |f(x)| | x ∈ [0, 1]}. Dann ist dieAbleitungsabbildung

φ1 : V −→ V , f 7→ f ′ unstetig.

Beweis: Angenommen, es ist γ ∈ R+ eine Konstante mit der Eigenschaft ‖φ1(f)‖∞ ≤ γ‖f‖∞ für alle f ∈ V .Dann betrachten wir die Folge (fn)n∈N gegeben durch fn(x) = xn für alle n ∈ N. Der betragsmäßig größteFunktionswert, der von fn im Intervall [0, 1] angenommen wird, ist |fn(1)| = 1, also gilt ‖fn‖∞ = 1 für allen ∈ N. Die Bilder der Folgenglieder sind gegeben durch φ1(fn) = f ′n mit f ′n(x) = nxn−1. Es gilt ‖φ1(fn)‖∞ =

‖f ′n‖∞ = |f ′n(1)| = n für alle n ∈ N. Setzen wir nun die Funktionen fn in die Abschätzung von oben ein, dannerhalten wir ‖φ1(fn)‖∞ ≤ γ‖fn‖∞, also n ≤ γ für alle n ∈ N. Dies aber widerspricht der Unbeschränktheit derMenge N der natürlichen Zahlen. Also existiert keine Konstante γ mit der angegebenen Eigenschaft. �

Seien V,W zwei normierte R-Vektorräume. Dann bezeichnen wir mit L (V,W ) den Untervektorraum vomR-Vektorraum HomR(V,W ) bestehend aus den stetigen linearen Abbildungen V →W .

(2.42) Satz Für jedes φ ∈ L (V,W ) existiert das Supremum

‖φ‖ = sup{ ‖φ(v)‖ | v ∈ V , ‖v‖ ≤ 1}.

Durch die Zuordnung L (V,W ) → R+, φ 7→ ‖φ‖ ist auf dem R-Vektorraum L (V,W ) eineNorm definiert, die sogenannte Operatornorm.

—– 54 —–

Page 55: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Das Supremum existiert, weil die angegebene Menge nichtleer und auf Grund des vorherigen Satzesnach oben beschränkt ist. Für die Nullabbildung gilt offenbar ‖0L(V,W )‖ = 0. Sei umgekehrt φ ∈ L (V,W ) mit‖φ‖ = 0. Für jeden Vektor 0V 6= v ∈ V gilt dann

‖φ(v)‖ = ‖v‖∥∥∥∥φ( v

‖v‖

)∥∥∥∥ ≤ ‖v‖ · 0 = 0

und somit φ(v) = 0, d.h. φ ist die Nullabbildung. Die Gleichung ‖λφ‖ = |λ|‖φ‖ für alle λ ∈ R und φ ∈ L (V,W )

ist offensichtlich, denn der Übergang von φ zu λφ bewirkt, dass die Zahlen in der Menge {‖φ(v)‖ | v ∈V | ‖v‖ ≤ 1} mit dem Wert |λ| multipliziert werden. Seien nun φ, ψ ∈ L (V,W ) vorgegeben und v ∈ V

mit ‖v‖ ≤ 1. Dann gilt

‖φ(v) + ψ(v)‖ ≤ ‖φ(v)‖+ ‖ψ(v)‖ ≤ ‖φ‖+ ‖ψ‖ ,

also ‖φ+ ψ‖ ≤ ‖φ‖+ ‖ψ‖ nach Definition der Operatornorm. �

Wir bemerken noch, dass die Operatornorm so definiert ist, dass ‖φ(v)‖ ≤ ‖φ‖‖v‖ für alle φ ∈ L (V,W ) undv ∈ V gilt.

(2.43) Proposition Seien V = Rn, W = Rm jeweils mit der Supremums-Norm ‖ · ‖∞ausgestattet und A ∈ Mm×n,R eine Matrix. Dann ist die Operatornorm von φA : V → W ,v 7→ Av gegeben durch

‖φA‖ = max

n∑j=1

|aij |∣∣∣∣ 1 ≤ i ≤ m

(2.4)

Man bezeichnet diese Norm auch als Zeilensummennorm.

Beweis: Wir zeigen, dass der Wert ‖φA(v)‖ für alle v ∈ V mit ‖v‖∞ ≤ 1 durch die Zahl γA auf der rechtenSeite von (2.4) beschränkt ist, und dass es Vektoren v ∈ V mit ‖v‖∞ = 1 gibt, für die ‖φA(v)‖∞ = γA erfüllt ist.Beide Aussagen zusammen beweisen die Gleichung ‖φA‖ = γA.

Sei also v ∈ V mit ‖v‖∞ ≤ 1 vorgegeben. Dann sind die Komponenten von w = φA(v) durch wi =∑nj=1 aijvj

gegeben und können durch ∣∣∣∣∣∣n∑j=1

aijvj

∣∣∣∣∣∣ ≤n∑j=1

|aij ||vj | ≤n∑j=1

|aij | ,

also insbesondere durch das Maximum dieser Zahlen abgeschätzt werden. Andererseits wird das Maximumauch durch Vektoren v ∈ V mit ‖v‖∞ = 1 angenommen: Ist i0 der Index der Zeile mit der maximalen Betrags-summe, also

max

n∑j=1

|aij |∣∣∣∣ 1 ≤ i ≤ m

=

n∑j=1

|ai0j | ,

dann definieren wir v = (v1, ..., vn) durch vj = |ai0j |/ai0j falls ai0j 6= 0 und vj = 1 sonst, für 1 ≤ j ≤ n. DieGleichung ‖v‖∞ = 1 ist dann offensichtlich, denn die Einträge des Vektors sind alle gleich 1 oder −1. In derSumme

∑nj=1 ai0jvj sind alle Summanden nicht-negativ, und es gilt

∑nj=1 ai0jvj =

∑nj=1 |ai0j | = ‖φA‖. �

—– 55 —–

Page 56: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.44) Folgerung Jede lineare Abbildung von einem endlich-dimensionalen in einennormierten R-Vektorraum beliebiger Dimension ist stetig. Jeder Isomorphismus zwischenR-Vektorräumen derselben endlichen Dimension ist ein Homöomorphismus.

Beweis: Sei V endlich-dimensional,W beliebig und (v1, ..., vn) eine Basis von V . Da sich an der Stetigkeit einerAbbildung bei Übergang zu einer äquivalenten Norm nichts ändert, können wir annehmen, dass die Normauf V durch ∥∥∥∥∥

n∑i=1

λivi

∥∥∥∥∥ = max{|λ1|, ..., |λn|}

gegeben ist. Sei nun v ∈ V beliebig, v =∑ni=1 λivi. Setzen wir γ = max{‖φ(v1)‖, ..., ‖φ(vn)‖}, dann gilt

‖φ(v)‖ =

∥∥∥∥∥n∑i=1

λiφ(vi)

∥∥∥∥∥ ≤n∑i=1

|λi|‖φ(vi)‖ ≤ nγ‖v‖.

Die zweite Aussage folgt unmittelbar aus der ersten. �

(2.45) Satz Sei X ein metrischer Raum, und seien V,W zwei endlich-dimensionale,normierte R-Vektorräume. Eine Abbildung ϕ : X → L (V,W ) ist genau dann stetig, wenndie Zuordnung ϕv : X →W , x 7→ ϕ(x)(v) für jeden Vektor v ∈ V stetig ist.

Beweis: „⇒“ Sei x ∈ X und (x(n))n∈N eine Folge in X mit limn x(n) = x. Für jeden Vektor v ∈ V ist

limn ϕ(x(n))(v) = ϕ(x)(v) nachzuweisen. Für v = 0V ist dies offensichtlich, weil dann ϕ(x)(v) = 0W undϕ(x(n))(v) = 0W für alle n ∈ N erfüllt ist. Also können wir von nun an v 6= 0V voraussetzen. Auf Grund derStetigkeit von ϕ finden wir für jedes ε ein N ∈ Nmit ‖ϕ(x(n))−ϕ(x)‖ < ε/‖v‖ für alle n ≥ N . Nach Definitionder Operatornorm folgt daraus

‖ϕ(x(n))(v)− ϕ(x)(v)‖ = ‖(ϕ(x(n))− ϕ(x))(v)‖ ≤ ‖ϕ(xn)− ϕ(x)‖‖v‖ <ε

‖v‖‖v‖ = ε

für alle n ≥ N . Also ist die Gleichung limn ϕ(x(n))(v) = ϕ(x)(v) erfüllt.

„⇐“ Sei B = (v1, ..., vd) eine Basis von V . Der Raum L (V,W ) ist endlich-dimensional, deshalb sind je zweiNormen darauf äquivalent. Wir können also die Norm auf V und damit auch die Operatornorm auf L (V,W )

abändern, ohne dass sich dadurch an der Stetigkeit von ϕ etwas ändert. Deshalb können wir davon ausgehen,dass die Norm auf V durch ∥∥∥∥∥

d∑i=1

λivi

∥∥∥∥∥ = max{|λ1|, ..., |λd|}

definiert ist. Sei nun x ∈ X und (x(n))n∈N eine Folge in X mit limn x(n) = x. Zu zeigen ist, dass die Folge

ψn = ϕ(x(n)) bezüglich der Operatornorm gegen das Element ψ = ϕ(x) ∈ L (V,W ) konvergiert. Weil nachVoraussetzung die Zuordnungen x 7→ ϕ(x)(vi) für 1 ≤ i ≤ d stetig sind, existiert für jedes ε ∈ R+ ein N ∈ Nmit der Eigenschaft, dass ‖ψn(vi)− ψ(vi)‖ ≤ ε

d für alle n ≥ N und 1 ≤ i ≤ d erfüllt ist. Sei nun v ∈ V beliebigvorgegeben, v =

∑di=1 λivi. Dann gilt

‖ψn(v)− ψ(v)‖ ≤d∑i=1

|λi|‖ψn(vi)− ψ(vi)‖ <

d∑i=1

|λi|ε

d≤

d∑i=1

‖v‖ εd

= ε‖v‖.

Insbesondere gilt ‖(ψn − ψ)(v)‖ ≤ ε für alle v ∈ V mit ‖v‖ ≤ 1 und alle n ≥ N . Nach Definition der Operator-norm gilt also ‖ψn − ψ‖ ≤ ε für alle n ≥ N . �

—– 56 —–

Page 57: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

2.4 Offene und abgeschlossene Menge

Inhaltsübersicht

FF Definition der Offenheit, Umgebungsbegriff

FF Urbilder von Umgebungen und offenen Mengen unter stetigen Abbildungen

FF Abgeschlossenheit

FF Schachtelungsprinzip

FF Grenzwerte von Folgen in abgeschlossenen Mengen

FF relative Offenheit und Abgeschlossenheit

(2.46) Definition Sei (X, d) ein metrischer Raum. Eine Teilmenge U ⊆ X wird offengenannt, wenn für jedes x ∈ U ein ε ∈ R+ mit Bε(x) ⊆ U existiert.

Offene Intervalle sind offen. Gleichgültig wo die Punkte x1, x2, ... innerhalb des Intervalls

gewählt werden, es gibt immer eine ε-Umgebung, die ganz innerhalb des Intervalls liegt.

(2.47) Proposition Jedes offene Intervall ]a, b[ ⊆ R ist eine offene Teilmenge bezüglich derStandard-Metrik d(x, y) = |x− y|.

Beweis: Ist x ∈ ]a, b[ vorgegeben, dann setzen wir ε = min{x − a, b − x}. Es gilt dann Bε(x) ⊆ ]a, b[, denn fürjedes y ∈ Bε(x) gilt |y−x| < ε⇔ x− ε < y < x+ ε, also insbesondere a = x− (x− a) < y < x+ (b−x) = b. �

Zur Offenheit der offenen Bälle in einem metrischen Raum. Egal wo die

Punkte y1, y2, ... innerhalb von Br(x) gewählt werden, eine hinreichend

kleine offene Kreisscheibe um yn ist vollständig in Br(x) enthalten.

—– 57 —–

Page 58: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.48) Proposition Ist (X, d) ein metrischer Raum, dann ist jeder offene Ball Br(x) eineoffene Teilmenge von X .

Beweis: Sei y ∈ Br(x) beliebig und ε = r − d(y, x). Dann gilt Bε(y) ⊆ Br(x), denn für alle u ∈ X gilt

u ∈ Bε(y) ⇒ d(u, y) < ε ⇒ d(u, x) ≤ d(u, y) + d(y, x) < ε+ d(y, x) = r.

und somit u ∈ Br(x). �

Ist d die diskrete Metrik auf einer Menge X , dann ist jede Teilmenge U ⊆ X offen, denn für jedes x ∈ X ist deroffene Ball B1(x) = {x} in U enthalten.

(2.49) Proposition Sei (V, ‖ · ‖) ein normierter R-Vektorraum und ‖ · ‖′ eine zu ‖ · ‖äquivalente Norm. Eine Teilmenge U ⊆ V ist genau dann offen bezüglich der Norm ‖ · ‖,wenn sie bezüglich der Norm ‖ · ‖′ offen ist.

Beweis: Sei U eine bezüglich ‖ · ‖ offene Menge und x ∈ U . Weil U offen ist, gibt es ein ε ∈ R+ mit Bε(x) ⊆ U .Auf Grund der Äquivalenz der Normen gibt es eine Konstante γ ∈ R+ mit ‖v‖ ≤ γ‖v‖′ für alle v ∈ V .Bezeichnen wir nun mit B′ = B′γ−1ε(x) den offenen Ball um x vom Radius γ−1ε bezüglich ‖ · ‖′. Es gilt nunB′ ⊆ Bε(x) ⊆ U , denn für jedes y ∈ B′ gilt ‖y− x‖′ < γ−1ε, damit ‖y− x‖ ≤ γ‖y− x‖′ < γγ−1ε = ε und somity ∈ Bε(x). �

Sei X eine Menge und P(X) seine Potenzmenge, also die Menge aller Teilmengen von X . In den folgendenAbschnitt werden wir des öfteren mit Familien von Teilmengen arbeiten. Ein Familie von Teilmengen der MengeX über einer Indexmenge I ist einfach eine Abbildung φ : I → P(X). Jedem Element aus I wird also eineTeilmenge von X zugeordnet.

In der Regel verwendet man an Stelle der Abbildung- die Indexschreibweise, wobei dann (Xi)i∈I für dieAbbildung I → P(X), i 7→ Xi steht. Beispiele für Familien von Teilmengen der Menge X = R sind ( ]n, n +

1[)n∈N oder ({a, a+ 13})a∈Z. Elemente der zweiten Familie sind zum Beispiel {0, 1

3} oder {−2,− 53}. Ein Element

der ersten Familie ist das offene Intervall ]7, 8[.

(2.50) Satz Sei (X, d) ein metrischer Raum. Dann gilt

(i) Die Teilmengen ∅ und X sind offen.

(ii) Sind U und V offen, dann auch die Schnittmenge U ∩ V .

(iii) Ist (Ui)i∈I eine Familie offener Teilmengen, dann ist auch die Vereinigung⋃i∈I Ui offen.

Beweis: zu (i) Die Menge Y = ∅ ist offen, da in diesem Fall kein Punkt x ∈ Y existiert, für den die Existenzeines ε ∈ R+ mit Bε(x) ⊆ Y gefordert wird. Die Menge X ist offen, weil in diesem Fall für jedes x ∈ X undjedes ε ∈ R+ die Bedingung Bε(x) ⊆ X offensichtlich erfüllt ist; denn nach Definition ist Bε(x) eine Teilmengevon X .

—– 58 —–

Page 59: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

zu (ii) Sei x ∈ U ∩ V . Weil U offen ist, gibt es ein ε ∈ R+ mit Bε(x) ⊆ U . Weil V offen ist, existiert ein η ∈ R+

mit Bη(x) ⊆ V . Setzen wir ξ = min(ε, η), dann folgt Bξ(x) ⊆ Bε(x) ⊆ U und Bξ(x) ⊆ Bη(x) ⊆ V , insgesamtalso Bξ(x) ⊆ U ∩ V .

zu (iii) Sei U =⋃i∈I Ui und x ∈ U vorgegeben. Dann gibt es ein i ∈ I mit x ∈ Ui. Weil Ui offen ist, existiert

ein ε ∈ R+ mit Bε(x) ⊆ Ui. Wegen Ui ⊆ U folgt Bε(x) ⊆ U . �

Aus Teil (ii) von (2.50) kann mit vollständiger Induktion gefolgert werden, dass der Durchschnitt U1 ∩ ... ∩ Urvon endlich vielen offenen Mengen offen ist. Für unendliche Durchschnitte gilt dies aber nicht mehr. Betrachtetman im metrischen RaumX = R beispielsweise das System (Un)n∈N gegeben durch Un =

]− 1n ,

1n

[, so ist jedes

einzelne Un eine offene Teilmenge von R, ihr Durchschnitt⋂n∈N Un = {0} aber nicht.

Sei X eine Menge. Ein Mengensystem U ⊆ P(X) mit den Eigenschaften ∅, X ∈ U und U, V ∈ U ⇒ U ∩ V ∈U und

⋃i∈I Ui ∈ U für jede Familie (Ui)i∈I bestehend aus Menge Ui ∈ U wird Topologie auf X genannt. Der

soeben bewiesene Satz zeigt also, dass die offenen Mengen in einem metrischen Raum X eine Topologie aufX bilden. Es gibt aber auch Topologien, die sich nicht durch eine Metrik definieren lassen.

(2.51) Definition Sei (X, d) ein metrischer Raum und x ∈ X . Eine Teilmenge U ⊆ X wirdUmgebung von x genannt, wenn ein ε ∈ R+ mit Bε(x) ⊆ U existiert.

Der Begriff der Umgebung lässt sich auf die Definition der Offenheit zurückführen.

(2.52) Proposition Seien die Bezeichnungen wie in der Umgebungsdefinition gewählt.Eine Teilmenge U von X ist genau dann eine Umgebung von x ∈ X , wenn eine offeneMenge V mit V ⊆ U und x ∈ V existiert.

Beweis: „⇒“ Nach Voraussetzung gilt Bε(x) ⊆ U für ein ε ∈ R+. Die Menge Bε(x) ist offen, wir können alsoV = Bε(x) setzen. „⇐“ Sei V eine offene Teilmenge mit V ⊆ U und x ∈ V . Nach Definition der Offenheitgibt es ein ε ∈ R+ mit Bε(x) ⊆ V . Es folgt Bε(x) ⊆ U . Also ist U eine Umgebung von x. �

Die Konvergenz von Folgen kann auch mit Hilfe von Umgebungen beschrieben werden: Eine Folge (xn)n∈N

in einem metrischen Raum (X, d) konvergiert genau dann gegen einen Punkt a ∈ X , wenn für jede UmgebungU von a ein N ∈ N existiert, so dass xn ∈ U für alle n ≥ N erfüllt ist. (Beweis als Übung)

(2.53) Proposition Sei X ein metrischer Raum, und seien x, y ∈ X mit x 6= y. Dann gibt esUmgebungen U von x und V von y mit U ∩ V = ∅. Man bezeichnet dieses Phänomen alsHausdorffsche Trennungseigenschaft.

Beweis: Sei r = d(x, y); wegen x 6= y gilt r ∈ R+. Dann sind U = Br/2(x) und V = Br/2(y) Umgebungen vonx bzw. y mit der gewünschten Eigenschaft. Wäre nämlich z ∈ U ∩V , dann würde sich daraus der Widerspruchr = d(x, y) ≤ d(x, z) + d(z, y) < r

2 + r2 = r ergeben. �

—– 59 —–

Page 60: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.54) Satz Sei f : X → Y eine Abbildung zwischen metrischen Räumen (X, dX) und(Y, dY ), und sei a ∈ X . Genau dann ist f stetig in a, wenn für jede Umgebung V von f(a)

die Urbildmenge f−1(V ) eine Umgebung von a ist.

Beweis: „⇐“ Wir zeigen, dass f unter der gegebenen Voraussetzung das ε-δ-Kriterium erfüllt. Sei also ε ∈ R+

vorgegeben. Setzen wir V = Bε(f(a)), dann ist f−1(V ) auf Grund des Voraussetzung eine Umgebung von a.Es gibt also ein δ ∈ R+ mit Bδ(a) ⊆ f−1(Bε(f(a))). Sei nun x ∈ X mit dX(a, x) < δ. Dann gilt x ∈ Bδ(a) undsomit f(x) ∈ Bε(f(a)), also dY (f(a), f(x)) < ε. Dies zeigt, dass das ε-δ-Kriterium erfüllt ist.

„⇒“ Sei V eine Umgebung von f(a). Dann gibt es ein ε ∈ R+ mit Bε(f(a)) ⊆ V . Weil f in a stetig ist,können wir das ε-δ-Kriterium anwenden. Demnach existiert ein δ ∈ R+, so dass die Implikation dX(a, x) <

δ ⇒ dY (f(a), f(x)) < ε für alle x ∈ X erfüllt ist. Aus x ∈ Bδ(a) folgt also f(x) ∈ Bε(f(a)), d.h. es giltf(Bδ(a)) ⊆ Bε(f(a)) und somit Bδ(a) ⊆ f−1(Bε(f(a))) ⊆ f−1(V ). Dies zeigt, dass f−1(V ) eine Umgebungvon a ist. �

(2.55) Folgerung Eine Abbildung f : X → Y zwischen metrischen Räumen ist genaudann stetig, wenn das Urbild f−1(V ) jeder offenen Menge V ⊆ Y offen ist.

Beweis: „⇒“ Sei f stetig und V ⊆ Y eine offene Menge. Wir müssen zeigen, dass U = f−1(V ) offen ist. Seidazu a ∈ U beliebig vorgegeben. Als offene Teilmenge ist V eine Umgebung von f(a). Nach (2.54) ist U damiteine Umgebung von a. Es gibt also ein ε ∈ R+ mit Bε(a) ⊆ U . Weil a beliebig gewählt war, folgt daraus dieOffenheit von U .

„⇐“ Nach Voraussetzung ist das Urbild jeder offenen Teilmenge von Y eine offene Teilmenge von X . Seia ∈ X vorgegeben. Zu zeigen ist, dass f in a stetig ist. Dafür wiederum genügt es nach (2.54) zu zeigen, dassfür jede Umgebung V von f(a) die Menge U = f−1(V ) eine Umgebung von a ist. Seien also V und U wieangegeben. Da V eine Umgebung von f(a) ist, gibt es eine offene Menge V ′ mit V ′ ⊆ V und f(a) ∈ V ′. AufGrund der Voraussetzung ist U ′ = f−1(V ′) offen, und aus V ′ ⊆ V folgt U ′ ⊆ U . Wegen f(a) ∈ V ′ gilt a ∈ U ′.Dies zeigt, dass U eine Umgebung von a ist. �

(2.56) Definition Sei (X, d) ein metrischer Raum. Eine Teilmenge V ⊆ X wird (genaudann) als abgeschlossen bezeichnet, wenn ihr Komplement U = X \ V offen ist.

(2.57) Proposition Die abgeschlossenen Intervalle in R der Form [a, b] ⊆ R mit a, b ∈ R,a < b sind abgeschlossen.

Beweis: Zu zeigen ist, dass die Menge U = R \ [a, b] offen ist. Sei x ∈ U vorgegeben. Dann gilt entweder x < a

oder x > b. Setzen wir im ersten Fall ε = a−x, dann ist Bε(x) ⊆ U erfüllt, denn aus y ∈ Bε(x) folgt |y−x| < ε,damit insbesondere y < x+ ε = x+ (a− x) = a. Also ist y nicht im Intervall [a, b] enthalten und liegt somit inU . Im zweiten Fall setzt man ε = x− b und überprüft genauso, dass Bε(x) ⊆ U gilt. �

—– 60 —–

Page 61: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Zur Abgeschlossenheit der abgeschlossenen Bälle in einem metrischen Raum. Egal wie nahe

die Punkte y1, y2, ... an Br(x) gewählt werden, eine hinreichend kleine offene Kreisscheibe

um yn ist zu Br(x) disjunkt.

(2.58) Proposition Sei (X, d) ein metrischer Raum, a ∈ X und r ∈ R+. Dann ist derabgeschlossene Ball Br(a) um a vom Radius r abgeschlossen.

Beweis: Zu zeigen ist, dass es sich bei U = X \ Br(a) um eine offene Menge handelt. Sei x ∈ U vorgegeben.Dann gilt d(a, x) > r. Setzen wir ε = d(a, x) − r, dann ist Bε(x) ⊆ U erfüllt. Wäre dies nicht der Fall, danngäbe es einen Punkt y ∈ Bε(x) ∩ Br(a). Daraus würde sich aber der Widerspruch d(a, x) ≤ d(a, y) + d(y, x) <

r + ε = r + d(x, a)− r = d(x, a) ergeben. �

Die Aussage, dass jede Teilmenge eines metrischen Raums X entweder offen oder abgeschlossen sein muss,ist in mehrfacher Hinsicht falsch, auch wenn dies durch die Wahl der Begriffe nahegelegt wird. Es gibt im all-gemeinen sehr viele Teilmengen, die weder offen noch abgeschlossen sind, in R zum Beispiel die halboffenenIntervalle der Form [a, b[. Ebenso gibt es in metrischen Räumen X immer Teilmengen, die sowohl offen alsauch abgeschlossen sind, zumindest die Teilmengen ∅ oder X , wie wir gleich sehen werden.

(2.59) Satz Sei (X, d) ein metrischer Raum. Dann gilt

(i) Die Teilmengen ∅ und X sind abgeschlossen.

(ii) Sind U und V abgeschlossen, dann auch U ∪ V .

(iii) Ist (Vi)i∈I eine Familie abgeschlossener Teilmengen, dann ist auch⋂i∈I Vi ab-

geschlossen.

—– 61 —–

Page 62: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: zu (i) Nach (2.50) sind die Mengen ∅ undX offen, also sindX = X \∅ und ∅ = X \X abgeschlossen.

zu (ii) Die Mengen U ′ = X \ U und V ′ = X \ V sind nach Voraussetzung offen. Wegen (2.50) ist damit auchU ′ ∩ V ′ = X \ (U ∪ V ) eine offene Menge. Also ist U ∩ V abgeschlossen.

zu (iii) Sei Ui = X \ Vi für alle i ∈ I . Dann ist jedes Ui offen, nach (2.50) also auch die VereinigungsmengeU =

⋃i∈I Ui. Wegen

⋂i∈I Vi = X \ U ist

⋂i∈I Vi damit abgeschlossen. �

(2.60) Satz Eine Abbildung f : X → Y zwischen metrischen Räumen ist genau dann ste-tig, wenn das Urbild f−1(V ) jeder abgeschlossenen Teilmenge V ⊆ Y selbst abgeschlossenist.

Beweis: „⇒“ Ist f stetig, dann ist nach (2.55) das Urbild jeder offenen Menge offen. Sei nun V ⊆ Y abge-schlossen. Setzen wir U = Y \ V , dann ist f−1(U) also offen. Wegen f−1(V ) = X \ f−1(U) ist f−1(V ) damitabgeschlossen.

„⇐“ Sei U ⊆ Y offen. Dann ist V = Y \ U abgeschlossen, und auf Grund der Voraussetzung ist f−1(V )

ebenfalls abgeschlossen. Daraus folgt, dass f−1(U) = X \ f−1(V ) offen ist. Wir haben somit gezeigt, dass dasUrbild jeder offenen Menge offen ist. Nach (2.55) folgt daraus die Stetigkeit von f . �

(2.61) Satz Eine Teilmenge A ⊆ X in einem metrischen Raum (X, dX) ist genau dannabgeschlossen, wenn mit jeder Folge (x(n))n∈N in A, die in (X, dX) konvergiert, auch derGrenzwert a = lim

n→∞x(n) in A enthalten ist.

Beweis: „⇒“ Setzen wir voraus, dass A ⊆ X eine abgeschlossene Teilmenge von X ist. Sei (x(n))n∈N einein A liegende, konvergente Folge und a = limn x

(n) ihr Grenzwert. Angenommen, es gilt a /∈ A. Weil Aabgeschlossen ist, handelt es sich bei U = X \A um eine Umgebung von a. Es gibt also einN ∈ Nmit x(n) ∈ Ufür alle n ≥ N , im Widerspruch zur Voraussetzung x(n) ∈ A für alle n ∈ N.

„⇐“ Nehmen wir an, dass für jede inA liegende, in (X, dX) konvergente Folge auch der Grenzwert inA liegt,dass aber A nicht abgeschlossen ist. Dann gibt es ein a ∈ X \ A, so dass für jedes ε ∈ R+ der DurchschnittA ∩ Bε(a) nichtleer ist. Insbesondere finden wir für jedes n ∈ N ein x(n) ∈ A ∩ B 1

n(a). Wir erhalten so eine

Folge (x(n))n∈N mit limx(n) = a, deren Folgenglieder alle in A liegen, mit einem Grenzwert außerhalb von A.Dies widerspricht unserer Annahme. �

Beispielsweise ist das Intervall I = [0, 1[ nicht abgeschlossen in R. Die Zahlen x(n) = 1 − 1n bilden eine Folge

(x(n))n∈N in I , aber deren Grenzwert limn→∞

x(n) = 1 ist nicht in I enthalten.

—– 62 —–

Page 63: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.62) Definition Eine TeilmengeA ⊆ X eines metrischen Raums (X, dX) wird beschränktgenannt, wenn die Menge D(A) = {dX(a, b) | a, b ∈ A} ⊆ R+ beschränkt ist. Ist dies derFall, dann bezeichnen wir d(A) = supD(A) als den Durchmesser der Teilmenge A. Derleeren Menge ∅ wird der Durchmesser d(∅) = 0 zugeordnet.

Eine Teilmenge A eines metrischen Raums (X, dX) ist genau dann beschränkt, wenn ein Punkt a ∈ A undein γ ∈ R+ mit dX(a, x) < γ für alle x ∈ A existiert. Ist nämlich a ein solcher Punkt, dann folgt d(x, y) ≤d(a, x) + d(a, y) < 2γ für alle x, y ∈ A. Die Umkehrung ist offensichtlich.

(2.63) Satz (Schachtelungsprinzip)

Sei (X, dX) ein vollständiger metrischer Raum und (An)n∈N eine Folge nichtleerer, ab-geschlossener, beschränkter Teilmengen von X mit An ⊇ An+1 für alle n ∈ N. Giltlimn d(An) = 0, dann gibt es einen eindeutig bestimmten Punkt a ∈ X mit

⋂n∈NAn = {a}.

Beweis: Zunächst beweisen wir die Eindeutigkeit. Sind a, a′ ∈ A zwei verschiedene Punkte mit a, a′ ∈ An füralle n ∈ N, dann gilt d(a, a′) ≤ d(An) für alle n ∈ N. Aus limn d(An) = 0 folgt d(a, a′) = 0 und a = a′, imWiderspruch zur Voraussetzung.

Zum Nachweis der Existenz wählen wir in jeder Menge An einen Punkt x(n). Sei ε ∈ R+ vorgegeben undN ∈ N so groß gewählt, dass d(An) < ε für alle n ≥ N erfüllt ist. Sind nun m,n ∈ N mit n ≥ m ≥ N ,dann folgt d(x(n), x(m)) ≤ d(Am) < ε, also ist (x(n))n∈N eine Cauchyfolge. Auf Grund der Vollständigkeit von(X, dX) konvergiert diese gegen einen Punkt a ∈ X . Ist m ∈ N beliebig, dann gilt x(n) ∈ An ⊆ Am für allen ≥ m. Weil Am abgeschlossen ist, liegt nach (2.61) auch der Grenzwert a der Folge in Am. Weil m beliebigvorgegeben war, haben wir somit a ∈ Am für alle m ∈ N und somit a ∈

⋂n∈NAn nachgewiesen. �

(2.64) Definition Sei (X, dX) ein metrischer Raum und Y ⊆ X eine Teilmenge. Dannerhalten wir durch Einschränkung von dX auf Y × Y eine Metrik dY auf Y mit dY (a, b) =

dX(a, b) für alle a, b ∈ Y . Wir bezeichnen eine Teilmenge U ⊆ Y als relativ offen bzw.abgeschlossen in Y , wenn U bezüglich dY offen bzw. abgeschlossen ist.

(2.65) Satz Sei (X, dX) ein metrischer Raum, Y ⊆ X eine Teilmenge und U ⊆ Y .

(i) Genau dann ist U relativ offen in Y , wenn eine offene Teilmenge U ⊆ X mitder Eigenschaft U = U ∩ Y existiert.

(ii) Genau dann ist U relativ abgeschlossen in Y , wenn eine abgeschlossene Teil-menge U ⊆ X mit U = U ∩ Y existiert.

Beweis: Wir beschränken uns auf den Beweis von (i), weil der Beweis des anderen Teils weitgehend analogverläuft. Es sei dY die Metrik auf Y , die man durch Einschränkung von dX auf Y × Y erhält.

—– 63 —–

Page 64: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

„⇐“ Sei U ⊆ X eine Menge mit den angegebenen Eigenschaften und a ∈ U . Weil U offen ist, gibt es einε ∈ R+ mit Bε(a) ⊆ U , wobei Bε(a) den offenen Ball vom Radius ε um U bezüglich der Metrik dX bezeichnet.Für alle x ∈ Y gilt die Äquivalenz x ∈ Bε(a)⇔ dX(a, x) < ε⇔ dY (a, x) < ε, also ist Bε(a) ∩ Y der offene Ballvom Radius ε um a bezüglich dY . Die Inklusion Bε(a) ∩ Y ⊆ U ∩ Y = U zeigt, dass U in Y relativ offen ist.

„⇒“ Sei U ⊆ Y eine in Y relativ offene Teilmenge. Dann gibt es für jedes a ∈ U ein ε(a) ∈ R+, so dass deroffene Ball

Bε(a),Y (a) = {y ∈ Y | dY (a, y) < ε(a)} = {y ∈ Y | dX(a, y) < ε(a)} = Bε(a)(a) ∩ Y

um a vom Radius ε(a) bezüglich dY in U enthalten ist. Es gilt alsoBε(a)(a)∩Y = Bε(a),Y (a) ⊆ U für alle a ∈ U .Die Menge U =

⋃a∈U Bε(a) ist offen in (X, dX), und es gilt

U ∩ Y =

(⋃a∈U

Bε(a)(a)

)∩ Y =

⋃a∈U

(Bε(a)(a) ∩ Y ) = U. �

Die Teilmenge U = ]−1, 1[ × {0} ⊆ R2 ist zwar keine offene Menge in X = R2, da zum Beispiel keine ε-Umgebung Bε((0, 0)) von (0, 0) in X enthalten ist. Sie ist aber relativ offen in Y = R × {0}, denn sie kann alsDurchschnitt von Y und der in R2 offenen Menge U = ]−1, 1[×R dargestellt werden.

—– 64 —–

Page 65: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

2.5 Kompaktheit

Inhaltsübersicht

FF Definition der Kompaktheit

FF Endliche abgeschlossene Quader sind kompakt.

FF Die kompakten Teilmengen imRn sind genau die beschränkten und abgeschlossenen Mengen.

FF Satz von Bolzano-Weierstrass

FF Maximumsprinzip

In diesem Abschnitt definieren wir einen weiteren topologischen Grundbegriff, der es uns ermöglicht, dasMaximumsprinzip für stetige Funktionen auf metrische Räume zu verallgemeinern.

(2.66) Definition Sei I eine Menge, (X, d) ein metrischer Raum und A ⊆ X eine Teilmen-ge. Eine offene Überdeckung von A ist eine Familie (Ui)i∈I offener Teilmengen Ui ⊆ X mitder Eigenschaft

⋃i∈I Ui ⊇ A.

Überdeckung einer Menge Q durch drei offene Mengen U1, U2, U3

Für n ∈ Z sei beispielsweise Un = ]n, n+ 2[ und Vn = ]n, n+ 1[. Dann ist (Un)n∈Z eine offene Überdeckungvon R, die Familie (Vn)n∈Z aber nicht, denn die Teilmenge Z ⊆ R ist in

⋃n∈Z Vn nicht enthalten.

(2.67) Definition Sei (X, dX) ein metrischer Raum. Eine Teilmenge A ⊆ X wird kompaktgenannt, wenn zu jeder offenen Überdeckung (Ui)i∈I vonA eine endliche Teilmenge J ⊆ Iexistiert, so dass bereits

⋃i∈J Ui ⊇ A erfüllt ist. Den metrischen Raum selbst bezeichnen

wir als kompakt, wenn die Teilmenge A = X in (X, dX) kompakt ist.

Häufig verwendet man für die Kompaktheit von A die Formulierung „In jeder offenen Überdeckung von A

gibt es eine endliche Teilüberdeckung.“ Dies ist aber nicht einfach damit gleichbedeutend, dassA eine endliche

—– 65 —–

Page 66: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

offene Überdeckung besitzt. Letzteres trifft für jede Teilmenge A ⊆ X zu: Die einelementige Familie (Ui)i∈{1}

gegeben durch U1 = X ist offensichtlich eine Überdeckung vonA. Bei der Definition der Kompaktheit liegt dieBetonung darauf, dass in jeder offenen Überdeckung von A eine endliche Teilüberdeckung gewählt werdenkann.

Schauen wir uns nun einige Beispiele und Gegenbeispiele für kompakte Mengen an.

(2.68) Proposition Sei (X, dX) ein metrischer Raum und A ⊆ X eine endliche Teilmenge.Dann ist A kompakt.

Beweis: Sei r ∈ N0, und seien a1, ..., ar die verschiedenen Elemente von A. Sei außerdem (Ui)i∈I eine offeneÜberdeckung von A. Wegen ak ∈ A und A ⊆

⋃i∈I Ui gibt es für jedes k ∈ {1, ..., r} ein i(k) ∈ I mit ak ∈ Ui(k).

Setzen wir J = {i(1), ..., i(r)}, dann ist⋃i∈J Ui ⊇ A offenbar erfüllt. �

(2.69) Proposition Die MengeR im metrischen Raum (R, d) mit der Metrik d(x, y) = |x−y|für x, y ∈ R ist nicht kompakt.

Beweis: Die Familie (Un)n∈Z gegeben durch Un = ]n, n+ 2[ ist eine offene Überdeckung von R. In (Un)n∈Z

kann aber keine endliche Teilüberdeckung gewählt werden, denn jede Vereinigung der Form Un1∪ ... ∪ Unr

mit r ∈ N0 und n1, ..., nr ∈ Z hat nur endlichen Durchmesser und enthält somit nicht ganz R. �

(2.70) Proposition Sei (x(n))n∈N eine konvergente Folge in einem metrischen Raum (X, d)

mit Grenzwert a = limn x(n). Dann ist die Menge A = {x(n) | n ∈ N} ∪ {a} kompakt.

Beweis: Sei (Ui)i∈I eine offene Überdeckung von A. Dann gibt es insbesondere ein i0 ∈ I mit a ∈ Ui0 , undUi0 ist eine Umgebung von a. Auf Grund der Konvergenz finden wir somit ein N ∈ N mit x(n) ∈ Ui0 für allen ≥ N . Für jedes n ∈ N mit n < N gibt es außerdem auf Grund der Überdeckungseigenschaft ein in ∈ I mitx(n) ∈ Uin . Ein Folgenglied x(n) liegt für n < N also in Uin und für n ≥ N in Ui0 . Dies zeigt, dass die endlicheIndexmenge J = {i0, i1, ..., iN−1} eine endliche Teilüberdeckung von (Ui)i∈I definiert. �

Nimmt man aus der Menge A den Grenzwert a heraus, so erhält man im allgemeinen keine kompakte Mengemehr. Ist die Folge beispielsweise durch x(n) = 1

n für alle n ∈ N gegeben, dann in der Überdeckung (Un)n∈N

mit Un =]

12n ,

32n

[für n ∈ N keine endliche Teilüberdeckung.

(2.71) Definition Ein abgeschlossener Quader in Rn ist eine Teilmenge Q ⊆ Rn der FormQ = I1 × ...× In, wobei Ik ⊆ R für 1 ≤ k ≤ n jeweils ein abgeschlossenes Intervall [ak, bk]

mit ak < bk bezeichnet.

Man überprüft leicht, dass jeder abgeschlossene Quader dieser Form eine abgeschlossene Teilmenge von Rn

ist. Der Durchmesser d(Q) vonQ bezüglich der Maximums-Norm ‖·‖∞ ist gegeben durch d(Q) = max{bk−ak |1 ≤ k ≤ n}.

(2.72) Satz Jeder abgeschlossene Quader Q ⊆ Rn ist kompakt.

—– 66 —–

Page 67: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Nehmen wir an, dass Q nicht kompakt ist. Dann gibt es in Rn eine offene Überdeckung (Ui)i∈I vonQ, in der aber keine endliche Teilüberdeckung existiert. Wir definieren nun eine absteigende Folge

Q = Q0 ⊇ Q1 ⊇ Q2 ⊇ Q3 ⊇ ...

von abgeschlossenen Quadern in Rn mit d(Qm) = 2−md(Q), so dass keiner dieser Quader in (Ui)i∈I eineendliche Teilüberdeckung besitzt. Sei m ∈ N0 und Qm bereits definiert, wobei Qm = 2−md(Q) gilt und Qm

keine endliche Teilüberdeckung in (Ui)i∈I besitzt. Dann erhalten wir Qm+1 durch das folgende Verfahren: IstQm = I1 × ... × In mit abgeschlossenen Intervallen Ik = [ak, bk], dann zerlegen wir das Intervall Ik jeweils indie beiden Teilstücke

I(1)k = [ak,mk] und I

(2)k = [mk, bk] ,

wobei mk = 12 (ak + bk) den Mittelpunkt von Ik bezeichnet. Für jedes Tupel s = (s1, ..., sn) ∈ {1, 2}n sei

Q(s) = I(s1)1 × ...× I(sn)

n . Auf diese Weise haben wir Qm in insgesamt 2n Teilquader zerlegt. Weil die Intervalle,aus denen Q(s) gebildet wird, jeweils halb so lang wie die Intervalle von Qm sind, gilt d(Q(s)) = 1

2d(Qm) =

2−(m+1)d(Q) für alle s ∈ {1, 2}n. Es gibt mindestens ein t ∈ {1, 2}n, so dass Q(t) in (Ui)i∈I keine endlicheTeilüberdeckung besitzt. Ansonsten könnten wir nämlich die 2s endlichen Überdeckungen der Quader Q(s)

zu einer endlichen Überdeckung von Qm zusammenfügen. Definieren wir nun Qm+1 = Q(t), dann erfülltQm+1 alle angegebenen Bedingungen.

Nun zeigen wir, dass diese Konstruktion zu einem Widerspruch führt. Nach dem Schachtelungsprinzip ((2.63))gibt es ein a ∈ Q mit

⋂m∈NQm = {a}. Weil (Ui)i∈I eine Überdeckung von Q ist, gibt es ein i0 ∈ I mit a ∈ Ui0 .

Sei ε ∈ R+ so klein gewählt, dass Bε(a) in Ui0 enthalten ist, wobei Bε(a) den offenen Ball bezüglich ‖ · ‖∞bezeichnet. Sei m ∈ N mit 2−m < ε. Wir zeigen, dass Qm in Ui0 liegt. Sei x ∈ Qm vorgegeben. Aus a, x ∈ Qmund d(Qm) < 2−m < ε folgt d(a, x) < ε. Dies wiederum bedeutet x ∈ Bε(a) ⊆ Ui0 . Aber die InklusionQm ⊆ Ui0 widerspricht der Annahme, dass Qm nicht durch endlich viele Mengen aus der Familie (Ui)i∈I

überdeckt werden kann. �

(2.73) Satz Sei A eine abgeschlossene Teilmenge eines kompakten metrischen Raums(X, dX). Dann ist A kompakt.

Beweis: Sei (Ui)i∈I eine offene Überdeckung von A. Weil U = X \ A offen ist, bildet (Ui)i∈I zusammen mit Ueine offene Überdeckung von X . Weil X kompakt ist, können wir eine endliche Teilmenge J ⊆ I wählen, sodass (Ui)i∈J zusammen mit U eine endliche Überdeckung von X bildet. Es gilt also

A ⊆ X = U ∪⋃j∈J

Uj = (X \A) ∪⋃j∈J

Uj .

Die Gleichung zeigt A ⊆⋃j∈J Uj , wir haben also eine endliche Teilüberdeckung von A in (Ui)i∈I gefunden.

(2.74) Folgerung Jede beschränkte und abgeschlossene Teilmenge A ⊆ Rn ist kompakt.

—– 67 —–

Page 68: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: WeilA beschränkt ist, gibt es ein r ∈ R+, so dassA im offenen BallBr(0Rn) bezüglich der Maximums-Norm ‖ · ‖∞ enthalten ist. Nach Definition ist der abgeschlossene Ball Br(0Rn) gerade der abgeschlossene Qua-der [−r, r]n, und dieser ist nach (2.72). eine kompakte Teilmenge von Rn. Als abgeschlossene Teilmenge vonBr(0Rn) ist A nach (2.73) ebenfalls kompakt. �

Kompakte Teilmengen metrischer Räume lassen sich auch durch das Konvergenzverhalten von Folgen be-schreiben.

(2.75) Definition Ein Punkt x in einem metrischen Raum (X, dX) wird Häufungspunkteiner Teilmenge A ⊆ X genannt, wenn in jeder Umgebung von x jeweils unendlich vieleElemente aus A liegen.

In Analogie zu den endlichen, abgeschlossenen Intervallen von I gilt nun

(2.76) Satz (Satz von Bolzano-Weierstraß)Jede Folge in einem kompakten metrischen Raum (X, dX) besitzt eine konvergente Teilfol-ge.

Beweis: Sei (x(n))n∈N eine Folge in X . Ist die Menge A = {x(n) | n ∈ N} der Folgenglieder endlich, dann gibtes ein a ∈ A mit x(n) = a für unendlich viele n ∈ N. Wir finden dann eine Folge (nk)k∈N natürlicher Zahlenmit x(nk) = a für alle k ∈ N. Damit ist (x(nk))k∈N eine konstante, insbesondere eine konvergente Teilfolge von(x(n))n∈N.

Setzen wir von nun an voraus, dass A eine unendliche Menge ist. Wir beweisen, dass A unter dieser Voraus-setzung einen Häufungspunkt besitzt. Wäre dies nicht der Fall, dann gäbe es für jedes x ∈ X eine UmgebungUx ⊆ X , so dass die Menge Ux ∩ A jeweils endlich ist. Die Familie (Ux)x∈X bildet eine Überdeckung von A.Auf Grund der Kompaktheit existiert eine endliche Teilmenge J ⊆ X , so dassA bereits von (Ux)x∈J überdecktwird. Aber dies würde bedeuten, dass

A = A ∩X = A ∩

(⋃x∈J

Ux

)=

⋃x∈J

(A ∩ Ux)

eine endliche Menge ist, im Widerspruch zur Annahme. Sei a ∈ X also ein Häufungspunkt von A. Dannenthält B1/k(a) für jedes k ∈ N jeweils unendlich viele Folgenglieder, wir finden also ein nk ∈ N mit x(nk) ∈B1/k(a). Nach Konstruktion konvergiert die Teilfolge (x(nk))k∈N dann gegen den Punkt a. �

(2.77) Folgerung Jede beschränkte Folge in Rn besitzt eine konvergente Teilfolge.

Beweis: Dies folgt aus dem Satz von Bolzano-Weierstraß, weil jede beschränkte Folge in einem hinreichendgroß gewählten kompakten Quader enthalten ist. �

—– 68 —–

Page 69: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.78) Folgerung Jede kompakte Teilmenge A ⊆ X eines metrischen Raums (X, dX) istbeschränkt und abgeschlossen.

Beweis: Nehmen wir an, A wäre nicht beschränkt. Dann wählen wir einen beliebigen Punkt a ∈ A und defi-nieren eine offene Überdeckung von A durch (Un)n∈N durch Un = Bn(a) für alle n ∈ N. Da A unbeschränktist, gibt es in dieser offenen Überdeckung keine endliche Teilüberdeckung. Also ist A nicht kompakt, im Wi-derspruch zur Annahme.

Gehen wir nun davon aus, dass A nicht abgeschlossen ist. Dann gibt es nach (2.61) eine Folge (x(n))n∈N miteinem Grenzwert x ∈ X , der außerhalb von A liegt. Jede Teilfolge von (x(n))n∈N konvergiert dann ebenfallsgegen x. Aber nach dem Satz von Bolzano-Weierstraß gibt es eine Teilfolge, die gegen einen Punkt in A kon-vergiert. Weil eine Folge nicht gegen zwei verschiedene Punkt konvergieren kann (siehe (2.14)), erhalten wirauch hier einen Widerspruch. �

Zusammen mit (2.74) erhalten wir

(2.79) Satz (Satz von Heine-Borel)

Eine Teilmenge A ⊆ Rn ist genau dann kompakt, wenn sie beschränkt und abgeschlossenist.

Abeschlossene und beschränkte Teilmengen allgemeiner metrischer Räume sind nicht notwendigerweise auchkompakt. Beispielsweise gilt

(2.80) Proposition Sei X eine unendliche Menge und δX die diskrete Topologie auf X .Dann ist X zwar beschränkt und abgeschlossen, aber nicht kompakt.

Beweis: Weil δX nur die Werte 0 und 1 annimmt, gilt d(X) = 1 für den Durchmesser von X . Also ist X be-schränkt. Wie in jedem metrischen Raum ist die Gesamtmenge X abgeschlossen. Darüber hinaus ist, wie wirin 2.4 gesehen haben, jede Teilmenge eines diskreten metrischen Raums offen und damit auch abgeschlossen.Andererseits ist X nicht kompakt. Weil nämlich jede Teilmenge von X offen ist, erhalten wir durch ({x})x∈Xeine offene Überdeckung von X . Weil aber X unendlich ist, können wir in ({x})x∈X keine endliche Teilüber-deckung wählen. �

(2.81) Satz Sei f : X → Y eine stetige Abbildung zwischen metrischen Räumen, wobeiX kompakt sei. Dann ist auch die Bildmenge f(X) kompakt.

Beweis: Sei (Vi)i∈I eine offene Überdeckung von f(X). Dann sind die Urbildmengen Ui = f−1(Vi) auf Grundder Stetigkeit von f offen (siehe (2.55)), und sie bilden eine Überdeckung des Definitionsbereichs X der Ab-bildung. Weil X kompakt ist, gibt es eine endliche Teilmenge J ⊆ I , so dass X bereits von (Ui)i∈J überdecktwird. Dann ist (Vi)i∈J eine Überdeckung von f(X). Ist nämlich y ∈ f(X) vorgegeben, dann existiert ein x ∈ Xmit f(x) = y und ein i ∈ J mit x ∈ Ui = f−1(Vi). Es folgt dann y = f(x) ∈ Vi. �

—– 69 —–

Page 70: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(2.82) Satz (Maximumsprinzip)

Jede stetige, reellwertige Funktion f : X → R auf einem kompakten metrischen Raum X

ist beschränkt und nimmt auf X ihr Maximum und Minimum an.

Beweis: Nach (2.81) ist f(X) ⊆ R beschränkt und abgeschlossen. Weil f(X) beschränkt ist, besitzt diese Mengeein Infimum m− und ein Supremum m+. Nehmen wir an, dass m+ nicht in f(X) liegt. Dann gibt es nachDefinition des Supremums eine Folge (y(n))n∈N in f(X) mit limn y

(n) = m+. Aber weil f(X) abgeschlossenist, muss nach (2.61) auch der Grenzwert m+ in f(X) liegen. Genauso beweist man m− ∈ f(X). �

(2.83) Definition Eine Abbildung f : X → Y zwischen metrischen Räumen (X, dX) und(Y, dY ) wird gleichmäßig stetig auf X genannt, wenn für jedes ε ∈ R+ ein δ ∈ R+ existiert,so dass die Implikation dX(x, y) < δ ⇒ dY (f(x), f(y)) < ε für alle x, y ∈ X erfüllt ist.

(2.84) Satz Sei f : X → Y eine stetige Abbildung zwischen metrischen Räumen, wobeiX kompakt sei. Dann ist f sogar gleichmäßig stetig auf X .

Beweis: Sei ε ∈ R+ vorgegeben. Weil f auf X stetig ist, können wir für jeden Punkt a ∈ X das ε-δ-Kriterium((2.29)) anwenden und erhalten ein δa ∈ R+, so dass die Implikation dX(a, x) < δa ⇒ dY (f(a), f(x)) < 1

für alle x ∈ X erfüllt ist. Lassen wir a die gesamte Menge X durchlaufen, dann bilden die offenen Bälle Ua =

B 12 δa

(a) bilden einen offene Überdeckung von X . Weil X kompakt ist, können wir eine endliche TeilmengeJ ⊆ X wählen, so dass X bereits durch die Mengen Ua mit a ∈ J überdeckt wird.

Sei nun δ = min{ 12δa∣∣a ∈ J}, und seien x, y ∈ X mit dX(x, y) < δ vorgegeben. Auf Grund der Überdeckungs-

eigenschaft finden wir ein a ∈ J mit x ∈ Ua. Es folgt dX(a, x) < 12δa, und zusammen mit dX(x, y) < δ ≤ 1

2δa

erhalten wir dX(a, y) < δa. Aus dX(a, x) < 12δa < δa folgt dY (f(a), f(x)) < 1

2ε, und aus dX(a, y) < δa folgtdY (f(a), f(y)) < 1

2ε. Mit der Dreiecksungleichung erhalten wir insgesamt dY (f(x), f(y)) ≤ dY (f(a), f(x)) +

dY (f(a), f(y)) < 12ε+ 1

2ε = ε. �

—– 70 —–

Page 71: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

2.6 Zusammenhang

Inhaltsübersicht

FF Definition zusammenhängender Teilmengen eines metrischen Raums

FF Die Intervalle sind die zusammenhängenden Teilmengen vonR.

FF Zwischenwertsatz für stetige Funktionen auf zusammenhängenden Teilmengen

FF Definition wegzusammenhängender Mengen(Es gilt „wegzusammenhängend⇒ „zusammenhängend“, aber nicht die Umkehrung.)

FF konvexe Teilmengen normierterR-Vektorräume als Beispiel für Wegzusammenhang

(2.85) Definition Sei (X, dX) ein metrischer Raum. Eine Teilmenge A ⊆ X wird zu-sammenhängend genannt, wenn es keine disjunkten, nichtleeren, und in A relativ offenenMengen U, V ⊆ A mit A = U ∪ V gibt.

Wir bezeichnen den metrischen Raum (X, dX) selbst als zusammenhängend, wenn die Teilmenge A = X zu-sammenhängend ist.

(2.86) Proposition Eine Teilmenge A eines metrischen Raums (X, dX) ist genau dannzusammenhängend, wenn ∅ undA die einzigen Teilmengen vonA sind, die sowohl relativoffen als auch relativ abgeschlossen in A sind.

Beweis: Wir beweisen beide Richtungen durch Kontraposition. „⇒“ Angenommen, es gibt eine TeilmengeU ⊆ A mit U 6= ∅, A, die sowohl relativ offen als auch relativ abgeschlossen in A ist. Dann ist auch V = A \ Uin A relativ offen, und es gilt V 6= ∅. Somit ist durch A = U ∪ V eine Zerlegung von A in disjunkte, nichtleere,in A relativ offene Mengen gegeben.

„⇐“ Sei A = U ∪ V eine Zerlegung von A in nichtleere, disjunkte, in A relativ offene Mengen. Neben U 6= ∅gilt auch U 6= A, dennansonsten wäre V = ∅. Also ist U eine in A relativ offene Menge ungleich ∅ und A. �

Die Teilmenge A = {(x, 1x ) | 0 6= x ∈ R} ⊆ R2} ist nicht zusammenhängend. Ist nämlich R− die Menge der

negativen reellen Zahlen, U = R−×R und V = R+×R, dann ist A = U ′ ∪V ′ mit U ′ = U ∩A und V ′ = V ∩Aeine Zerlegung von A in disjunkte, nichtleere und in A relativ offene Teilmengen.

Nach unserer Definition aus der Analysis einer Variablen wird eine Teilmenge I ⊆ R als Intervall bezeichnet,wenn mit a, b ∈ I auch [a, b] in I enthalten ist.

(2.87) Satz Sei M ⊆ R eine Menge, die mindestens zwei verschiedene Elemente enthält.Genau dann ist M eine zusammenhängende Teilmenge von R, wenn M ein Intervall ist.

—– 71 —–

Page 72: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: „⇐“ Angenommen,M ist ein Intervall. SeiM = U ∪V eine Zerlegung vonM in disjunkte, nichtleereund in M relativ offene Teilmengen. Sei u ∈ U und v ∈ V ; aus Symmetriegründen können wir u < v voraus-setzen. Weil M ein Intervall ist, gilt [u, v] ⊆M , und U ′ = [u, v]∩U , V ′ = [u, v]∩ V ist eine Zerlegung von [u, v]

in disjunkte, nichtleere Teilmengen, die beide in [u, v] relativ offen sind. Sei nun s = supU ′. Dann gibt es in U ′

eine Folge (s(n))n∈N, die gegen s konvergiert. Weil U ′ als Komplement von V ′ in [u, v] relativ abgeschlossenist, liegt s als Grenzwert der Folge in U ′. Nach Definition des Supremums gilt x /∈ U ′ und somit x ∈ V ′ für allex ∈ [u, v] mit x > s. Andererseits gibt es auf Grund der relativen Offenheit von U ′ in [u, v] ein ε ∈ R+, so dass[s, s + ε[ noch in U ′ enthalten ist. Dies würde bedeuten, dass zum Beispiel s + 1

2ε sowohl in U ′ als auch in V ′

liegt, im Widerspruch dazu, dass U ′ und V ′ disjunkt sind.

„⇒“ Nehmen wir an, M ist zusammenhängend, aber kein Intervall. Dann gibt es zwei verschiedene Punkteu, v ∈ M mit u < v und einen Punkt s ∈ [u, v], der nicht in M liegt. Wir definieren nun U = ]−∞, s[ undV = ]s,+∞[. Dann ist M = (U ∩M)∪ (V ∩M) eine Zerlegung von M in disjunkte, nichtleere Teilmengen, diein M relativ offen sind. Dies widerspricht der Annahme, dass M zusammenhängend ist. �

(2.88) Proposition Seien (X, dX) und (Y, dY ) metrische Räume und A ⊆ X zusammen-hängend. Sei f : X → Y eine stetige Abbildung. Dann ist f(A) eine zusammenhängendeTeilmenge von Y .

Beweis: Angenommen, es gibt nichtleere, disjunkte Teilmengen U, V ⊆ f(A) , die in f(A) relativ offen sind.Dann gibt es offene Teilmengen U , V ⊆ Y mit U = U ∩ f(A) und V = V ∩ f(A). Weil f stetig ist, sind dieUrbildmengen f−1(U) und f−1(V ) offen inX , nach (2.55). Die Mengen U ′ = f−1(U)∩A und V ′ = f−1(V )∩Asind dann relativ offen in A. Weil U ∩ f(A) nichtleer ist, gilt dasselbe für U ′, ebenso ist V ′ nichtleer. WärenU ′ und V ′ nicht disjunkt, dann hätten auch die Mengen U und V einen gemeinsamen Punkt, im Widerspruchzur Voraussetzung. Insgesamt haben wir also A in nichtleere disjunkte, in A relativ offene Teilmengen zerlegt.Aber dies widerspricht der Voraussetzung, dass A zusammenhängend ist. �

(2.89) Satz (Zwischenwertsatz)

Sei (X, dX) ein metrischer Raum,A ⊆ X eine zusammenhängende Teilmenge und f : X →R eine stetige Funktion. Seien a, b ∈ A vorgegeben. Dann nimmt f auf A jeden Wert c ∈ Rmit f(a) ≤ c ≤ f(b) an.

Beweis: Nach (2.88) ist f(A) ⊆ R zusammenhängend. Ist f(A) die leere Menge oder besteht f(A) nur auseinem Element, dann ist die Aussage offenbar erfüllt. Andernfalls ist f(A) nach (2.87) ein Intervall. Dies be-deutet, dass mit f(a) und f(b) auch jeder Wert dazwischen in f(A) enthalten ist. �

(2.90) Definition Sei (X, dX) ein metrischer Raum. Eine Teilmenge A ⊆ X heißt weg-zusammenhängend, wenn für beliebige Punkte a, b ∈ A jeweils eine stetige Abbildungγ : [0, 1] → A mit γ(0) = a und γ(1) = b existiert. Man bezeichnet γ als Weg, der diePunkte a und b verbindet.

—– 72 —–

Page 73: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Ein wichtiger Spezialfall für wegzusammenhängende Mengen sind die konvexen Teilmengen von normiertenR-Vektorräumen.

(2.91) Definition Sei V ein normierter R-Vektorraum, und seien p, q ∈ V . Dann ist dieVerbindungsstrecke zwischen p und q die Menge [p, q] = {(1 − t)p + tq | t ∈ [0, 1]}. EineTeilmenge A ⊆ V wird konvex genannt, wenn für alle p, q ∈ A jeweils [p, q] ⊆ A gilt.

Einfache Beispiele konvexer Teilmengen sind die offenen und abgeschlossenen Bälle in einem metrischenRaum.

(2.92) Proposition Sei V ein normierter R-Vektorraum. Dann ist jeder offene und jederabgeschlossene Ball in V konvex.

Beweis: Wir beschränken uns auf den offenen Fall. Sei a ∈ V , r ∈ R+ und A = Br(a) = {x ∈ V | ‖x− a‖ < r}.Seien außerdem p, q ∈ Br(a) vorgegeben; zu zeigen ist [p, q] ⊆ A. Wegen p, q ∈ Br(a) gilt ‖p − a‖ < r und‖q − a‖ < r. Sei nun z ∈ [p, q]. Dann gibt es nach Definition der Verbindungsstrecke ein t ∈ [0, 1] mit z =

(1− t)p+ tq. Aus der Dreiecksungleichung folgt

‖z − a‖ = ‖(1− t)p+ tq − a‖ = ‖(1− t)(p− a) + t(q − a)‖ ≤ (1− t)‖p− a‖+ t‖q − a‖

< (1− t)r + tr = r.

Also ist z in Br(a) enthalten. �

Jede konvexe Teilmenge A in einem R-Vektorraum V ist wegzusammenhängend: Seien p, q ∈ A beliebig vor-gegebene Punkte. Weil die Verbindungsstrecke [p, q] vollständig in A liegt, können wir durch γ : [0, 1] → A,t 7→ (1− t)p+ tq einen in A verlaufenden Weg definieren, der die Punkte p und q verbindet.

(2.93) Proposition Jeder wegzusammenhängende Teilmenge A ⊆ X eines metrischenRaums (X, dX) ist zusammenhängend.

Beweis: Angenommen,A = U ∪V ist eine Zerlegung vonA in nichtleere, disjunkte, inA relativ offene MengenU, V . Dann wählen wir Punkte p ∈ U , q ∈ V und verbinden diese durch einen Weg γ : [0, 1] → A. Nun istγ−1(U)∪γ−1(V ) = [0, 1] eine Zerlegung des Intervalls [0, 1] in nichtleere und disjunkte Mengen: disjunkt, weildie Mengen U und V disjunkt sind, und nichtleer wegen 0 ∈ γ−1(U) und 1 ∈ γ−1(V ). Weil γ stetig ist, sinddie Teilmengen γ−1(U) und γ−1(V ) nach (2.55) offen in [0, 1]. Weil aber [0, 1] als metrischer Raum nach (2.87)zusammenhängend ist, kann es eine solche Zerlegung nicht geben. �

—– 73 —–

Page 74: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

§ 3. Differenzierbarkeit mehrdimensionaler Funktionen

3.1 Partielle Differenzierbarkeit und Richtungsableitungen

Inhaltsübersicht

FF Definition der partiellen Ableitungen und Richtungsableitungen

FF Mittelwertsatz für Richtungsableitungen

FF höhere partielle Ableitungen

FF Vertauschbarkeit der partiellen Ableitungen (Satz von Schwarz)

Sei n ∈ N, U ⊆ Rn eine offene Teilmenge und f : U → R eine reellwertige Funktion. Unser Ziel bestehtdarin, das Änderungsverhalten von f in der Umgebung eines Punktes a = (a1, ..., an) ∈ U in Abhängigkeitvon der i-ten Koordinate zu untersuchen, für 1 ≤ i ≤ n. Sei dazu φi : R → Rn gegeben durch φi(t) =

(a1, ..., ai−1, t, ai+1, ..., an). Weil φi stetig und U offen ist, ist auch φ−1i (U) ⊆ R eine offene Teilmenge. Es gibt

also ein ε ∈ R+ mit φi(]ai − ε, ai + ε[) ⊆ U . Dies bedeutet, dass die Funktion f ◦ φi auf dem offenen Intervall]ai − ε, ai + ε[ definiert ist. Explizit gegeben ist f ◦ φi gegeben durch (f ◦ φi)(t) = f(a1, ..., ai−1, t, ai+1, ..., an).

Die partiellen Ableitungen geben die Steigung einer Funktion in x- und y-Richtung an.

(3.1) Definition Seien alle Bezeichnungen wie im vorhergehenden Text definiert. Wenndie Ableitung der Funktion f ◦ φi : ]ai − ε, ai + ε[ → R im Punkt ai existiert, dann nenntman

∂if(a) = (f ◦ φi)′(ai)

die partielle Ableitung von f bezüglich der i-ten Koordinate.

—– 74 —–

Page 75: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Die partielle Ableitung ∂if(a) ist also einfach die gewöhnliche Ableitung der Funktion t 7→ f(a1, ..., t, ..., an)

im Punkt ai, wie sie in der Analysis einer Variablen definiert wurde. Wird f in Abhängigkeit von Variablen x,y, ... dargestellt, zum Beispiel in der Form f(x, y) = x2 + 2xy+ y2, dann verwendet man an Stelle von ∂1f und∂2f auch die Bezeichnungen ∂f/∂x und ∂f/∂y für die partiellen Ableitungen.

Nach Definition ist also ∂1f(x, y) die Ableitung von t 7→ f(t, y) im Punkt x, und ∂2f(x, y) ist die Ableitungvon t 7→ f(x, t) im Punkt y.

(3.2) Definition Existieren im Punkt a die partiellen Ableitungen bezüglich aller n Ko-ordinaten, dann wird f partiell differenzierbar im Punkt a genannt. Man bezeichnet dieFunktion f insgesamt als partiell differenzierbar, wenn sie in jedem Punkt ihres Definiti-onsbereich U partiell differenzierbar ist.

Beispiel 1: Sei f : R2 → R gegeben durch f(x, y) = 2x2 + 7y2 + 5y und p = (x, y) ∈ R2 ein beliebiggewählter Punkt. Um ∂1f(p) zu berechnen, müssen wir die Ableitung der Funktion t 7→ f(t, y) im Punkt t = x

bestimmen. Es giltf(t, y) = 2t2 + 7y2 + 5y

für alle t ∈ R, und die Ableitung dieser Funktion ist t 7→ 4t. Also ist ∂1f(x, y) = 4x. Zur Berechnung von∂2f(x, y) betrachten wir die Funktion t 7→ f(x, t). Es gilt f(x, t) = 2x2 + 7t2 + 5t, und die Ableitung istt 7→ 14t+ 5. Wir erhalten somit ∂2f(x, y) = 14y + 5.

Man erkennt an dem Beispiel das einfache Prinzip, mit dem partielle Ableitungen berechnet werden. Manbetrachtet ein xi als Funktionsvariable, die übrigen als Konstanten, und führt dann die gewöhnliche Ableitungeiner eindimensionalen Funktion durch.

Beispiel 2: Sei f : R2 → R definiert durch f(x, y) = sin(2x)e3y . Dann sind die partiellen Ableitungen von fgegeben durch ∂1f(x, y) = 2 cos(2x)e3y und ∂2f(x, y) = 3 sin(2x)e3y .

—– 75 —–

Page 76: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Für die partiellen Ableitungen einer Funktion f : U → R in einem Punkt a ∈ U gibt es die folgende alternativeBeschreibung. Sei die Funktion φi : ]ai − ε, ai + ε[ → Rn wie oben definiert. Nach Definition der partiellenAbleitung gilt ∂if(a) = (f ◦ φi)′(ai). Wir bezeichnen nun mit e1, ..., en die Einheitsvektoren im Rn, und defi-nieren eine weitere Hilfsfunktion ψ : ]−ε, ε[→ Rn durch ψ(t) = a+ tei. Dann gilt ψ(t) = (a1, ..., t+ai, ..., an) =

φ(t+ ai), also ψ = φ ◦ τai mit τai : R→ R, t 7→ t+ ai. Mit der Kettenregel erhalten wir

(f ◦ ψ)′(0) = ((f ◦ φi) ◦ τai)′(0) = (f ◦ φi)′(τai(0))τ ′(0) = (f ◦ φi)′(ai) · 1 = ∂if(a).

Die Auftreten der Hilfsfunktion ψ(t) = a+tei im Zusammenhang mit der partiellen Ableitung ∂if(a) lässt sichfolgendermaßen interpretieren: Die partielle Ableitung ∂if(a) gibt an, wie sich der Funktionswert f(a) verän-dert, wenn man den Punkt a „in Richtung des Einheitsvektors ei“ bewegt. Natürlich ist auch eine Änderungvon a in Richtung jedes anderen Vektors v ∈ Rn denkbar. Dies motiviert die folgende Definition.

(3.3) Definition Sei V ein endlich-dimensionaler R-Vektorraum. Sei U ⊆ V eine offeneTeilmenge und f : U → R eine reellwertige Funktion. Sei a ∈ U , v ∈ V und ε ∈ R+ sogewählt, dass für die Funktion ψ : R → V , t 7→ a + tv die Inklusion ψ(]−ε, ε[) ⊆ U erfülltist. Ist die Funktion f ◦ ψ im Punkt 0 differenzierbar, dann nennt man

∂vf(a) = (f ◦ ψ)′(0)

die Richtungsableitung von f im Punkt a in Richtung v.

Die Richtungsableitung gibt das Änderungsverhalten der Funktion f an, das sich dadurch ergibt, dass mansich vom Punkt a aus in Richtung des Vektors v bewegt.

Beispiel 3: Sei f : R2 → R gegeben durch f(x, y) = 2x2 + 7y2 + 5y für alle (x, y) ∈ R2. Wir bestimmen dieAbleitung von f im Punkt (x, y) in Richtung des Vektors v = (1, 1). Diese ist gegeben durch die Ableitung derFunktion f ◦ψ im Punkt 0, mit der Hilfsfunktion ψ : R→ R2, t 7→ (x, y)+tv. Dabei ist (x, y)+tv = (x+t, y+t).Den Wert der Ableitung erhält man nun durch die Rechnungen

(f ◦ ψ)(t) = f(x+ t, y + t) = 2(x+ t)2 + 7(y + t)2 + 5(y + t)

= 2x2 + 4xt+ 2t2 + 7y2 + 14yt+ 7t2 + 5y + 5t

und (f ◦ ψ)′(t) = 4x + 4t + 14y + 14t + 5 für alle t ∈ R. Wir erhalten ∂(1,1)(x, y) = (f ◦ ψ)′(0) = 4x + 14y + 5.Ein Vergleich mit dem Ergebnis von oben zeigt, dass es sich um die Summe ∂1f(x, y) + ∂2f(x, y) der beidenpartiellen Ableitungen handelt.

Wir wiederholen die Rechnung noch einmal mit einem beliebigen Richtungsvektor v = (a, b) ∈ R2. In diesemFall müssen wir die Ableitung der Funktion (f ◦ ψ)(t) = f(x+ ta, y + tb) = 2(x+ ta)2 + 7(y + tb)2 + 5(y + tb)

an der Stelle 0 bestimmen. Es gilt (f ◦ ψ)′(t) = 4a(x+ ta) + 14b(y + tb) + 5b und somit

∂vf(x, y) = (f ◦ ψ)′(0) = 4ax+ 14by + 5b = a · ∂1f(x, y) + b · ∂2f(x, y). �

—– 76 —–

Page 77: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Wir leiten nun einige allgemeine Regeln für das Rechnen mit Richtungsableitungen her.

(3.4) Lemma Sei V ein endlich-dimensionalerR-Vektorraum, U ⊆ V offen. Sei v ∈ V , undseien f, g : U → R reellwertige Funktionen.

(i) Ist f konstant, dann gilt ∂vf(x) = 0 für alle x ∈ U .

(ii) Ist x ∈ U ein Punkt mit der Eigenschaft, dass die Richtungsableitungen ∂vf(x)

und ∂vg(x) existieren, dann existiert auch ∂v(f + g)(x) und ∂v(fg)(x), und esgilt

∂v(f+g)(x) = ∂vf(x)+∂vg(x) und ∂v(fg)(x) = f(x)∂vg(x)+g(x)∂vf(x).

(iii) Existiert ∂vf(x) im Punkt x ∈ U , dann existiert auch ∂cvf(x) für alle c ∈ R,und es gilt ∂cvf = c ∂vf .

Beweis: Sei x ∈ U , und sei ε ∈ R+ hinreichend klein gewählt, so dass x + tv ∈ U für alle t ∈ ]−ε, ε[ gilt. Seiaußerdem ψ : R→ V definiert durch ψ(t) = x+ tv für alle t ∈ R. Nach Definition der Richtungsableitung gilt∂vf(x) = (f ◦ ψ)′(0) und ∂vg(x) = (g ◦ ψ)′(0).

zu (i) Ist f konstant, dann ist auch f ◦ ψ konstant, und es folgt ∂vf(x) = φ′(0) = 0.

zu (ii) Nach Definition der punktweisen Summe zweier Funktionen gilt (f + g)◦ψ = (f ◦ψ) + (g ◦ψ). Mit derSummenregel erhalten wir ∂v(f + g)(x) = ((f ◦ ψ) + (g ◦ ψ))′(0) = (f ◦ ψ)′(0) + (g ◦ ψ)′(0) = ∂vf(x) + ∂vg(x).Ebenso gilt (fg) ◦ ψ = (f ◦ ψ)(g ◦ ψ). Die Produktregel liefert somit

∂v(fg) = ((f ◦ ψ)(g ◦ ψ))′(0) = (f ◦ ψ)′(0)(g ◦ ψ)(0) + (f ◦ ψ)(0)(g ◦ ψ)′(0)

= ∂vf(x) · g(x) + f(x) · ∂vg(x).

zu (iii) Sei ψc : R → V definiert durch ψc(t) = x + ctv und εc ∈ R+ so gewählt, dass ψc(]−εc, εc[) ⊆ U gilt.Wegen ψc(t) = ψ(ct) gilt ψc = ψ ◦ πc mit πc : R → R gegeben durch πc(t) = ct für alle t ∈ R. Nach Definitionder Richtungsableitung gilt ∂cvf(x) = (f ◦ ψc)(t). Die Kettenregel aus der Analysis einer Variablen liefert nun

∂cvf(x) = (f ◦ ψc)′(0) = ((f ◦ ψ) ◦ πc)′(0) = (f ◦ ψ)′(πc(0))π′c(0) = ∂vf(x) · c. �

Das letzte Beispiel wirft die Frage auf, ob sich allgemein jede Richtungsableitung als Linearkombination derpartiellen Ableitungen darstellen lässt. Wir werden im nächsten Abschnitt untersuchen, welche Bedingung dieFunktion f erfüllen muss, damit dies der Fall ist. Bei einer beliebigen Funktion ist es jedenfalls möglich, dassdie partiellen Ableitungen sehr wenig mit den sonstigen Richtungsableitungen zu tun haben, wie das folgendeBeispiel zeigt.

—– 77 —–

Page 78: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beispiel 4: Sei die Funktion f : R2 → R gegeben durch

f(x, y) =

2x für y = 0

3y für x = 0

0 sonst.

Dann gilt ∂1f(0, 0) = 2, ∂2f(0, 0) = 3, aber für v /∈ 〈e1〉R ∪ 〈e2〉R ist ∂vf(0, 0) = 0. Man beachte, dass f imNullpunkt stetig, aber in allen übrigen Punkten der x- und der y-Achse unstetig ist.

Die Existenz der Richtungsableitungen in einem Punkt a sagt im allgemeinen auch wenig über das Verhaltender Funktion in diesem Punkt aus. Es kann beispielsweise vorkommen, dass sämtliche Richtungsableitungenin einem Punkt a existieren, ohne das die Funktion im Punkt a stetig ist. Wir betrachten dazu das folgendeBeispiel.

Beispiel 5: Sei die Funktion f : R2 → R definiert durch

f(x, y) =

xy2

x2 + y6für (x, y) 6= (0, 0)

0 für (x, y) = (0, 0).

Dann existiert ∂vf(0, 0) für jedes v ∈ R2, aber f ist in (0, 0) unstetig.

Beweis: Zum Nachweis der ersten Aussage sei v = (a, b) ∈ R2 beliebig vorgegeben. Zur Berechnung von∂vf(0, 0) verwenden wir die Hilfsfunktion ψ(t) = (0, 0) + tv = (ta, tb). Im Fall a 6= 0 gilt für t 6= 0 jeweils

(f ◦ ψ)(t) = f(ta, tb) =(ta)(tb)2

(ta)2 + (tb)6=

t3ab2

t2a2 + t6b6=

tab2

a2 + t4b6,

und diese Gleichung ist auch für t = 0 gültig, da (f ◦ ψ)(0) = f(0, 0) = 0 gilt. Wir bilden nun die Ableitung

(f ◦ ψ)′(t) =(ab2) · (a2 + t4b6)− (tab2) · (4t3b6)

(a2 + t4b6)2=

a3b2 + t4ab8 − 4t4ab8

(a2 + t4b6)2=

a3b2 − 3t4ab8

(a2 + t4b6)2

—– 78 —–

Page 79: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und erhalten ∂vf(0, 0) = (f ◦ ψ)′(0) = a−1b2. Betrachten wir nun den Fall a = 0. Im Fall b 6= 0 gilt für t 6= 0 dieGleichung

(f ◦ ψ)(t) = f(0, tb) =0 · (tb)2

02 + (tb)6= 0

und ebenso (f ◦ ψ)(0) = f(0, 0) = 0. Also gilt in diesem Fall ∂vf(0, 0) = 0. Für v = (0, 0) erhalten wirschließlich ψ(t) = (0, 0) für alle t ∈ R, also (f ◦ ψ)(t) = 0 und damit ebenso ∂vf(0, 0) = 0. Damit ist gezeigt,dass ∂vf(0, 0) für alle v ∈ R2 existiert. Zum Nachweis der Unstetigkeit in (0, 0) betrachten wir die Folge((xn, yn))n∈N gegeben durch (xn, yn) = ( 1

n3 ,1n ), die gegen (0, 0) konvergiert. Es gilt

f(xn, yn) =1n5

1n6 + 1

n6

= 12n.

Die Folge der Funktionswerte f(xn, yn) konvergiert nicht gegen f(0, 0) = 0, also ist f in (0, 0) unstetig.

In vielen Anwendungen werden Funktionen auch mehrfach partiell abgeleitet. Man bezeichnet eine Funkti-on f : U → R auf einer offenen Teilmenge U ⊆ Rn als stetig partiell differenzierbar, wenn die partiellenAbleitungen ∂if für 1 ≤ i ≤ n auf U existieren und stetig sind.

Falls die Funktionen ∂if ihrerseits alle partiell differenzierbar sind, spricht man von einer zweifach partiell dif-ferenzierbaren Funktion. Sind auch die Funktionen ∂i∂jf für 1 ≤ i, j ≤ n wieder stetig, nennt man f zweifachstetig partiell differenzierbar. Auf naheliegende Weise definiert man m-fach (stetig) partiell differenzierbar fürbeliebige m ≥ 3. An Stelle von ∂i1 ...∂imf verwendet man zur Abkürzung auch die Schreibweise ∂i1...imf fürdie höheren partiellen Ableitungen.

Beispiel 6: Wir betrachten wieder die Funktion f(x, y) = sin(2x)e3y mit den beiden partiellen Ableitun-gen ∂1f(x, y) = 2 cos(2x)e3y und ∂2f(x, y) = 3 sin(2x)e3y . Beide sind erneut partiell differenzierbar. Es gilt∂11f(x, y) = −4 sin(2x)e3y , ∂12f(x, y) = ∂21f(x, y) = 6 cos(2x)e3y und ∂22 = 9 sin(2x)e3y .

Das letzte Beispiel scheint darauf hinzudeuten, dass partielle Ableitungen miteinander vertauschbar sind,dass also ∂ijf = ∂jif für 1 ≤ i, j ≤ n gilt. Ohne stärkere Voraussetzungen an die Funktion f als die zweifachepartielle Differenzierbarkeit braucht dies aber nicht zu gelten, wie das folgende Beispiel zeigt.

Beispiel 7: Sei die Funktion f : R2 → R definiert durch

f(x, y) =

x3y − xy3

x2 + y2für (x, y) 6= (0, 0)

0 für (x, y) = (0, 0)

Dann gilt ∂12f(0, 0) 6= ∂21f(0, 0).

—– 79 —–

Page 80: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Zunächst berechnen wir die partiellen Ableitungen ∂1f und ∂2f in den Punkten (x, y) 6= (0, 0). Weildie Funktion in der Umgebung eines solchen Punktes als Quotient zweier Polynome in x und y gegeben ist,können wir hier die gewöhnlichen Ableitungsregeln verwenden, um ∂1f und ∂2f zu bestimmen, wobei wirjeweils eine der Unbekannten als variabel und die andere als Konstante betrachten. Wir erhalten so

∂1f(x, y) =(3x2y − y3) · (x2 + y2)− (x3y − xy3) · (2x)

(x2 + y2)2=

3x4y − x2y3 + 3x2y3 − y5 − 2x4y + 2x2y3

(x2 + y2)2=

x4y + 4x2y3 − y5

(x2 + y2)2.

Mit einer analogen Rechnung bestimmen wir ∂2f(x, y) für (x, y) 6= (0, 0).

∂2f(x, y) =(x3 − 3xy2)(x2 + y2)− (x3y − xy3) · (2y)

(x2 + y2)2=

x5 − 3x3y2 + x3y2 − 3xy4 − 2x3y2 + 2xy4

(x2 + y2)2=

x5 − 4x3y2 − xy4

(x2 + y2)2.

Seien die Funktionen φ1, φ2 : R → R2 gegeben durch φ1(t) = (t, 0) und φ2(t) = (0, t) für alle t ∈ R. Weil dieFunktion f ◦ φ1 konstant Null ist, gilt ∂1f(0, 0) = (f ◦ φ1)′(0) = 0. Ebenso ist f ◦ φ2 konstant Null, und wirerhalten für die partielle Ableitung nach y entsprechend ∂2f(0, 0) = (f ◦ φ2)′(0) = 0. Insgesamt gilt also

∂1f(x, y) =

x4y + 4x2y3 − y5

(x2 + y2)2für (x, y) 6= (0, 0)

0 für (x, y) = (0, 0)

und

∂2f(x, y) =

x5 − 4x3y2 − xy4

(x2 + y2)2für (x, y) 6= (0, 0)

0 für (x, y) = (0, 0)

—– 80 —–

Page 81: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Um nun ∂21f(0, 0) zu bestimmen, betrachten wir die Funktion

(∂1f ◦ φ2)(t) = ∂1f(0, t) =(−t5)

t4= −t.

Wie im Beispiel oben ist darauf zu achten, dass diese Gleichung auch für t = 0 gültig ist. Wir erhalten∂21f(0, 0) = (∂1f ◦ φ2)′(0) = −1. Mit Hilfe der Funktion

(∂2f ◦ φ1)(t) = ∂2f(t, 0) =t5

t4= t

ergibt sich ∂12f(0, 0) = (∂2f ◦ φ1)′(0) = 1, insgesamt also ∂12f(0, 0) 6= ∂21f(0, 0).

Wir untersuchen nun, welche hinreichende Bedingung es für die Vertauschbarkeit der beiden Ableitungengibt. Dazu führen wir die folgende Notation ein: Ist V ein endlich-dimensionaler R-Vektorraum, und sinda, b ∈ V beliebig vorgegeben, dann bezeichnen wir die Menge

[a, b] = {(1− t)a+ tb | 0 ≤ t ≤ 1

als Verbindungsstrecke zwischen a und b. Außerdem setzen wir ]a, b[ = [a, b] \ {a, b}.

(3.5) Satz (Mittelwertsatz für Richtungsableitungen)

Sei V ein endlich-dimensionaler R-Vektorraum, U ⊆ V eine offene Teilmenge und f : U →R eine reellwertige Funktion. Seien a, b ∈ U zwei verschiedene Punkte mit [a, b] ⊆ U undder Eigenschaft, dass die Richtungsableitung ∂vf für v = b − a auf ganz U existiert. Danngibt es ein p ∈ ]a, b[ mit

f(b)− f(a) = ∂vf(p).

Beweis: Sei ψ : R→ V gegeben durch ψ(t) = (1− t)a+ tb für alle t ∈ R. Wir werden gleich den Mittelwertsatzaus der Analysis einer Variablen auf die Funktion (f ◦ ψ)|[0,1] : [0, 1] → R anwenden. Dafür müssen wir aberdiese Funktion mit der Richtungsableitung ∂vf in Verbindung bringen und beweisen, dass

∂vf(pu) = (f ◦ ψ)′(u) für alle u ∈ ]0, 1[ gilt,

wobei der Punkt pu ∈ [a, b] durch pu = (1−u)a+ub definiert ist. Sei also u ∈ ]0, 1[ vorgegeben. Nach Definitiongilt ∂vf(pu) = (f ◦ φu)′(0), mit der Hilfsfunktion φu : R→ V gegeben durch

φu(t) = pu + tv = (1− u)a+ ub+ t(b− a) = (1− (t+ u))a+ (t+ u)b.

Wegen ψ(t) = (1− t)a+ tb gilt also ψ(t) = φu(t− u) für alle t ∈ R. Definieren wir τu : R→ R, t 7→ t− u, danngilt also ψ = φu ◦ τu. Es folgt f ◦ ψ = (f ◦ φu) ◦ τu. Mit der Kettenregel erhalten wir nun

(f ◦ ψ)′(u) = ((f ◦ φu) ◦ τu)′(u) = (f ◦ φu)′(τu(u))τ ′u(u) = (f ◦ φu)′(0) · 1 = ∂vf(pu).

Jetzt können wir den Mittelwertsatz anwenden auf die Funktion (f ◦ ψ)|[0,1] anwenden und erhalten einenPunkt u ∈ ]0, 1[ mit ∂vf(pu) = (f ◦ ψ)′(u) = (f ◦ ψ)(1)− (f ◦ ψ)(0) = f(b)− f(a). �

—– 81 —–

Page 82: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Für unseren Satz über die Vertauschbarkeit von Richtungsableitungen benötigen wir noch die folgende Hilfs-aussage.

(3.6) Lemma Sei V ein endlich-dimensionaler R-Vektorraum, und sei U ⊆ V offen. Seienv, w ∈ V , und sei f : U → R eine reellwertige Funktion mit der Eigenschaft, dass diedoppelte Richtungsableitung ∂v∂wf auf ganz U existiert. Sei außerdem a ∈ U ein Punkt, sodass die Menge

R = {a+ tv + t′w | t, t′ ∈ [0, 1]}

vollständig in U enthalten ist. Dann gibt es ein p ∈ R mit

f(a+ v + w)− f(a+ v)− f(a+ w) + f(a) = ∂v∂wf(p).

Beweis: Im Fall v = 0 oder w = 0 ist die Aussage offenbar erfüllt, da in diesem Fall beide Seiten der GleichungNull sind. Deshalb können wir von nun an v, w 6= 0 voraussetzen. Sei τv : V → V die Translationsabbildungx 7→ x+ v. Damit für einen Punkt u die Differenz f(x+ v)− f(x) definiert ist, müssen sowohl x als auch τv(x)

in U liegen. Setzen wir also Uv = U ∩ τ−1v (U), dann ist durch fv(x) = f(x+ v)− f(x) eine Abbildung Uv → R

definiert. Weil τv stetig und U offen ist, handelt es sich auch bei Uv um eine offene Teilmenge von U . Für jedesx ∈ Uv gilt außerdem

∂wfv(x) = ∂wf(x+ v)− ∂wf(x).

Definieren wir nämlich Hilfsfunktionen ψ : ]−ε, ε[ → V , t 7→ x + tw und ψv : ]−ε, ε[ → V , t 7→ x + v + tw

(wobei ε ∈ R+ so klein gewählt ist, dass das Bild des Intervalls in Uv liegt), dann gilt

∂wfv(x) = (fv ◦ ψ)′(0) und ∂wf(x+ v)− ∂wf(x) = (f ◦ ψv)′(0)− (f ◦ ψ)′(0)

nach Definition der Richtungsableitungen. Diese stimmen überein, denn für alle t ∈ ]−ε, ε[ gilt

(fv ◦ ψ)(t) = fv(x+ tw) = f(x+ v + tw)− f(x+ tw) = (f ◦ ψv)(t)− (f ◦ ψ)(t).

Zu zeigen ist nun fv(a+ w)− fv(a) = ∂w∂vf(p) für ein p ∈ R. Dazu bemerken wir zunächst, dass die Strecke[a, a+w] ist in Uv enthalten. Denn für jedes t ∈ [0, 1] liegen die beiden Punkte a+tw und τv(a+tw) = a+v+tw

in R ⊆ U , also liegt a+ tw in U ∩ τ−1v (U) = Uv . Die Anwendung von (3.5) auf die Funktion fv liefert nun einen

Punkt p′ ∈ [a, a+ w] mit

fv(a+ w)− fv(a) = ∂wfv(p′) = ∂wf(p′ + v)− ∂wf(p′).

Nochmalige Anwendung von (3.5), diesmal auf die Funktion ∂wf , liefert einen Punkt p ∈ [p′, p′ + v] mit∂v∂wf(p) = ∂wf(p′ + v)− ∂wf(p′). Ingesamt gilt also ∂v∂wf(p) = fv(a+ w)− fv(a) wie gewünscht. �

(3.7) Satz (Satz von Schwarz)

Sei V ein endlich-dimensionaler R-Vektorraum und U ⊆ V offen. Sei f : U → R einereellwertige Funktion, und seien 0 6= v, w ∈ V derart, dass die doppelten partiellen Ablei-tungen ∂v∂wf und ∂w∂vf auf U existieren und stetig sind. Dann gilt ∂v∂wf = ∂w∂vf aufganz U

—– 82 —–

Page 83: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Sei a ∈ U vorgegeben, und seien (αn)n∈N und (βn)n∈N Folgen positiver reeller Zahlen mit limn αn =

limn βn = 0 und der Eigenschaft, dass der Bereich Qn = {a+ tv + t′w | t ∈ [0, αn], t′ ∈ [0, βn]} jeweils vollstän-dig in U enthalten ist. Nach (3.6) gibt es für jedes n ∈ N jeweils Punkte pn, qn ∈ Qn mit

αnβn∂v∂wf(pn) = ∂(αnv)∂(βnw)f(pn) = f(a+ αnv + βnw)− f(a+ αnv)− f(a+ βnw) + f(a)

= ∂(βnw)∂(αnv)f(qn) = αnβn∂w∂vf(qn).

Division durch αnβn liefert die Gleichung ∂v∂wf(pn) = ∂w∂vf(qn) für alle n ∈ N. Weil die Folgen (αn)n∈N

und (βn)n∈N gegen Null konvergieren, gilt limn pn = limn qn = a. Weil die ∂v∂wf und ∂w∂vf stetig sind, folgtschließlich ∂w∂vf(a) = limn ∂w∂vf(qn) = limn ∂v∂wf(pn) = ∂v∂wf(a). �

—– 83 —–

Page 84: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

3.2 Totale Differenzierbarkeit

Inhaltsübersicht

FF Definition der totalen Ableitung einer Funktion

FF Zusammenhang zwischen totaler Ableitung und den Richtungsableitungen

FF hinreichendes Kriterium für totale Differenzierbarkeit

FF Ableitungsregeln

In der Analysis einer Variablen haben wir gesehen, dass sich die Differenzierbarkeit einer Funktion f : I → R

in einem Punkt a ∈ I dadurch charakterisieren lässt, dass f in einer Umgebung von a durch eine affin-lineareFunktion der Form f(a) + f ′(a)(x − a) approximieren lässt. Dies bedeutet, dass eine Darstellung von f derForm

f(x) = f(a) + f ′(a)(x− a) + ψ(x)

existiert, mit einer Funktion ψ, die in der Nähe von a sehr schnell gegen Null geht. Diese Vorstellung von derDifferenzierbarkeit einer Funktion soll nun auf höherdimensionale Funktionen verallgemeinert werden.

Im gesamten Abschnitt seien V,W jeweils endlich-dimensionale, normierte R-Vektorräume.

(3.8) Definition Sei U ⊆ V offen, a ∈ U und Ua = {x ∈ V | a + x ∈ U}. Außerdem seif : U → W eine Abbildung. Man sagt, die Funktion f ist im Punkt a total differenzierbar,wenn eine lineare Abbildung φ : V →W und eine Funktion ψ : Ua →W existieren, so dass

f(a+ h) = f(a) + φ(h) + ψ(h) für alle h ∈ Ua und außerdem limh→0V

ψ(h)

‖h‖= 0W

erfüllt ist. Man nennt φ dann die Ableitung von f an der Stelle a und bezeichnet sie mitf ′(a).

Im Gegensatz zum eindimensionalen Fall ist die Ableitung also keine reelle Zahl mehr, sondern eine linea-re Abbildung, genauer ein Element des R-Vektorraums L (V,W ) der linearen Abbildungen von V nach W .Häufig wird der Zusatz „total“ auch weggelassen; wenn im Mehrdimensionalen von einer differenzierbarenFunktion gesprochen wird, dann ist immer totale Differenzierbarkeit gemeint.

—– 84 —–

Page 85: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Veranschaulichung der totalen Ableitung einer Funktion f aufR2. Die blaue Fläche stellt die affin-lineare Näherung

f(a + h) = f(p) + f ′(a)(h) dar, die der Ableitung der Funktion in einem Punkt a ∈ R2 entspricht.

(3.9) Proposition Sei f : U →W eine Abbildung auf einer offenen Teilmenge U ⊆ V , unda ∈ U ein beliebiger Punkt. Ist f in a differenzierbar, dann ist f auch in a stetig.

Beweis: Sei f(a+h) = f(a)+f ′(a)(h)+ψ(h) eine Darstellung von f wie in der Definition der Differenzierbarkeitangegeben. Als lineare Abbildung auf einem endlich-dimensionalenR-Vektorraum ist f ′(a) stetig, und wegenlimh→0

ψ(h)/‖h‖ = 0 gilt auch limh→0

ψ(h) = 0. Es folgt

limh→0

f(a+ h) = f(a) + limh→0

f ′(a)(h) + limh→0

ψ(h) = f(a) + f ′(a)(0) = f(a). �

(3.10) Proposition Wir betrachten den Spezialfall, dass W = Rm für ein m ∈ N gilt. SeiU ⊆ V offen und a ∈ U . Eine Abbildung f : U → W ist genau dann in a differenzierbar,wenn die Komponentenfunktionen fi : U → R in a differenzierbar sind, für 1 ≤ i ≤ m. DieKomponentenfunktionen der Ableitung f ′(a) sind dann die Ableitungen f ′1(a), ..., f ′m(a).

Beweis: Sei φ ∈ L (V,Rm) eine lineare Abbildung, und seien φi ∈ L (V,R) ihre Komponentenfunktionen,für 1 ≤ i ≤ m. Definieren wir die Abbildung ψ : Ua → Rm auf Ua = {x ∈ V | a + x ∈ U} durch ψ(h) =

f(a+ h)− f(a)− φ(h), dann sind die Komponentenfunktionen von ψ durch ψi(h) = fi(a+ h)− fi(a)− φi(h)

gegeben, für 1 ≤ i ≤ m. Ist (h(n))n∈N eine Folge in Ua, die gegen 0 konvergiert, so gilt die Äquivalenz

limn→∞

ψ(h(n))

‖h(n)‖= 0 ⇔ lim

n→∞

ψi(h(n))

‖h(n)‖= 0 für 1 ≤ i ≤ m.

Also ist limh→0

ψ(h)/‖h‖ = 0 äquivalent zu limh→0

ψi(h)/‖h‖ = 0 für 1 ≤ i ≤ m.

—– 85 —–

Page 86: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

„⇒“ Sei f in a differenzierbar. Dann setzen wir φ = f ′(a) und definieren ψ : Ua → R in Abhängig-keit von φ wie oben angegeben. Auf Grund der Differenzierbarkeit gilt limh→0 ψ(h)/‖h‖ = 0, und es folgtlimh→0 ψi(h)/‖h‖ = 0 für 1 ≤ i ≤ m. Dies zusammen mit der Gleichung fi(a + h) = fi(a) + φi(h) + ψi(h)

für h ∈ Ua zeigt, dass fi im Punkt a differenzierbar ist, und dass die Komponentenfunktion φi jeweils dieAbleitung von fi im Punkt a ist.

„⇐“ Sei fi in a differenzierbar, φi = f ′i(a) für 1 ≤ i ≤ m, und sei φ ∈ L (V,Rm) die eindeutig bestimmte linea-re Abbildung mit den Komponentenfunktionen φi ∈ L (V,R). Wiederum sei die Abbildung ψ in Abhängigkeitvon φ wie oben definiert. Aus der Differenzierbarkeit der Funktionen fi folgt jeweils limh→0 ψi(h)/‖h‖ = 0,für 1 ≤ i ≤ m. Nach unserer Vorüberlegung bedeutet dies limh→0 ψ(h)/‖h‖ = 0. Also ist f im Punkt a diffe-renzierbar, und es gilt φ = f ′(a). �

(3.11) Proposition Sei U ⊆ V offen, f : U → R eine reellwertige Funktion, und a ∈ U . Istf im Punkt a differenzierbar, dann existiert für jedes v ∈ V die Richtungsableitung ∂vf(a),und es gilt ∂vf(a) = f ′(a)(v).

Beweis: Nach Definition gibt es auf Ua = {x ∈ V | a+ x ∈ U} eine Abbildung ψ : Ua → Rmit

f(a+ h) = f(a) + f ′(a)(h) + ψ(h) für alle h ∈ Ua und limh→0

ψ(h)/‖h‖ = 0.

Weil die Gleichung auch für h = 0 erfüllt ist, muss ψ(0) = 0 gelten. Sei φ : R→ V gegeben durch φ(t) = a+ tv

für alle t ∈ R und ε ∈ R+ hinreichend klein gewählt, so dass φ(]−ε, ε[) ⊆ U erfüllt ist. Nach Definition gilt∂vf(a) = (f ◦ φ)′(0). Zu zeigen ist also die Gleichung (f ◦ φ)′(0) = f ′(a)(v). Für alle t ∈ Rmit |t| < ε gilt

(f ◦ φ)(t) = f(a+ tv) = f(a) + f ′(a)(tv) + ψ(tv) = f(a) + tf ′(a)(v) + ψ(tv).

Nach Definition der Ableitung in einer Variablen gilt (f ◦ φ)′(0) = limt→0

h(t), wobei h(t) für 0 < |t| < ε durch

h(t) =(f ◦ φ)(t)− (f ◦ φ)(0)

t=

f(a+ tv)− f(a)

t= f ′(a)(v) +

ψ(tv)

t

definiert ist. Betrachten wir nun zunächst den Fall v = 0. Wegen ψ(0) = 0 gilt hier h(t) = 0 für alle t mit0 < |t| < ε und somit (f ◦φ)′(0) = 0 = f ′(a)(0). Im Fall v 6= 0 betrachten wir eine Folge (tn)n∈N mit limn tn = 0

und 0 < |tn| < ε für alle n ∈ N. Dann konvergiert die Folge (tnv)n∈N in V gegen Null. Auf Grund derVoraussetzung lim

h→0ψ(h)/‖h‖ = 0 gilt

‖v‖−1 limn→∞

ψ(tnv)

|tn|= lim

n→∞

ψ(tnv)

|tn|‖v‖= lim

n→∞

ψ(tnv)

‖tnv‖= 0

und folglich (f ◦ φ)′(0) = limn→∞

h(tn) = f ′(a)(v) + limn→∞

ψ(tnv)/tn = f ′(a)(v). �

(3.12) Folgerung Ist U ⊆ V offen, a ∈ U und f : U → R in a differenzierbar, dann gilt∂v+wf(a) = ∂vf(a) + ∂wf(a) für alle v, w ∈ V .

Beweis: Seien v, w ∈ V . Durch (3.11) ist sichergestellt, dass die drei angegebenen Richtungsableitungen exi-stieren. Weil f ′(a) eine lineare Abbildung ist, gilt außerdem

∂v+wf(a) = f ′(a)(v + w) = f ′(a)(v) + f ′(a)(w) = ∂vf(a) + ∂wf(a). �

—– 86 —–

Page 87: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(3.13) Definition Seien m,n ∈ N, U ⊆ Rn offen, a ∈ U und f : U → Rm eine in a

differenzierbare Abbildung, mit Komponentenfunktionen f1, ..., fm. Dann nennt man

Jac(f)(a) =

∂1f1(a) . . . ∂nf1(a)

......

∂1fm(a) . . . ∂nfm(a)

∈Mm×n,R

die Jacobi- oder Funktionalmatrix von f an der Stelle a.

Wir werden in Kürze ein Kriterium kennenlernen, mit dem die Differenzierbarkeit einer Funktion in vielenFällen leicht zu erkennen ist. Dieses Kriterium wird unter anderem zeigen, dass alle Abbildungen, die durchPolynomausdrücke in den Variablen dargestellt werden können, differenzierbar sind, beispielsweise die Ab-bildungen

f : R2 → R , (x, y) 7→ 2x2 + 7y2 + 5y und g : R3 → R2 , (x, y, z) 7→ (3x2 − 5y + z, z4 + xy).

Für jedes (x, y) ∈ R2 ist Jac(f)(x, y) ∈M1×2,R gegeben durch (4x 14y + 5). Die Jacobi-Matrizen der Funktiong sind gegeben durch

Jac(g)(x, y, z) =

(6x −5 1

y x 4z3

)∈M2×3,R für (x, y, z) ∈ R3.

(3.14) Proposition Seien die Bezeichnungen wie in (3.13) gewählt, und sei J = Jac(f)(a).Dann gilt f ′(a)(v) = J · v für alle v ∈ Rn, wobei der Ausdruck J · v das Matrix-Vektor-Produkt zwischen der Matrix J ∈Mm×n,R und dem Vektor v ∈ Rn bezeichnet. Die MatrixJ ist also die Darstellungsmatrix der linearen Abbildung f ′(a) : Rn → Rm bezüglich derEinheitsbasen.

Beweis: Für 1 ≤ i ≤ m seien f ′(a)i und (φJ)i jeweils die i-te Komponentenfunktion linearen Abbildungenf ′(a) und φJ : Rn → Rm, v 7→ J · v. Nach (3.10) gilt jeweils f ′(a)i = f ′i(a). Es genügt also, (φJ)i = f ′i(a) für 1 ≤i ≤ m zu beweisen. Auf Grund der Linearität der beiden Abbildungen genügt es wiederum, die Gleichungenf ′i(a)(ej) = (φJ)i(ej) für 1 ≤ i ≤ m und 1 ≤ j ≤ n zu überprüfen, wobei e1, ..., en die Einheitsvektoren vonRn bezeichnen. Für i ∈ {1, ...,m} ist die Abbildung (φJ)i gegeben durch das Matrix-Vektor-Produkt mit dereinzeiligen Matrix

(∂1fi(a) · · · ∂nfi(a)) ∈M1×n,R.

Durch Einsetzen des j-ten Einheitsvektors wird der j-te Eintrag ausgewählt, es gilt also (φJ)i(ej) = ∂jfi(a) für1 ≤ j ≤ n. Aus (3.11) folgt andererseits auch f ′i(a)(ej) = ∂ejfi(a) = ∂jfi(a). �

—– 87 —–

Page 88: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Um die Notation möglichst einfach zu halten, schreiben wir in Zukunft für die Jacobi-Matrix ebenfalls f ′(a)

statt Jac(f)(a). Für jede Funktion f : U → Rm auf einer offenen Teilmenge U ⊆ Rn, jeden Punkt a ∈ U undjedes v ∈ Rn gilt also

f ′(a)(v) = f ′(a) · v ,

wobei auf der linken Seite der Gleichung f ′(a) als lineare Abbildung Rn → Rm interpretiert wird, währendauf der rechten Seite das Matrix-Vektor-Produkt von f ′(a) ∈Mm×n,R und v ∈ Rn gemeint ist.

Wir beweisen nun ein hinreichendes Kriterium für die totale Differenzierbarkeit.

(3.15) Satz SeiU ⊆ Rn eine offene Teilmenge und f : U → R eine partiell differenzierbareFunktion, und sei a ∈ U ein Punkt, in dem die partiellen Ableitungen ∂if stetig sind, für1 ≤ i ≤ n. Dann ist f in a differenzierbar.

Beweis: Sei ε ∈ R+ hinreichend klein gewählt, so dass der offene Ball Bε(a) bezüglich der Maximums-Norm‖ · ‖∞ in U enthalten ist. Jedem Vektor v ∈ Bε(0Rn), v = (v1, ..., vn) ordnen wir durch

z(k)(v) = a+

k∑i=1

viei für 0 ≤ k ≤ n

insgesamt n + 1 Punkte z(k)(v) ∈ Bε(a) zu, wobei e1, ..., en wie immer die Einheitsvektoren bezeichnenund z(0)(v) = a, z(n)(v) = a + v gilt. Weil Bε(a) als offener Ball konvex, liegen alle Verbindungsstrecken[z(k−1)(v), z(k)(v)] mit 1 ≤ k ≤ n jeweils in Bε(a). Nach dem Mittelwertsatz für Richtungsableitungen (3.5)gibt es für 1 ≤ k ≤ n im Fall vk 6= 0 jeweils ein y(k)(v) ∈ [z(k−1)(v), z(k)(v)] mit

f(z(k)(v))− f(zk−1(v)) = ∂vkekf(y(k)(v)) = vk∂kf(y(k)(v)).

Im Fall vk = 0 ist die Gleichung mit y(k)(v) = z(k−1)(v) = z(k)(v) ebenfalls erfüllt. Definieren wir nun einelineare Abbildung φ : Rn → R und eine weitere Abbildung ψ : Bε(0Rn)→ R durch

φ(v) =

n∑k=1

vk∂kf(a) und ψ(v) =

n∑k=1

vk(∂kf(y(k)(v))− ∂kf(a)) ,

dann erhalten wir

f(a+ v) = f(z(n)(v)) = f(z(0)(v)) +

n∑k=1

(f(z(k)(v))− f(z(k−1)(v))

)=

f(a) +

n∑k=1

vk∂kf(y(k)(v)) = f(a) +

n∑k=1

vk∂kf(a) + ψ(v) = f(a) + φ(v) + ψ(v).

Betrachten wir nun den Grenzübergang limv→0 ψ(v)/‖v‖∞. Wenn v bezüglich ‖ · ‖∞ gegen Null konvergiert,dann laufen sowohl die Punkte z(k)(v) für 0 ≤ k ≤ n als auch die Punkte y(k)(v) für 0 < k ≤ n gegena. Auf Grund der Stetigkeit der partiellen Ableitungen ∂kf im Punkt a konvergieren damit die Differenzen∂kf(y(k)(v))−∂kf(a) gegen Null. Darüber hinaus ist vk/‖v‖∞ durch 1 nach oben beschränkt. Insgesamt erhal-ten wir also limv→0 ψ(v)/‖v‖∞ = 0. Folglich ist f im Punkt a differenzierbar, und es gilt f ′(a) = φ. �

—– 88 —–

Page 89: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Wir untersuchen die bisherigen Beispiele auf totale Differenzierbarkeit.

(i) Die Funktionen f : R2 → R, (x, y) 7→ 2x2 + 7y2 + 5y und g : R2 → R, (x, y) 7→ sin(2x)e3y

sind in allen Punkten ihres Definitionsbereichs differenzierbar, weil ihre partiellen Ablei-tungen alle auf ganz R2 stetig sind.

(ii) Die Funktion aus Beispiel 4 in §3.1 ist im Punkt (0, 0) nicht differenzierbar, weil die Glei-chung

∂vf(0, 0) + ∂wf(0, 0) = ∂v+wf(0, 0)

für v = e1 und w = e2 nicht gilt. Bei einer differenzierbaren Funktion wäre die Gleichungnach (3.12) erfüllt.

(iii) Die Funktion f aus Beispiel 5 in §3.1 ist im Punkt (0, 0) nicht differenzierbar, weil sie dortnicht einmal stetig ist, vgl. (3.9).

Ist eine Funktion auf ihrem Definitionsbereich also stetig partiell differenzierbar, dann ist sie auch (total) diffe-renzierbar. Aus der Differenzierbarkeit wiederum folgen sowohl partielle Differenzierbarkeit als auch Stetig-keit.

Für die totale Ableitung gelten wie im eindimensionalen Fall eine Reihe von Ableitungsregeln.

(3.16) Satz (Additionsregel)

Sei U ⊆ V offen, a ∈ U , und seien f, g : U → W zwei Abbildungen, die beide in a ∈ U

differenzierbar sind. Dann sind auch f+g und λf für alle λ ∈ R im Punkt a differenzierbar,und es gilt

(f + g)′(a) = f ′(a) + g′(a) und (λf)′(a) = λf ′(a).

Beweis: Nach Definition der Differenzierbarkeit im Punkt a können wir beide Funktionen in der Form

f(a+ h) = f(a) + f ′(a)(h) + ϕ(h)

g(a+ h) = g(a) + g′(a)(h) + ψ(h)

darstellen, wobei limh→0

ϕ(h)/‖h‖ = limh→0

ψ(h)/‖h‖ = 0 ist. Es folgt

(f + g)(a+ h) = (f + g)(a) + (f ′(a) + g′(a))(h) + (ϕ+ ψ)(h)

mitlimh→0

(ϕ+ ψ)(h)

‖h‖= lim

h→0

ϕ(h)

‖h‖+ limh→0

ψ(h)

‖h‖= 0.

Also ist f + g in a differenzierbar, und es gilt (f + g)′(a) = f ′(a) + g′(a). Ebenso erhalten wir (λf)(a + h) =

(λf)(a) + (λf ′(a))(h) + λϕ(h), und für den Restterm gilt limh→0

λϕ(h)/‖h‖ = 0. Somit ist auch λf in a differen-

zierbar, und die Ableitung ist durch (λf)′(a) = λf ′(a) gegeben. �

—– 89 —–

Page 90: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(3.17) Satz (Produktregel)

Sei U ⊆ V offen, a ∈ U , und seien f, g : U → R beide in a differenzierbar. Dann ist auch dieFunktion fg in a differenzierbar, und es gilt

(fg)′(a) = f(a)g′(a) + g(a)f ′(a).

Beweis: Durch Ausmultiplizieren der beiden Gleichungen

f(a+ h) = f(a) + f ′(a)(h) + ϕ(h)

g(a+ h) = g(a) + g′(a)(h) + ψ(h)

(wobei die Funktionen ϕ und ψ dieselbe Grenzwert-Bedingung wie im vorherigen Beweis erfüllen) erhaltenwir

(fg)(a+ h) = (fg)(a) + f(a)g′(a)(h) + g(a)f ′(a)(h) + ρ(h) (3.5)

mit dem Restterm

ρ(h) = f ′(a)(h)g′(a)(h) + g(a)ϕ(h) + f(a)ψ(h) + g′(a)(h)ϕ(h) + f ′(a)(h)ψ(h) + ϕ(h)ψ(h).

Jeder der sechs Summanden des Restterms läuft für h→ 0 auch nach Division durch ‖h‖ noch gegen Null. Fürdie hinteren fünf Summanden ist dies klar auf Grund der Voraussetzung an die Funktionen ϕ(h) und ψ(h) undwegen der Stetigkeit von linearen Abbildungen auf endlich-dimensionalen R-Vektorräumen. Für den erstenSummanden ist zu beachten, dass die linearen Abbildungen f ′(a) und g′(a) durch Konstanten γ1, γ2 ∈ R+ mit‖f ′(a)(h)‖ ≤ γ1‖h‖ und ‖g′(a)(h)‖ ≤ γ2‖h‖ für alle h ∈ V abgeschätzt werden können. Für das Produkt giltdann

‖f ′(a)(h)g′(a)(h)‖ ≤ γ1γ2‖h‖2 ,

und der Ausdruck rechts konvergiert auch nach Division durch ‖h‖ noch gegen Null. Die Gleichung (3.5) zeigtalso, dass fg tatsächlich in a differenzierbar ist, und dass die Ableitung die angegebene Form besitzt. �

(3.18) Folgerung Sei f : U → R, n ∈ N und g(x) = f(x)n für alle x ∈ U . Ist f in einemPunkt a ∈ U differenzierbar, dann auch g, und es gilt

g′(a) = nf(a)n−1f ′(a).

Beweis: Wir führen den Beweis durch vollständige Induktion über n, wobei für n = 1 nichts zu zeigen ist.Setzen wir die Aussage nun für n voraus. Es sei g(x) = f(x)n+1 und h(x) = f(x)n für alle x ∈ U . Nach Induk-tionsvoraussetzung ist h in a differenzierbar, mit h′(a) = nf(a)n−1f ′(a). Durch Anwendung der Produktregelerhalten wir

g′(a) = (fh)′(a) = f(a)h′(a) + h(a)f ′(a) = nf(a)nf ′(a) + f(a)nf ′(a)

= (n+ 1)f(a)nf ′(a). �

—– 90 —–

Page 91: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Als Beispiel betrachten wir die Funktion f : R3 → R gegeben durch (x, y, z) 7→ x+ y+ z. Dann ist f ′(x, y, z) =

(1 1 1) für alle (x, y, z) ∈ R3, und wir erhalten für beliebiges v ∈ R3, v = (v1, v2, v3)

f ′(x, y, z)(v) =(

1 1 1)v1

v2

v3

= v1 + v2 + v3

für alle (x, y, z) ∈ R3. Sei nun g : R3 → R gegeben durch g(x, y, z) = f(x, y, z)3 = (x + y + z)3. Dann giltg′(x, y, z) = 3f(x, y, z)2f ′(x, y, z) und somit

g′(x, y, z)(v) = 3(x+ y + z)2(

1 1 1)v1

v2

v3

= 3(x+ y + z)2(v1 + v2 + v3).

Um den Beweis der folgenden Differentiationsregel zu vereinfachen, führen wir die folgende Vorüberlegungdurch: Sei U ⊆ V eine offene Teilmenge, f : U → W eine Abbildung, und seien v ∈ V , w ∈ W beliebigeElemente. Dann ist auf der offenen Teilmenge U = {(−v)+u | u ∈ U} von V durch g : U →W , x 7→ f(v+x)+w

ebenfalls eine Abbildung definiert.

(3.19) Lemma Ist a ∈ U und f in a differenzierbar, dann ist g im Punkt (−v) + a differen-zierbar, und es gilt f ′(a) = g′((−v) + a).

Beweis: Auf Grund der Voraussetzung gibt es eine Funktion ψ auf einer geeigneten offenen Teilmenge Ua ⊆V , so dass f(a + h) = f(a) + f ′(a)(h) + ψ(h) für alle h ∈ Ua und lim

h→0ψ(h)/‖h‖ = 0 erfüllt ist. Es folgt

g((−v) + a+ h)− w = g((−v) + a)− w + f ′(a)(h) + ψ(h) und somit

g((−v) + a+ h) = g((−v) + a) + f ′(a)(h) + ψ(h)

für alle h ∈ Ua. Dies zeigt, dass g im Punkt (−v) + a differenzierbar ist und f ′(a) = g′((−v) + a) gilt. �

(3.20) Satz (Kettenregel)

Seien V, V ′, V ′′ endlich-dimensionale normierte R-Vektorräume und U ⊆ V , U ′ ⊆ V ′ offe-ne Teilmengen. Seien f : U → V ′ und g : U ′ → V ′′ Abbildungen mit f(U) ⊆ U ′. Ferner seia ∈ U ein Punkt mit der Eigenschaft, dass f in a und g in f(a) differenzierbar ist. Dann istdie Abbildung g ◦ f : U → V ′′ in a differenzierbar, und es gilt

(g ◦ f)′(a) = g′(f(a)) ◦ f ′(a).

Beweis: Auf Grund des Lemmas (3.19) können wir die Funktionen f und g so modifizieren, dass a = 0,f(0) = 0 und (g◦f)(0) = 0 gilt, ohne dass sich an der Differenzierbarkeit von f , g, g◦f oder an den Ableitungenetwas ändert. Auf Grund der Differenzierbarkeit im Nullpunkt können wir f und g dann in der Form

f(h) = f ′(0)(h) + ϕ(h)

g(k) = g′(0)(k) + ψ(k)

—– 91 —–

Page 92: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

schreiben, wobei die Restterme limh→0

ϕ(h)/‖h‖ = 0 und limk→0

ψ(k)/‖k‖ = 0 erfüllen. Setzen wir den Ausdruckfür f in g ein, so erhalten wir

(g ◦ f)(h) = g′(0)(f(h)) + ψ(f(h)) = g′(0)(f ′(0)(h)) + g′(0)(ϕ(h)) + ψ(f(h)).

Zu zeigen ist, dass der Restterm ρ(h) = g′(0)(ϕ(h)) + ψ(f(h)) auch nach Division durch ‖h‖ für h → 0 nochgegen Null konvergiert. Für den ersten Summanden g′(0)(ϕ(h)) gilt dies wegen

g′(0)(ϕ(h)) = ‖h‖g′(0)

(ϕ(h)

‖h‖

)und auf Grund der Stetigkeit von g′(0) im Nullpunkt. Den zweiten Summanden schreiben wir als ψ(f ′(0)(h)+

ϕ(h)). Nach Voraussetzung gibt es Funktionen ϕ1 und ψ1 mit den Eigenschaften ϕ(h) = ‖h‖ϕ1(h), ψ(k) =

‖k‖ψ1(k) und limh→0

ϕ1(h) = limk→0

ψ1(k) = 0. Ferner gibt es eine Konstante γ ∈ R+ mit ‖f ′(0)(h)‖ ≤ γ‖h‖ für alleh ∈ V . Setzen wir dies ein, so erhalten wir

‖ψ(f ′(0)(h) + ϕ(h))‖ = ‖ψ1(f ′(0)(h) + ϕ(h))‖‖f ′(0)(h) + ϕ(h)‖ =

‖ψ1(f ′(0)(h) + ϕ(h))‖‖f ′(0)(h) + ‖h‖ϕ1(h)‖ ≤ ‖ψ1(f ′(0)(h) + ϕ(h))‖ · ‖h‖ · (γ + ‖ϕ1(h)‖).

Der Ausdruck im linken Faktor konvergiert für h → 0 gegen Null, weil f ′(0)(h) und ϕ(h) gegen Null laufen.Der rechte Faktor ist beschränkt, also konvergiert das gesamte Produkt auch nach Division durch ‖h‖ nochgegen Null. �

Sei f : R3 → R, (x, y, z) 7→ (x+ y + z) und g : R→ R, z 7→ z3. Dann sind die Funktionalmatrizen von f und gin jedem Punkt des Definitionsbereichs gegeben durch

f ′(x, y, z) =(

1 1 1)

und g′(z) =(3z2).

Die Anwendung der Kettenregel liefert

(g ◦ f)′(x, y, z) = g′(f(x, y, z)) ◦ f ′(x, y, z) = g′(x+ y + z) ◦ f ′(x, y, z) =(3(x+ y + z)2

)(1 1 1

)=

(3(x+ y + z)2 3(x+ y + z)2 3(x+ y + z)2

).

Für alle v = (v1, v2, v3) ∈ R3 gilt also (g ◦ f)′(x, y, z)(v) = 3(x+ y + z)2(v1 + v2 + v3).

Als weiteres Anwendungsbeispiel seien m,n ∈ N vorgegeben und f1, ..., fm : R → R differenzierbare Funk-tionen. Außerdem sei F : Rm → Rn in jedem Punkt des Definitionsbereichs differenzierbar. Betrachten wir diefi als Komponenten einer Funktion f : R → Rm, dann ist die Ableitung im Punkt x ∈ R nach (3.10) gegebendurch

f ′(x) =

f ′1(x)

...f ′m(x)

.

—– 92 —–

Page 93: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Auf Grund der Kettenregel git für die Ableitung von F ◦ f : R→ im Punkt x die Gleichung

(F ◦ f)′(x) = F ′(f(x)) ◦ f ′(x) =

∂1F1(f(x)) · · · ∂mF1(f(x))

......

∂1Fn(f(x)) · · · ∂mFn(f(x))

f ′1(x)

...f ′m(x)

=

m∑j=1

∂jF1(f(x))f ′j(x)

...m∑j=1

∂jFn(f(x))f ′j(x)

.

Ist speziell n = 1 und F (x1, ..., xm) = F1(x1, ..., xm) = x1 + ...+xm, dann ist (F ◦f)(x) = f1(x)+ ...+fm(x). DieEinträge in der Funktionalmatrix von F sind dann alle gleich 1, und somit gilt (F ◦f)′(x) = f ′1(x) + ...+f ′m(x).

Sei nun n = 1, m = 2 und F (x1, x2) = x1x2. Dann gilt (F ◦ f)(x) = f1(x)f2(x). Die Funktionalmatrix von F istgegeben durch

F ′(x1, x2) =(x2 x1

),

und es gilt

(F ◦ f)′(x) =(f2(x) f1(x)

)(f ′1(x)

f ′2(x)

)=

(f2(x)f ′1(x) + f1(x)f ′2(x)

).

Dies ist die gewöhnliche Produktregel für reellwertige Funktionen in einer Variablen.

Um den Beweis der nächsten Ableitungsregel vorzubereiten, zeigen wir

(3.21) Lemma Sei U ⊆ Rn offen und f : U → Rm eine in a ∈ U differenzierbare Ab-bildung. Dann gibt es eine offene Umgebung U ′ ⊆ Rn von 0Rn und eine in 0Rn stetigeAbbildungen φ : U ′ → L (Rn,Rm) mit φ(0Rn) = f ′(a) und

f(a+ h) = f(a) + φ(h)(h) für alle h ∈ U ′.

Beweis: Auf Grund der Differenzierbarkeit von f in a gibt es eine Umgebung U ′ von 0Rn und eine Funktionψ : U ′ → Rm mit

f(a+ h) = f(a) + f ′(a)(h) + ψ(h) und limh→0

ψ(h)

‖h‖2= 0 ,

wobei ‖ · ‖2 die euklidische Norm bezeichnet. Seien ψ1, ..., ψm : U ′ → R die Komponentenfunktionen vonψ. In jedem Punkt h = (h1, ..., hn) von U ′ definieren wir die lineare Abbildung %(h) ∈ L (Rn,Rm) durch%(h) = (rij(h)) mit

rij(h) =ψi(h)

‖h‖22hj für 1 ≤ i ≤ m, 1 ≤ j ≤ n

für h 6= 0Rn und rij(0Rn) = 0. Für h → 0Rn konvergieren die Einträge dieser Matrix wegen |hj | ≤ ‖h‖2 gegenNull, also ist % im Nullpunkt stetig. Außerdem ist %(h) so konstruiert, dass %(h)(h) = ψ(h) für alle h ∈ U ′ gilt,

—– 93 —–

Page 94: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

denn die i-te Komponente von %(h)(h) ist jeweils gegeben durch

n∑j=1

rij(h)hj =

n∑j=1

ψi(h)

‖h‖22h2j = ψi(h)

n∑j=1

h2j

‖h‖22= ψi(h).

Die Abbildung φ erhalten wir nun durch die Definition φ(h) = f ′(a) + %(h) für h ∈ U ′. �

(3.22) Satz (Umkehrregel)

Sei U ⊆ Rn offen und f : U → Rn eine Abbildung mit der Eigenschaft, dass auch V = f(U)

offen in Rn ist und eine Umkehrabbildung g : V → Rn von f existiert. Sei f in a ∈ U

differenzierbar, und es gelte det f ′(a) 6= 0. Schließlich setzen wir noch voraus, dass g inb = f(a) stetig ist. Dann ist g in b differenzierbar, und es gilt g′(b) = f ′(a)−1.

Beweis: Wie beim Beweis der Kettenregel können wir a = b = 0Rn voraussetzen. Auf Grund des Lemmasexistiert eine offene Umgebung U ′ von 0Rn und Abbildung φ : U ′ → L (Rn,Rn) mit f(h) = φ(h)(h) füralle h ∈ U ′ und lim

h→0φ(h) = f ′(0Rn). Wegen det f ′(0Rn) 6= 0 können wir nach eventueller Verkleinerung von

U ′ voraussetzen, dass detφ(h) 6= 0 für alle h ∈ U ′ gilt. Also ist die lineare Abbildung φ(h) für alle h ∈ U ′

invertierbar.

In der Linearen Algebra haben wir gezeigt, dass die Inverse A−1 einer invertierbaren Matrix in der Formdet(A)−1A dargestellt werden kann, wobei A die zu A adjunkte Matrix bezeichnet. Die Einträge von A sinddabei Determinanten gewisser Teilmatrizen von A. Stellen wir nun φ(h) und φ(h)−1 als Matrizen dar, dannsind die Komponenten von φ(h)−1 als Polynomausdrücke in den Komponenten von φ(h), dividiert durchdetφ(h), darstellbar. Dies zeigt, dass mit φ auch die Funktion h 7→ φ(h)−1 im Nullpunkt stetig ist. Es gilt alsolimh→0

φ(h)−1 = f ′(0Rn)−1.

Sei nun V ′ = f(U ′), außerdem k ∈ V ′ beliebig und h = g(k). Dann gilt k = f(h) = φ(h)(h), und die Anwen-dung von φ(h)−1 auf beide Seiten der Gleichung liefert φ(h)−1(k) = h, insgesamt also

g(k) = h = φ(h)−1(k) = φ(g(k))−1(k).

Lassen wir k gegen 0Rn laufen, dann läuft g(k) auf Grund der Stetigkeit im Nullpunkt ebenfalls gegen 0Rn ,woroaus wiederum lim

k→0φ(g(k))−1 = f ′(0Rn)−1 folgt. Also können wir g in der Form

g(k) = f ′(0Rn)−1(k) + ρ(k)(k)

darstellen, wobei die Abbildung ρ(k) = φ(g(k))−1 − f ′(0Rn)−1 für k → 0Rn in L (Rn,Rn) gegen Null konver-giert. Setzen wir ψ(k) = ρ(k)(k), dann gilt also g(k) = g(0Rn) + f ′(0Rn)(k) + ψ(k) für alle k ∈ U ′

limk→0

ψ(k)

‖k‖= lim

k→0ρ(k)

(k

‖k‖

)= 0 ,

denn der Quotient k/‖k‖ ist für k → 0Rn beschränkt. Also ist die Funktion g in 0Rn differenzierbar, und es giltdie Gleichung g′(0Rn) = f ′(0Rn)−1. �

—– 94 —–

Page 95: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Auch zu dieser Ableitungsregel sehen wir uns ein Beispiel an. Dazu betrachten wir die in Abschnitt 2.4 einge-führte Polarkoordinaten-Abbildung

ρpol : R+ × ]0, 2π[ −→ R2 \ {0R2} , (r, ϕ) 7→ (r cos(ϕ), r sin(ϕ)).

Ist (r, ϕ) ein beliebiger Punkt im Definitionsbereich und (x, y) = ρpol(r, ϕ), dann gilt also x = r cos(ϕ) undy = r sin(ϕ). Es folgt

r2 = r2(cos(ϕ)2 + sin(ϕ)2) = (r cos(ϕ))2 + (r sin(ϕ))2 = x2 + y2 ,

also r =√x2 + y2. Außerdem gilt cos(ϕ) = x

r und sin(ϕ) = yr . Dies können wir nun verwenden, um mit Hilfe

der Umkehrregel die Jacobi-Matrix von ρ−1pol im Punkt (x, y) anzugeben. Es gilt

ρ′pol(r, ϕ) =

(cos(ϕ) −r sin(ϕ)

sin(ϕ) r cos(ϕ)

)

und somit

(ρ−1pol)′(x, y) = ρ′pol(r, ϕ)−1 =

(cos(ϕ) −r sin(ϕ)

sin(ϕ) r cos(ϕ)

)−1

=

(cos(ϕ) sin(ϕ)

− 1r sin(ϕ) 1

r cos(ϕ)

)=

x√

x2 + y2

y√x2 + y2

− y

x2 + y2

x

x2 + y2

—– 95 —–

Page 96: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

3.3 Höhere Ableitungen und lokale Extremstellen

Inhaltsübersicht

FF Definition der mehrfach (total) differenzierbaren Funktionen

FF Definition der Hesse-Matrix einer zweifach differenzierbaren Funktion

FF Approximation durch mehrdimensionale Taylor-Polynome

FF lokale Extremstellen im Mehrdimensionalen, notwendige und hinreichende Kriterien

Auch in diesem Abschnitt bezeichnen V,W wieder endlich-dimensionale, normierte R-Vektorräume. Sei U ⊆V offen und f : U →W eine Funktion, die in jedem Punkt x ∈ U differenzierbar ist. Mit V und W ist auch derRaum L (V,W ) der (stetigen) linearen Abbildungen V → W endlich-dimensional, außerdem ist L (V,W ) aufnatürliche Weise mit einer Norm ausgestattet, nämlich der in Abschnitt 2.3 definierten Operatornorm. Durchdie Zuordnung

f ′ : U −→ L (V,W ) , x 7→ f ′(x)

ist eine Abbildung zwischen der offenen Teilmenge U ⊆ V und dem R-Vektorraum L (V,W ) gegeben.

(3.23) Definition Ist die Abbildung f ′ auf U stetig, dann bezeichnen wir f als stetigdifferenzierbare Funktion. Ist sie darüber hinaus in jedem Punkt x ∈ U differenzierbar,dann sprechen wir von einer zweimal differenzierbaren Funktion.

Die zweite Ableitung ist dann eine Abbildung von U in die Menge der linearen Abbildungen von V nachL (V,W ), also eine Abbildung f ′′ : U → L (V,L (V,W )). Ist auch diese Abbildung differenzierbar, dann nenntman f dreimal differenzierbar. Die dritte Ableitung ist dann eine Abbildung f ′′′ : U → L (V,L (V,L (V,W ))).Offenbar lässt sich dies beliebig fortsetzen. Wir erhalten auf diese Weise für jedes n ∈ N den Begriff der n-fachdifferenzierbaren Funktion und der n-fachen Ableitung. Definieren wir eine Folge L n(V,W ) vonR-Vektorräumenrekursiv durch

L 1(V,W ) = L (V,W ) und L n+1(V,W ) = L (V, L n(V,W ))

dann ist die n-te Ableitung also eine Abbildung f (n) : U → L n(V,W ). Auf Grund der rekursiven Definitionist die Handhabung der Vektorräume L n(V,W ) recht mühsam. Man ersetzt sie deshalb durch isomorpheR-Vektorräume, deren Elemente sich leichter definieren lassen.

Wir wiederholen eine Definition aus der Linearen Algebra. Sei n ∈ N und V n das n-fache kartesische ProduktV × ...× V . Wir bezeichnen eine Abbildung φ : V n → W als n-fach linear oder multilinear, wenn sie in jederihrer n Komponenten linear ist. Das bedeutet, dass für jedes k ∈ {1, ..., n} die folgende Bedingung erfüllt ist:Sind v1, ..., vk−1, vk+1, ..., vn ∈ V , v, w ∈ V und λ ∈ R, dann gilt jeweils

φ(v1, ..., vk−1, v + w, vk+1, ..., vn) =

φ(v1, ..., vk−1, v, vk+1, ..., vn) + φ(v1, ..., vk−1, w, vk+1, ..., vn)

—– 96 —–

Page 97: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und φ(v1, ..., vk−1, λv, vk+1, ..., vn) = λφ(v1, ..., vk−1, v, vk+1, ..., vn). Mit anderen Worten, die Abbildungen V →W gegeben durch v 7→ φ(v1, ..., vk−1, v, vk+1, ..., vn) für 1 ≤ k ≤ n sind alle linear. Man überprüft leicht, dassdie n-fach linearen Abbildung V n → W einen R-Vektorraum bilden. Dieser wird von uns mit L n(V,W )

bezeichnet.

(3.24) Satz Sei n ∈ N. Jedem Element φ ∈ L n(V,W ) kann durch die Definitionφ(v1, ..., vn) = φ(v1)(v2)...(vn) ein Element in L n(V,W ) zugeordnet werden, und die Ab-bildung L n(V,W )→ L n(V,W ), φ 7→ φ ist ein Isomorphismus von R-Vektorräumen.

Beweis: Der Beweis erfolgt durch vollständige Induktion über n und einfaches Nachrechnen, ist aber mitreichlich Schreibarbeit verbunden. Aus Zeitgründen verzichten wir auf die Ausführung. �

Auf Grund des Satzes können wir nun einen einfacher zu handhabenden Wertebereich für die höheren Ab-leitungen angeben: Wir betrachten die n-te Ableitung einer Funktion f : U → W als Abbildung f (n) : U →L n(V,W ). Im weiteren Verlauf sehen wir uns nun den Fall n = 2 genauer an.

(3.25) Satz Sei U ⊆ Rn offen und f : U → R eine zweimal differenzierbare Funktion.Dann gilt

f ′′(x)(v, w) =

n∑i=1

n∑j=1

viwj∂ijf(x) für alle x ∈ U , v, w ∈ Rn.

Beweis: Seien a ∈ U und v, w ∈ Rn vorgegeben. Wir beweisen zunächst die Gleichung

f ′′(a)(v, w) = ∂v∂wf(a).

Die Funktion auf der rechten Seite ist die Ableitung der Funktion fw : U → R, x 7→ ∂wf(x) in Richtung desVektors v. Nach (3.11) (Zusammenhang zwischen totaler Ableitung und partiellen Ableitungen) gilt

f ′w(a)(v) = ∂vfw(a) = ∂v∂wf(a) ,

so dass die Behauptung also auf den Beweis der Gleichung f ′′(a)(v, w) = f ′w(a)(v) zurückgeführt ist. Hierfürmüssen wir nun mit der Definition der zweiten totalen Ableitung arbeiten. Weil die Abbildung f ′ : U →L (Rn,R) nach Voraussetzung in a differenzierbar ist, gibt es eine Umgebung U0 von 0Rn und eine Funktionψ : U0 → L (Rn,R), so dass

f ′(a+ h) = f ′(a) + f ′′(a)(h) + ψ(h) für alle h ∈ U0 und limh→0

ψ(h)

‖h‖= 0

erfüllt ist. Durch Einsetzen erhalten wir

fw(a+ h) = ∂wf(a+ h) = f ′(a+ h)(w) = f ′(a)(w) + f ′′(a)(h,w) + ψ(h)(w)

= fw(a) + f ′′(a)(h,w) + ϕ(h)

—– 97 —–

Page 98: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

für alle h ∈ U0, wobei ϕ(h) = ψ(h)(w) ist. Weil f ′′(a) ein beiden Komponenten linear ist, handelt es sichbei Rn → R, v 7→ f ′′(a)(v, w) um eine lineare Abbildung. Außerdem erfüllt die Funktion ϕ die Bedingunglimh→0

ϕ(h)/‖h‖ = 0. Also ist fw nach Definition in a differenzierbar, mit v 7→ f ′′(a)(v, w) als Ableitung. Es gilt

also f ′w(a)(v) = f ′′(a)(v, w).

Einsetzen der Einheitsvektoren zeigt insbesondere f ′′(a)(ei, ej) = ∂ijf(a). Sind nun v, w ∈ Rn wieder beliebigvorgegeben, dann erhalten wir auf Grund der Linearität von f ′′(a) in beiden Komponenten insgesamt

f ′′(a)(v, w) =

n∑i=1

n∑j=1

viwjf′′(a)(ei, ej) =

n∑i=1

n∑j=1

viwj∂ijf(a). �

Die Gleichung in (3.25) kann in der Form

f ′′(x)(v, w) =

n∑i=1

n∑j=1

viwj∂ijf(x) = (v1 · · · vn)

∂11f(x) ... ∂1nf(x)

......

∂n1f(x) ... ∂nnf(x)

w1

...wn

geschrieben werden. Dies zeigt, dass die Darstellungsmatrix A = (aij) der Bilinearform f ′′(x) bezüglich derEinheitsbasis des Rn die Einträge aij = ∂ijf(x) besitzt. Ist f sogar zweimal stetig partiell differenzierbar, danngilt nach dem Satz (3.7) von Schwarz die Gleichung ∂ijf = ∂jif für 1 ≤ i, j ≤ n. Sowohl die Bilinearform alsauch die Matrix sind in diesem Fall also symmetrisch.

(3.26) Definition Man bezeichnet die Matrix H (f)(a) = (aij) mit den Einträgen aij =

∂ijf(a) als Hesse-Matrix von f im Punkt a.

Sei beispielsweise f : R2 → R gegeben durch f(x, y) = x3 + y3 − 7x2y + 3(x + y) + 8. Dann gilt ∂1f(x, y) =

3x2 − 14xy + 3 und ∂2f(x, y) = 3y2 − 7x2 + 3 und weiter ∂11f(x, y) = 6x− 14y, ∂f22(x, y) = 6y sowie

∂12f(x, y) = ∂21f(x, y) = −14x.

Die Hesse-Matrix von f im Punkt (x, y) ∈ R2 ist also gegeben durch

H (f)(x, y) =

(6x− 14y −14x

−14x 6y

)

Wir beschäftigen uns nun mit der Frage, welche Information die Hesse-Matrix H (f)(a) über das Verhalten derFunktion f in der Nähe des Punktes a liefert. Wie wir in § 3.2 gesehen haben, ermöglicht die Ableitung f ′ dieApproximation von f in einer Umgebung von a durch eine affin-lineare Funktion. Entsprechend können diehöheren Ableitungen dafür verwendet werden, die Funktion f in einer Umgebung von a noch genauer durcheine Polynomfunktion zu beschreiben. Dies hatten wir schon im ersten Semester bei den eindimensionalenFunktionen beobachtet.

—– 98 —–

Page 99: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Sei U ⊆ Rn offen, a ∈ U und f : U → R eine in a zweimal differenzierbare Funktion. Dann nennen wir dieFunktion τ2(f, a) : Rn → R gegeben durch

τ2(f, a)(x) = f(a) + f ′(a)(x− a) + 12f′′(a)(x− a, x− a)

das Taylorpolynom zweiten Grades von f an der Stelle a.

Interpretieren wir f ′(a) als (n × 1)-Matrix und identifizieren wir f ′′(a) mit der (n × n)-Hesse-Matrix H (f),dann kann das Taylorpolynom auch in der Form

τ2(f, a)(x) = f(a) + f ′(a) · (x− a) + 12

t(x− a) ·H (f) · (x− a) dargestellt werden.

Als Beispiel betrachten wir die Funktion f : R2 → R gegeben durch (x, y) 7→ x2 − 2y2 + 3xy + 5x − 7. DieFunktion hat die partiellen Ableitungen

∂1f(x, y) = 2x+ 3y + 5

∂2f(x, y) = 3x− 4y

∂11f(x, y) = 2

∂12f(x, y) = 3

∂22f(x, y) = −4.

Die erste Ableitung von f und die Hesse-Matrix von f im Punkt (0, 0) sind gegeben durch

f ′(0, 0) =(

5 0)

und H (f)(0, 0) =

(2 3

3 −4

).

Durch Einsetzen in die Formel für das Taylorpolynom erhalten wir nun

τ2(f, (0, 0))(x, y) = f(0, 0) + f ′(0, 0) ·

(x

y

)+ 1

2

(x y

)·H (f)(0, 0) ·

(x

y

)=

−7 +(

5 0)(x

y

)+ 1

2

(x y

)(2 3

3 −4

)(x

y

)= −7 + 5x+ 1

2t(x y

)(2x+ 3y

3x− 4y

)=

−7 + 5x+ 12x(2x+ 3y) + 1

2y(3x− 4y) = x2 + 3xy − 2y2 + 5x− 7.

Die Funktion stimmt also mit ihrem eigenen Taylorpolynom zweiten Grades überein.

Wir verallgemeinern die Definition des Taylorpolynoms nun auf beliebige Grade.

(3.27) Definition Sei p ∈ N, U ⊆ Rn offen, a ∈ U und f : U → R eine im Punkt a p-maldifferenzierbare Funktion. Dann bezeichnet man die Funktion

τp(f, a)(x) = f(a) +

p∑k=1

1

k!f (k)(a)( x− a, ..., x− a︸ ︷︷ ︸

k-mal

)

als Taylorpolynom p-ten Grades von f an der Stelle a.

—– 99 —–

Page 100: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Es ist nicht schwer zu zeigen, dass allgemein jede Polynomfunktion vom Grad p mit seinem eigenen Taylor-polynom p-ten Grades übereinstimmt, wobei das Taylorpolynom in einem beliebigen Punkt a ∈ R2 gebildetwerden kann. Wir wollen nun präzisieren, in welchem Sinn die Taylorpolyome eine Funktion „besser“ appro-ximieren als die ersten Ableitung.

(3.28) Proposition Sei U ⊆ Rn offen und f : U → R eine p-mal differenzierbare Funktion.Dann gilt für jedes a ∈ U und alle h1, ..., hp ∈ Rn jeweils

f (p)(a)(h1, ..., hp) =∑

(i1,...,ip)

∂i1 ...∂ipf(a)h1,i1 ...hp,ip

wobei die Summe sämtliche Tupel (i1, ..., ip) ∈ Np mit 1 ≤ ik ≤ n für 1 ≤ k ≤ p durchläuft.

Beweis: Der Beweis verläuft weitgehend analog zu (3.25). Wir beweisen die Aussage durch vollständige In-duktion über p, wobei wir p ≥ 3 auf Grund von (3.25) voraussetzen dürfen. Zunächst beweisen wir für jedesa ∈ U und beliebige Vektoren v1, ..., vp ∈ Rn die Gleichung

f (p)(a)(v1, ..., vp) = ∂v1 ...∂vpf(a).

Wir definieren die Hilfsfunktionen f = ∂v2 ...∂vpf und g = f (p−1) und beweisen nacheinander die beiden Glei-chungen ∂v1 ...∂vpf(a) = f ′(a)(v1) und f ′(a)(v1) = f (n)(a)(v1, ..., vp). Die erste Gleichung ergibt sich wegen∂v1 ...∂vpf(a) = ∂v1 f(a) direkt aus dem Zusammenhang (3.11) zwischen totaler Ableitung und Richtungsablei-tung, angewendet auf die Funktion f . Für den Beweis der zweiten Gleichung bemerken wir, dass auf Grundder totalen Differenzierbarkeit von g im Punkt a für hinreichend kleine h ∈ Rn eine Gleichung der Form

g(a+ h) = g(a) + g′(a)(h) + ψ(h)

gültig ist, wobei wie immer ψ eine Funktion mit limh→0 ψ(h)/‖h‖ = 0 bezeichnet. Durch Anwenden der In-duktionsvoraussetzung auf p− 1 und Einsetzen erhalten wir

f(a+ h) = ∂v2 ...∂vpf(a+ h) = f (p−1)(a+ h)(v2, ..., vp) = g(a+ h)(v2, ..., vp) =

g(a)(v2, ..., vp) + g′(a)(h, v2, ..., vp) + ψ(h)(v2, ..., vp) = g(a)(v2, ..., vp) + g′(a)(h, v2, ..., vp) + ϕ(h)

mit ϕ(h) = ψ(h)(v2, ..., vp). Offenbar gilt auch limh→0 ϕ(h)/‖h‖ = 0. Folglich ist die Funktion f in a totaldifferenzierbar, wobei die Ableitung durch f ′(a)(v) = g′(a)(v, v2, ..., vp) gegeben ist. Somit erhalten wir wiegewünscht

f (p)(a)(v1, ..., vp) = g′(a)(v1, ..., vp) = f ′(a)(v1).

Die Gleichung des Satzes erhält man nun auf Grund der Multilinearität von f (p)(a) durch Anwendung dersoeben bewiesenen Aussage auf die Einheitsvektoren e1, ..., ep. Es gilt hk =

∑nik=1 hk,ikeik für 1 ≤ k ≤ p und

somit

f (p)(a)(h1, ..., hp) = f (p)(a)

n∑i1=1

h1,i1ei1 , ...,

n∑ip=1

hp,ipeip

=

n∑i1=1

...

n∑ip=1

h1,i1 ...hp,ipf(p)(a)(ei1 , ..., eip)

=∑

(i1,...,ip)

∂i1 ...∂ipf(a)h1,i1 ...hp,ip . �

—– 100 —–

Page 101: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(3.29) Satz (mehrdimensionale Taylor-Approximation)

Sei U ⊆ Rn offen und f : U → R eine p-mal stetig differenzierbare Funktion. Dann gibt eszu jedem Punkt a ∈ U eine Umgebung U0 des Nullpunkts und eine Funktion ψ : U0 → R

mit

f(a+ h) = τp(f, a)(a+ h) + ψ(h) für alle h ∈ U0 und limh→0

ψ(h)

‖h‖p= 0.

Beweis: Sei h ∈ Rn so gewählt, dass die Verbindungsstrecke [a, a + h] ganz in U liegt und φ : R → Rn,t 7→ a+ th. Setzen wir I = φ−1(U), dann ist I ⊆ R eine offene Teilmenge mit I ⊇ [0, 1]. Außerdem sei g : I → U

definiert durch g = f ◦ φ, also g(t) = f(a + th) für alle t ∈ I . Unser Ziel besteht darin, die Behauptungdurch Anwendung der eindimensonalen Taylor-Approximation aus dem ersten Semester auf die Funktiong|I herzuleiten. Es gilt φ′(t) = t(h1 ... hn) und f ′(a) = (∂1f(a) ... ∂nf(a)). Mit Hilfe der mehrdimensonalenKettenregel (3.20) erhalten wir

g′(t) = f ′(a+ th) ◦ φ′(t) =

n∑i=1

∂if(a+ th)hi für t ∈ I.

Wenden wir nun die soeben hergeleitete Ableitungsregel an Stelle von f auf die Funktion f =∑nj=1 hj∂jf an,

so gilt g′(t) = f(a+ th), und wir erhalten

g′′(t) =

n∑i=1

∂if(a+ th)hi =

n∑i=1

n∑j=1

∂i∂jf(a+ th)hihj für t ∈ I.

Iteration und Anwendung von (3.28) liefern für 1 ≤ k ≤ p und t ∈ I schließlich die Gleichung

g(k)(t) =

n∑i1=1

· · ·n∑

ik=1

∂i1 ...∂ikf(a+ th)hi1 ...hik = f (k)(a+ th)(h, ..., h).

Auf Grund der eindimensionalen Taylor-Entwicklung existiert ein ξ ∈ ]0, 1[ mit

g(1) = g(0) +

p−1∑k=1

1

k!g(k)(0) +

1

p!g(p)(ξ)

Durch Einsetzen erhalten wir

f(a+ h) = f(a) +

p−1∑k=1

1

k!f (k)(a+ th)(h, ..., h) +

1

p!f (p)(a+ ξh)(h, ..., h)

= τp−1(f, a)(a+ h) +1

p!f (p)(a+ ξh)(h, ..., h).

Zu zeigen ist nun, dass die Differenz

ψ(h) = f(a+ h)− τp(f, a)(a+ h) =1

p!f (p)(a+ ξh)(h, ..., h)− 1

p!f (p)(a)(h, ..., h)

auch nach Division durch ‖h‖p für h → 0 noch gegen Null konvergiert. Mit Hilfe von (3.28) erhalten wirfür die Differenz in ausgeschriebener Form 1

p!

∑(i1,...,ip)((∂i1...ipf)(a + ξh) − (∂i1...ipf)(a))hi1 ...hip . Legen wir

—– 101 —–

Page 102: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

wie üblich die ‖ · ‖∞-Norm zu Grunde, dann gilt die Abschätzung |hi1 ...hip | ≤ ‖h‖p, und weil die p-fachenAbleitungen in a stetig sind, läuft für h → 0 die Summe

∑i1,...,ip

∂i1...ip (f(a+ ξh)− f(a)) gegen Null. Damitist die Aussage bewiesen. �

Wir werden nun sehen, wie sich diese Eigenschaft zur Bestimmung von lokalen Extremstellen nutzen lässt.

(3.30) Definition Sei V ⊆ Rn eine beliebige Teilmenge, a ∈ V und f : V → R einereellwertige Funktion. Man sagt, f hat im Punkt a ein

(i) lokales Maximum, wenn eine Umgebung U ⊆ Rn von a existiert, so dassf(a) ≥ f(x) für alle x ∈ U ∩ V gilt,

(ii) isoliertes lokales Maximum, wenn U so gewählt werden kann, dass sogarf(a) > f(x) für alle x ∈ (U ∩ V ) \ {a} erfüllt ist.

Entsprechend definiert man (isolierte) lokale Minima. Wie in der Analysis einer Variablenverwenden wir den Begriff Extremum als Oberbegriff für Minima und Maxima.

In diesem Abschnitt betrachten wir nur Extrema von Funktionen, die auf offenen Teilmengen des Rn definiertsind. Wie in der Analysis einer Variablen zeigen wir

(3.31) Satz (notwendiges Kriterium für Extrema)

Sei U ⊆ Rn offen, f : U → R differenzierbar und a ∈ U .Besitzt f in a ein lokales Extremum, dann gilt f ′(a) = 0.

Beweis: Sei k ∈ {1, ..., n} und die Funktion g in einer Umgebung von 0 ∈ R definiert durch g(t) = f(a+ tek).Dann besitzt g in t = 0 ein Extremum, und es folgt ∂kf(a) = g′(0) = 0. Weil alle partiellen Ableitung von f imPunkt a gleich Null sind, muss f ′(a) = 0 gelten. �

Einen Punkt, in dem die erste Ableitung einer Funktion f verschwindet, bezeichnet man als kritische Stellevon f . Wie in der Analysis einer Variablen gibt es auch hinreichende Kriterien für Extrema, die mit der zweitenAbleitung der Funktion zusammenhängen.

(3.32) Satz (hinreichende Kriterien für Extrema)

Sei U ⊆ Rn offen, f : U → R eine zweimal stetig differenzierbare Funktion und a ∈ U einekritische Stelle von f .

(i) Ist f ′′(a) positiv definit, dann besitzt f in a ein isoliertes lokales Minimum.(ii) Ist f ′′(a) negativ definit, dann besitzt f in a ein isoliertes lokales Maximum.

(iii) Ist f ′′(a) indefinit, dann hat f in a kein lokales Extremum.

—– 102 —–

Page 103: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: zu (i) Weil f in a zweimal differenzierbar ist, besitzt f in einer Umgebung von a eine Darstellung derForm

f(a+ h) = f(a) + 12f′′(a)(h, h) + ψ(h) mit lim

h→0

ψ(h)

‖h‖2= 0.

Weil f ′′(a) positiv definit ist, besitzt die Funktion h 7→ f ′′(a)(h, h) auf der Menge S = {h ∈ Rn | ‖h‖ = 1} einpositives Minimum m. Für einen beliebigen Vektor h 6= 0 liegt h/‖h‖ in S, und auf Grund der Bilinearität vonf ′′(a) gilt f ′′(a)(h, h) = ‖h‖2f ′′(a)(h/‖h‖, h/‖h‖) ≥ m‖h‖2. Nun wählen wir ε ∈ R+ so klein, dass |ψ(h)| ≤14m‖h‖

2 für alle h mit ‖h‖ < ε erfüllt ist. Für diese h erhalten wir

f(a+ h) ≥ f(a) + 12f′′(a)(h, h)− 1

4m‖h‖2 ≥ f(a) + 1

4m‖h‖2 > f(a).

Also existiert an der Stelle a tatsächlich ein isoliertes lokales Minimum.

zu (ii) Der Beweis dieser Aussage kann durch Betrachtung der Funktion −f auf (i) zurückgeführt werden.

zu (iii) Weil f ′′(a) indefinit ist, gibt es Vektoren v, w ∈ Rn mit f ′′(a)(v, v) > 0 und f ′′(a)(w,w) < 0. Wirbetrachten die Funktionen gv(t) = f(a + tv) und gw(t) = f(a + tw). Setzen wir γ(t) = a + tv, dann liefert dieKettenregel

g′v(t) = f ′(a+ tv) ◦ γ′(t) = f ′(a+ tv) · v =

n∑i=1

∂if(a+ tv)vi = f ′(a+ tv)(v).

Wenden wir dieselbe Ableitungsregel statt auf f für 1 ≤ i ≤ n auf die Funktionen hi = ∂if an, so erhalten wirfür die Funktion g′v(t) =

∑ni=1 vihi(a+ tv) die Ableitung

g′′v (t) =

n∑i=1

vih′i(a+ tv)(v) =

n∑i=1

n∑j=1

∂jhi(a+ tv)vivj =

n∑i=1

n∑j=1

∂ijf(a+ tv)vivj = f ′′(a+ tv)(v, v)

wobei der letzte Schritt durch (3.25) zu Stande kommt. Inbesondere gilt also g′v(0) = f ′(a)(v) = 0 und g′′v (0) =

f ′′(a)(v, v) > 0. Aus der Analysis einer Variablen ist bekannt, dass dies ein hinreichendes Kriterium für dieExistenz eines isolierten lokalen Minimums der Funktion gv im Punkt t = 0 ist. Dies bedeutet, dass es in einerbeliebig kleinen ε-Umgebung von a Punkte x mit f(x) > f(a) gibt.

Ebenso zeigt man g′w(0) = f ′(a)(w) = 0 und g′′w(0) = f ′′(a)(w) < 0. Die Funktion gw hat also bei t = 0

ein isoliertes lokales Maximum. Also gibt es in jeder beliebig kleinen ε-Umgebung von a auch Punkte x mitf(x) < f(a). Beides zusammen zeigt, dass f an der Stelle a kein lokales Extremum besitzt. �

—– 103 —–

Page 104: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Wir betrachten die Funktion f : R2 → R gegeben durch f(x, y) = y2(x− 1) + x2(x+ 1).

Graph der Funktion f

Man erkennt deutlich das lokale Maximum (rot) an der Stelle (− 23, 0) und die

kritische Stelle (0, 0) im blaugrünen Bereich, an der kein lokales Extremum existiert.

Die erste Ableitung und die Hesse-Matrix von f sind gegeben durch

f ′(x, y) = (y2 + 3x2 + 2x 2(x− 1)y) und H (f)(x, y) =

(6x+ 2 2y

2y 2(x− 1)

).

Zunächst bestimmen wir die kritischen Punkte der Funktion, also die Punkte (x, y) ∈ R2 mit

f ′(x, y) = (y2 + 3x2 + 2x 2(x− 1)y) = (0 0).

Wegen 2(x − 1)y = 0 muss x = 1 oder y = 0 sein. Ist x = 1, dann ist die zweite Komponente gleich y2 + 5

und kann somit nicht Null sein. Also bleibt nur die Möglichkeit y = 0 übrig, und wir erhalten für die ersteKomponente den Ausdruck 3x2 + 2x = 3x(x+ 2

3 ). Dieser ist genau dann gleich Null, wenn x = 0 oder x = − 23

ist. Die beiden kritischen Punkte sind also (0, 0) und (− 23 , 0). Die Hesse-Matrix in diesen beiden Punkten ist

gegeben durch

H (f)(0, 0) =

(2 0

0 −2

)und H (f)(− 2

3 , 0) =

(−2 0

0 − 103

).

An der Matrix H (f)(0, 0) kann abgelesen werden, dass die Bilinearform f ′′(0, 0) indefinit ist, denn für e1 =

(1, 0) gilt f ′′(0, 0)(e1, e1) = 2 > 0, während für e2 = (0, 1) der Wert f ′′(0, 0)(e2, e2) = −2 negativ ist. Also liegtbei (0, 0) kein lokales Extremum vor. Andererseits zeigt die Matrix H (f)(− 2

3 , 0), dass f ′′(− 23 , 0) negativ ist,

denn für einen beliebigen Vektor v = (x, y) 6= (0, 0) gilt f ′′(− 23 , 0)(v, v) = −2x2 − 10

3 y2 < 0. Also besitzt f in

(− 23 , 0) ein isoliertes lokales Maximum.

—– 104 —–

Page 105: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Ist die Hesse-Matrix an einer kritischen Stelle a positiv oder negativ semidefinit, erfüllt die zweite Ableitungalso nur f ′′(a)(v, v) ≥ 0 für alle v ∈ Rn oder f ′′(a)(v, v) ≤ 0 für alle v ∈ Rn, dann ist keine allgemeine Aussageüber das Auftreten von Extrema möglich. Als Beispiel betrachten wir die beiden Funktionen f(x, y) = x2 + y3

und g(x, y) = x2 + y4.

Funktionsgraphen von f und g

Beide Graphen besitzen an der Stelle (0, 0) einen kritischen Punkt, und die Hessematrix ist in beiden Fällen positiv

semidefinit. Aber nur die Funktion g besitzt in (0, 0) ein lokales Minimum.

Es gilt f ′(x, y) = (2x 3y2) und g′(x, y) = (2x 4y3), also ist (0, 0) für beide Funktionen eine kritische Stelle. Esgilt

H (f)(x, y) =

(2 0

0 6y

)und H (g)(x, y) =

(2 0

0 12y2

),

also insbesondere

H (f)(0, 0) =

(2 0

0 0

)und H (g)(0, 0) =

(2 0

0 0

),

d.h. die Hesse-Matrix ist bei (0, 0) jeweils positiv semidefinit. Die Funktion g besitzt bei a offenbar ein isolierteslokales Minimum, denn an allen Stellen 6= (0, 0) nimmt g nur positive Werte an. Dagegen ist f(ε, 0) = ε2 fürbeliebig kleine ε ∈ R+, während f(0,−ε) = −ε3 negativ ist. Also besitzt f bei (0, 0) kein lokales Extremum.

Wenigstens ist die positive Semidefinitheit ein notwendiges Kriterium für das Auftreten lokaler Minima.

(3.33) Satz Sei U ⊆ Rn offen, f : U → R zweimal stetig differenzierbar und a ∈ U einkritischer Punkt von f .

(i) Besitzt f bei a ein lokales Minimum, dann ist f ′′(a) positiv semidefinit.(ii) Besitzt f bei a ein lokales Maximum, dann ist f ′′(a) negativ semidefinit.

—– 105 —–

Page 106: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Wieder genügt es, die Aussage (i) zu beweisen, weil (ii) durch Übergang zu −f auf (i) zurückgeführtwerden kann. Nehmen wir nun an, a ist ein lokales Minimum, aber f ′′(a) nicht positiv semidefinit. Dann gibt eseinen Vektor v ∈ Rn mit f ′′(a)(v, v) < 0. Wie im Beweis von (3.32) (iii) zeigt man, dass die beiden Ableitungenvon gv(t) = f(a + tv) im Nullpunkt durch g′v(0) = 0 und g′′v (0) = f ′′(a)(v, v) < 0 gegeben sind. Die Funktiongv besitzt also in t = 0 ein isoliertes lokales Maximum. Dies bedeutet, dass in jeder beliebig kleinen Umgebungvon a die Funktion f Werte kleiner als f(a) annimmt. Aber dies widerspricht der Annahme, dass f in a einlokales Minimum besitzt. �

—– 106 —–

Page 107: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

3.4 Extrema unter Nebenbedingungen

Inhaltsübersicht

FF Beispiele für Untermannigfaltigkeiten der Dimension 1 (Ellipse, Hyperbel) und 2 (Sphäre, Rotationsparaboloid)

FF Extrema einer Funktion unter Nebenbedingungen sind Extrema der Funktion nach Einschränkung auf eine Un-termannigfaltigkeit. Weil dies in der Regel keine offenen Teilmengen des Rn sind, können die Kriterien aus demvorherigen Abschnitt nicht verwendet werden.

FF Um ein notwendiges Kriterium für Extrema zu erhalten, müssen nicht nur die Ableitung der betrachteten Funktion,sondern auch die definierenden Abbildungen der Untermannigfaltigkeit berücksichtigt werden.

(3.34) Definition Seien d, n ∈ Nmit d < n. Eine Teilmenge M ⊆ Rn wird d-dimensionaleUntermannigfaltigkeit genannt, wenn es für jeden Punkt a ∈ M eine offene Umgebung Uund n− d stetig differenzierbare Funktionen ϕ1, ..., ϕn−d : U → R gibt, so dass gilt

(i) U ∩M = {x ∈ U | ϕ1(x) = ... = ϕn−d(x) = 0}

(ii) dim lin{ϕ′1(x), ..., ϕ′n−d(x)} = n− d für alle x ∈ U ∩M(Mit anderen Worten, die Ableitungen von ϕ1, ..., ϕn−d im Punkt x sind alsElemente des R-Vektorraums L (Rn,R) linear unabhängig.)

Schauen wir uns eine Reihe von Beispielen für Untermannigfaltigkeiten an.

(i) Jeder d-dimensionale Untervektorraum M ⊆ Rn kann als Lösungsmenge eines Systemsvon n− d linear unabhängigen Gleichungen

fi(x) = ai1x1 + ...+ ainxn = 0 , 1 ≤ i ≤ n− d

beschrieben werden. Weil die Funktionen fi linear sind, stimmen sie in jedem Punkt mitihrer eigenen Ableitung überein. Deshalb istM eine d-dimensionale Untermannigfaltigkeitim Rn.

(ii) Der Kreis S1 ⊆ R2 mit Mittelpunkt 0 und Radius 1 wird beschrieben durch die Gleichungf(x, y) = x2 +y2−1 = 0. Es gilt f ′(x, y) = (2x 2y) und somit f ′(x, y) 6= 0 für alle (x, y) ∈ S1.Also ist S1 eine 1-dimensionale Untermannigfaltigkeit imR2. Genauso zeigt man, dass dieSphäre S2 = {(x, y, z) ∈ R3

∣∣ x2 + y2 + z2 − 1 = 0} eine zweidimensionale Untermannig-faltigkeit im R3 und allgemeiner die sogenannte n-Sphäre

Sn =

{(x0, ..., xn) ∈ Rn+1

∣∣∣∣ n∑i=0

x2i − 1 = 0

}eine n-dimensionale Untermannigfaltigkeit im Rn+1 ist.

(iii) Die Hyperbel gegeben durch H = {(x, y) ∈ R2 | xy − 1} ist eine 1-dim. Untermannigfaltig-keit im R2.

—– 107 —–

Page 108: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(iv) Das Rotationsparaboloid P = {(x, y, z) ∈ R3 | z − x2 − y2 = 0} ist eine 2-dim. Unterman-nigfaltigkeit im R3.

(v) Der KegelC = {(x, y, z) ∈ R3 | z2−x2−y2 = 0} ist keine 2-dimensionale Untermannigfaltig-keit imR3, weil die Ableitung (x, y) 7→ (−2x −2y 2z) der definierenden Funktion im Punkt(0, 0, 0) verschwindet. Entfernt man diesen Punkt, dann erhält man durch C = C\{(0, 0, 0)}eine 2-dimensionale Untermannigfaltigkeit.

(vi) Auch die sogenannte Neillsche Parabel N = {(x, y) ∈ R2 | y2 − x3 = 0} und die Kurvegegeben durch

C = {(x, y) ∈ R2 | y2 − x3 − x2 = 0}

werden erst dann zu 1-dimensionalen Untermannigfaltigkeiten im R2, wenn man denPunkt (0, 0) entfernt.

Wir formulieren nun ein notwendiges Kriterium für Extrema auf Mannigfaltigkeiten, dass wir allerdings ausZeitgründen nicht beweisen. Für einen überschaubaren und transparenten Beweis des Kriteriums sind andereZugänge zum Begriff der Untermannigkeit besser geeignet, die allerdings auch einen höheren technischenAufwand erfordern.

(3.35) Satz (Satz über Extrema mit Nebenbedingungen)

Sei M eine d-dimensionale Untermannigfaltigkeit im Rn, U ⊆ Rn eine offene Teilmenge,und seien ϕ1, ..., ϕn−d stetig differenzierbare Funktionen ϕi : U → R mit der Eigenschaft,dass die Bedingungen (i) und (ii) aus (3.34) erfüllt sind. Sei f : U → R eine weitere stetigdifferenzierbare Funktion. Ist dann a ∈ U ∩M ein lokales Extremum von f auf M , danngibt es reelle Zahlen λ1, ..., λn−d ∈ R (die sogenannten Lagrange-Multiplikatoren), so dassin L (Rn,R) die Gleichung

f ′(a) =

n−d∑j=1

λjϕ′j(a) erfüllt ist.

Wir betrachten ein Anwendungsbeispiel für den soeben formulierten Satz. SeiU = R2, die Funktion f : U → R

gegeben durch f(x, y) = x+y und K = S1 = {(x, y) ∈ R2 | x2 +y2 = 1}. Dann ist K die Nullstellenmenge derFunktion ϕ(x, y) = x2 + y2 − 1, und die Ableitungen von ϕ1 und f sind in jedem Punkt (x, y) gegeben durch

ϕ′1(x, y) =(

2x 2y)

und f ′(x, y) =(

1 1).

Wenn f auf K im Punkt (x, y) ein lokales Extremum besitzt, dann muss nach (3.35) der Vektor f ′(x, y) = (1 1)

ein skalares Vielfaches von ϕ′1(x, y) = (2x 2y) sein. Es muss also x = y und 2x2 = x2 + x2 = 1 gelten. Diesist nur für die Punkte ±( 1√

2, 1√

2) der Fall. Durch eine direkte Rechnung kann man in der Tat leicht sehen, dass

die eingeschränkte Funktion f |K im Punkt (− 1√2,− 1√

2) ihr Minimum und im Punkt ( 1√

2, 1√

2) ihr Maximum

annimmt. Als Funktion auf R2 besitzt f natürlich keine lokalen Extremstellen, geschweige denn globale.

—– 108 —–

Page 109: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Als weiteres Beispiel bestimmen wir den Punkt p auf der Ebene E = {(x, y, z) ∈ R3 | z = x + y}, der vomPunkt q = (1, 0, 0) den kleinsten Abstand hat. Dabei setzen wir als bekannt voraus, dass ein eindeutiger Punktp mit dieser Eigenschaft existiert. Zu diesem Zweck bestimmen wir ein lokales Minimum der quadriertenAbstandsfunktion

f : R3 → R , (x, y, z) 7→ (x− 1)2 + y2 + z2 auf E = {(x, y, z) | g(x, y, z) = 0} ,

wobei g : R3 → R durch (x, y, z) 7→ x + y − z gegeben ist. Die Ableitungen von f und g sind in jedem Punktgegeben durch

f ′(x, y, z) =(

2x− 2 2y 2z)

und g′(x, y, z) =(

1 1 −1).

Ist p = (x, y, z) ∈ E ein lokales Extremum von f , dann muss nach (3.35) die Gleichung (2x − 2 2y 2z) =

λ(1 1 − 1) für ein λ ∈ R erfüllt sein. Dies liefert das Gleichungssystem 2x− 2 = λ, 2y = λ, 2z = −λ, was zux = 1

2λ+ 1, y = 12λ, z = − 1

2λ umgeformt werden kann. Wegen p ∈ E gilt außerdem

g(x, y, z) = 0 ⇔ x+ y = z ⇔ ( 12λ+ 1) + 1

2λ = − 12λ ⇔ λ+ 1 = − 1

⇔ 32λ = −1 ⇔ λ = − 2

3 .

Somit ist p = (x, y, z) = ( 23 ,−

13 ,

13 ) der gesuchte Punkt.

—– 109 —–

Page 110: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

§ 4. Integration mehrdimensionaler Funktionen

4.1 Definition des mehrdimensionalen Riemann-Integrals

Inhaltsübersicht

FF Zerlegung mehrdimensionaler Quader, Ober- und Untersumme einer beschränkten Funktion

FF Definition der Riemann-integrierbaren Funktionen und des Riemann-Integrals

FF Integrierbarkeitskritierien

FF Beispiel für eine nicht Riemann-integrierbare Funktion

Bevor wir die mehrdimensionalen Riemann-Integrale definieren, wiederholen wir zunächst die Definition imeindimensionalen Fall aus dem ersten Semester. Sei [a, b] ⊆ R ein endliches, abgeschlossenes Intervall undf : [a, b] → R eine beschränkte Funktion. Eine Zerlegung von [a, b] ist eine ist eine endliche Teilmenge Z =

{x1, ..., xn−1} von ]a, b[. Für jede solche Zerlegung hatten wir die Unter- und Obersumme von f definiert durch

S −f (Z ) =

n−1∑k=0

ck(xk+1 − xk) und S +f (Z ) =

n−1∑k=0

dk(xk+1 − xk)

wobei ck, dk ∈ R für 0 ≤ k < n durch ck = inf{f(x) | x ∈ [xk, xk+1]} und dk = sup{f(x) | x ∈ [xk, xk+1]}definiert sind und x0 = a, xn = b gesetzt wird. Das Unterintegral ist dann das Supremum aller Untersum-men und das Oberintegral das Infimum aller Obersummen, gebildet jeweils über sämtliche Zerlegungen von[a, b]. Stimmen beide überein, dann haben wir die Funktion f als Riemann-integrierbar bezeichnet und dengemeinsamen Wert von Unter- und Oberintegral als Riemann-Integral von f .

Diese Definitionen lassen sich problemlos auf höhere Dimension übertragen, indem man lediglich Intervalledurch kompakte Quader ersetzt, also Teilmengen von Q ⊆ Rn der Form I1 × ... × In mit Ik = [ak, bk] undak, bk ∈ R, ak < bk für 1 ≤ k ≤ n. Die Zahl

v(Q) =

n∏k=1

(bk − ak)

bezeichnen wir als das (n-dimensionale) Volumen von Q. Der Begriff der Zerlegung muss ebenfalls geeignetangepasst werden.

(4.1) Definition Sei Q = I1 × ... × In ein kompakter Quader im Rn. Eine Zerlegung vonQ ist ein Tupel Z = (Z1, ...,Zn), wobei Zk für 1 ≤ k ≤ n jeweils eine Zerlegung desIntervalls Ik bezeichnet.

Jeder Zerlegung von Q definiert eine bestimmte (endliche) Menge von Teilquadern des Quaders Q. Ist Z

eine Zerlegung wie in der Definition, Ik = [ak, bk] und Zk = {xk,1, ..., xk,mk−1} für 1 ≤ k ≤ n mit jeweilsak = xk,0 < xk,1 < ... < xk,mk−1 < xk,mk

= bk, dann ist diese Teilmenge gegeben durch

Q(Z ) =

{[x1,`1−1, x1,`1 ]× ...× [xn,`n−1, xn,`n ]

∣∣∣∣ 1 ≤ `1 ≤ m1, ..., 1 ≤ `n ≤ mn

}

—– 110 —–

Page 111: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Die Volumina der Teilquader addieren sich um Volumen des Quaders Q, wie die folgende Rechnung zeigt.

∑K∈Q(Z )

v(K) =

m1∑`1=1

· · ·mn∑`n=1

v ([x1,`1−1, x1,`1 ]× ...× [xn,`n−1, xn,`n ]) =

m1∑`1=1

· · ·mn∑`n=1

(x1,`1 − x1,`1−1) · ... · (xn,`n − xn,`n−1) =

(m1∑`1=1

(x1,`1 − x1,`1−1)

)· ... ·

(mn∑`n=1

(xn,`n − xn,`n−1)

)=

(x1,m1− x1,0) · ... · (xn,mn

− xn,0) = (b1 − a1) · ... · (bn − an) = v(Q).

Seien nun Z und Z ′ zwei Zerlegungen von Q mit Komponenten Zk und Z ′k für 1 ≤ k ≤ n. Wir bezeichnenZ ′ als Verfeinerung von Z , wenn Zk ⊆ Z ′k für 1 ≤ k ≤ n erfüllt ist. Dies ist offenbar genau dann derFall, wenn jeder Quader in Q(Z ′) Teilquader eines Quaders in Q(Z ) ist. Je zwei Zerlegungen kann einegemeinsame Verfeinerung zugeordnet werden, nämlich die Verfeinerung mit den Komponenten Zk ∪Z ′k , diewir der Einfachheit halber wieder mit Z ∪Z ′ bezeichnen.

Sei Q ⊆ Rn ein Quader, Z eine Zerlegung von Q und f : Q→ R eine beschränkte Funktion. Für jeden QuaderK ∈ Q(Z ) definieren wir die beiden Werte

c−K,f = inf { f(x) | x ∈ K } und c+K,f = sup { f(x) | x ∈ K }.

(4.2) Definition Für jede Zerlegung Z von Q wie angegeben bezeichnet man die Werte

S −f (Z ) =∑

K∈Q(Z )

c−K,fv(K) bzw. S +f (Z ) =

∑K∈Q(Z )

c+K,fv(K)

als Unter- bzw. Obersumme von f bezüglich der Zerlegung Z .

(4.3) Lemma Sind Z ,Z ′ Zerlegungen von Q, und ist Z ′ eine Verfeinerung von Z , danngilt

S −f (Z ) ≤ S −f (Z ′) und S +f (Z ′) ≤ S +

f (Z ).

Beweis: Wir beschränken uns auf den Nachweis der ersten Ungleichung. Für jeden Quader K ∈ Q(Z ) defi-nieren wir Q(Z ′)K = {K ′ ∈ Q(Z ′) | K ′ ⊆ K}. Weil der Quader K aus den Quadern in Q(Z ′)K zusammen-gesetzt ist, gilt v(K) =

∑K′∈Q(Z ′)K

v(K ′). Für jedes K ′ ∈ Q(Z ′)K gilt c−K,f ≤ c−K′,f , weil im ersten Fall dasInfimum über eine größere Menge gebildet wird. Wir erhalten somit

c−K,fv(K) =∑

K′∈Q(Z ′)K

c−K,fv(K ′) ≤∑

K′∈Q(Z ′)K

c−K′,fv(K ′)

—– 111 —–

Page 112: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und weiter

S −f (Z ) =∑

K∈Q(Z )

c−K,fv(K) ≤∑

K∈Q(Z )

∑K′∈Q(Z ′)K

c−K′,fv(K ′)

=∑

K′∈Q(Z ′)

c−K′,fv(K ′) = S −f (Z ′). �

(4.4) Folgerung Für zwei beliebige Zerlegungen Z ,Z ′ von Q gilt S −f (Z ) ≤ S +f (Z ′).

Beweis: Setzen wir Z ′′ = Z ∪Z ′, dann gilt auf Grund des Lemmas

S −f (Z ) ≤ S −f (Z ′′) ≤ S +f (Z ′′) ≤ S +

f (Z ′). �

Wie im eindimensionalen Fall definieren wir nun

(4.5) Definition Sei Q ⊆ Rn ein kompakter Quader und f : Q → R eine beschränkteFunktion. Dann nennt man∫

QFf(x) dx = sup

ZS −f (Z ) bzw.

∫ F

Q

f(x) dx = infZ

S +f (Z )

das Unter- bzw. Oberintegral von f , wobei Z bei der Bildung von Supremum und Infi-mum jeweils alle Zerlegungen des Quaders Q durchläuft. Man bezeichnet f als Riemann-integrierbar, wenn Unter- und Oberintegral übereinstimmen. In diesem Fall nennt man∫

Q

f(x) dx =

∫QF

f(x) dx Riemann-Integral von f.

Aus (4.4) erhält man für jede beschränkte Funktion f die Ungleichung∫QF

f(x) dx = supZ

S −f (Z ) ≤ infZ

S +f (Z ) =

∫ F

Q

f(x) dx.

Jede konstante Funktion auf einem Quader Q ist Riemann-integrierbar. Sei nämlich f : Q → R eine Funktionmit f(x) = c für alle x ∈ Q und Z eine beliebige Zerlegung. Dann gilt c−K,f = c für alle K ∈ Q(Z ). Es folgt

S −f (Z ) =∑

K∈Q(Z )

c−K,fv(K) =∑

K∈Q(Z )

cv(K) = c∑

K∈Q(Z )

v(K) = cv(Q)

und somit ∫FQ

f(x) dx = supZ S −f (Z ) = cv(Q).

Genauso beweist man, dass auch das Oberintegral den Wert cv(Q) hat.

—– 112 —–

Page 113: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Als ein etwas weniger triviales Beispiel betrachten wir die Funktion f : [0, 1] × [0, 1] → R, (x, y) 7→ xy. Fürjedes n ∈ N betrachten wir die Zerlegung Z

(n)1 = Z

(n)2 = { kn | 1 ≤ k ≤ n − 1} des Intervalls [0, 1] und die

Zerlegung Z (n) = (Z(n)

1 ,Z(n)

2 ) des Quaders Q = [0, 1] × [0, 1]. Die Quader dieser Zerlegung sind offenbargegeben durch Q(Z (n)) = { Qk` | 1 ≤ k, ` ≤ n}mit Qk` = [k−1

n , kn ]× [ `−1n , `n ], und es gilt v(Qk`) = 1

n2 für allek, `. Nach Definition der Funktion f gilt

c−k` = c−Qk`=

(k − 1)(`− 1)

n2und c+k` = c+Qk`

=k`

n2

für 1 ≤ k, ` ≤ n. Als Untersumme erhalten wir

S −f (Z (n)) =∑

K∈Q(Z (n))

c−K,fv(K) =

n∑k=1

n∑`=1

c−k`n2

=

n∑k=1

n∑`=1

(k − 1)(`− 1)

n4=

1

n4

(n∑k=1

(k − 1)

)(n∑`=1

(`− 1)

)=

1

n4· 1

2 (n− 1)n · 12 (n− 1)n = 1

4

(1− 1

n

)2

und für die Obersumme ebenso

S +f (Z (n)) =

∑K∈Q(Z (n))

c+K,fv(K) =

n∑k=1

n∑`=1

c+k`n2

=

n∑k=1

n∑`=1

k`

n4=

1

n4

(n∑k=1

k

)(n∑`=1

`‘

)=

1

n4· 1

2n(n+ 1) · 12n(n+ 1) = 1

4

(1 +

1

n

)2

.

Wir erhalten somit für jedes n ∈ N die Ungleichungskette

14

(1− 1

n

)2= S −f (Z (n)) ≤

∫QF

f(x) dx ≤∫ F

Q

f(x) dx ≤ S +f (Z (n)) = 1

4

(1 + 1

n

)2.

Durch Grenzübergang n→∞ folgt daraus schließlich∫Q

f(x) dx = 14 .

(4.6) Proposition Sei Q ⊆ Rn ein kompakter Quader. Eine beschränkte Funktion f : Q→R ist genau dann Riemann-integrierbar, wenn es für jedes ε ∈ R+ Zerlegungen Z und Z ′

von Q gibt mitS +f (Z ′)−S −f (Z ) < ε.

Beweis: „⇒“ Sei ε ∈ R+ vorgegeben und s der Wert des Riemann-Integrals. Nach Definition des Unter- undOberintegrals als Supremum und Infimum gibt es Zerlegungen Z und Z ′ mit

S −f (Z ) >

∫QF

f(x) dx− 12ε = s− 1

2ε und S +f (Z ′) <

∫ F

Q

f(x) dx+ 12ε = s+ 1

2ε.

Es folgt S +f (Z ′)−S −f (Z ) < (s+ 1

2ε)− (s− 12ε) = ε.

„⇐“ Für beliebig vorgegebenes ε ∈ R+ seien Z und Z ′ Zerlegungen mit der angegebenen Eigenschaft. Danngilt

S −f (Z ) ≤∫QF

f(x) dx ≤∫ F

Q

f(x) dx ≤ S +f (Z ′)

—– 113 —–

Page 114: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

also ∫ F

Q

f(x) dx−∫QF

f(x) dx ≤ S +f (Z ′)−S −f (Z ) < ε.

Weil ε beliebig klein gewählt werden kann, folgt∫QF f(x) dx =

∫FQf(x) dx. Also ist f eine Riemann-integrier-

bare Funktion. �

(4.7) Proposition Sei Q ⊆ Rn ein kompakter Quader, seien f, g : Q → R Riemann-integrierbare Funktionen und λ ∈ R. Dann sind auch f und g Riemann-integrierbar, undes gilt∫Q

(f + g)(x) dx =

∫Q

f(x) dx+

∫Q

g(x) dx und∫Q

(λf)(x) dx = λ

∫Q

f(x) dx.

Aus f ≤ g folgt∫Q

f(x) dx ≤∫Q

g(x) dx.

Beweis: Wir beschränken uns auf den Beweis der ersten Gleichung. Sei ε ∈ R+ vorgegeben. Auf Grund derIntegrierbarkeit von f gibt es Zerlegungen Z und Z ′ von Q mit

S −f (Z ) ≥∫Q

f(x) dx− ε und S +f (Z ′) ≤

∫Q

f(x) dx+ ε.

Ebenso finden wir auf Grund der Integrierbarkeit von g Zerlegungen Z ′′ und Z ′′′ von Q mit

S −g (Z ′′) ≥∫Q

g(x) dx− ε und S +g (Z ′′′) ≤

∫Q

g(x) dx+ ε.

Durch Übergang zu einer gemeinsamen Verfeinerung können wir Z = Z ′′ und Z ′ = Z ′′′ erreichen, ohnedass sich an den Ungleichungen etwas ändert (nach (4.3)). Für alle K ∈ Z gilt c−K,f+g ≥ c−K,f + c−K,g (imAllgemeinen keine Gleichheit!) und somit

S −f+g(Z ) =∑

K∈Q(Z )

c−K,(f+g)v(K) ≥∑

K∈Q(Z )

c−K,fv(K) +∑

K∈Q(Z )

c−K,gv(K)

= S −f (Z ) + S −g (Z ).

Genauso beweist man die Gleichung S +f+g(Z

′) ≤ S +f (Z ′) + S +

g (Z ′). Insgesamt erhalten wir mit (4.4) dieUngleichung∫

Q

f(x) dx+

∫Q

g(x) dx− 2ε ≤ S −f (Z ) + S −g (Z ) ≤ S −f+g(Z ) ≤ S +f+g(Z

′) ≤

S +f (Z ′) + S +

g (Z ′) ≤∫Q

f(x) dx+

∫Q

g(x) dx+ 2ε.

Es folgt S +f+g(Z

′) − S −f+g(Z ) < 4ε. Weil ε ∈ R+ beliebig vorgegeben war, ist f + g nach (4.6) Riemann-integrierbar. Für den Wert des Integrals gilt∫

Q

f(x) dx+

∫Q

g(x) dx− 2ε ≤ S −f (Z ) + S −g (Z ) ≤ S −f+g(Z ) ≤∫Q

(f + g)(x) dx

≤ S +f+g(Z ) ≤ S +

f (Z ) + S +g (Z ) ≤

∫Q

f(x) dx+

∫Q

g(x) dx+ 2ε

—– 114 —–

Page 115: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und somit∫Q

(f+g)(x) dx =∫Qf(x) dx+

∫Qg(x) dx. Für den Beweis der „≤“-Aussage genügt es zu bemerken,

dass für jede Zerlegung Z von Q und jedes K ∈ Q(Z ) aus f ≤ g auch c−K,f ≤ c−K,g folgt. Dies wiederumbedeutet S −f (Z ) ≤ S −g (Z ) für jede Zerlegung Z , und aus der Definition des Riemann-Integrals folgt∫Q

f(x) dx =

∫QF

f(x) dx = supZ

S −f (Z ) ≤ supZ

S −g (Z ) =

∫QF

g(x) dx =

∫Q

g(x) dx.

(4.8) Proposition Jede stetige Funktion f : Q → R auf einem kompakten Quader Q istRiemann-integrierbar.

Beweis: Sei ε ∈ R+ beliebig vorgegeben und ‖ · ‖∞ die Maximums-Norm auf Rn. Nach (2.84) ist jede stetigeFunktion auf einer kompakten Menge gleichmäßig stetig. Es gibt also ein δ ∈ R+, so dass für alle x, y ∈ Q aus‖x− y‖∞ < δ jeweils |f(x)− f(y)| < ε folgt. Sei nun Z eine so feine Zerlegung von Q, dass der Durchmesservon jedem QuaderK ∈ Z jeweils kleiner als δ ist. Dann gilt für jeden QuaderK ∈ Z und alle x, y ∈ K jeweils|f(x)− f(y)| < ε. Daraus folgt

c+K,f − c−K,f = sup{f(x) | x ∈ K} − inf{f(x) | x ∈ K} ≤ ε ,

und diese Abschätzung wiederum liefert

S +f (Z )−S −f (Z ) =

∑K∈Q(Z )

c+K,fv(K)−∑

K∈Q(Z )

c−K,fv(K) =∑

K∈Q(Z )

(c+K,f − c−K,f )v(K)

≤ ε∑

K∈Q(Z )

v(K) ≤ εv(Q).

Weil ε beliebig klein gewählt werden kann, folgt mit (4.6) daraus die Behauptung. �

Andererseits gibt es wie im eindimensionalen auch in jeder höheren Dimension Funktionen, die nicht Riemann-integrierbar sind. Sei zum Beispiel Q = [0, 1]n und die Funktion f : Q→ R definiert durch

f(x1, ..., xn) =

1 falls x1, ..., xn ∈ Q

0 sonst

Sei Z eine beliebige Zerlegung von Q und K ∈ Q(Z ). Wir schreiben K in der Form [a1, b1]× ...× [an, bn] mitak < bk für 1 ≤ k ≤ n. Weil die rationalen Zahlen dicht in R liegen, gibt es für jedes k ein xk ∈ [ak, bk] ∩Q. Esfolgt f(x) = 1 für den Punkt x = (x1, ..., xn) in K und somit c+K,f ≥ 1. Weil auch die irrationalen Zahlen dichtin R liegen, finden wir ebenso ein x ∈ K mit f(x) = 0. Daraus folgt c−K,f ≤ 0. Insgesamt erhalten wir für jedeZerlegung Z also

S −f (Z ) =∑

K∈Q(Z )

c−K,fv(K) ≤ 0 und S +f (Z ) =

∑K∈Q(Z )

c+K,fv(K) ≥∑

K∈Q(Z )

1 · v(K) = v(Q) = 1.

Daraus folgt∫QF f(x) dx ≤ 0 und

∫FQf(x) dx ≥ 1. Die Funktion ist also nicht Riemann-integrierbar.

—– 115 —–

Page 116: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

4.2 Der Satz von Fubini

Inhaltsübersicht

FF Der Satz von Fubini ermöglicht es, die Integration mehrdimensionaler Funktionen auf eindimensionale Intgrationzurückzuführen.

FF Als Anwendungsbeispiele berechnen wir die Volumina von Simplex und Kugel.

Für die Berechnung mehrdimensionaler Integrale kommt folgender Satz zur Anwendung, der die mehrdimen-sionale Integration auf den eindimensionalen Fall zurückführt.

(4.9) Satz (Satz von Fubini)

Seien P ⊆ Rm und Q ⊆ Rn kompakte Quader, und sei f : P × Q → R eine Riemann-integrierbare Funktion auf dem Quader P×Q ⊆ Rm×Rn. Für jedes x ∈ P sei die Funktionfx : Q→ R definiert durch fx(y) = f(x, y). Dann sind die Funktionen

fF : P → R , x 7→∫QF

fx(y) dy und fF : P → R , x 7→∫ F

Q

fx(y) dy

beide Riemann-integrierbar, und es gilt∫P×Q

f(x, y) d(x, y) =

∫P

(∫QF

fx(y) dy

)dx =

∫P

(∫ F

Q

fx(y) dy

)dx.

Beweis: Sei ZP = (Z1, ...,Zm) eine Zerlegung von P und ZQ = (Zm+1, ...,Zm+n) eine Zerlegung von Q.Dann ist durch Z = (Z1, ...,Zm+n) eine Zerlegung von P ×Q gegeben, und jede Zerlegung von P ×Q kannauf diese Weise aus Zerlegungen von P und Q zusammengesetzt werden. Außerdem gilt

Q(Z ) ={KP ×KQ

∣∣KP ∈ Q(ZP ) und KQ ∈ Q(ZQ)}.

Der entscheidende Ansatz ist der Beweis der Ungleichungen S −f (Z ) ≤ S −fF(ZP ) und S +f (Z ) ≥ S +

fF(ZP ).Es gilt

S −f (Z ) =∑

KP∈Q(ZP )

∑KQ∈Q(ZQ)

c−KP×KQ,fv(KP ×KQ) =

∑KP∈Q(ZP )

∑KQ∈Q(ZQ)

c−KP×KQ,fv(KQ)

v(KP ).

(4.6)

Wir zeigen nun, dass der Ausdruck in der Klammer durch c−KP ,fFabgeschätzt werden kann. Seien dazu KP ∈

Q(ZP ) und KQ ∈ Q(ZQ) beliebig vorgegeben. Für jedes x0 ∈ KP gilt

c−KP×KQ,f= inf {f(x, y) | x ∈ KP , y ∈ KQ} ≤ inf {f(x0, y) | y ∈ KQ} = c−KQ,fx0

.

—– 116 —–

Page 117: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Dadurch erhalten wir für alle x ∈ KP die Ungleichung∑KQ∈Q(ZQ)

c−KP×KQ,fv(KQ) =

∑KQ∈Q(ZQ)

c−KQ,fxv(KQ) = S −fx(ZQ)

≤∫QF

fx(y) dy = fF(x).

Durch Übergang zum Infimum über alle x ∈ KP folgt daraus∑KQ∈Q(ZQ)

c−KP×KQ,fv(KQ) ≤ inf { fF(x) | x ∈ KP } = c−KP ,fF

und durch Einsetzen in (4.6) erhalten wir

S −f (Z ) ≤∑

KP∈ZP

c−KP ,fFv(KP ) = S −fF(ZP ).

Die Ungleichung S +f (Z ) ≥ S +

fF(ZP ) kommt durch eine vollkommen analoge Rechnung zu Stande.

Nun beweisen wir die Riemann-Integrierbarkeit von fF. Wir haben im Abschnitt 7.1 gezeigt, dass das Unter-integral jeder Funktion höchstens so groß ist wie das Oberintegral. Deshalb gilt fF(x) ≤ fF(x) für alle x ∈ P ,und wir erhalten

S −f (Z ) ≤ S −fF(ZP ) ≤ S +fF

(ZP ) ≤ S +fF(ZP ) ≤ S +

f (Z ).

Weil f nach Voraussetzung Riemann-integrierbar ist, finden wir für jedes vorgegebene ε ∈ R+ eine ZerlegungZ mit S+

f (Z ) − S−f (Z ) < ε. Daraus folgt dann auch S +fF

(ZP ) − S −fF(ZP ) < ε. Nach (4.6) ist die FunktionfF : P → R damit Riemann-integrierbar. Auf ähnliche Weise zeigt man die Riemann-Integrierbarkeit von fF,mit dem einzigen Unterschied, dass man hier die Ungleichungskette

S −f (Z ) ≤ S −fF(ZP ) ≤ S −fF(ZP ) ≤ S +

fF(ZP ) ≤ S +f (Z ) verwendet.

In einem letzten Schritt beweisen wir nun die im Satz angegebenen Integralgleichungen. Betrachtet man dieUngleichungskette

S −f (Z ) ≤ S −fF(ZP ) ≤∫P

fF(x) dx ≤∫P

fF(x) dx ≤ S +fF(ZP ) ≤ S +

f (Z )

und wählt Zerlegungen Z von P ×Q so, dass der Wert S+f (Z )− S−f (Z ) gegen Null geht, dann läuft sowohl

S −f (Z ) also auch S +f (Z ) gegen den Wert des Integrals

∫P×Q f(x, y) d(x, y). Daraus folgen die beiden im Satz

angegebenen Gleichungen∫P×Q

f(x, y) d(x, y) =

∫P

fF(x) dx und∫P×Q

f(x, y) d(x, y) =

∫P

fF(x) dx. �

Häufig ist f in Anwendungsfällen eine stetige Funktion auf P × Q. In diesem Fall ist auch fx für alle x ∈ Pjeweils auf ganz Q stetig und somit nach (4.8) Riemann-integrierbar. Dies bedeutet, dass die Funktionen fF

und fF zusammenfallen und wir den Satz von Fubini einfach in der Form∫P×Q

f(x, y) d(x, y) =

∫P

(∫Q

fx(y) dy

)dx =

∫P

(∫Q

f(x, y) dy

)dx schreiben können.

—– 117 —–

Page 118: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beispiel 1:Betrachten wir noch einmal die Funktion f(x, y) = xy auf P × Q = [0, 1]2 aus dem vorherigen Abschnitt.Offenbar ist f auf ihrem gesamten Definitionsbereich stetig. Deshalb ist der Satz von Fubini anwendbar, undwir erhalten∫

P×Qf(x, y) d(x, y) =

∫P

(∫Q

xy dy

)dx =

∫ 1

0

(∫ 1

0

xy dy

)dx =

∫ 1

0

[12xy

2]y=1

y=0dx

=

∫ 1

0

12x dx =

[14x

2]10

= 14 . �

Beispiel 2: Volumen des Simplex

Als Simplex bezeichnen wir die Menge gegeben durch

S = {(x, y, z) ∈ [0, 1]3 | x+ y + z ≤ 1}.

Definieren wir die Funktion f : [0, 1]2 → R durch

f(x, y) =

1− x− y falls x+ y ≤ 1

0 sonst

dann ist das Volumen von S das Integral der Funktion f über [0, 1]2. Für jedes x ∈ [0, 1] ist die Funktionfx : [0, 1]→ R definiert durch

fx(y) =

1− x− y für 0 ≤ y ≤ 1− x

0 sonst.

Das Integral dieser Funktion über [0, 1] ist gegeben durch∫ 1

0

fx(y) dy =

∫ 1−x

0

(1− x− y) dy =[y − xy − 1

2y2]y=1−xy=0

= (1− x)− x(1− x)− 12 (1− x)2

= (1− x) +(−x+ x2

)+((− 1

2 ) + x− 12x

2)

= 12x

2 − x+ 12 .

Setzen wir die Stetigkeit von f als bekannt voraus, dann liefert der Satz von Fubini∫[0,1]2

f(x, y) d(x, y) =

∫ 1

0

(∫ 1

0

fx(y) dy

)dx =

∫ 1

0

(x2 − x+ 1

2

)dx =

[16x

3 − 12x

2 + 12x]10

= 16 −

12 + 1

2 = 16 . �

—– 118 —–

Page 119: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beispiel 3: Volumen der Einheitskugel

Zur Vorbereitung berechnen wir das Integral∫ r−r√r2 − x2 dx für beliebiges r ∈ R+. In der Analysis einer

Variablen wurde die Gleichung ∫ 1

−1

√1− x2 dx = 1

bewiesen. Mit Hilfe der Substitutionsregel folgt daraus für r ∈ R+ jeweils∫ r

−r

√r2 − x2 dx = r

∫ r

−r

√1− (xr )2 dx = r2

∫ r

−r

1r ·√

1− (xr )2 dx

= r2

∫ 1

−1

√1− x2 dx = 1

2πr2.

Das Volumen der Halbkugel ist nun offenbar das Integral der Funktion

f(x, y) =

1− x2 − y2 falls x2 + y2 ≤ 1

0 sonst

über den BereichQ = [−1, 1]2. In diesem Fall ist fx(y) für jedes x ∈ [−1, 1] gegeben durch fx(y) =√

1− x2 − y2

für−√

1− x2 ≤ y ≤√

1− x2 und fx(y) = 0 für alle y /∈ [−√

1− x2,√

1− x2]. Mit Hilfe des soeben berechnetenIntegrals

∫ r−r√r2 − x2 dx erhalten wir nun

∫ 1

−1

fx(y) dy =

∫ √1−x2

−√

1−x2

√1− x2 − y2 dy = 1

2π(1− x2)

für alle x ∈ [−1, 1]. Weil die Funktion f stetig ist, können wir den Satz von Fubini anwenden und erhalten∫[−1,1]2

f(x, y) d(x, y) =

∫ 1

−1

(∫ 1

−1

fx(y) dy

)dx =

∫ 1

−1

12π(1− x2) dx = 1

∫ 1

−1

(1− x2

)dx

= 12π[x− 1

3x3]1−1

= 12π(

23 − (− 2

3 ))

= 12π ·

43 = 2

3π.

Dies ist das Volumen der Halbkugel. Das Volumen der (Voll-)Kugel vom Radius 1 beträgt also 2 · 23π = 4

3π.

—– 119 —–

Page 120: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

4.3 Nullmengen und Lebesguesches Integrabilitätskriterium

Inhaltsübersicht

FF Definition von Nullmengen und Jordansche Nullmengen

FF Definition der Oszillation einer Funktion in einem Punkt als Maß für die Unstetigkeit

FF Lebesguesches Integrabilitaetskriterium:Solange die Unstetigkeitsstellen nur eine Nullmenge bilden, ist die Funktion noch Riemann-integrierbar.

Zur Erinnerung: Eine Menge I wird (höchstens) abzählbar genannt, wenn sie endlich oder gleichmächtig mitder MengeN der natürlichen Zahlen ist. Letzteres bedeutet, dass eine bijektive Abbildung ϕ : I → N existiert.Eine Familie (Ai)i∈I von Mengen bezeichnen wir als abzählbar, wenn die Indexmenge I abzählbar ist.

In diesem Abschnitt werden wir neben den kompakten auch offene Quader imRn betrachten. Dabei handelt essich um kartesische Produkte der Form ]a1, b1[×...×]an, bn[ mit ak, bk ∈ R, ak < bk. Das Volumen eines solchenQuaders sei weiterhin das Produkt

∏nk=1(bk − ak) der Intervalllängen bk − ak. Ist Q = [a1, b1] × ... × [an, bn]

ein kompakter Quader, so bezeichnen wir mit Q◦ = ]a1, b1[ × ... × ]an, bn[ den offenen Quadern, der mitden entsprechenden offenen Intervallen gebildet wird. Wir bezeichnen ihn als das Innere von Q. Umgekehrtkönnen wir jedem offenen Quader Q der oben angegebenen Form durch Q = [a1, b1] × ... × [an, bn] einenkompakten Quader zuordnen. Man sprich hier vom Abschluss des Quaders Q.

Für die spätere Verwendung bemerken wir noch, dass zu jedem ε ∈ R+ und jedem kompakten Quader Q einoffener Quader K ⊇ Q mit v(K) < v(Q) + ε gebildet werden kann. Ist Q nämlich ein kartesisches Produkt derIntervalle [ak, bk], dann ist für jedes δ ∈ R+ der Quader

Kδ = ]a1 − δ, b1 + δ[× ...× ]an − δ, bn + δ[

eine Obermenge von Q. Für δ → 0 gilt offenbar v(Kδ) → v(Q), denn das Volumen eines Quaders ist einestetige Funktion der Kantenlängen bk−ak. Für hinreichend kleines δ ∈ R+ kann also v(Kδ) < v(Q)+ε erreichtwerden.

(4.10) Definition Eine Teilmenge A ⊆ Rn heißt Nullmenge, wenn es für jedes ε ∈ R+ eineabzählbare Familie (Ki)i∈I von offenen Quadern mit A ⊆

⋃i∈I Ki und

∑i∈I v(Ki) < ε

existiert. Findet man für jedes ε ∈ R+ sogar eine endliche Familie von offenen Quadernmit diesen Eigenschaften, dann sprechen wir von einer Jordanschen Nullmenge.

Offenbar ist jede Jordansche Nullmenge eine Nullmenge, denn jede endliche Familie von Quadern ist insbe-sondere auch eine abzählbare Familie.

—– 120 —–

Page 121: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(4.11) Proposition

(i) Gilt A ⊆ B ⊆ Rn und ist B eine Nullmenge, dann ist auch A eine Nullmen-ge. Ist B sogar eine Jordansche Nullmenge, dann ist auch A eine JordanscheNullmenge.

(ii) Jede abzählbare Menge ist eine Nullmenge, und jede endliche Menge ist eineJordansche Nullmenge.

(iii) Endliche Vereinigungen von Jordanschen Nullmengen sind Jordansche Null-mengen. Abzählbare Vereinigungen von Nullmengen sind Nullmengen.

(iv) Eine kompakte Teilmenge A ⊆ Rn ist genau dann eine Nullmenge, wenn sieeine Jordansche Nullmenge ist.

Beweis: zu (i) Sei ε ∈ R+ vorgegeben. Weil B eine Nullmenge ist, gibt es eine abzählbare Familie (Ki)i∈I

offener Quader mit∑i∈I v(Ki) < ε und

⋃i∈I Ki ⊇ B ⊇ A. Daraus folgt, dass auch A eine Nullmenge ist.

Für Jordansche Nullmengen läuft das Argument genauso, die abzählbare Familie muss lediglich durch eineendliche ersetzt werden.

zu (ii) Sei X = {xm | m ∈ N} ⊆ Rn abzählbar und ε ∈ R+ vorgegeben. Dann können wir für jedes m ∈ Neinen Quader Km mit xm ∈ Km und v(Km) < 2−mε wählen. Es gilt dann

⋃m∈NKm ⊇ X und

∑m∈N

v(Km) < ε

∞∑m=1

2−m = ε.

Somit ist X eine Nullmenge. Sei nun X endlich, X = {x1, ..., xm} mit m ∈ N und wieder ε ∈ R+ beliebigvorgegeben. Dann wählen wir für jedes ` ∈ {1, ...,m} einen Quader K` mit x` ∈ K` und v(K`) <

1mε. Dann ist⋃m

`=1K` ⊇ X undm∑`=1

v(K`) <

m∑`=1

1mε = ε.

Dies zeigt, dass X eine Jordansche Nullmenge ist.

zu (iii) Wir beschränken uns auf den Beweis der Aussage für Nullmengen. Sei (Xm)m∈N eine Familie vonNullmengen Xm ⊆ Rn und X =

⋃m∈NXm. Sei ε ∈ R+ beliebig vorgegeben. Dann gibt es für jedes m ∈ N

eine abzählbare Familie (Km`)`∈N von Quadern mit⋃∞`=1Km` ⊇ Xm und

∑∞`=1 v(Km`) < 2−mε. Da jede

abzählbare Vereinigung von abzählbaren Mengen wieder abzählbar ist, handelt es sich bei (Km`)m,`∈N umeine abzählbare Familie von Quadern. Außerdem gilt

∞⋃m=1

( ∞⋃`=1

Km`

)⊇

∞⋃m=1

Xm = X

und∞∑m=1

( ∞∑`=1

v(Km`)

)<

∞∑m=1

2−mε = ε.

—– 121 —–

Page 122: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

zu (iv) Sei A ⊆ Rn kompakt. Die Implikation „⇒“ ist gültig, weil jede (und nicht nur jede kompakte) Jordan-sche Nullmenge auch eine Nullmenge ist. Zum Beweis von „⇐“ setzen wir nun voraus, dassA eine Nullmengeist. Für vorgegebenes ε ∈ R+ finden wir eine abzählbare Familie (Km)m∈N offener Quader mit

⋃m∈NKm ⊇ A

und∑∞m=1 v(Km) < ε. Weil A kompakt und die Quader Km offen sind, können wir in (Km)m∈N eine endliche

Teilüberdeckung K`1 , ...,K`r wählen. Es gilt dann⋃ri=1K`i ⊇ A und

∑ri=1 v(K`i) ≤

∑∞m=1 v(Km) < ε. Dies

zeigt, dass A eine Jordansche Nullmenge ist. �

Wir bemerken noch, dass in der Definition der Nullmengen und der Jordanschen Nullmengen die offenenQuader durch kompakte Quader ersetzt werden können, ohne dass sich an der Definition etwas ändert. Istnämlich A ⊆ Rn, ε ∈ R+ und (Km)m∈N eine abzählbare Familie von offenen Quadern mit

⋃m∈NKm ⊇

A und∑∞m=1 v(Km) < ε, dann ist durch (Km)m∈N eine Familie abgeschlossener Quader mit

⋃m∈N Km ⊇⋃

m∈NKm ⊇ A gegeben. Wegen v(Km) = v(Km) für alle m ∈ N gilt auch∑∞m=1 v(Km) < ε.

Setzen wir nun umgekehrt voraus, dass (Km)m∈N eine Familie abgeschlossener Quader mit den Eigenschaften⋃m∈NKm ⊇ A und

∑∞m=1 v(Km) < ε ist. Sei δ = ε −

∑∞m=1 v(Km). Auf Grund der Bemerkung zu Beginn

dieses Abschnitts finden wir für jedes m ∈ N einen offenen Quader Km ⊇ Km mit v(Km) < v(Km) + 2−mδ.Es gilt dann

⋃m∈N Km ⊇ A und

∞∑m=1

v(Km) <

∞∑m=1

v(Km) +

∞∑m=1

2−mδ ≤∞∑m=1

v(Km) + δ = ε.

Nicht jede Nullmenge ist eine Jordansche Nullmenge. Setzen wir beispielsweise A = N ⊆ R, dann gibt eskeine endliche Familie {K1, ...,Km} von Quadern (in diesem Fall Intervalle) mit

⋃m`=1K` ⊇ A, erst recht keine

Familie mit der Eigenschaft∑m`=1 v(K`) < ε für ein vorgegebenes ε ∈ R+. Denn jedes Intervall K` hat end-

liche Länge und enthält deshalb auch nur endlich viele Punkte der unendlichen Menge A. Also ist A keineJordansche Nullmenge. Andererseits ist A abzählbar und damit nach (4.11) (ii) eine Nullmenge.

Unser Ziel in diesem Abschnitt besteht darin, mit Hilfe der Nullmengen ein notwendiges und hinreiches Kri-terium für die Riemann-Integrierbarkeit einer Funktion anzugeben. Sei f : D → R eine beschränkte Funktionauf einem beliebigen Definitionsbereich D ⊆ Rn. Für jedes δ ∈ R+ und jedes a ∈ D definieren wir

f−δ (a) = inf {f(x) | x ∈ D, ‖x− a‖ < δ} und f+δ (a) = sup {f(x) | x ∈ D, ‖x− a‖ < δ} ,

wobei ‖ · ‖ = ‖ · ‖2 die euklidische Norm auf dem Rn bezeichnet. Dann nennt man

ω(f, a) = inf {f+δ (a)− f−δ (a) | δ ∈ R+}

die Oszillation von f im Punkt a. Sie ist ein Maß für die „Sprungweite“ der Funktion f in unmittelbarer Nähedes Punkte a. Wir bemerken noch, dass für 0 < δ1 < δ2 jeweils f−δ1(a) ≥ f−δ2(a) und f+

δ1(a) ≤ f+

δ2(a) gilt.

Insbesondere ist also f+δ1

(a)− f−δ1(a) < f+δ2

(a)− f−δ2(a).

(4.12) Proposition Sei D ⊆ Rn und f : D → R eine beschränkte Funktion.

(i) In jedem Punkt a ∈ D ist f genau dann stetig, wenn ω(f, a) = 0 ist.(ii) Für jedes ε ∈ R+ ist Dε = {x ∈ D | ω(f, a) ≥ ε} relativ abgeschlossen in D.

—– 122 —–

Page 123: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: zu (i) „⇒“ Sei ε ∈ R+ vorgegeben und nehmen wir an, dass f im Punkt a stetig ist. Dann gibt esnach dem ε-δ-Kriterum ein δ1 ∈ R+, so dass f(a)− ε < f(x) < f(a) + ε für alle x ∈ D mit ‖x− a‖ < δ1 erfülltist. Es folgt f+

δ1(a) − f−δ1(a) ≤ 2ε und damit erst recht ω(f, a) ≤ 2ε. Weil ε beliebig vorgegeben war, erhalten

wir ω(f, a) = 0. „⇐“ Setzen wir ω(f, a) = 0 voraus, dann gibt es für vorgegebenes ε ∈ R+ ein δ1 ∈ R+ mitf+δ1

(a)− f−δ1(a) < ε. Für alle x ∈ D mit ‖x− a‖ < δ1 gilt

f−δ1(a) ≤ f(x), f(a) ≤ f+δ1

(a) ,

und daraus folgt |f(x)− f(a)| < ε. Damit ist das ε-δ-Kriterium erfüllt, also ist f im Punkt a stetig.

zu (ii) Wir zeigen, dass Uε = D \Dε eine in D relativ offene Teilmenge ist. Sei a ∈ Uε vorgegeben. Dann giltω(f, a) < ε nach Definition von Uε, insbesondere finden wir ein δ1 ∈ R+ mit f+

δ1(a)− f−δ1(a) < ε. Sei nun z ein

beliebiger Punkt in Bδ1(a) ∩D und δ2 ∈ R+ so gewählt, dass Bδ2(z) ⊆ Bδ1(a) für die offenen Bälle bezüglich‖ · ‖ gilt. Wegen

inf {f(x) | x ∈ D, ‖x− a‖ < δ1} ≤ inf {f(x) | x ∈ D, ‖x− z‖ < δ2} ≤

sup {f(x) | x ∈ D, ‖x− z‖ < δ2} ≤ sup {f(x) | x ∈ D, ‖x− a‖ < δ1}

folgt dann f+δ2

(z)− f−δ2(z) ≤ f+δ1

(a)− f−δ1(a) und somit ω(f, z) ≤ f+δ1

(a)− f−δ1(a) < ε. Dies zeigt, dass die MengeBδ1(a) ∩D in Uε enthalten ist, und damit ist die relative Offenheit von Uε in D bewiesen. �

(4.13) Lemma Seien r ∈ N und Q,K1, ...,Kr ⊆ Rn kompakte Quader, wobei Ki ⊆ Q für1 ≤ i ≤ r gilt. Dann gibt es eine Zerlegung Z von Q mit der Eigenschaft, dass K1, ...,Kr

als Vereinigung von Quadern aus Q(Z ) dargestellt werden können.

Beweis: Seien die Quader Q und K1, ...,Kr gegeben durch Q = [a1, b1]× ...× [an, bn] und Ki = [ai1, bi1]× ...×[ain, bin] für 1 ≤ i ≤ r. Wegen Ki ⊆ Q gilt jeweils ak ≤ aik < bik ≤ bk, für 1 ≤ k ≤ n. Wir können also durchZ = (Z (1), ...,Z (n)) mit

Z (k) = {a1k, b1k, ..., ark, brk} \ {ak, bk} für 1 ≤ k ≤ n

eine Zerlegung von Q definieren. Für 1 ≤ i ≤ r und 1 ≤ k ≤ n gilt dann jeweils {aik, bik} ⊆ Z (k) ∪ {ak, bk}.Die Intervallgrenzen aik, bik sind also jeweils in der Menge der Zerlegungspunkte Z (k) unter Hinzunahmevon ak, bk enthalten, so dass [aik, bik] als Vereinigung der Teilintervalle dargestellt werden kann, die durch dieZerlegung Z (k) gegeben sind. Somit ist Ki eine Vereinigung der in Q(Z ) enthaltenen Teilquader von Q. �

(4.14) Lemma Sei Q ⊆ Rn ein kompakter Quader, ε ∈ R+ und f : Q → R eine Funktionmit ω(f, x) < ε für alle x ∈ Q. Dann gibt es eine Zerlegung Z von Q mit der Eigenschaft,dass c+K,f − c

−K,f ≤ ε für alle K ∈ Q(Z ) erfüllt ist.

Beweis: Auf Grund der Voraussetzung gibt es für jeden Punkt a ∈ Q ein δa ∈ R+ mit f+δa

(a)− f−δa(a) ≤ ε. Fürjedes a sei Ka ein kompakter Quader mit a ∈ Ka und Ka ⊆ Bδa(a), wobei Bδa(a) den offenen Ball vom Radiusδa bezüglich der euklidischen Norm bezeichnet. Dann bilden die offenen QuaderK◦a eine offene Überdeckungvon Q, aus der wir auf Grund der Kompaktheit von Q eine endliche Teilüberdeckung K◦a1 , ...,K

◦ar wählen

—– 123 —–

Page 124: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

können. Nach Konstruktion gilt c+Kai,f − c

−Kai

,f ≤ ε für 1 ≤ i ≤ r. Wird nun die Zerlegung Z mit (4.13) sofein gewählt, dass jeder Quader Ki als Vereinigung von Quadern aus Q(Z ) dargestellt werden kann, dann istc+K,f − c

−K,f ≤ ε für alle K ∈ Q(Z ) erfüllt. �

(4.15) Satz (Lebesguesches Integrierbarkeitskriterium)

Sei Q ⊆ Rn ein kompakter Quader, f : Q → R eine beschränkte Funktion und U ⊆ Q dieTeilmenge der Punkte, in denen f unstetig ist. Dann sind äquivalent

(i) Die Funktion f ist Riemann-integrierbar.(ii) Die Menge U ist eine Nullmenge.

Beweis: „⇒“ Nach Voraussetzung ist f Riemann-integrierbar, und wir müssen zeigen, dassU eine Nullmengeist. Definieren wir für jedes ε ∈ R+ jeweils Uε = {x ∈ Q | ω(f, x) ≥ ε}, dann gilt U =

⋃n∈N U1/n nach (4.12)

(i). Wegen (4.11) (iii) genügt es zu zeigen, dass U1/n für jedes n ∈ N eine Nullmenge ist. Seien also n ∈ Nund ε ∈ R+ vorgegeben. Auf Grund der Riemann-Integrierbarkeit von f gibt es eine Zerlegung Z von Q mitS +f (Z )−S −f (Z ) < ε

n . Dann ist durch

Q = {K ∈ Q(Z ) | K◦ ∩ U1/n 6= ∅}

eine endliche Menge von Quadern mitU1/n ⊆⋃K∈QK definiert. Für jedesK ∈ Q gibt es wegenK◦∩U1/n 6= ∅

einen Punkt a ∈ K◦ mit ω(f, a) ≥ 1n und ein zugehöriges δ ∈ R+ mit Bδ(a) ⊆ K◦. Nach Definition der

Oszillation giltsup{f(x) | x ∈ Bδ(a)} − inf{f(x) | x ∈ Bδ(a)} ≥ 1

n

und damit insbesondere c+K,f − c−K,f ≥

1n für alle K ∈ Q. Daraus folgt nun

1n

∑K∈Q

v(K) ≤∑K∈Q

(c+K,f − c−K,f )v(K) ≤

∑K∈Q(Z )

(c+K,f − c−K,f )v(K)

= S +f (Z )−S −f (Z ) < ε

n

und∑K∈Q v(K) < ε. Damit ist gezeigt, dass es sich bei U1/n um eine Nullmenge handelt.

„⇐“ Nach Voraussetzung ist die Teilmenge U ⊆ Q der Unstetigkeitsstellen von f eine Nullmenge. Sei ε ∈ R+

vorgegeben. Für den Nachweis der Riemann-Integrierbarkeit von f genügt es zu zeigen, dass eine ZerlegungZ mit S +

f (Z ) − S −f (Z ) < (2‖f‖∞ + v(Q))ε existiert, wobei ‖f‖∞ = sup{|f(x)| | x ∈ Q} gesetzt wird.Wegen Uε ⊆ U ist auch Uε eine Nullmenge (siehe (4.11) (i)). Die Menge Uε ist nach (4.12) (ii) abgeschlossen,und als abgeschlossene Teilmenge Uε der kompakten Menge Q ist auch Uε kompakt. Aus (4.11) (iv) folgt, dassUε sogar eine Jordansche Nullmenge ist. Es gibt also offene Teilquader K1, ...,Kp von Q mit Uε ⊆

⋃pi=1Ki und∑r

i=1 v(Ki) < ε.

Wir wählen nun mit (4.13) eine Zerlegung Z von Q so, dass jeder der kompakten Quader Ki als Vereingungvon Quadern aus Q(Z ) dargestellt werden kann. Für jedes K ∈ Q(Z ) gilt dann entweder K ⊆ Ki für eini ∈ {1, ..., p}, oder K und Ki haben für alle i nur Randpunkte gemeinsam, so dass K ∩ Uε = ∅ gilt. DieQuader in der ersten Kategorie fassen wir zur Menge Q1, die der zweiten zur Menge Q2 zusammen, so dass

—– 124 —–

Page 125: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Q1 ∪ Q2 = Q(Z ) und Q1 ∩ Q2 = ∅ gilt. Nach (4.14) können wir durch eine weitere Verfeinerung von Z

errreichen, dass c+K,f − c−K,f < ε für alle K ∈ Q2 gilt. Weil zudem |c−K,f |, |c

+K,f | ≤ ‖f‖∞ für alle K ∈ Q1 gilt,

erhalten wir

S +f (Z )−S −f (Z ) =

∑K∈Q(Z )

(c+K,f − c−K,f )v(K) =

∑K∈Q1

(c+K,f − c−K,f )v(K) +

∑K∈Q2

(c+K,f − c−K,f )v(K)

≤ 2‖f‖∞∑K∈Q1

v(K) + ε∑K∈Q2

v(K) ≤ 2‖f‖∞ε+ εv(Q) = (2‖f‖∞ + v(Q)) ε. �

Wir illustrieren den soeben bewiesenen Satz an einem Beispiel. Die Funktion auf Q = [0, 1]2 gegeben durch

f : Q −→ R , (x, y) 7→

3 falls x+ y < 1

5 falls x+ y ≥ 1

ist offenbar unstetig, aber die Menge der Unstetigkeitsstellen ist in der Menge U = {(x, y) ∈ Q | x + y = 1}enthalten. Ist nämlich (x, y) ∈ Q mit x + y > 1 vorgegeben und ((xn, yn))n∈N eine Folge mit limn(xn, yn) =

(x, y), dann gibt es für ε = 12 (x+y−1) einN ∈ Nmit ‖(xn, yn)−(x, y)‖∞ < ε für alle n ≥ N . Wegen |xn−x| < ε

und |yn−y| < ε gilt insbesondere xn > x−ε, yn > y−ε und damit xn+yn > x+y−2ε = x+y−(x+y−1) = 1

für alle n ≥ N . Daraus folgt f(xn, yn) = 5 = f(x, y) für alle n ≥ N und somit limn f(xn, yn) = f(x, y). Ebensobeweist man die Stetigkeit von f in jedem Punkt (x, y) ∈ Q mit x + y < 1. Also kann f nur an den Punkten(x, y) mit x+ y = 1 unstetig sein.

Die MengeU (und damit die Menge der Unstetigkeitsstellen von f ) ist eine Nullmenge. Definieren wir nämlichfür beliebig vorgegebenes n ∈ N und k ∈ {1, ..., n} die QuaderQ(n)

k = [n−kn , n+1−kn ]× [k−1

n , kn ], dann gilt jeweils

U ⊆n⋃k=1

Q(n)k .

Sei nämlich (x, y) ∈ U vorgegeben (mit 0 ≤ x, y ≤ 1 und x+ y = 1) und k = dnye. Nach Definition der oberenGaußklammer gilt dann k − 1 < ny ≤ k ⇔ k−1

n < y ≤ kn und

k−1n < 1− x ≤ k

n ⇔ k−1−nn < −x ≤ k−n

n ⇔ n−kn ≤ x < n+1−k

n ,

also (x, y) ∈ Q(n)k . Das Volumen der Quader beträgt jeweils v(Q

(n)k ) = 1

n2 , also ist

n∑k=1

v(Q(n)k ) =

n∑k=1

1n2 = 1

n .

Ist nun ε ∈ R+ vorgegeben und n ∈ N so gewählt, dass 1n < ε erfüllt ist, dann gilt U ⊆

⋃nk=1Q

(n)k und∑n

k=1 v(Q(n)k ) < ε. Damit haben wir gezeigt, dass U sogar eine Jordansche Nullmenge ist.

Nach (4.15) ist die Funktion f also Riemann-integrierbar. Das Integral können wir wie zuvor mit dem Satz vonFubini ausrechen. Für jedes x ∈ [0, 1] gilt fx(y) = 3 ⇔ x + y < 1 ⇔ y < 1 − x und fx(y) = 5 ⇔ x + y ≥ 1 ⇔y ≥ 1− x, somit ∫ 1

0

fx(y) dy =

∫ 1−x

0

3 dy +

∫ 1

1−x5 dy = 3(1− x) + 5x = 2x+ 3

—– 125 —–

Page 126: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

und ∫Q

f(x, y) d(x, y) =

∫ 1

0

(∫ 1

0

fx(y) dy

)dx =

∫ 1

0

(2x+ 3) dx =[x2 + 3x

]x=1

x=0= 4.

—– 126 —–

Page 127: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

4.4 Jordan-messbare Mengen

Inhaltsübersicht

FF charakteristische Funktion einer Menge, Jordan-Messbarkeit, Jordan-Volumen

FF Kennzeichnung der Jordan-messbaren Mengen durch inneres und äußeres Volumen

FF Erhaltung der Jordan-Messbarkeit unter Mengenoperationen

FF Integration über Jordan-messbare Mengen

(4.16) Definition Eine Teilmenge A ⊆ Rn wird Jordan-messbar genannt, wenn sie be-schränkt und die charakteristische Funktion von A gegeben durch

χA : Q→ R , x 7→

1 falls x ∈ A

0 sonst

Riemann-integrierbar ist. Dabei bezeichnet Q einen beliebigen kompakten Quader mitQ◦ ⊇ A. Das Integral

v(A) =

∫Q

χA(x) dx

wird in diesem Fall das Jordan-Volumen von A genannt.

Durch die Bedingung, dass A beschränkt ist, wird sichergestellt, dass tatsächlich ein kompakter Quader Q mitQ◦ ⊇ A existiert. Darüber hinaus gilt

(4.17) Proposition Sowohl die Definition der Jordan-Messbarkeit als auch das Jordan-Volumen sind unabhängig von der Wahl des Quaders Q.

Beweis: Sei Q′ ein weiterer Quader mit (Q′)◦ ⊇ A und χ′A die charakteristische Funktion von A auf Q′. WirkönnenQ′ ⊇ Q annehmen, weil sich die allgemeine Aussage aus dieser speziellen Situation unmittelbar ergibt:Sind nämlich Q,Q′ beliebig vorgegeben, dann wählen wir einen Quader Q′′ mit Q′′ ⊇ Q,Q′ und bezeichnendie zugehörige charakteristische Funktion mit χ′′A. Nach dem als bewiesen vorausgesetzten Fall ist die Inte-grierbarkeit von χ′′A sowohl zur Integrierbarkeit von χA als auch zur Integrierbarkeit von χ′A äquivalent, unddie Integrale über alle drei Funktionen stimmen überein.

Setzen wir von nun an also Q◦ ⊇ A und Q′ ⊇ Q voraus. Zu jeder Zerlegung Z von Q können wir durch (4.13)eine Zerlegung Z ′ von Q′ mit Q(Z ′) ⊇ Q(Z ) wählen und setzen Q′′ = Q(Z ′) \Q(Z ). Für alle K ∈ Q′′ giltK ⊆ Q′ \Q◦ und wegen K ⊆ Q◦ somit A∩K = ∅, also χ′A(x) = 0 für alle x ∈ K und somit c+K,χ′A = c−K,χ′A

= 0.Liegt K dagegen in Q(Z ), dann gilt K ⊆ Q, also χ′A|K = χA|K und damit c+K,χ′A = c+K,χA

und c−K,χ′A = c−K,χA.

Wir erhalten

—– 127 —–

Page 128: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

S +χ′A

(Z ) =∑

K∈Q(Z ′)

c+K,χ′Av(K) =

∑K∈Q(Z )

c+K,χ′Av(K) +

∑K∈Q′′

c+K,χ′Av(K) =

∑K∈Q(Z )

c+K,χAv(K) + 0 = S +

χA(Z )

und ebenso S −χ′A(Z ) = S −χA

(Z ).

Wir beweisen nun die behauptete Äquivalenz. Ist die Funktion χA : Q → R Riemann-integrierbar, dannexistiert für jedes vorgegebene ε ∈ R+ eine Zerlegung Z von Q mit S +

χA(Z )−S −χA

(Z ) < ε. Wählen wir dieZerlegung Z ′ von Q′ wie im letzten Absatz angegeben, dann gilt auch auf Grund der Gleichheit der Ober-und der Untersummen auch S +

χ′A(Z ′)−S −χ′A

(Z ′) < ε, und daraus folgt die Riemann-Integrierbarkeit von χ′A.Wegen

S −χA(Z ) <

∫Q

χA(x) dx ,

∫Q′χ′A(x) dx < S +

χA(Z )

gilt außerdem∣∣∣∫Q′ χ′A(x) dx−

∫QχA(x) dx

∣∣∣ < ε. Weil ε ∈ R+ beliebig vorgegeben war, stimmen die Integralesomit überein. Setzen wir umgekehrt voraus, dass χ′A Riemann-integrierbar ist. Dann gibt es für jedes ε ∈ R+

eine Zerlegung Z ′ von Q′ mit S +χ′A

(Z ) − S −χ′A(Z ) < ε. Durch Verfeinerung von Z ′ können wir wiederum

mit (4.13) erreichen, dass Q als Vereinigung von Quadern aus Q(Z ′) darstellbar ist, ohne dass sich an derUngleichung etwas ändert. Es existiert dann eine Zerlegung Z von Q mit Q(Z ) ⊆ Q(Z ′). Wie zuvor folgtdaraus S −χ′A

(Z ′) = S −χA(Z ), S +

χ′A(Z ′) = S −χA

(Z ) und damit die Integrierbarkeit von χA. �

Dass die soeben angegebene Definition des Volumens einer Menge sinnvoll ist, wird durch die folgende Be-trachtungsweise bestätigt. Sei A ⊆ Rn eine beschränkte Teilmenge. Dann bezeichnet man

v−(A) = sup

{p∑i=1

v(Ki)

∣∣∣∣K1, ...,Kp disjunkte kompakte Quader mitn⋃i=1

Ki ⊆ A

}

als das innere Volumen von A, und

v+(A) = inf

{p∑i=1

v(Ki)

∣∣∣∣K1, ...,Kp kompakte Quader mitn⋃i=1

Ki ⊇ A

}

wird das äußere Volumen von A genannt. Es gilt nun

(4.18) Proposition Eine beschränkte MengeA ⊆ Rn ist genau dann Jordan-messbar, wenninneres und äußeres Volumen übereinstimmen, und dann gilt v(A) = v−(A) = v+(A).

Beweis: Sei Q ein kompakter Quader mit Q◦ ⊇ A. Wir zeigen, dass v+(A) mit dem Oberintegral von χA

übereinstimmt und beweisen dafür zunächst die Ungleichung∫FQχA(x) dx ≤ v+(A). Ist ε ∈ R+ beliebig

vorgegeben, dann gibt es nach Definition von v+(A) eine endliche Anzahl kompakter Quader K1, ...,Kp mit⋃pi=1K

◦i ⊇ A und

∑pi=1 v(Ki) < v+(A) + ε. Wir können diese Quader Ki durch Ki ∩ Q ersetzen uns somit

Ki ⊆ Q annehmen, ohne an der Inklusion oder der Ungleichung etwas zu ändern. Nun wählen wir eineZerlegung Z von Q so, dass jedes Ki als Vereinigung von Quadern aus Q(Z ) dargestellt werden kann. Fürjedes K ∈ Q(Z ) gibt es dann ein i ∈ {1, ..., p} mit K ⊆ Ki, oder es ist K ∩ A = ∅. Wir bezeichnen die

—– 128 —–

Page 129: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Teilmenge der Quader mit der ersten Eigenschaft mit Qi und die Menge der zu A disjunkten Quader mit Q0.Für die Obersumme gilt dann

S +χA

(Z ) =∑

K∈Q(Z )

c+K,χAv(K) =

∑K∈Q0

c+K,χAv(K) +

p∑i=1

∑K∈Qi

c+K,χAv(K) ≤

0 +

p∑i=1

∑K∈Qi

v(K) =

p∑i=1

v(Ki) < v+(A) + ε.

Weil das Oberintegral das Infimum über alle Obersummen ist, folgt daraus die Ungleichung∫FQχA(x) dx ≤

v+(A) + ε. Weil ε ∈ R+ beliebig klein gewählt werden kann, erhalten wir insgesamt das gewünschte Resultat.

Beweisen wir nun die Ungleichung v+(A) ≤∫FQχA(x) dx. Für vorgegebenes ε ∈ R+ gibt es nach Definition des

Oberintegrals eine Zerlegung Z von Q mit S +χA

(Z ) ≤∫FQχA(x) dx+ ε. Seien K1, ...,Kp ∈ Q(Z ) die endlich

vielen Quader mit der Eigenschaft Ki ∩A 6= ∅. Dann gilt⋃pi=1Ki ⊇ A und wegen c+Ki,χA

= 1 außerdem

p∑i=1

v(Ki) =

p∑i=1

c+Ki,χAv(Ki) ≤

∑K∈Q(Z )

c+K,χAv(K) = S +

χA(Z ) ≤

∫ F

Q

χA(x) dx+ ε.

Weil das äußere Volumen nach Definition das Infimum über all diese Summen∑pi=1 v(Ki) ist, erhalten wir

somit auch die zweite Ungleichung. Also stimmt das äußere Volumen von A tatsächlich mit dem Oberinte-gral von χA überein. Auf ähnliche Weise kann gezeigt werden, dass v−(A) mit dem Unterintegral von χA

übereinstimmt.

Ist nun A Jordan-messbar, dann ist die Funktion χA : Q→ R Riemann-integrierbar. Dies bedeutet, dass Ober-und Unterintegral von χA übereinstimmen, wir erhalten

v(A) =

∫Q

χA(x) dx =

∫QF

χA(x) dx = v−(A)

und ebenso v(A) = v+(A). Setzen wir umgekehrt v+(A) = v−(A) voraus, dann stimmen Ober- und Unterin-tegral von χA überein. Daraus folgt die Riemann-Integrierbarkeit von χA und die Jordan-Messbarkeit von A.�

(4.19) Definition Sei (X, d) ein metrischer Raum und A ⊆ X eine beliebige Teilmenge.Ein Punkt a ∈ X wird Randpunkt von A genannt, wenn in jeder Umgebung von a sowohlPunkte von A als auch Punkte von X \ A liegen. Die Menge ∂A der Randpunkte von A

bezeichnet man als den Rand von X .

Wir werden nun ein Kriterium herleiten, mit dem sich anhand des Randes die Jordan-Messbarkeit einer Mengetesten lässt. Zur Vorbereitung zeigen wir

(4.20) Proposition Sei A ⊆ Rn eine beschränkte Menge, Q ein Quader mit Q◦ ⊇ A undχA die zugehörige charakteristische Funktion. Dann sind die Randpunkte vonA genau dieUnstetigkeitsstellen von χA.

—– 129 —–

Page 130: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Sei a ∈ ∂A vorgegeben, und nehmen wir zunächst an, dass a in A enthalten ist. Nach Definition derRandpunkte gibt es in jeder Umgebung von a einen Punkt der MengeQ\A. Es existiert also eine Folge (xn)n∈N

in Q \ A mit limn xn = a. Wegen xn ∈ Q \ A gilt χA(xn) = 0 für alle n ∈ N und somit auch limn χA(xn) = 0.Andererseits ist χA(a) = 1 wegen a ∈ A, also ist die Funktion χA an der Stelle a unstetig. Liegt der RandpunktA statt dessen in Q \A, dann kann dasselbe Argument mit einer Folge (xn)n∈N in A wiederholt werden.

Setzen wir nun umgekehrt voraus, dass a ∈ Q eine Unstetigkeitsstelle von χA ist. Sei U eine beliebige Umge-bung von a. Würde U ⊆ A oder U ⊆ (Rn \ A) gelten, dann wäre χA auf U ∩ Q konstant gleich 1 oder 0 undχA damit in a stetig. So aber gibt es in U sowohl Punkte aus A als auch Punkte aus Rn \ A. Daraus folgt, dassa ein Randpunkt von A ist. �

(4.21) Folgerung Eine beschränkte Menge A ⊆ Rn ist genau dann Jordan-messbar, wenn∂A eine Nullmenge ist.

Beweis: Sei Q ein kompakter Quader im Rn mit Q◦ ⊇ A. Nach Definition ist A genau dann Jordan-messbar,wenn χA : Q → R Riemann-integrierbar ist. Nach (4.15) ist dies genau dann der Fall, wenn die Unstetigkeits-stellen von χA eine Nullmenge bilden. Aber nach (4.20) sind die Unstetigkeitsstellen genau die Randpunktevon A. �

(4.22) Proposition Seien (X, d) ein metrischer Raum, und seien A,B ⊆ X beliebige Teil-mengen. Dann sind die Ränder ∂(A ∩ B), ∂(A ∪ B) und ∂(A \ B) jeweils in (∂A) ∪ (∂B)

enthalten.

Beweis: Beweisen wir zunächst die Inklusion ∂(A ∩ B) ⊆ (∂A) ∪ (∂B). Ist a ∈ ∂(A ∩ B) vorgegeben, danngibt es Folgen (xn)n∈N in A ∩B und (yn)n∈N in X \ (A ∩B) mit limn xn = limn yn = a. Wegen X \ (A ∩B) =

(X \A) ∪ (X \B) gibt es eine Teilfolge (ynk)k∈N, die entweder vollständig in X \A oder vollständig in X \B

enthalten ist. Im ersten Fall folgt daraus, dass jede Umgebung von a sowohl Punkte von A als auch Punktevon X \A enthält, und damit ist a ein Randpunkt von A. Im zweiten Fall liegt a in ∂B.

Für die Inklusion ∂(A ∪ B) ⊆ (∂A) ∪ (∂B) läuft das Argument ähnlich. Für jeden Punkt a ∈ ∂(A ∪ B) gibt eseine Folge (xn)n∈N in A ∪B und eine weitere Folge (yn)n∈N in Rn \ (A ∪B), wobei limn xn = limn yn = a gilt.Wegen X \ (A ∪ B) = (X \ A) ∩ (X \ B) ist (yn)n∈N sowohl in X \ A als auch in X \ B enthalten. Außerdemgibt es eine Teilfolge (xnk

)n∈N, die entweder vollständig inA oder vollständig inB enthalten ist. Im ersten Fallfolgt a ∈ ∂A, im zweiten a ∈ ∂B.

Beweisen wir nun noch ∂(A \ B) ⊆ (∂A) ∪ (∂B). Hier existiert für jedes a ∈ ∂(A \ B) eine Folge (xn)n∈N inA \ B und eine weitere Folge (yn)n∈N in X \ (A \ B) = (X \ A) ∪ B, wobei wieder limn xn = limn yn = a gilt.Auf Grund der Mengengleichung existiert eine Teilfolge (ynk

)k∈N, die entweder ganz in X \A oder ganz in Bliegt. Im ersten Fall gilt a ∈ ∂A, im zweiten a ∈ ∂B. �

—– 130 —–

Page 131: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(4.23) Folgerung Seien A,B ⊆ Rn zwei Jordan-messbare Teilmengen.(i) Dann sind auch die Mengen A ∩B, A ∪B und A \B Jordan-messbar.

(ii) Aus A ⊆ B folgt v(A) ≤ v(B) und v(B \A) = v(B)− v(A).(iii) In jedem Fall gilt v(A ∪B) = v(A) + v(B)− v(A ∩B).

Beweis: Die Aussage (i) folgt direkt aus (4.22) und (4.21), weil mit ∂A und ∂B auch die Vereinigung (∂A)∪(∂B)

eine Nullmenge ist. Sei nun Q ein Quader mit Q◦ ⊇ A ∪B. Aus A ⊆ B folgt χA ≤ χB und damit

v(A) =

∫Q

χA(x) dx ≤∫Q

χB(x) dx = v(B).

Die Gleichung v(B \ A) = v(B) − v(A) ergibt sich aus χB\A(x) = χB(x) − χA(x) für alle x ∈ Q, und ebensoleitet man v(A ∪B) = v(A) + v(B)− v(A ∩B) aus χA∪B = χA + χB − χA∩B ab. �

Wir illustrieren die Berechnung des Jordan-Volumens, indem wir für beliebige `, r ∈ R+ das Volumen desZylinders

A = {(x, y, z) ∈ R3 | 0 ≤ x ≤ ` , y2 + z2 ≤ r2} berechnen.

Den Nachweis, dass ∂A eine Nullmenge undA somit Jordan-messbar ist, lassen wir aus Zeitgründen zunächstweg; er kann aber ziemlich leicht mit Hilfe von (4.23) und (4.27) (siehe unten) geführt werden. Offenbar ist Aim Inneren des QuadersQ = [−1, `+1]× [−r−1, r+1]2 enthalten, denn für alle (x, y, z) ∈ A gilt−1 < x < `+1

und −r − 1 < y, z < r + 1. Die charakteristische Funktion χA : Q→ R ist gegeben durch

χA(x, y, z) =

1 0 ≤ x ≤ ` und y2 + z2 ≤ r2

0 sonst.

Zur Vereinfachung der Notation setzen wir f = χA. Nach dem Satz von Fubini gilt

v(A) =

∫Q

f(x, y, z) d(x, y, z) =

∫ `+1

−1

(∫ r+1

−r−1

(∫ r+1

−r−1

f(x,y)(z) dz

)dy

)dx

mit f(x,y) : [0, 1] → R gegeben durch f(x,y)(z) = f(x, y, z) für alle (x, y, z) ∈ Q. Diese Funktion ist konstantNull, falls x < 0, x > ` oder |y| > r ist, ansonsten gilt

f(x,y)(z) =

1 falls −√r2 − y2 ≤ z ≤

√r2 − y2

0 sonst.

Das Integral g(x, y) =∫ 1

0f(x,y)(z) dz ist also gleich Null für x > ` oder |y| > r, in den anderen Fällen gilt

g(x, y) =

∫ r+1

−r−1

f(x,y)(z) dz =

∫ √r2−y2−√r2−y2

1 dz = 2√r2 − y2.

Sei nun h(x) =∫ r+1

−r−1g(x, y) dy. Durch Einsetzen erhalten wir für 0 ≤ x ≤ ` jeweils

h(x) =

∫ r+1

−r−1

(∫ r+1

−r−1

f(x,y)(z) dz

)dy =

∫ r

−r2√r2 − y2 dy = πr2 ;

—– 131 —–

Page 132: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

die Formel∫ r−r

√r2 − y2 dy = 1

2πr2 hatten wir bereits in § 4.2 (Seite 119) hergeleitet. Für x > ` gilt h(x) = 0,

weil die Funktion y 7→ g(x, y) in diesem Fall auf [−r−1, r+ 1] konstant Null ist. Setzen wir dies wiederum ein,so erhalten wir schließlich

v(A) =

∫Q

f(x, y, z) d(x, y, z) =

∫ `+1

−1

h(x) dx =

∫ `

0

πr2 dx = `πr2.

Die charakteristische Funktion kann auch verwendet werden, um den Begriff der Riemann-Integrierbarkeitauf Funktionen zu verallgemeinern, deren Definitionsbereiche keine Quader sind.

(4.24) Definition Sei A ⊆ Rn eine (beschränkte) Jordan-messbare Menge und Q ⊆ Rn

ein kompakter Quader mit Q◦ ⊇ A. Eine Funktion f : A → R wird Riemann-integrierbargenannt, wenn durch

fQ : Q −→ R , x 7→

f(x) falls x ∈ A

0 falls x ∈ Q \A

eine Riemann-integrierbare Funktion aufQ definiert ist. (Daraus folgt insbesondere, dass fauf A beschränkt ist.) In diesem Fall ist das Riemann-Integral von f auf A definiert durch∫

A

f(x) dx =

∫Q

fQ(x) dx

Wie im Beweis von (4.17) zeigt man, dass sowohl die Integrierbarkeitseigenschaft als auch das Integral unab-hängig von der Wahl des Quaders Q sind; man braucht lediglich die Funktion χA durch f zu ersetzen. Ebensowie im vorherigen Abschnitt gilt

(4.25) Satz Sei A ⊆ Rn Jordan-messbar. Eine beschränkte Funktion f : A → R istgenau dann Riemann-integrierbar, wenn die Unstetigkeitsstellen von f eine Nullmenge inA bilden.

Beweis: Sei Q ein kompakter Quader im Rn mit Q◦ ⊇ A, und sei fQ wie in (4.24) definiert. Nach Definitionist f genau dann Riemann-integrierbar, wenn die Unstetigkeitsstellen von fQ eine Nullmenge in Q bilden. SeiUA ⊆ A die Menge der Unstetigkeitsstellen von f und UQ ⊆ Q die Menge der Unstetigkeitsstellen von fQ. Wirmüssen zeigen, dass UA genau dann eine Nullmenge ist, wenn dies für UQ zutrifft.

Offenbar gilt UA ⊆ UQ, außerdem kann UQ ⊆ UA ∪ (∂A) gezeigt werden. Nehmen wir dazu an, dass a eineUnstetigkeitsstelle von fQ ist, der Punkt a aber andererseits nicht in UA liegt. Dann gilt entweder a /∈ A, oderes gilt a ∈ A und die Funktion f ist in A stetig. Im ersten Fall ist a ein Randpunkt von A, denn ansonsten wärefQ in einer Umgebung von A konstant 0 und damit in a stetig. Auch im zweiten Fall muss a ein Randpunktsein, denn sonst würden fQ und fA in einer Umgebung von a übereinstimmen, und auch daraus würde sichdie Stetigkeit von fQ in a ergeben.

—– 132 —–

Page 133: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Nun beweisen wir die im ersten Absatz formulierte Äquivalenz. Auf Grund der Jordan-Messbarkeit von A ist∂A nach (4.21) eine Nullmenge. Ist nun UA eine Nullmenge, dann gilt dasselbe für UA ∪ (∂A) und somit auchfür UQ. Ist umgekehrt UQ eine Nullmenge, dann muss dies wegen UA ⊆ UQ auch für UA gelten. �

(4.26) Definition IstA ⊆ Rn eine beliebige Teilmenge und f : A→ R eine Funktion, dannwird

Γ(f) = {(x, f(x)) | x ∈ A} ⊆ A×R ⊆ Rn+1

der Graph der Funktion f genannt.

Mit dem Funktionsgraphen erhalten wir ein weiteres Kriterium für die Riemann-Integrierbarkeit einer Funk-tion.

(4.27) Proposition SeiA ⊆ Rn Jordan-messbar und f : A→ R eine Riemann-integrierbareFunktion. Dann ist der Graph Γ(f) eine Jordansche Nullmenge in Rn+1.

Beweis: Sei Q ⊆ Rn ein kompakter Quader mit Q◦ ⊇ A und fQ : Q → R die Fortsetzung von f wie in (4.24).Dann ist fQ Riemann-integrierbar, und wegen Γ(f) ⊆ Γ(fQ) genügt es zu zeigen, dass Γ(fQ) eine JordanscheNullmenge ist. Sei dazu ε ∈ R+ vorgegeben. Auf Grund der Riemann-Integrierbarkeit von fQ gibt es eineZerlegung Z von Q mit v = S +

f (Z )−S −f (Z ) < ε. Dabei ist der Graph Γ(fQ) wegen c−K,fQ ≤ fQ(x) ≤ c+K,fQfür alle K ∈ Q(Z ) und x ∈ K in der Vereinigungsmenge

V =⋃

K∈Q(Z )

(K × [c−K,fQ , c

+K,fQ

])

vom Volumen v enthalten. Dabei ist es möglich, dass c−K,fQ und c+K,fQ zusammenfallen, deshalb ist im allgemei-nen V keine Vereinigungsmenge von kompakten Quadern. Wir können aber für jedesK ∈ Q(Z ) reelle Zahlenc−K ≤ c−K,f und c+K ≥ c+K,f so wählen, dass c−K < c+K ist und das Volumen von V =

⋃K∈Q(Z )

(K × [c−K , c

+K ])

weiterhin kleiner als ε ist. Wegen Γ(fQ) ⊆ V folgt daraus, dass Γ(fQ) eine Jordansche Nullmenge ist. �

Zum Jordan-Volumen ergänzen wir noch einige Sätze und Rechenregeln, die sich im weiteren Verlauf alsnützlich erweisen werden. Zunächst geben wir eine neue Charakterisierung der Jordanschen Nullmengen an.

(4.28) Satz Eine Teilmenge A ⊆ Rn ist genau dann eine Jordansche Nullmenge, wenn AJordan-messbar ist und v(A) = 0 gilt.

Beweis: Zunächst bemerken wir, dassA unter beiden Voraussetzungen eine beschränkte Teilmenge vonRn ist.Diese Voraussetzung braucht also beim Beweis beider Implikationsrichtungen nicht mehr überprüft werden.

—– 133 —–

Page 134: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

„⇒“ Sei ε ∈ R+ vorgegeben. Weil A Jordansche Nullmenge ist, gibt es eine endliche Familie Q1, ..., Qm vonkompakten Quadern mit

∑mi=1 v(Qi) < ε und

⋃mi=1Qi ⊇ A. Weil

⋃mi=1Qi abgeschlossen ist, gilt

⋃mi=1Qi ⊇ ∂A.

Da ε beliebig klein gewählt werden kann, folgt daraus, dass es sich bei ∂A um eine Jordansche Nullmenge,erst recht also um eine Nullmenge handelt. Daraus wiederum folgt, dass A Jordan-messbar ist. Die Inklusion⋃mi=1Qi ⊇ A und die Ungleichung

∑mi=1 v(Qi) < ε zeigen auch, dass v(A) = v+(A) < ε für jedes ε ∈ R+ gilt.

Daraus folgt v(A) = 0.

„⇐“ Sei ε ∈ R+ vorgegeben. Auf Grund der Jordan-Messbarkeit von A und wegen v+(A) = v(A) = 0 gibt esnach Definition des äußeren Volumens eine endliche Familie Q1, ..., Qm von Quadern mit

∑mi=1 v(Qi) < ε und⋃m

i=1Qi ⊇ A. Daraus folgt direkt, dass es sich bei A um eine Jordansche Nullmenge handelt. �

Ist A ⊆ Rn eine beliebige Teilmenge, u ∈ Rn und r ∈ R+, dann setzen wir

u+A = {u+ x | x ∈ A} und rA = {rx | x ∈ A}.

Man sagt, dass die Menge u+ A aus der Menge A durch Translation hervorgeht. Den Übergang von A zu rAbezeichnet man als Skalierung. Im Fall r > 1 handelt es sich genauer um eine Streckung, im Fall 0 < r < 1 umeine Stauchung.

(4.29) Satz Sei A ⊆ Rn eine Jordan-messbare Teilmenge.

(i) (Translationsinvarianz)Für jedes u ∈ Rn ist auch u+A Jordan-messbar, und es gilt v(u+A) = v(A).

(ii) (Skalierungseigenschaft)Für jedes r ∈ R+ ist auch rA Jordan-messbar, und es gilt v(rA) = rnv(A).

Beweis: Für den Beweis von (i) genügt es zu zeigen, dass inneres und äußeres Volumen von A und u + A

übereinstimmen. Sei ε ∈ R+ vorgegeben. Nach Definition des inneren Volumens gibt es eine endliche Familiedisjunkter, kompakter Quader Q1, ..., Qp mit den Eigenschaften

∑pi=1 v(Qi) > v−(A) − ε und

⋃pi=1Qi ⊆ A.

Definieren wir nun Qi = u+Qi für 1 ≤ i ≤ p, dann gilt jeweils v(Qi) = v(Qi). Es folgt⋃pi=1 Qi ⊆ (u+A) und∑p

i=1 v(Qi) > v−(A)− ε. Wir erhalten v−(u+A) ≥ v−(A)− ε, und weil ε ∈ R+ beliebig vorgegeben war, folgtdaraus v−(u+ A) ≥ v−(A). Durch Vertauschung der Rollen von A und u+ A erhält man v−(A) ≥ v−(u+ A),insgesamt also Gleichhheit. Die Übereinstimmung v+(A) = v+(u+ A) beweist man nach demselben Schema.Ebenso kann die Aussage (ii) auf die Gleichung v(rQ) = rnv(Q) für kompakte Quader Q ⊆ Rn zurückgeführtwerden. �

Wie für Integrale über Quader gelten auch für Integrale über beliebige Jordan-messbare Teilmengen A ⊆ Rn

die Rechenregeln∫A

(f + g)(x) dx =

∫A

f(x) dx+

∫A

g(x) dx und∫A

(λf)(x) dx = λ

∫A

f(x) dx.

falls f, g : A→ R Riemann-integrierbar sind und λ ∈ R ist. Gilt f(x) ≤ g(x) für alle x ∈ A (was wir zukünftigdurch die Schreibeweise f ≤ g abkürzen), dann folgt

∫Af(x) dx ≤

∫Ag(x) dx.

—– 134 —–

Page 135: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Jede dieser Rechenregeln ergibt sich direkt aus der entsprechenden Rechenregel für Quader. Sind beispiels-weise f, g : A → R zwei Riemann-integrierbare Funktionen auf der Jordan-messbaren Menge A ⊆ Rn undist Q ⊆ Rn ein Quader mit Q◦ ⊇ A, dann ist die Nullfortsetzung von f + g : A → R gegeben durch(f + g)Q = fQ + gQ. Denn für alle x ∈ A gilt fQ(x) + gQ(x) = f(x) + g(x) = (f + g)(x) = (f + g)Q(x),und für alle x ∈ Q \ A erhalten wir ebenso fQ(x) + gQ(x) = 0 + 0 = 0 = (f + g)Q(x) nach Definition derNullfortsetzung. Mit der Definition der Riemann-Integrale über A erhalten wir nun∫

A

(f + g)(x) dx =

∫Q

(f + g)Q(x) dx =

∫Q

(fQ + gQ)(x) dx =

∫Q

fQ(x) dx+

∫Q

gQ(x) dx =

∫A

f(x) dx+

∫A

g(x) dx.

Der folgende Satz ist aus der Analysis einer Variablen für das eindimensionale Riemann-Integral bereits be-kannt. Sein mehrdimensionales Analogon lautet

(4.30) Satz (Mittelwertsatz der Integralrechnung)

Sei A ⊆ Rn eine nichtleere, Jordan-messbare Menge, f : A → R Riemann-integrierbar,außerdem m− = inf{f(x) | x ∈ A} und m+ = sup{f(x) | x ∈ A}. Dann gilt

m−v(A) ≤∫A

f(x) dx ≤ m+v(A).

Beweis: Sei Q ⊆ Rn ein kompakter Quader mit Q◦ ⊇ A. Wegen m− ≤ f(x) ≤ m+ für alle x ∈ A gilt auchm−χA(x) ≤ fQ(x) ≤ m+χA(x) für alle x ∈ A. Nach Definition des Jordan-Volumens folgt daraus

m−v(A) = m−

∫Q

χA(x) dx =

∫Q

m−χA(x) dx ≤∫Q

fQ(x) dx

≤∫Q

m+χA(x) dx = m+v(A).

Wegen∫Af(x) dx =

∫QfQ(x) dx folgt daraus unmittelbar die Behauptung. �

Ist f : B → R eine Riemann-integrierbare Funktion undA ⊆ B eine Jordansche Teilmenge, dann schreiben wiran Stelle von

∫A

(f |A)(x) dx auch einfach∫Af(x) dx. Dies setzt natürlich voraus, dass das Riemann-Integral

von f |A über A tatsächlich definiert ist. Wie der folgende Satz zeigt, ist dies tatsächlich immer der Fall.

—– 135 —–

Page 136: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

(4.31) Satz Seien A,B ⊆ Rn Jordan-messbare Teilmengen.

(i) Ist f : B → R Riemann-integrierbar und A ⊆ B, dann ist f |A Riemann-integrierbar.

(ii) Sei f : A ∪ B → R eine Funktion mit der Eigenschaft, dass f |A und f |Bauf ihren jeweiligen DefinitionsbereichenA undB Riemann-integrierbar sind.Dann ist f Riemann-integrierbar, und es gilt∫

A∪Bf(x) dx =

∫A

f(x) dx+

∫B

f(x) dx−∫A∩B

f(x) dx.

(iii) Ist N ⊆ R eine Jordansche Nullmenge und f : N → R eine beschränkteFunktion, dann ist f Riemann-integrierbar, und es gilt

∫Nf(x) dx = 0.

Beweis: zu (i) Seien UB , UA die Mengen der Unstetigkeitsstellen von f bzw. f |A. Dann gilt UA ⊆ UB , und mitUB ist auch UA eine Jordansche Nullmenge. Die Riemann-Integrierbarkeit von f |A folgt somit aus (4.25).

zu (ii) Seien UA, UB , UC ⊆ A∪B die Unstetigkeitsstellen von f |A, f |B und f . Dann gilt UC ⊆ UA∪UB∪(∂A)∪(∂B). Sei nämlich x ∈ UC vorgegeben, und nehmen wir o.B.d.A. an, dass x in A liegt. Ist x kein Randpunktvon A, dann liegt eine Umgebung von x vollständig von A. Aus der Unstetigkeit von f in x folgt somit auchdie Unstetigkeit von f |A in diesem Punkt, und wir erhalten x ∈ UA. Die soeben bewiesene Inklusion zeigt,dass UC eine Nullmenge ist, und damit ist f nach (4.25) eine Riemann-integrierbare Funktion.

Für den Beweis der Integralgleichung wählen wir einen kompakten Quader Q mit Q◦ ⊇ A∪B und betrachtenzunächst den Fall A ∩B = ∅. Es gilt dann fQ = fQχA + fQχB , und daraus folgt∫

A

f(x) dx+

∫B

f(x) dx =

∫Q

fQ(x)χA(x) dx+

∫Q

fQ(x)χB(x) dx =

∫Q

(fQ(x)χA(x) + fQ(x)χB(x)) dx =

∫Q

fQ(x) dx =

∫A∪B

f(x) dx.

Betrachten wir nun den Fall A ∩ B 6= ∅. In diesem Fall können wir A ∪ B disjunkt zerlegen in die Jordan-messbaren Mengen A \B, B \A und A ∩B. Der bereits bewiesene Fall liefert∫

A∪Bf(x) dx =

∫A\B

f(x) dx+

∫B\A

f(x) dx+

∫A∩B

f(x) dx.

Durch die Zerlegungen A = (A \B) ∪ (A ∩B) und B = (B \A) ∪ (A ∩B) erhalten wir aber auch∫A

f(x) dx =

∫A\B

f(x) dx+

∫A∩B

f(x) dx und∫B

f(x) dx =

∫B\A

f(x) dx+

∫A∩B

f(x) dx.

Durch Einsetzen ergibt sich damit insgesamt∫A∪B

f(x) dx =

(∫A

f(x) dx−∫A∩B

f(x) dx

)+

(∫B

f(x) dx−∫A∩B

f(x) dx

)+

∫A∩B

f(x) dx

=

∫A

f(x) dx+

∫B

f(x) dx−∫A∩B

f(x) dx.

—– 136 —–

Page 137: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

zu (iii) Die Riemann-Integrierbarkeit von f folgt direkt aus (4.25), denn die Menge der Unstetigkeitsstellenvon f ist in N enthalten und damit eine Nullmenge. Die Aussage über das Integral erhält man durch (4.28)und (4.30). Ersterer liefert nämlich v(N) = 0, und definiert man nämlich m− und m+ wie im Mittelwertsatzangegeben, dann erhält man

0 = m−v(N) ≤∫N

f(x) dx ≤ m+v(N) = 0. �

Einen wichtiger Spezialfall von (4.31) (ii) ist die Gleichung∫A∪B f(x) dx =

∫Af(x) dx+

∫Bf(x) dx für disjunkte

Jordan-messbare Teilmengen A,B ⊆ Rn. Auch aus Teil (iii) des Satzes ziehen wir eine wichtige Konsequenz.

(4.32) Satz (Vernachlässigung Jordanscher Nullmengen)

Sei A ⊆ Rn eine Jordan-messbare Menge, N ⊆ A eine Jordansche Nullmenge, und seienf, g : A→ R beschränkte Funktionen, die auf A \N übereinstimmen. Dann gilt

(i) Die Funktion f ist genau dann Riemann-integrierbar, wenn g Riemann-integrierbar ist.

(ii) Sind f und g Riemann-integrierbar, dann gilt∫A

f(x) dx =

∫A

g(x) dx.

Beweis: zu (i) Mit A und N ist auch B = A \ N Jordan-messbar. Ist f Riemann-integrierbar, dann giltnach (4.31) (i) dasselbe für f |B = g|B . Nach Teil (iii) des gleichen Satzes ist g|N Riemann-integrierbar. Ausder Riemann-Integrierbarkeit von g|B und g|N ergibt nach Teil (ii) die Riemann-Integrierbarkeit von g aufA = B ∪N . Damit ist insgesamt gezeigt, dass aus der Riemann-Integrierbarkeit von f dieselbe Eigenschaft fürg folgt, und genauso beweist man die umgekehrte Implikation.

zu (ii) Aus der disjunkten Zerlegung A = B ∪N folgt mit Teil (ii) von (4.31) sofort∫A

f(x) dx =

∫B

f(x) dx+

∫N

f(x) dx =

∫B

f(x) dx+ 0 =

∫B

g(x) dx+ 0 =

∫B

g(x) dx+

∫N

g(x) dx =

∫A

g(x) dx. �

—– 137 —–

Page 138: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

4.5 Integration über Normalbereiche und Cavalierisches Prinzip

Inhaltsübersicht

FF Integral einer nichtnegativen Funktion als Volumen der Ordinatenmenge

FF Verallgemeinerung des Satzes von Fubini auf Jordan-messbare Integrationsbereiche

FF Integration über Normalbereiche

FF Cavalierisches Prinzip zur Volumenberechnung

Bereits im vorherigen Abschnitt haben wir den Graph Γ(f) einer Funktion definiert. Zusätzlich definieren wirnun

(4.33) Definition SeiA ⊆ Rn eine beliebige Teilmenge und f : A→ R+ eine nichtnegativeFunktion. Dann wird

Λ(f) ={

(x, y) ∈ A×R∣∣ 0 ≤ y ≤ f(x)

}⊆ Rn+1 die Ordinatenmenge von f genannt.

Im weiteren Verlauf dieses Kapitels werden wir es häufig mit der Berechnung von Volumina in Räumen un-terschiedlicher Dimension zu tun bekommen. Zur besseren Unterscheidung bezeichnen wir das JordanscheVolumen einer Jordan-messbaren Teilmenge A des Rn von nun an statt mit v(A) auch mit vn(A).

Wir werden nun in diesem Kapitel sehen, dass die bereits aus der Schule bekannte anschauliche Interpretati-on des Integrals als Flächeninhalt (allgemeiner: als Volumen) unter dem Funktionsgraphen gerechtfertigt ist.Genauer werden wir zeigen, dass das Integral einer nicht-negativen Funktion mit dem Volumen der Ordina-tenmenge übereinstimmt. Zur Vorbereitung benötigen wir

(4.34) Lemma Seien m,n ∈ N, und seien A ⊆ Rm und B ⊆ Rn beschränkte Teilmengen.IstA eine Nullmenge inRm oderB eine Nullmengen inRn, dann istA×B eine Nullmengein Rm ×Rn = Rm+n.

Beweis: Wir beschränken uns auf den Fall, dass A eine Nullmenge ist. Sei Q ein kompakter Quader mit Q ⊇ Bund ε ∈ R+ vorgegeben. Auf Grund der Voraussetzung an A gibt es eine Familie (Qr)r∈N von kompaktenQuadern in Rm mit

⋃r∈NQr ⊇ A und

∑∞r=1 v(Qr) < ε. Offenbar ist dann (Qr × Q)r∈N eine Familie von

Quadern in Rm+n mit⋃∞r=1(Qr ×Q) ⊇ A×Q ⊇ A×B und

∞∑r=1

v(Qr ×Q) =

∞∑r=1

v(Qr)v(Q) = v(Q)

∞∑r=1

v(Qr) = εv(Q).

Da ε beliebig klein gewählt werden kann, folgt daraus, dass A×B eine Jordansche Nullmenge ist. �

—– 138 —–

Page 139: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Nun können wir das oben angekündigte Resultat formulieren und beweisen.

(4.35) Satz Sei A ⊆ Rn Jordan-messbar und f : A → R+ eine nicht-negative, Riemann-integrierbare Funktion. Dann ist die Ordinatenmenge Λ(f) Jordan-messbar, und für ihr(n+ 1)-dimensionales Jordansches Volumen gilt

vn+1(Λ(f)) =

∫A

f(x) dx.

Beweis: Beweisen wir zunächst die Jordan-Messbarkeit von Λ(f). Dazu müssen wir zeigen, dass ∂Λ(f) eineNullmenge ist. Sei c = sup{f(x) | x ∈ A} und A = A ∪ ∂A der topologische Abschluss von A. Offenbar ist∂Λ(f) in A× [0, c] enthalten. Ist nämlich (x, y) ∈ Rn ×Rmit x /∈ A, dann ist U ×Rmit U = Rn \ A eine offeneUmgebung von (x, y), die A× [0, c] nicht schneidet. Ist andererseits y /∈ [0, c], dann erhalten wir durch Rn × Vmit V = R \ [0, c] eine solche Umgebung.

Sei UA die Menge der Unstetigkeitsstellen von f und A◦ = A \ ∂A das Innere von A. Wir zeigen nun weiter,dass der Rand von Λ(f) in der Vereinigungsmenge

N = Γ(f) ∪ (∂A ∪ UA)× [0, c] ∪ A× {0, c}

enthalten ist. Liegt (x, y) in ∂Λ(f) und somit in A×[0, c], aber nicht inN , dann gilt x ∈ A◦\UA und y 6= 0, f(x), c.Insbesondere ist f in x stetig. Betrachten wir zunächst den Fall y < f(x). Setzen wir ε = 1

2 (f(x)− y), dann giltf(x) = y + 2ε. Auf Grund der Stetigkeit können wir eine Umgebung Uδ von x wählen, so dass Uδ ⊆ A undf(x′) > y+ε für alle x′ ∈ Uδ gilt. Die Umgebung Uδ×]0, y + ε[ von (x, y) ist dann vollständig in Λ(f) enthalten,somit (x, y) kein Randpunkt dieser Menge. Im Fall y > f(x) setzen wir ε = 1

2 (y − f(x)). Die Stetigkeit liefertuns eine Umgebung Uδ von x mit Uδ ⊆ A und f(x′) < y − ε für alle x′ ∈ Uδ . In diesem Fall ist Uδ × ]y − ε, c[vollständig im Komplement von Λ(f) enthalten und (x, y) wiederum kein Randpunkt von Λ(f). Damit ist derBeweis von ∂Λ(f) ⊆ N abgeschlossen.

Nun ist Γ(f) nach (4.27) eine Nullmenge, sogar eine Jordansche Nullmenge. Auf Grund der Jordan-Messbarkeitvon A und der Riemann-Integrierbarkeit von f ist ∂A ∪ UA ebenfalls eine Nullmenge. Somit zeigt (4.34), dassauch (∂A ∪ UA) × [0, c] und A × {0, c} Nullmengen sind. Insgesamt ist also N und damit auch ∂Λ(f) eineNullmenge.

Nun beweisen wir noch die angegebene Übereinstimmung zwischen Volumen und Integral. Sei Q ein kom-pakter Quader mit Q◦ ⊇ A und fQ : Q → R die Nullfortsetzung von f auf Q. Für jedes (x, y) ∈ Q × [0, c] giltχΛ(f)(x, y) = 1 genau dann, wenn x ∈ A und 0 ≤ y ≤ f(x) gilt, was wiederum zu y ∈ [0, fQ(x)] äquivalent ist.Nach Definition des Jordan-Volumens und dem Satz von Fubini gilt also

vn+1(Λ(f)) =

∫Q×[0,c]

χΛ(f)(x, y)d(x, y) =

∫Q

(∫ c

0

χΛ(f)(x, y)dy

)dx =

∫Q

(∫ fQ(x)

0

1 dy

)dx =

∫Q

fQ(x) dx =

∫A

f(x) dx. �

—– 139 —–

Page 140: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Als Anwendung des soeben bewiesenen Satzes können wir unser Vorgehen im Abschnitt 4.2 bei der Berech-nung des Kugelvolumens im Nachhinein rechtfertigen. Dazu betrachten wir die obere Halbkugel im R3 gege-ben durch

H ={

(x, y, z) ∈ R3 | z ≥ 0, x2 + y2 + z2 ≤ 1}.

Für alle (x, y, z) ∈ R3 ist (x, y, z) ∈ H äquivalent zu x2 + y2 ≤ 1 und 0 ≤ z ≤√

1− x2 − y2. Für die Funktion fauf dem Vollkreis K = {(x, y) ∈ R2 | x2 + y2 ≤ 1} gegeben durch f(x, y) =

√1− x2 − y2 gilt also Λ(f) = H .

Der Satz von oben ermöglicht es also, dass Volumen der Halbkugel durch ein zweidimensionales Integralauszudrücken, es gilt

v3(H) =

∫K

f(x, y) d(x, y).

Um nun Integrale dieser Form problemlos ausrechnen zu können, müssen wir den Satz von Fubini auf eineallgemeinere Form bringen. Dazu führen die folgende Notation ein: Ist A eine Teilmenge von Rm × Rn mitm,n ∈ N, dann definieren wir für jedes x ∈ Rm die Menge A(x) ⊆ Rn durch

A(x) ={y ∈ Rn

∣∣(x, y) ∈ A}.

Wir bezeichnen die Menge A als Schnitt von A mit dem affinen Unterraum {x}×Rm. Man erhält A(x), indemman den mengentheoretischen Durchschnitt von Amit {x}×Rn mit der Projektionsabbildung π : Rm×Rn →Rn, (x, y) 7→ y in den Rn abbildet.

Betrachten wir beispielsweise die Halbkugel H von oben als Teilmenge vonR×R2, dann gilt ist für alle x ∈ Rmit |x| > 1 jeweils H(x) = ∅, denn die Ungleichung x2 + y2 + z2 ≤ 1 ist für kein (y, z) ∈ R2 erfüllt. Im Fall|x| ≤ 1 ist H(x) ⊆ R2 gleich dem abgeschlossenen oberen Halbkreis mit Radius

√1− x2, denn für alle (y, z)

gilt die Äquivalenz

(y, z) ∈ H(x) ⇔ (x, y, z) ∈ H(x) ⇔ z ≥ 0 und x2 + y2 + z2 ≤ 1 ⇔ z ≥ 0 und y2 + z2 ≤ 1− x2.

Ebenso können wir H als Teilmenge des kartesischen Produkts R2 × R betrachten. In diesem Fall ist H(x, y)

für alle (x, y) ∈ R2 eine Teilmenge von R. Im Fall x2 + y2 > 1 ist diese leer, weil dann x2 + y2 + z2 ≤ 1 nieerfüllt ist. Im Fall x2 + y2 ≤ 1 gilt H(x, y) = [0,

√1− x2 − y2], wie die folgende Äquivalenzumformung zeigt.

z ∈ H(x, y) ⇔ (x, y, z) ∈ H ⇔ z ≥ 0 und x2 + y2 + z2 ≤ 1 ⇔

z ≥ 0 und z ≤√

1− x2 − y2 ⇔ z ∈ [0,√

1− x2 − y2].

Wir können nun für den Satz von Fubini die folgende Verallgemeinerung formulieren.

(4.36) Satz Seien m,n ∈ N und A ⊆ Rm × Rn eine Jordan-messbare Teilmenge derart,dass A(x) für jedes x ∈ Rm ebenfalls Jordan-messbar ist. Sei außerdem f : A → R einestetige Funktion und Q ⊆ Rm ein Quader mit Q × Rn ⊇ A. Dann ist für jedes x ∈ Q dieFunktion A(x)→ R, y 7→ f(x, y) Riemann-integrierbar, und es gilt∫

A

f(x, y) d(x, y) =

∫Q

(∫A(x)

f(x, y) dy

)dx.

—– 140 —–

Page 141: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Mit f ist für jedes x ∈ Q auch die Funktion fx : A(x) → R, y 7→ f(x, y) stetig, damit auch Riemann-integrierbar. Sei R ⊆ Rn so gewählt, dass A in Q × R enthalten ist, und sei fQ×R die Nullfortsetzung vonf auf Q × R. Für jedes x ∈ Q ist R → R, y 7→ fQ×R(x, y) die Nullfortsetzung von fx auf R. Mit Hilfe desherkömmlichen Satz von Fubini für Quader erhalten wir∫

A

f(x, y) d(x, y) =

∫Q×R

fQ×R(x, y) d(x, y) =

∫Q

(∫R

fQ×R(x, y) dy

)dx

=

∫Q

(∫A(x)

f(x, y) dy

)dx. �

In Anwendungen integriert man häufig über Bereiche einer speziellen Form.

(4.37) Definition Eine Teilmenge A ⊆ R2 heißt Normalbereich bezüglich der x-Achse,wenn es a, b ∈ R mit a < b und stetige Funktionen ψ1, ψ2 : [a, b] → R mit ψ1 ≤ ψ2 gibt, sodass

A = {(x, y) ∈ R2 | a ≤ x ≤ b , ψ1(x) ≤ y ≤ ψ2(x)} erfüllt ist.

Hat A die Form {(x, y) ∈ R2 | a ≤ y ≤ b , ψ1(y) ≤ x ≤ ψ2(y)}, so spricht man von einemNormalbereich bezüglich der y-Achse.

Jeder kompakte Quader Q der Form [a, b]× [c, d] ist ein Normalbereich. Dazu definiert man ψ1, ψ2 : [a, b]→ R

durch ψ1(x) = c und ψ2(x) = d für alle x ∈ [a, b]. Auch die Kreisscheibe Kr = {(x, y) ∈ R2 | x2 + y2 ≤ r2}ist für jedes r ∈ R+ ein Normalbereich. Hier definiert man auf dem Intervall [−r, r] die beiden Funktionenψ1, ψ2 durch ψ1(x) = −

√r2 − x2 und ψ2(x) =

√r2 − x2. Entsprechend lassen sich auch dreidimensionale

Normalbereiche definieren.

(4.38) Definition Eine Teilmenge B ⊆ R3 heißt Normalbereich bezüglich der xy-Ebene,wenn es eine kompakte Jordan-messbare TeilmengeA ⊆ R2 und stetige Funktionenψ1, ψ2 :

A→ Rmit ψ1 ≤ ψ2 gibt, so dass

B = {(x, y, z) ∈ R3 | (x, y) ∈ A , ψ1(x, y) ≤ z ≤ ψ2(x, y)} erfüllt ist.

Entsprechend definiert man Normalbereiche bezüglich der xz- und der yz-Ebene.

Für Normalbereiche lässt sich der Satz von Fubini nun folgendermaßen formulieren.

(4.39) Folgerung SeiA ⊆ R2 ein Normalbereich bezüglich der x-Achse mit definierendenFunktionen ψ1, ψ2 : [a, b]→ R und f : A→ R eine weitere stetige Funktion. Dann gilt∫

A

f(x, y) d(x, y) =

∫ b

a

(∫ ψ2(x)

ψ1(x)

f(x, y) dy

)dx.

—– 141 —–

Page 142: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Für alle x ∈ [a, b] gilt A(x) = [ψ1(x), ψ2(x)] auf Grund der Äquivalenz

y ∈ A(x) ⇔ (x, y) ∈ A ⇔ ψ1(x) ≤ y ≤ ψ2(x) ⇔ y ∈ [ψ1(x), ψ2(x)]

für alle y ∈ R. Also folgt die Aussage direkt aus (4.36). �

Ebenso beweist man

(4.40) Folgerung Sei B ⊆ R3 ein Normalbereich bezüglich der xy-Ebene mit definie-renden Funktionen ψ1, ψ2 : A → R auf einer geeigneten kompakten Jordan-messbarenTeilmenge A ⊆ R2, und f : B → R eine weitere stetige Funktion. Dann gilt∫

A

f(x, y, z) d(x, y, z) =

∫A

(∫ ψ2(x,y)

ψ1(x,y)

f(x, y, z) dz

)d(x, y).

Aus Platzgründen verzichten wir darauf, die entsprechenden Aussagen für Normalbereiche bezüglich der y-Achse und der xz- bzw. yz-Ebene auszuformulieren. Offenbar lässt sich das Konzept der Normalbereiche, daswir hier für Dimension 2 und 3 formuliert haben, problemlos auf Dimension n ≥ 4 übertragen, und es geltenzu (4.39) und (4.40) analoge Aussagen.

Mit Hilfe von (4.39) können wir nun die Berechnung des Halbkugelvolumens v3(H) von oben zu Ende führen.Dazu verwenden wir das bereits aus dem Abschnitt 4.2 bekannte Integral

∫ r−r√r2 − x2 dx = 1

2πr2, für beliebi-

ges r ∈ R+ (Flächeninhalt des Halbkreises vom Radius r). Weil die KreisscheibeK von oben ein Normalbereichmit definierenden Funktionen ψ1, ψ2 : [−1, 1]→ R gegeben durch ψ1(x) = −

√1− x2 und ψ2(x) =

√1− x2 ist,

erhalten wir

v3(H) =

∫K

f(x, y) d(x, y) =

∫ 1

−1

(∫ √1−x2

−√

1−x2

√1− x2 − y2 dy

)dx =

∫ 1

−1

12π(1− x2) dx =

[12πx−

16πx

3]1−1

=(

12π −

16π)−(− 1

2π + 16π)

= 23π

wobei im dritten Schritt die angegebene Gleichung auf r =√

1− x2 angewendet wurde.

Mit dem Satz von Fubini kann die Berechung eines (n + 1)-dimensionalen Integrals auf n-dimensionale Inte-grale zurückgeführt werden. Weil es sich beim Volumen um das Integral über eine charakteristische Funktionhandelt, kann auch die Berechnung von Volumina auf niedrigere Dimensionen zurückgeführt werden.

(4.41) Satz (Cavalierisches Prinzip)

Sei n ∈ N, A ⊆ R × Rn eine Jordan-messbare Menge, und seien a, b ∈ R mit a < b sogewählt, dass für jeden Punkt (x, y) ∈ A jeweils a ≤ x ≤ b erfüllt ist. Außerdem setzen wirvoraus, dass A(x) für jedes x ∈ R eine Jordan-messbare Teilmenge von Rn ist. Dann gilt

vn+1(A) =

∫ b

a

vn(A(x)) dx.

—– 142 —–

Page 143: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Beweis: Sei Q ⊆ Rn so gewählt, dass A ⊆ [a, b] × Q◦ erfüllt ist. Ist ε ∈ R+ beliebig gewählt, dann liegt Aim Inneren des Quaders Rε = Iε × Q, mit Iε = [a − ε, b + ε]. Sei nun χA : Rε → {0, 1} die charakteristischeFunktion von A. Für alle (x, y) ∈ Rε gilt χA(x, y) = χA(x)(y) auf Grund der Äquivalenz

χA(x, y) = 1 ⇔ (x, y) ∈ A ⇔ y ∈ A(x) ⇔ χA(x)(y) = 1.

Mit dem Satz von Fubini und der Definition des Jordanschen Volumens erhalten wir

vn+1(A) =

∫Rε

χA(x, y) d(x, y) =

∫Iε×Q

χA(x, y) d(x, y) =

∫Iε

(∫Q

χA(x, y) dy

)dx =

∫ b+ε

a−ε

(∫Q

χA(x)(y) dy

)=

∫ b+ε

a−εvn(A(x)) dx =

∫ b

a

vn(A(x)) dx ,

wobei im letzten Schritt verwendet wurde, dass für alle x ∈ [a − ε, b + ε] \ [a, b] jeweils A(x) = ∅ und somitvn(A(x)) = 0 gilt. �

Als Anwendung des Cavalierischen Prinzips berechnen wir das Volumen eines Kegels der Höhe h > 0, dessenGrundfläche ein Kreis vom Radius r ist. Als Teilmenge vom R3 ist ein solcher Kegel zum Beispiel gegebendurch

K =

{(x, y, z) ∈ R3

∣∣ 0 ≤ z ≤ h , x2 + y2 ≤(r − rz

h

)2}.

Für jedes z ∈ R setzen wir K(z) = {(x, y) ∈ R2 | (x, y, z) ∈ K}. Dies bedeutet eine geringfügige Abweichungvon der in (4.41) verwendeten Notation, weil der SchnittK(z) hier bezüglich der letzten und nicht wie in (4.41)bezüglich der ersten Koordinate gebildet wird. Da sich aber das Volumen durch Koordinatenvertauschungnicht ändert, stellt dies kein Problem dar.

Für alle z ∈ R \ [0, h] gilt K(z) = ∅, denn in diesem Fall ist nach Definition (x, y, z) /∈ K für alle (x, y) ∈ R2. Istdagegen z ∈ [0, h], dann gilt für alle (x, y) ∈ R2 die Äquivalenz

(x, y) ∈ K(z) ⇔ (x, y, z) ∈ K ⇔ x2 + y2 ≤(r − rz

h

)2

⇔ x2 + y2 ≤ r2(

1− z

h

)2

,

also ist K(z) eine Kreisschreibe vom Radius r(z) = r(1 − zh ). Setzen wir den Flächeninhalt des Kreises als

bekannt voraus, dann gilt also

v2(K(z)) = πr(z)2 = πr2(

1− z

h

)2

für alle z ∈ [0, h].

Mit (4.41) erhalten wir nun

v3(K) =

∫ h

0

v2(K(z)) dz = πr2

∫ h

0

(1− z

h

)2

dz = πr2

∫ h

0

(1− 2z

h+z2

h2

)dz

= πr2

[z − z2

h+

z3

3h2

]h0

= πr2(h− h+ 1

3h)

= 13πhr

2.

Das in (4.41) formulierte Prinzip wurde von seinem Namensgeber Bonaventura Cavalieri (1598 - 1647) ver-wendet, um den Rauminhalt einer großen Zahl geometrischer Körper zu bestimmen. Dies waren die erstenErgebnisse der Geometrie, die über das seit der Antike bekannte Wissen wesentlich hinausgingen. Da die Infi-nitesimalrechnung zu dieser Zeit noch nicht existierte (diese begann sich mit Newton und Leibniz erst gegen

—– 143 —–

Page 144: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Ende des 17. Jahrhunderts zu entwickeln), konnte Cavalieri den in (4.41) vorhandenen Integralausdruck nichtsymbolisch berechnen, sondern musste sich statt dessen mit Vergleichen behelfen.

Beispielsweise leitete er aus dem bereits bekannten Kegel- und Zylindervolumen das Volumen der Kugel ab,in dem er neben eine Halbkugel H vom Radius r einen Zylinder Z mit Radius und Höhe r setzte. In die-sem Zylinder wurde ein auf der Spitze stehender Kreisregel K mit Grundfläche und Höhe r untergebracht.Schneidet man die Halkugel nun auf Höhe h mit einer zur Grundfäche parallelen Ebene Eh, dann erhält mannach dem Satz des Pythagoras eine Kreisschreibe vom Radius

√r2 − h2, deren Flächeninhalt π(r2 − h2) be-

trägt. Schneidet man den Zylinder auf gleicher Höhe, so ergibt dies eine Kreisscheibe mit Flächeninhalt πr2,und der Schnitt von Eh mit de Kegel ergibt einen Kreis vom Flächeninhalt πh2. Der Schnitt von Eh mit derDifferenzmenge Z \K beträgt also ebenfalls π(r2 − h2), ist also genauso groß wie der Schnitt zwischen Eh undHalbkugel! Weil dies für alle h ∈ [0, r] der Fall ist, schloss Cavalieri, dass das Halbkugelvolumen gleich demVolumen von Z \ K sein muss. Da v3(Z) = πr2 · r = πr3 und v3(K) = 1

3πr3 bereits bekannt war, erhielt er

damitv3(H) = v3(Z \K) = v3(Z)− v3(K) = πr3 − 1

3πr3 = 2

3πr3

und schließlich das Volumen 43πr

3 für die Vollkugel.

Allerdings waren viele von Cavalieris Kollegen damals nicht bereit, seine Herleitung der Gleichung v3(H) =

v3(Z \K) zu akzeptieren. Scheinbar erforderte sie, die KörperH , Z undK in unendlich viele, unendlich dünneScheiben zu zerlegen und deren unendlich kleine Volumina aufzuaddieren, was ihnen (zu Recht) suspekt er-schien. Erst durch die Integralrechnung konnte Cavaleris Schluss im Nachhinein gerechtfertigt werden. EinenEinblick in die damalige Auseinandersetzung erhält man durch einen lesenswerten Spektrum-Artikel in derAusgabe vom Oktober 2015.

—– 144 —–

Page 145: Analysis mehrerer Variablen - Department Mathematikgerkmann/skripten/math… · Die Dreiecke ( ACD) und ( ABC) sind also ähnlich zueinander, ebenso ( CBD) und ( ABC). Bilden wir

Literaturverzeichnis

[Ba] M. Barner, F. Flor, Analysis II. de Gruyter Lehrbuch.

[Fo] O. Forster, Analysis 2. vieweg studium - Grundkurs Mathematik.

[He] H. Heuser, Lehrbuch der Analysis, Teil 2. Teubner-Verlag.

[Kö] K. Königsberger, Analysis 2. Springer-Verlag.