30
Mathematik f¨ ur die Physik II, SS 2019 Freitag 5.7 $Id: orthogonal.tex,v 1.20 2019/07/03 12:27:31 hk Exp $ $Id: mtaylor.tex,v 1.12 2019/07/03 12:32:38 hk Exp $ §7 Orthogonale und unit¨ are Matrizen Bereits in §6.2 hatten wir den Begriff einer orthogonalen Matrix im reellen Fall und einer unit¨ aren Matrix im komplexen Fall eingef¨ uhrt. Wir hatten auch verschiedene Beschreibungen f¨ ur die Orthogonalit¨ at einer Matrix A gesehen A ist orthogonal ⇐⇒ A t A =1 ⇐⇒ AA t =1 ⇐⇒ Die Spalten von A sind eine Orthonormalbasis des R n ⇐⇒ ur alle x, y R n gilt (Ax) · (Ay)= x · y und entsprechend im komplexen Fall A ist unit¨ ar ⇐⇒ A * A =1 ⇐⇒ AA * =1 ⇐⇒ Die Spalten von A sind eine Orthonormalbasis des C n ⇐⇒ ur alle x, y C n gilt (Ax) · (Ay)= x · y. In diesem Abschnitt interessiert uns vor allem der letztgenannte Aspekt. Mit x = y folgt f¨ ur eine orthogonale beziehungsweise unit¨ are n × n Matrix A auch ||Ax|| = (Ax) · (Ax)= x · x = ||x|| ur jedes x im R n beziehungsweise C n , d.h. die Matrix A erh¨ alt die L¨ ange von Vektoren. Weiter folgt, dass eine orthogonale Matrix A auch den Winkel φ zwischen Vektoren x, y R n erh¨ alt, denn dieser bestimmt sich ja durch die Formel x · y = ||x|| · ||y|| cos φ, und da A ange und Skalarprodukt nicht ¨ andert, haben wir auch (Ax) · (Ay)= ||Ax|| · ||Ay|| cos φ. Orthogonale Matrizen sind also die linearen Abbildungen, die L¨ angen und Winkel erhal- ten. Nehmen wir Verschiebungen hinzu, so ergeben sich die sogenannten Bewegungen, dies sind die Abbildungen der Form f : R n R n ; x Ax + u 22-1

7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

  • Upload
    others

  • View
    0

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

$Id: orthogonal.tex,v 1.20 2019/07/03 12:27:31 hk Exp $$Id: mtaylor.tex,v 1.12 2019/07/03 12:32:38 hk Exp $

§7 Orthogonale und unitare Matrizen

Bereits in §6.2 hatten wir den Begriff einer orthogonalen Matrix im reellen Fall undeiner unitaren Matrix im komplexen Fall eingefuhrt. Wir hatten auch verschiedeneBeschreibungen fur die Orthogonalitat einer Matrix A gesehen

A ist orthogonal ⇐⇒ AtA = 1

⇐⇒ AAt = 1

⇐⇒ Die Spalten von A sind eine Orthonormalbasis des Rn

⇐⇒ Fur alle x, y ∈ Rn gilt (Ax) · (Ay) = x · y

und entsprechend im komplexen Fall

A ist unitar ⇐⇒ A∗A = 1

⇐⇒ AA∗ = 1

⇐⇒ Die Spalten von A sind eine Orthonormalbasis des Cn

⇐⇒ Fur alle x, y ∈ Cn gilt (Ax) · (Ay) = x · y.

In diesem Abschnitt interessiert uns vor allem der letztgenannte Aspekt. Mit x = yfolgt fur eine orthogonale beziehungsweise unitare n× n Matrix A auch

||Ax|| =√

(Ax) · (Ax) =√x · x = ||x||

fur jedes x im Rn beziehungsweise Cn, d.h. die Matrix A erhalt die Lange von Vektoren.Weiter folgt, dass eine orthogonale Matrix A auch den Winkel φ zwischen Vektorenx, y ∈ Rn erhalt, denn dieser bestimmt sich ja durch die Formel

x · y = ||x|| · ||y|| cosφ,

und da A Lange und Skalarprodukt nicht andert, haben wir auch

(Ax) · (Ay) = ||Ax|| · ||Ay|| cosφ.

Orthogonale Matrizen sind also die linearen Abbildungen, die Langen und Winkel erhal-ten. Nehmen wir Verschiebungen hinzu, so ergeben sich die sogenannten Bewegungen,dies sind die Abbildungen der Form

f : Rn → Rn;x 7→ Ax+ u

22-1

Page 2: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

mit einer orthogonalen n × n Matrix A und einem Vektor u ∈ Rn. Wir halten zweiGrundtatsachen uber orthogonale und unitare Matrizen fest:

Satz 7.1 (Eigenwerte und Determinante orthogonaler und unitarer Matrizen)Sei A eine orthogonale n× n Matrix uber K = R oder eine unitare n× n Matrix uberK = C. Dann gelten:

(a) Ist λ ∈ C ein komplexer Eigenwert von A, so ist |λ| = 1.

(b) Ist K = R so gilt detA = 1 oder detA = −1.

(c) Ist K = C so gilt | detA| = 1.

(d) Ist K = R und ist die Dimension n ungerade und detA = 1, so ist 1 ein Eigenwertvon A.

(e) Ist K = R und ist die Dimension n gerade und detA = −1, so ist 1 ein Eigenwertvon A.

Beweis: (a) Da eine orthogonale Matrix als komplexe Matrix unitar ist, konnen wiruns auf den Fall K = C beschranken. Sei 0 6= u ∈ Cn ein Eigenvektor zu λ, alsoAu = λu. Dann erhalten wir

||u|| = ||Au|| = ||λu|| = |λ| · ||u||,

also wegen ||u|| 6= 0 auch |λ| = 1.(c) Es gilt

| detA |2 = det(A) · detA = det(A) det(A) = det(A) det(At) = det(A) det(A∗)

= det(AA∗) = 1,

also ist auch | detA | = 1.(b) Da A als komplexe Matrix unitar ist, gilt nach (c) zunachst | detA | = 1 und wegendetA ∈ R ist detA ∈ {−1, 1}.(d,e) Es ist

χA(1) = det(1− A) = det(AAt − A) = det(A) det(At − 1) = det(A) det(A− 1)

= (−1)n det(A) det(1− A) = (−1)n det(A)χA(1).

In den beiden Fallen”n ungerade, detA = 1“ und

”n gerade, detA = −1“ ist

(−1)n detA = −1, also χA(1) = −χA(1), und dies bedeutet χA(1) = 0, d.h. 1 istein Eigenwert von A.

Die Bewegungen f(x) = Ax + u bei denen A eine orthogonale Matrix mit detA = 1ist nennt man auch eigentliche Bewegungen. Dies sind diejenigen Bewegungen, die

22-2

Page 3: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

sich tatsachlich physikalisch realisieren lassen. Die Bewegungen mit detA = −1 habenimmer einen Spiegelungsanteil. Wir fuhren jetzt eine Bezeichnung fur die Menge allerorthogonalen beziehungsweise unitaren Matrizen ein. Hierzu sei n ∈ N mit n ≥ 1gegeben. Dann seien

OnR := {A ∈ Rn×n|A ist orthogonal} (Orthogonale Gruppe),

SOnR := {A ∈ OnR| detA = 1} (Spezielle orthogonale Gruppe),

UnC := {A ∈ Cn×n|A ist unitar} (Unitare Gruppe),

SUnC := {A ∈ UnC| detA = 1} (Spezielle unitare Gruppe).

Oft verwendete alternativen Schreibweisen fur diese Mengen sind O(n) = OnR fur dieorthogonale Gruppe, SO(n) = SOnR fur die spezielle orthogonale Gruppe, U(n) =UnC fur die unitare Gruppe und SU(n) = SUnC fur die spezielle unitare Gruppe.Das Wort

”Gruppe“ hatten wir schon einmal in I.§8.1 im Zusammenhang mit der

symmetrischen Gruppe bei der Einfuhrung von Determinanten verwendet. Genau wiedamals wollen wir hier keine abstrakte Definition einer Gruppe geben, gemeint ist dasProdukte und Inverse von Elementen aus einer Mengen OnR, SOnR, UnC, SUnC wiederin der entsprechenden Menge sind. In der Vorlesung wurde dies nur mitgeteilt, aberan dieser Stelle wollen wir es kurz vorrechnen. Angenommen A,B ∈ OnR sind zweiorthogonale Matrizen derselben Große. Dann ist auch das Produkt AB invertierbarmit

(AB)−1 = B−1A−1 = BtAt = (AB)t,

d.h. es ist auch AB ∈ OnR. Außerdem ist auch

(A−1)−1 = A = Att = (A−1)t,

d.h. A−1 ∈ OnR. Fur die unitare Gruppe UnC ist die Rechnung analog und die Aus-sagen uber die beiden speziellen Gruppen SOnR und SUnC folgen dann aus den Ei-genschaften der Determinante. Sind beispielsweise A,B ∈ SOnR, so wissen wir bereitsAB,A−1 ∈ OnR und zusatzlich sind

det(AB) = det(A) det(B) = 1 und det(A−1) =1

detA= 1,

also AB,A−1 ∈ SOnR.

7.1 Spiegelungen

Wir werden jetzt einen speziellen Typ orthogonaler Abbildungen untersuchen, die Spie-gelung an einer Hyperebene. Im zweidimensionalen Fall n = 2 sind dies Geradenspie-gelungen und im dreidimensionalen Fall n = 3 handelt es sich um Ebenenspiegelungen.Da die Dimension fur diese Uberlegungen keine Rolle spielt, wollen wir hier gleich denn-dimensionalen Fall behandeln, und eine Hyperebene des Rn war dann definitions-gemaß ein (n − 1)-dimensionaler affiner Teilraum des Rn. Im letzten Semester hatten

22-3

Page 4: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

wir im Abschnitt I.§12.3 bereits eine auch hier nutzliche Beschreibung von Hyperebenenkennengelernt. Jede solche Hyperebene E ließ sich in Hessescher Normalform als

E = {x ∈ Rn|u · x = c}

schreiben, wobei c ∈ R ist und u ein senkrecht auf E stehender Vektor der Lange||u|| = 1 ist, ein sogenannter Normalenvektor auf E. Da wir hier an orthogonalenMatrizen, also an linearen Abbildungen, interessiert sind, brauchen wir Hyperebenendurch den Nullpunkt, also c = 0.

u

u

E

x

x’

Sx

λ

Eine Hyperebene durch den Nullpunkt laßtsich somit in der Form

E = {x ∈ Rn|u · x = 0}

beschreiben, wobei u ein Normalenvektor aufE ist. Wir wollen die Spiegelung S an der Hy-perebene E berechnen. Sei also x ∈ Rn. Dannschreiben wir

x = x′ + λu

mit einem Vektor x′ ∈ E und einem λ ∈ R.Beim Spiegeln an E bleibt der Anteil x′ vonx in E erhalten wahrend der zu E senkrechteAnteil λu zu −λu wird, d.h. insgesamt wird der Punkt x auf Sx = x′ − λu abgebildet.Den zu u parallelen Anteil λu hatten wir auch bereits im I.§12.3 des letzten Semestersausgerechnet, wegen ||u|| = 1 ist λ = u ·x, also λu = (u ·x)u. Fur das Bild von x unterder Spiegelung folgt die Spiegelungsformel

Sx = x′ − λu = x′ + λu− 2λu = x− 2λu = x− 2(u · x)u.

Damit haben wir die Spiegelung an E berechnet. Auch als Matrix bezuglich der kano-nischen Basis des Rn laßt sich S leicht berechnen, es ist ja

Sx = x− 2(u · x)u = x− 2u(u · x) = x− 2uutx = (1− 2uut)x,

als Matrix ist alsoS = 1− 2uut.

Beachte dabei das das Produkt eines Spaltenvektors mit n Eintragen und eines Zeilen-vektors mit n Eintragen eine n× n-Matrix ist. Wir wollen zwei Beispiele rechnen. Seig die Gerade

g :=

⟨(3

−4

)⟩=

{(3t

−4t

)∣∣∣∣ t ∈ R}

22-4

Page 5: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

im R2. Senkrecht auf dem Richtungsvektor steht beispielsweise

v =

(43

)und normiert u =

v

||v||=

1

5v =

( 4535

).

Fur die Spiegelungsmatrix ergibt sich

S = 1−2uut = 1− 2

25vvt = 1− 2

25

(43

)·(4 3) = 1− 2

25

(16 1212 9

)=

(− 7

25−24

25

−2425

725

).

Als ein zweites Beispiel betrachte die Ebene

E := {(x, y, z) ∈ R3|x+ 2y − 2z = 0}

im R3. Dann steht der Vektor v = (1, 2,−2) senkrecht auf E, und wegen ||v|| = 3 ist

u :=1

3v =

1

3

12

−2

ein Normalenvektor von E. Als die Spiegelungsmatrix an der Ebene E ergibt sich

S = 1− 2uut = 1− 2

9

1 2 −22 4 −4

−2 −4 4

=1

9

7 −4 4−4 1 8

4 8 1

.

Die Formel fur Spiegelungen an Ebenen die nicht durch den Nullpunkt gehen laßt sichauf unsere Spiegelungsformel zuruckfuhren. Angenommen die Hyperebene E ⊆ Rn istin Hessescher Normalform als

E = {x ∈ Rn|u · x = c}

gegeben, wobei u ein Normalenvektor auf E ist und c ∈ R ist. Wahle dann irgendeinenPunkt x0 ∈ E, also u · x0 = c. Die Spiegelung kann man dann realisieren, indemzuerst x0 nach 0 verschoben wird, dann an der zu E parallelen Hyperebene durch0 gespiegelt wird, und anschließend 0 wieder nach x0 zuruckgeschoben wird. Die zuE parallele Hyperebene durch 0 hat dabei auch den Normalenvektor u. Wie siehtdas als Formel aus? Sei x ∈ Rn. Beim Verschieben geht x auf x − x0, und beimSpiegeln an der parallelen Hyperebene geht dieser Punkt auf x−x0−2(u · (x−x0))u =x− x0 − 2(u · x)u+ 2(u · x0)u = x− x0 − 2(u · x)u+ 2cu. Dann wird zuruckgeschobenund als Spiegelung ergibt sich

Scx = x− (u · x)u+ 2cu = Sx+ 2cu,

wobei S = 1−2uut ist. Wir wollen nun einen Satz angeben der die besondere Bedeutungvon Spiegelungen fur die orthogonale Gruppe herausstellt, uberhaupt jede orthogonaleMatrix laßt sich als ein Produkt von Spiegelungen schreiben.

22-5

Page 6: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Satz 7.2: Jede orthogonale n × n Matrix laßt sich als ein Produkt von hochstens nSpiegelungen schreiben.

Dies kann man etwa durch Induktion nach n beweisen, man uberlegt sich zunachstdas es fur je zwei u, v ∈ Rn mit ||u|| = ||v|| = 1 stets eine Spiegelung S mit Su = vgibt, hiermit kann man sich dann auf den Fall reduzieren das es fur die betrachteteorthogonale Matrix A einen Vektor u ∈ R3 mit ||u|| = 1 und Au = u gibt unddie Induktionsannahme in u⊥ fuhrt zum Ziel. Wir wollen hier darauf verzichten dieswirklich vorzufuhren. Beachten wir das eine Spiegelung offenbar die Determinante −1hat, so hat ein Produkt einer geraden Anzahl von Spiegelungen die Determinante 1und ein Produkt einer ungeraden Anzahl von Spiegelungen hat die Determinante −1.Schauen wir uns einmal an was der Satz fur die Ebene n = 2 sagt. Nach dem Satzist jede orthogonale 2× 2 Matrix entweder eine Spiegelung oder das Produkt von zweiSpiegelungen. Produkte von zwei Spiegelungen im R2 stellen sich als Drehungen heraus,d.h. jede orthogonale 2× 2-Matrix ist eine Spiegelung oder eine Drehung.

Fur unitare Matrizen gibt es einen ahnlichen Satz, anstelle von Spiegelungen mussman aber auch die etwas allgemeineren

”Quasispiegelungen“ erlauben. Diese Dinge

wollen wir hier aber nicht naher ausfuhren.

7.2 Drehungen

Die wohl wichtigste Sorte othogonaler Matrizen sind die Drehungen. Wir werden dieseim zwei und im dreidimensionalen Fall behandeln. In Dimension 2 kennen wir uns dabeibereits bestens aus, die Drehung um einen Winkel φ wird durch die Matrix

D(φ) =

(cosφ − sinφsinφ cosφ

)beschrieben, wie wir schon in Abschnitt I.§12.2 im letzten Semester eingesehen haben.Wir wollen uns jetzt mit Drehungen im dreidimensionalen Raum beschaftigen. Hierreicht es zur Beschreibung einer Drehung nicht mehr aus, einen Winkel anzugeben.Neben dem Winkel benotigen wir auch noch die Drehachse, also die Ursprungsgeradeum die herum die Drehung stattfindet. Die Achse sei dabei durch einen Vektor u derLange 1 gegeben. Es seien also ein u ∈ R3 mit ||u|| = 1 und ein Winkel φ ∈ R gegeben.Wir wollen die Drehung Du(φ) mit Drehachse in Richtung von u und Drehwinkel φberechnen.

Sei x ∈ R3 und wir mussen das Bild Du(φ)x von x unter unserer Drehung bestim-men. Ist x ∈ 〈u〉, liegt x also auf der Drehachse, so ist sofort Du(φ)x = x, wir konnenalso x /∈ 〈u〉 annehmen. Unsere Strategie ist es zu einer anderen Orthonormalbasisu1, u2, u3 des R3 uberzugehen, in der Du(φ) eine moglichst einfache Gestalt hat. Esist naheliegend diese Basis mit der Drehachse selbst zu beginnen, also u1 := u. Denzweiten Basisvektor u2 wahlen wir jetzt zum Argument x passend. Den Punkt x selbstkonnen wir leider nicht verwenden, da dieser weder normiert noch senkrecht zu u ist.

22-6

Page 7: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

φ

uDies ist aber kein großes Problem, wir wendeneinfach die uns schon bekannte Gram SchmidtOrthonormalisierung auf u, x an, d.h. wir set-zen

y := x− (u · x)u und u2 :=y

||y||.

Zur Bestimmung des dritten Basisvektors ver-wenden wir das in I.§12.4 eingefuhrte Vektor-produkt, der Vektor u1 × u2 steht senkrechtauf u1 und u2 und hat die Lange

||u1×u2|| = (||u1||2 · ||u2||2− (u1 ·u2)2)1/2 = 1.

Die gesuchte Orthonormalbasis wird somit vervollstandigt durch

u3 := u1 × u2 =1

||y||u× (x− (u · x)u) =

u× x

||y||da u× u = 0 ist. Beachte außerdem das die Basis u1, u2, u3 dann positiv orientiert ist,der Umlaufsinn unseres Drehwinkels ist also bezuglich dieser Basis genau derselbe wiebezuglich der Standardbasis. Bezuglich der Basis u1, u2, u3 wird x jetzt zu

x = (u · x)u+ y = (u · x)u1 + ||y||u2 =

u · x||y||0

.

In dieser Basis berechnet sich das Bild von x unter unserer Drehung als

Du(φ)x =

1 0 00 cosφ − sinφ0 sinφ cosφ

u · x||y||0

=

u · x||y|| cosφ||y|| sinφ

.

Bezuglich der Standardbasis haben wir damit das Ergebnis

Du(φ)x = (u · x)u1 + ||y|| cos(φ)u2 + ||y|| sin(φ)u3 = (u · x)u+ cos(φ)y + sin(φ)u× x

= (u · x)u+ cos(φ)x− (u · x) cos(φ)u+ sin(φ)(u× x)

= cos(φ)x+ (1− cosφ)(u · x)u+ sin(φ)(u× x).

Dies ist bereits eine fur praktische Zwecke nutzliche Drehungsformel. Wir konnen dieFormel auch noch in Matrixform umschreiben, hierzu mussen wir uns nur uberlegenwie die Matrix der linearen Abbildung f(x) = u×x aussieht. Dies ist schnell berechnet

u× e1 =

u1

u2

u3

×

100

=

0u3

−u2

, u× e2 =

u1

u2

u3

×

010

=

−u3

0u1

,

u× e3 =

u1

u2

u3

×

001

=

u2

−u1

0

,

22-7

Page 8: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

die Matrix von f ist also

u :=

0 −u3 u2

u3 0 −u1

−u2 u1 0

.

Die Drehmatrix wird damit insgesamt zu

Du(φ) = cosφ+ (1− cosφ)uut + sin(φ)u.

Damit konnen wir nun Drehmatrizen berechnen. Wir konnen den Drehwinkel φ auchdirekt aus der Matrix Du(φ) ablesen, es ist ja tr u = 0, truut = u2

1 + u22 + u2

3 = 1 undsomit

trDu(φ) = 3 cosφ+ 1− cosφ = 1 + 2 cosφ.

Auch die von u aufgespannte Gerade konnen wir an der Matrix Du(φ) ablesen. Es istja (uut)t = uut aber ut = −u, also

Du(φ) +Du(φ)t = 2 cosφ+ 2(1− cosφ)uut = trDu(φ)− 1 + 2(1− cosφ)uut.

Ist also φ kein Vielfaches von 2π, so ist cosφ 6= 1 und es folgt

〈u〉 = Bild(Du(φ) +Du(φ)t − tr(Du(φ)) + 1).

Ist φ dagegen ein Vielfaches von 2π, also cosφ = 1, so findet uberhaupt keine Drehungstatt, und daher ist es nicht uberraschend das wir keine Drehachse bestimmen konnen.Beachte ubrigens das die Formel fur die Drehachse nur den Teilraum 〈u〉 liefert, abernicht u selbst, d.h. wir konnen auf diese Weise nicht zwischen u und −u unterscheiden.Wenn man aber φ und ±u kennt, so ist ein leichtes durch Einsetzen in die Matrixformder Drehformel abzulesen welchen der beiden wir nehmen mussen.

Wir wollen die Matrixformel einmal auf das Beispiel von Drehungen um u =(1/

√3)(1, 1, 1) anwenden. Es gelten

uut =1

3

111

· (1, 1, 1) =1

3

1 1 11 1 11 1 1

und u =1√3

0 −1 11 0 −1

−1 1 0

.

Die Drehung um u mit dem Winkel φ wird damit zu

Du(φ) = cosφ+ (1− cosφ)uut + sin(φ)u

=1

3

1 + 2 cosφ 1− cosφ−√

3 sinφ 1− cosφ+√

3 sinφ

1− cosφ+√

3 sinφ 1 + 2 cosφ 1− cosφ−√

3 sinφ

1− cosφ−√

3 sinφ 1− cosφ+√

3 sinφ 1 + 2 cosφ

.

Im zweidimensionalen Fall kennen wir damit bereits alle orthogonalen Matrizen, es giltnamlich, wie schon oben angedeutet:

22-8

Page 9: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Satz 7.3 (Orthogonale 2× 2 Matrizen)Ist A eine orthogonale 2× 2 Matrix, so ist A im Fall detA = 1 eine Drehung und imFall detA = −1 eine Spiegelung.

Beweis: Auf den folgenden Beweis hatten wir in der Vorlesung verzichtet. Sei

A =

(a bc d

)∈ O2R.

Zunachst nehmen wir ad− bc = detA = 1 an. Dann ist A invertierbar mit(a cb d

)= At = A−1 =

(d −b

−c a

)es mussen also a = d und c = −b gelten. Damit wird 1 = ad − bc = a2 + b2, es gibtalso einen Winkel φ mit a = cos(−φ) = cosφ und b = sin(−φ) = − sinφ. Folglich sindauch d = a = cosφ und c = −b = sinφ und wir haben A = D(φ). Damit ist der FalldetA = 1 vollstandig behandelt.

Nun nehme ad− bc = detA = −1 an. In diesem Fall haben wir(a cb d

)= At = A−1 =

(−d bc −a

)also d = −a und c = b sowie−1 = ad−bc = −a2−b2, also ist wieder c2+d2 = a2+b2 = 1.Somit gibt es einen Winkel φ mit c = sin(2φ) und d = cos(2φ), also auch a = − cos(2φ)und b = sin(2φ). Ist nun

u =

(cosφsinφ

), so ist Su = 1− 2uut = 1− 2

(cos2 φ sinφ cosφ

sinφ cosφ sin2 φ

)=

(− cos(2φ) sin(2φ)

sin(2φ) cos(2φ)

)= A

also ist A die Spiegelung an R · u.

In zwei Dimensionen sind Drehungen und Spiegelungen die einzigen orthogonalen Ma-trizen. In drei Dimensionen ist es auch noch moglich alle auftretenden Typen ortho-gonaler Matrizen aufzulisten, und wie im zweidimensionalen Fall sind die Drehungengenau die orthogonalen Matrizen mit Determinante 1.

Satz 7.4 (Orthogonale 3× 3 Matrizen)Sei A eine orthogonale 3× 3 Matrix.

(a) Ist detA = 1, so ist A eine Drehung um den Winkel

φ = arccos

(tr(A)− 1

2

)mit der Drehachse Bild(A+ At − tr(A) + 1).

22-9

Page 10: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

(b) Ist detA = −1, so ist A ein Spiegelung oder das Produkt einer Spiegelung undeiner Drehung wobei die Drehachse senkrecht auf der Spiegelungsebene steht.

Beweis: (a) Nach Satz 1.(d) ist 1 ein Eigenwert von A, es gibt also ein u ∈ R3 mit||u|| = 1 und Au = u. Weiter betrachten wir die Ebene E := {x ∈ R3|u · x = 0} zumNormalenvektor u. Fur jedes x ∈ E gilt auch

u · (Ax) = (Au) · (Ax) = u · x = 0, also Ax ∈ E.

Damit ist A|E eine lineare Abbildung, und es bezeichne B die Matrix dieser Abbildungbezuglich einer Orthonormalbasis von E. Dann istB ∈ SO2R, also istA|E eine Drehungin E um einen Winkel φ. Damit ist A = Du(φ). Die Formeln fur Drehwinkel undDrehachse folgen aus unseren obigen Uberlegungen.(b) Wir haben (−A)−1 = −A−1 = −At = (−A)t, d.h. auch −A ist orthogonal mitdet(−A) = − detA = 1. Also ist −A ∈ SO3R nach (a) eine Drehung. Insbesondereexistiert ein Vektor u ∈ R3 mit ||u|| = 1 und −Au = u, also Au = −u und u ist einEigenvektor zum Eigenwert −1 von A. Fur jeden zu u senkrechten Vektor x folgt damitauch u · (Ax) = −(Au) · (Ax) = −u · x = 0, d.h. A erhalt die zu u senkrechte EbeneE. Damit ist A|E orthogonal mit Determinante 1, also eine Drehung. Es konnen jetztzwei Falle auftreten, entweder ist A|E die identische Abbildung, und dann ist A dieSpiegelung Su an der Ebene E oder A|E ist die Drehung um einen Winkel φ und dannist A das Produkt A = Du(φ)Su der Drehung Du(φ) mit der Spiegelung Su.

Produkte von Spiegelungen und Drehungen nennt man gelegentlich auch Drehspiege-lungen. Diese spielen fur uns keine Rolle, und daher wollen wir sie auch nicht untersu-chen. Der Satz besagt insbesondere das

SO3R = {Du(φ)|u ∈ R3, φ ∈ R, ||u|| = 1}

die Menge aller Drehungen um Achsen durch den Nullpunkt ist, daher nennt manSO3R auch die Drehgruppe. Ab Dimension 4 werden die Verhaltnisse komplizierter, esgibt dann auch orthogonale Matrizen mit Determinante 1 die keine Drehungen sind.Da auch dies fur uns keine Rolle spielt, wollen wir dies hier nicht naher ausfuhren.Zusammen mit Satz 2 besagt der eben bewiesen Satz, dass Drehungen im R3 genau dieProdukte von zwei Spiegelungen sind. Dies kann man auch leicht explizit sehen. Seienu, v ∈ R3 mit ||u|| = ||v|| = 1. Wir konnen u, v ∈ R3 als linear unabhangig annehmen,denn sonst ist Su = Sv und somit SuSv = 1. Wegen SuSv ∈ SO3R muss SuSv eineDrehung mit SuSv 6= 1 sein. Die Ebenen an denen gespiegelt wird sind

Eu := {x ∈ R3|u · x = 0} und Ev := {x ∈ R3|u · v = 0}

mit Eu 6= Ev und ihr Schnitt g := Eu ∩ Ev ist eine Gerade die von SuSv punktweisefixiert wird, dies meint SuSvx = x fur alle x ∈ g. Insbesondere muss g die Drehachsesein. Explizit ist

g = {x ∈ R3|x ⊥ u und x ⊥ v} = 〈u× v〉.

22-10

Page 11: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Zur Bestimmung des Drehwinkels φ wollen wir die Formel aus Satz 4 verwenden. Be-achte hierzu das fur je zwei Vektoren x, y ∈ Rn stets

tr(xyt) =n∑

i=1

xiyi = x · y

gilt, also ergibt sich wegen

SuSv = (1− 2uut)(1− 2vvt) = 1− 2(uut + vvt) + 4(u · v)uvt

der Drehwinkel φ als

cosφ =1

2(tr(SuSv)− 1) =

1

2(3− 2||u||2 − 2||v||2 + 4(u · v)2 − 1) = 2(u · v)2 − 1.

Bezeichnet ψ den Winkel zwischen u und v, so ist u · v = ||u|| · ||v|| cosψ = cosψ, also

cosφ = 2 cos2 ψ − 1 = cos(2ψ).

Als Drehachse von SuSv haben wir also 〈u × v〉 und der Drehwinkel ist das Doppeltedes Winkels zwischen u und v.

Zum Abschluß wollen wir noch eine eine weitere Beschreibung von Drehungen be-sprechen, die sogenannten Eulerwinkel. Wir hatten bereits mehrfach die Drehungenum die x-Achse verwendet, und entsprechend haben auch die Drehungen um y- undz-Achse eine sehr einfache Form, namlich

D1(φ) :=

1 0 00 cosφ − sinφ0 sinφ cosφ

, D2(φ) :=

cosφ 0 − sinφ0 1 0

sinφ 0 cosφ

,

D3(φ) :=

cosφ − sinφ 0sinφ cosφ 0

0 0 1

.

Aus diesen drei speziellen Drehungen kann man alle anderen Drehungen zusammen-setzen, d.h. zu einer beliebigen Drehmatrix A gibt es immer drei Winkel α, β, γ, diesogenannten Euler Winkel von A, so, dass

A = D1(α)D2(β)D3(γ) = cos β cos γ − cos β sin γ − sin β− sinα sin β cos γ + cosα sin γ sinα sin β sin γ + cosα cos γ − sinα cos βcosα sin β cos γ + sinα sin γ − cosα sin β sin γ + sinα cos γ cosα cos β

gilt. Aus dieser Formel lassen sich die Euler Winkel bei gegebener Matrix A berechnen.Aus dem Eintrag a13 ergibt sich β durch sin β = −a13 und wegen |a13| ≤ 1 kann β auf|β| ≤ π/2 also β = − arcsin(a13) normiert werden. Dann wird

1 = a211 + a2

12 + a213 also a2

11 + a212 = 1− a2

13 = 1− sin2 β = cos2 β

22-11

Page 12: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

also auch (a11

cos β

)2

+

(a12

cos β

)2

= 1

und somit erhalten wir einen bis auf Vielfache von 2π eindeutigen Winkel γ mit a11 =cos β cos γ und a12 = − cos β sin γ. Analog ist auch α bis auf Vielfache von 2π eindeutigfestgelegt. Wir wollen dies einmal am Beispiel der Drehmatrix

D =1

3

2 −1 22 2 −1

−1 2 2

vorfuhren. Es ist − sin β = 2/3, also insbesondere sin β < 0. Damit ist −π/2 < β <0. Außerdem ist cos2 β = 1 − sin2 β = 5/9, also cos β =

√5/3. Explizit ist β =

− arcsin(2/3). Wegen −1/3 = − cos β sin γ = −(√

5/3) sin γ ist sin γ = 1/√

5 undweiter 2/3 = cos β cos γ = (

√5/3) cos γ, d.h. cos γ = 2/

√5. Also ist 0 < γ < π/2 und

γ = arcsin(1/√

5). Analog folgt α = γ = arcsin(1/√

5).

§8 Ableitungen hoherer Ordnung

Partielle Ableitungen hoherer Ordnung werden als iterierte einfache partielle Ab-leitungen eingefuhrt und eine Funktionen f : U → R definiert auf einer offenen MengeU ⊆ Rn wird r-fach partiell differenzierbar genannt wenn alle partiellen Ableitungender Funktion f bis zur Ordnung r auf ganz U existieren. Diesen Begriff konnen wir aufvektorwertige Funktionen f : U → Rm verallgemeinern indem wir eine solche Funktionr-fach partiell differenzierbar nennen wenn dies auf alle Komponenten fj fur 1 ≤ j ≤ mzutrifft. Sind zusatzlich diese samtlichen Ableitungen auch noch stetig, so nennen wir fdann r-fach stetig partiell differenzierbar. In dieser Terminologie haben wir im letztenKapitel gezeigt, dass eine Funktion f : U → Rm genau dann stetig differenzierbar istwenn sie stetig partiell differenzierbar ist. Auch mehrfache Differenzierbarkeit konnenwir induktiv definieren. Fur eine differenzierbare Funktion f : U → Rm mit U ⊆ Rn

offen ist die Ableitung eine Funktion

f ′ : U → Rm×n = Rmn.

Ist auch diese differenzierbar so nennen wir f zweifach differenzierbar und haben einezweite Ableitung

f ′′ : U → Rmn2

.

So fortfahrend ergibt sich:

Definition 8.1 (Hohere Ableitungen)Seien n,m ∈ N mit n,m ≥ 1, U ⊆ Rn offen und f : U → Rm eine Funktion. Weitersei r ∈ N mit r ≥ 2 und die (r− 1)-fache Differenzierbarkeit von f sowie die (r− 1)-te

22-12

Page 13: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Ableitung f (r−1) : U → Rmnr−1seien bereits definiert. Wir nennen f dann in einem

Punkt x ∈ U r-fach differenzierbar wenn f (r − 1)-fach differenzierbar ist und f (r−1)

in x differenzierbar ist. Die r-te Ableitung von f in x definieren wir in diesem Fall als

f (r)(x) := (f (r−1))′(x) ∈ Rmnr

.

Ist f dann in jedem Punkt x ∈ U stets r-fach differenzierbar, so heißt f eine r-fachdifferenzierbare Abbildung und die obige Formel definiert eine Funktion f (r) : U →Rmnr

, genannt die r-te Ableitung von f . Schlieslich heißt f r-fach stetig differenzierbarwenn f r-fach differenzierbar ist und die r-te Ableitung f (r) stetig ist.

Nach §5.Lemma 4 sind die Komponenten von f ′ gerade die partiellen Ableitung∂fj/∂xi. Eine weitere Anwendung dieses Lemmas liefert das das Komponenten vonf ′′ = (f ′)′ die partiellen Ableitungen

∂xi

(∂fk

∂xj

)=

∂2f

∂xi∂xj

(1 ≤ k ≤ m, 1 ≤ i, j ≤ n)

zweiter Ordnung sind. So fortfahrend sind die Komponenten von f (r) die partiellenAbleitungen r-ter Ordnung. Fur die erste Ableitung r = 1 wissen wir aus §5 auch dasstetige Differenzierbarkeit gleichwertig zu stetiger partieller Differenzierbarkeit ist, undwenden wir diese Tatsache mehrfach an, so ergibt sich das folgende Lemma.

Lemma 8.1: Seien n,m, r ∈ N mit n,m, r ≥ 1, U ⊆ Rn offen und f : U → Rm eineFunktion. Dann ist f genau dann r-fach stetig differenzierbar wenn f r-fach stetigpartiell differenzierbar ist.

Beweis: Klar durch iterierte Anwendung des entsprechenden Resultats fur r = 1.

Wahrend r-fache Differenzierbarkeit also ein etwas diffiziler Begriff ist, ist die r-fachestetige Differenzierbarkeit vergleichsweise einfach zu entscheiden, man muss sich nur diepartiellen Ableitungen bis zu r-ter Ordnung anschauen. Um mit diesen hoheren parti-ellen Ableitungen gut umgehen zu konnen, mussen wir wissen das diese fur ausreichendgutartige Funktionen nicht von der Reihenfolge abhangen in der die partiellen Ablei-tungen ausgefuhrt werden. Fur zu allgemeine Funktionen ist dies falsch, wie wir schonin Aufgabe (43) gesehen haben. Wir werden sehen das die zweifache Differenzierbarkeitausreicht um das Vertauschen zweifacher partieller Ableitungen zu ermoglichen.

Hierzu beginnen wir mit einer Vorbemerkung. Seien n ∈ N mit n ≥ 1, eine offeneMenge U ⊆ Rn und eine differenzierbare Funktion f : U → R gegeben. Die Ableitungvon f ist dann als Jacobi-Matrix interpretiert

f ′(x) =

(∂f

∂x1

(x), . . . ,∂f

∂xn

(x)

)fur jedes x ∈ U . Ist f jetzt in einem Punkt x ∈ U sogar zweifach differenzierbar,so ist die Ableitung f ′′(x) eine lineare Abbildung f ′′(x) : Rn → Rn. Haben wir also

22-13

Page 14: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

zwei Vektoren u, v ∈ Rn, so ist f ′′(x)(u) ∈ Rn aufgefasst als Zeilenvektor, und wirkonnen f ′′(x)(u)v ∈ R bilden. Wir benotigen eine etwas konkretere Beschreibung dieserAbbildung. Hierzu fuhren wir die lineare Abbildung φ : R1×n → R;w 7→ wv ein, underhalten mit der Kettenregel §5.Satz 7 und wegen φ′(y) = φ fur jedes y ∈ R1×n auch

f ′′(x)(u)v = φ(f ′′(x)u) = φ′(f ′(x))(f ′′(x)u) = (φ′(f ′(x)) ◦ f ′′(x))u = (φ ◦ f ′)′(x)u.

Fur jedes y ∈ U gilt dabei

(φ ◦ f ′)(y) = φ(f ′(y)) = f ′(y)v =n∑

i=1

∂f

∂xi

(y)vi,

also wird

f ′′(x)(u)v = (φ ◦ f ′)′(x)u =n∑

j=1

∂xj

∣∣∣∣x

(n∑

i=1

∂f

∂xi

vi

)uj =

∑1≤i,j≤n

∂2f

∂xj∂xi

(x)viuj.

Fuhren wir also die n× n-Matrix

H :=

∂2f∂x2

1(x) · · · ∂2f

∂xn∂x1(x)

.... . .

...∂2f

∂xn∂x1(x) · · · ∂2f

∂x2n(x)

ein, so haben wir

(Hu) · v =∑

1≤i,j≤n

∂2f

∂xj∂xi

(x)viuj = f ′′(x)(u)v.

Die Matrix H wird uns spater noch einmal begegnen, daher wollen wir ihr hier nochkeinen eigenen Namen geben. Dass die Reihenfolge der zweiten partiellen Ableitungenkeine Rolle spielt, bedeutet genau das die Matrix H symmetrisch ist. Weiter habenwir zu Beginn des §6 gesehen, dass H genau dann symmetrisch ist, wenn (Hu) · v =u·(Hv) = (Hv)·u fur alle u, v ∈ Rn gilt, d.h. die Vertauschbarkeit der zweiten partiellenAbleitungen bedeutet das

f ′′(x)(u)v = f ′′(x)(v)u

fur alle u, v ∈ Rn gilt. Mit dieser Beobachtung sind wir zum Beweis des nachsten Satzesbereit.

Satz 8.2 (Lemma von Schwarz)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen und f : U → R eine differenzierbare Funktion.Weiter sei f in einem Punkt x ∈ U zweifach differenzierbar. Dann gilt

∂2f

∂xi∂xj

(x) =∂2f

∂xj∂xi

(x)

22-14

Page 15: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

fur alle 1 ≤ i, j ≤ n.

Beweis: Wir weisen dies in der eingangs hergeleiteten Form nach. Seien also u, v ∈ Rn

gegeben. Wir behaupten das dann

f ′′(x)(v)u = lims↓0

f(x+ su+ sv)− f(x+ su)− f(x+ sv) + f(x)

s2

gilt. Sei also ε > 0 vorgegeben. Die zweifache Differenzierbarkeit von f in x bedeutetdas es ein δ1 > 0 mit Bδ1(x) ⊆ U gibt so, dass wir fur alle h ∈ Rn mit ||h|| < δ1

f ′(x+ h) = f ′(x) + f ′′(x)h+ τ(h)

haben, wobei limh→0 ||τ(h)||/||h|| = 0 ist. Insbesondere existiert ein δ2 > 0 mit δ2 ≤ δ1und

||τ(h)||||h||

1 + ||u||(2||u||+ ||v||)fur alle h ∈ Rn mit 0 < ||h|| < δ2, also

||τ(h)|| ≤ ε||h||1 + ||u||(2||u||+ ||v||)

fur alle h ∈ Rn mit ||h|| < δ2. Setze δ := δ2/(1 + ||u|| + ||v||) > 0. Sei jetzt s ∈ R mit0 < s < δ gegeben. Fur jedes 0 ≤ t ≤ 1 sind dann

||tsu+ sv|| ≤ s(t||u||+ ||v||) ≤ s(||u||+ ||v||) ≤ δ(||u||+ ||v||) < δ2 ≤ δ1

und ||tsu|| = ts||u|| ≤ s||u|| ≤ s(||u|| + ||v||) < δ2 ≤ δ1, und insbesondere x + tsu +sv, x+ tsu ∈ Bδ1(x) ⊆ U . Damit ist die reelle Funktion

g : [0, 1] → R; t 7→ f(x+ tsu+ sv)− f(x+ tsu)

wohldefiniert, und nach der Kettenregel §5.Satz 7 ist g differenzierbar mit

g′(t) = s(f ′(x+ tsu+ sv)− f ′(x+ tsu)

)u

fur alle t ∈ [0, 1]. Nach dem Mittelwertsatz I.§10.Satz 10 existiert ein ξ ∈ (0, 1) mit

f(x+ su+ sv)− f(x+ su)− f(x+ sv) + f(x) = g(1)− g(0)

= g′(ξ) = s(f ′(x+ ξsu+ sv)− f ′(x+ ξsu)

)u.

Weiter sind ||ξsu + sv|| ≤ ξs||u|| + s||v|| ≤ s(||u|| + ||v||) < δ2 ≤ δ1 und ||ξsu|| =ξs||u|| ≤ ξs||u||+ s||v|| < δ2 ≤ δ1, also haben wir

f ′(x+ ξsu+ sv)− f ′(x) = sf ′′(x)(ξu+ v) + τ(ξsu+ sv),

f ′(x+ ξsu)− f ′(x) = sf ′′(x)(ξu) + τ(ξsu),

22-15

Page 16: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

und dies ergibt

f ′(x+ ξsu+ sv)− f ′(x+ ξsu) = (f ′(x+ ξsu+ sv)− f ′(x))− (f ′(x+ ξsu)− f ′(x))

= sf ′′(x)(v) + τ(ξsu+ sv)− τ(ξsu).

Setzen wir dies in die obige Formel ein, so folgt weiter

f(x+su+sv)−f(x+su)−f(x+sv)+f(x) = s2f ′′(x)(v)u+sτ(ξsu+sv)u−sτ(ξsu)u.

Damit ist schließlich∣∣∣∣∣∣∣∣f(x+ su+ sv)− f(x+ su)− f(x+ sv) + f(x)

s2− f ′′(x)(v)u

∣∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∣τ(ξsu+ sv)u

s− τ(ξsu)u

s

∣∣∣∣∣∣∣∣ ≤ ||τ(ξsu+ sv)u||s

+||τ(ξsu)u||

s

≤(||τ(ξsu+ sv)||

s+||τ(ξsu)||

s

)||u|| ≤ (2||u||+ ||v||) ε||u||

1 + ||u||(2||u||+ ||v||)< ε.

Somit ist tatsachlich

f ′′(x)(v)u = lims↓0

f(x+ su+ sv)− f(x+ su)− f(x+ sv) + f(x)

s2.

Die rechte Seite dieser Gleichung andert sich nicht bei Vertauschen von u und v, d.h.wir haben f ′′(x)(v)u = f ′′(x)(u)v fur alle u, v ∈ Rn, und dies war zu zeigen.

Tatsachlich kann man die Vertauschbarkeit der zweiten partiellen Ableitungen auchunter etwas schwacheren Voraussetzungen nachweisen, die angegebene Form des Sat-zes reicht fur unsere Zwecke aber vollig aus. Durch mehrfache Anwendung des Lemmaskann man einen allgemeinen Vertauschungssatz fur partielle Ableitungen beweisen.Zunachst kann man vektorwertige Funktionen behandeln indem Satz 2 auf jede einzel-ne Komponentenfunktion angewandt wird. Ein allgemeines Vertauschen einer p-fachenpartiellen Ableitung kann man durch mehrere Vertauschungen direkt aufeinanderfol-gender partieller Ableitungen erreichen, und dass diese Einzelschritte moglich sindwissen wir bereits. Verwenden wir zusatzlich das p-fache stetige Differenzierbarkeitgleichwertig zu p-facher partieller, stetiger Differenzierbarkeit ist, so ergibt sich dasfolgende allgemeine Vertauschungslemma fur partielle Ableitungen.

Korollar 8.3 (Vertauschbarkeit partieller Ableitungen)Seien n,m ∈ N mit n,m ≥ 1, U ⊆ Rn offen, p ∈ N mit p ≥ 1 und f : U → Rm einep-fach stetig differenzierbare Funktion. Dann kann man die die Reihenfolge partiellerAbleitungen bis zu Ordnung p beliebig umordnen, d.h. sind 1 ≤ r ≤ p, 1 ≤ i1, . . . , ir ≤ nund ist π ∈ Sr eine Permutation, so gilt

∂rf

∂xi1 · · · ∂xir

(x) =∂rf

∂xiπ(1)· · · ∂xiπ(r)

(x)

22-16

Page 17: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

fur alle x ∈ U .

Beweis: Wie schon gesehen folgt dies durch iterierte Anwendung von Satz 2.

Bei uns sind die Voraussetzungen des Korollars eigentlich immer erfullt, ist die Funkti-on f durch explizite Formeln aus den Grundfunktionen zusammengesetzt, so existierenalle partiellen Ableitungen beliebiger Ordnung und sind auch stetig, also lassen sichpartielle Ableitungen in dieser Situation nach dem Satz beliebig umordnen.

8.1 Multiindizes

Wir haben schon fruher mehrfache partielle Ableitungen nach derselben Variable in

”Potenzschreibweise“ zusammengefasst, also beispielsweise

∂2f

∂x∂x=∂2f

∂x2,

∂3f

∂y∂y∂y=∂3f

∂y3,

∂3f

∂x∂y∂y=

∂3f

∂x∂y2, . . .

Sind die Voraussetzungen des Korollar 3 erfullt, so konnen wir diese Schreibweise mitdem Umordnen partieller Ableitungen kombinieren, beispielsweise

∂3f

∂x∂y∂x=

∂3f

∂x∂x∂y=

∂3f

∂x2∂y.

Damit konnen wir unter den Voraussetzungen von Korollar 3 die hoheren partiellenAbleitungen einer Funktion f immer in Standardform

∂k1+···+krf

∂xk1i1· · · ∂xkr

ir

mit 1 ≤ i1 < i2 < . . . < ir ≤ n schreiben. Lassen wir hier auch nullte Potenzen zu, sokonnen wir diese Schreibweise noch etwas weiter vereinfachen zu

∂k1+···+knf

∂xk11 · · · ∂xkn

n

.

Dabei bedeutet eine nullfache partielle Ableitung ∂x0i naturlich einfach nur gar nicht

abzuleiten. Fur eine Funktion f(x, y, z) in drei Variablen ist etwa

∂4f

∂x∂z∂x∂z=

∂4f

∂x2∂z2=

∂4f

∂x2∂y0∂z2.

Um diese Schreibweise zu systematisieren werden nun die sogenannten Multiindizeseingefuhrt. Ein Multiindex ist einfach ein Tupel

α = (α1, . . . , αn)

22-17

Page 18: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

naturlicher Zahlen, d.h. α1, . . . , αn ∈ N. Fur eine Funktion f in n Variablen schreibenwir dann

∂α1+···+αnf

∂xα:=

∂α1+···+αnf

∂xα11 · · · ∂xαn

n

.

Damit ist die Notation schon fast wie im eindimensionalen Fall, nur der Ausdruck

”α1 + · · ·+αn“ stort noch etwas. Auch diese Unschonheit konnen wir durch Einfuhrung

einer weiteren Abkurzung umgehen, wir setzen fur jeden Multiindex α der Lange neinfach

|α| := α1 + · · ·+ αn,

und konnen die obige partielle Ableitung dann als

∂|α|f

∂xα

schreiben. Zwei weitere Schreibweisen sind hilfreich

α! := α1! · . . . · αn!, (x− a)α := (x1 − a1)α1 · . . . · (xn − an)αn

fur jeden Multiindex α und alle a, x ∈ Rn. Beispielsweise sind

α = (2, 0, 1) : |α| = 3, α! = 2, (x− a)α = (x1 − a1)2(x3 − a3),

∂|α|fxα = ∂3f

∂x2∂z,

β = (2, 3) : |β| = 5, β! = 12, (x− a)β = (x1 − a1)2(x2 − a2)

3, ∂|β|f∂xβ = ∂5f

∂x2∂y3

Fur zwei Multiindizes α, β gleicher Lange n konnen wir noch

α+ β := (α1 + β1, . . . , αn + βn), α ≤ β :⇐⇒ α1 ≤ β1 ∧ . . . ∧ αn ≤ βn

definieren, und im Fall α ≤ β sei auch noch

β − α := (β1 − α1, . . . , βn − αn).

Die Fakultatsschreibweise α! wird sich zur Formulierung der Taylorformel als nutz-lich erweisen. Die Taylorformel wird wieder von Taylorpolynomen handeln, und dahermussen wir jetzt auch noch Polynome in mehreren Variablen einfuhren. Ein Polynomin einer Variablen ist ja einfach eine Funktion der Form

p(x) = a0 + a1x+ a2x2 + · · · ,

also

”konstanter Term“ +

”linearer Term“ +

”quadratischer Term“ + · · ·

Genauso soll es fur Polynome in mehreren Variablen sein. Was dabei ein konstanterTerm ist, ist wieder klar. Aber schon die Bedeutung des linearen Terms erfordert eineAnpassung, wir haben ja nicht nur eine Variable

”x“ zu berucksichtigen, sondern gleich

n Stuck x1, . . . , xn. Der lineare Term des Polynoms soll dann die Form a1x1+ · · ·+anxn

haben. Was der quadratische Term werden soll ist schon etwas feinsinniger. Man ist

22-18

Page 19: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

zunachst versucht nur a1x21+· · ·+anx

2n anzusetzen, aber das ist nicht ausreichend. Zum

Beispiel soll das Produkt von zwei Polynomen ja sicherlich ein Polynom sein, und damitbrauchen wir beispielsweise Zweierprodukte xixj von Variablen. Der quadratische Termsoll dann eine Summe von Vielfachen all dieser Zweierprodukte sein. Die Quadratefallen dann ebenfalls unter diese Zweierprodukte, es ist ja x2

i = xixi. Entsprechendgeht es weiter fur die Terme hoherer Ordnung, und ein Polynom in n Variablen wirddamit eine Funktion der Form

p(x1, . . . , xn) = a0 + a11x1 + · · ·+ a1nxn

+a211x21 + a212x1x2 + · · ·+ a21nx1xn + a221x2x1 + · · ·+ a2nnx

2n

+a3111x31 + a3112x

21x2 + · · ·+ a3nnnx

3m + · · ·

Da diese Art Polynome hinzuschreiben aber hoffnungslos unubersichtlich ist, erinnernwir uns wieder an die Multiindex Notation

xα = xα11 · . . . · xαn

n ,

und schreiben den obigen Ausdruck in der Form

p(x) = p(x1, . . . , xn) =∑|α|≤N

aαxα

wobei fur jeden Multiindex α mit |α| ≤ N die Konstante aα ∈ R als ein Koeffizientvon f bezeichnet wird. Konkrete Beispiele solcher Polynome sind

f(x, y) = 2 + x+ y2 + 3yx− 7x3, g(x, y, z) = xyz + 2x2z2 − y5, . . .

Der Grad eines Monoms xα = xα1 · · ·xαn

n wird als α1 + · · ·+ αn = |α| definiert, also alsdie Summe aller auftretenden Exponenten. Dann bezeichnet die Zahl

”N“ gerade den

maximal auftretenden Grad, und das minimale mogliche N nennt man den Grad desPolynoms, d.h. der Grad eines Polynoms ist der großte Grad eines mit Koeffizient 6= 0auftretenden Monoms. Beispielsweise

x7 − y2z4 + xyz hat Grad 7,x3y3z + x2y2z3 − xy hat Grad 7 = 3 + 3 + 1 = 2 + 2 + 3.

Polynome in mehreren Variablen sind unendlich oft differenzierbar und es ist auchleicht ihre Ableitungen auszurechnen. Der Ubersichtlichkeit halber erinnern wir unserst einmal an Ableitungen eines Polynoms in einer Variablen

(xk)′ = kxk−1, (xk)′′ = k(k − 1)xk−2, . . . , (xk)(l) = k(k − 1) · · · (k − l + 1)xk−l

=k(k − 1) · · · (k − l + 1)(k − l) · · · 1

(k − l) · · · 1xk−l =

k!

(k − l)!xk−l

22-19

Page 20: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

fur l ≤ k und (xk)(l) = 0 fur l > k. Fur je zwei Multiindizes α, β der Lange n mit α ≤ βfolgt damit

∂|α|xβ

∂xα=

β1!

(β1 − α1)!xβ1−α1

1 · . . . · βn!

(βn − αn)!xβn−αn

n

=β1! · . . . · βn!

(β1 − α1)! · . . . · (βn − αn)!xβ1−α1

1 xβn−αnn =

β!

(β − α)!xβ−α.

Im Fall α 6≤ β ist dagegen αi > βi fur ein 1 ≤ i ≤ n und somit ist ∂xβ/∂xα = 0.

8.2 Die Taylor Entwicklung in mehreren Variablen

Wir wollen jetzt die Taylorformel auf den Fall von Funktionen in mehreren Variablenubertragen. Wir kennen zwei Varianten der eindimensionalen Taylorformel, einmal dieDarstellung mit Lagrangeschen Restglied aus I.§10.Satz 16 und zum anderen die Va-riante mit einer Integraldarstellung des Approximationsfehlers aus §1.Satz 21. BeideVarianten lassen sich auf den n-dimensionalen Fall ubertragen. Tatsachlich werden wirdie Taylorformel in n Variablen durch Ruckfuhrung auf den Fall einer Variable herlei-ten.

Wir schauen uns zunachst einmal an wie man das macht. Seien also n ∈ N mitn ≥ 1, eine offene Menge U ⊆ Rn, eine Funktion f : U → R und ein Entwicklungspunktx0 ∈ U gegeben. Wir wollen das Taylorpolynom p-ten Grades behandeln, wobei p ∈ Nmit p ≥ 1 ist, und hierzu setzen wir voraus das f mindestens (p + 1)-fach stetigdifferenzierbar ist. Da U offen ist, finden wir einen Radius r > 0 mit Br(x0) ⊆ U . Seix ∈ Br(x0). Dann betrachten wir die Hilfsfunktion

h : [0, 1] → R; t 7→ f(x0 + t(x− x0))

mit h(0) = f(x0) und h(1) = f(x). Auf diese Funktion wollen wir die eindimensio-nale Taylorformel mit dem Entwicklungspunkt t0 = 0 anwenden. Hierzu mussen wirzunachst einmal die ersten p Ableitungen von h berechnen. Mit der Kettenregel habenwir

h′(t) =n∑

i=1

∂f

∂xi

(x0 + t(x− x0)) · (xi − x0,i),

h′′(t) =∑

1≤i,j≤n

∂2f

∂xi∂xj

(x0 + t(x− x0)) · (xi − x0,i)(xj − x0,j),

h′′′(t) =∑

1≤i1,i2,i3≤n

∂3f

∂xi1∂xi2∂xi3

(x0 + t(x− x0)) · (xi1 − x0,i1)(xi2 − x0,i2)(xi3 − x0,i3),

und so fortfahrend ergibt sich die k-te Ableitung fur 1 ≤ k ≤ p+ 1 als

h(k)(t) =∑

1≤i1,...,ik≤n

∂kf

∂xi1 . . . ∂xik

(x0 + t(x− x0)) · (xi1 − x0,i1) . . . (xik − x0,ik),

22-20

Page 21: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

jeweils fur alle t ∈ [0, 1]. Jeder Summand (i1, . . . , in) definiert einen Multiindex α durch

αj := Anzahl der 1 ≤ q ≤ k mit iq = j

mit |α| = k und der entsprechende Summand nimmt dann die Form

∂|α|f

∂xα(x0 + t(x− x0)) · (x− x0)

α

an. Leider konnen verschiedene Indizes zum selben Multiindex fuhren, und jeder Mul-tiindex α mit |α| = k tritt in der Summe zur Berechnung von h(k)(t) so oft auf, wiees zu ihm passende Multiindizes gibt. Dies Zahl konnen wir leicht ermitteln. Zunachsteinmal wahlen wir irgendeine passende Indexkombination und alle anderen ergebensich dann durch Permutationen dieser k Indizes. Fur diese Permutationen gibt es nachI.§8.Lemma 1 genau k! Moglichkeiten. Allerdings konnen verschiedene Permutationenzu den selben Indizes fuhren, namlich dann wenn sie nur Indizes mit gleichem Wertvertauschen. Da es fur 1 ≤ j ≤ n stets αj viele Indizes mit Wert j gibt, tritt dies genau

α1! · . . . · αn! = α!

oft auf. Die Anzahl der zu α passenden Multiindizes ist also k!/α! und somit wird

h(k)(t) =∑|α|=k

k!

α!

∂kf

∂xα(x0 + t(x− x0)) · (x− x0)

α

fur jedes t ∈ [0, 1]. Das p-te Taylorpolynom von h zum Entwicklungspunkt t0 = 0 istalso

Tph(t) =

p∑k=0

h(k)(0)

k!tk =

∑|α|≤p

1

α!

∂|α|f

∂xα(x0) · (x− x0)

αt|α|.

Werten wir dieses Polynom in t = 1 aus, so ergibt sich das Taylorpolynom der Funktionf , also:

Definition 8.2 (Taylorpolynom in n Variablen)Seien n, p ∈ N mit n, p ≥ 1, U ⊆ Rn offen, a ∈ U und f : U → R eine p-fach stetigdifferenzierbare Funktion. Das p-te Taylorpolynom von f mit Entwicklungspunkt a istdann das Polynom

Tpf(x) :=∑|α|≤p

1

α!· ∂

|α|f

∂xα(a) · (x− a)α.

In anderen Worten ist das Taylorpolynom Tpf das Polynom von Grad hochstens pdessen samtliche partiellen Ableitungen bis zu Ordnung p in a mit denen von f uber-einstimmen. Beispielsweise haben wir im Fall n = p = 2 und dem Entwicklungspunkta = 0 das quadratische Taylorpolynom

T (x, y) = f(0) +∂f

∂x(0)x+

∂f

∂y(0)y +

1

2

∂2f

∂x2(0)x2 +

1

2

∂2f

∂y2(0)y2 +

∂2f

∂x∂y(0)xy.

22-21

Page 22: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Rechnen wir als ein Beispiel einmal das quadratische Taylorpolynom der Funktion

f(x, y) = (3x+ 4y)e−x2−y2

aus. Alle relevanten partiellen Ableitungen haben wir bereits berechnet

∂f

∂x= (3− 6x2 − 8xy)e−x2−y2

,

∂f

∂y= (4− 8y2 − 6xy)e−x2−y2

,

∂2f

∂x2= (−18x− 8y + 12x3 + 16x2y)e−x2−y2

,

∂2f

∂y∂x= (−8x− 6y + 12x2y + 16xy2)e−x2−y2

,

∂2f

∂x∂y= (−6y − 8x+ 16xy2 + 12x2y)e−x2−y2

,

∂2f

∂y2= (−6x− 24y + 16y3 + 12xy2)e−x2−y2

,

und damit gelten

f(0, 0) = 0,∂f

∂x(0, 0) = 3,

∂f

∂y(0, 0) = 4,

und die vier partiellen Ableitungen zweiter Ordnung sind alle Null. Das quadratischeTaylorpolynom mit Entwicklungspunkt Null ist damit

T2f(x, y) = 3x+ 4y.

Fur das Taylorpolynom dritten Grades mussen wir die dritten partiellen Ableitungenvon f berechnen

∂3f

∂x3= (−18 + 36x2 + 32xy + 36x2 + 16xy − 24x4 − 32x3y)e−x2−y2

= (−18 + 72x2 + 48xy − 24x4 − 32x3y)e−x2−y2

,

∂3f

∂x2∂y= (−8 + 16x2 + 36xy + 16y2 − 24x3y − 32x2y2)e−x2−y2

,

∂3f

∂x∂y2= (−6 + 12y2 + 12x2 + 48xy − 32xy3 − 24x2y2)e−x2−y2

,

∂3f

∂y3= (−24 + 48y2 + 24xy + 12xy + 48y2 − 32y4 − 24xy3)e−x2−y2

= (−24 + 96y2 + 36xy − 32y4 − 24xy3)e−x2−y2

und in (0, 0) auswerten

∂3f

∂x3(0, 0) = −18,

∂3f

∂x2∂y(0, 0) = −8,

∂3f

∂x∂y2(0, 0) = −6,

∂3f

∂y3(0, 0) = −24.

22-22

Page 23: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Das dritte Taylorpolynom ist damit gleich

T3f(x, y) = 3x+ 4y − 3x3 − 4x2y − 3xy2 − 4y3.

Wie im eindimensionalen Fall approximieren die Taylorpolynome die gegebene Funk-tion, und zwar umso besser je hoher der Grad des Taylorpolynoms ist. Es gibt auchwieder eine Formel, die den Approximationsfehler explizit angibt.

Satz 8.4 (Taylorformel im Rn)Seien n, p ∈ N mit n, p ≥ 1, U ⊆ Rn offen und f : U → R sei (p + 1)-fach stetigdifferenzierbar. Seien weiter a ∈ U und r > 0 mit Br(a) ⊆ U . Dann gilt fur jedesx ∈ Br(a) die Taylorformel

f(x) =∑|α|≤p

1

α!· ∂

|α|f

∂xα(a) · (x− a)α + τ(x− a)

wobei τ(h) fur ||h|| ≤ r der Approximationsfehler ist. Fur ||h|| ≤ r ist dann

τ(h) = (p+ 1)∑

|α|=p+1

1

α!

[∫ 1

0

(1− t)p∂p+1f

∂xα(a+ th) dt

]· hα

und es gibt ein ξ ∈ (0, 1) mit

τ(h) =∑

|α|=p+1

1

α!

∂p+1f

∂xα(a+ ξh)hα.

Beweis: Beide Aussagen folgen sofort durch Anwendung der eindimensionalen Taylor-formeln I.§10.Satz 16 und §1.Satz 21 auf die oben besprochene Hilfsfunktion h.

Aus diesen Formeln kann man auch leicht die Großenordnung des Approximations-fehlers in Abhangigkeit von h bestimmen. Da f als (p + 1)-fach stetig differenzierbarvorausgesetzt ist, sind alle partiellen Ableitungen ∂p+1f/∂xα fur |α| = p+1 stetig, alsoauf der kompakten Menge Br(a) nach §3.Lemma 23.(d) beschrankt, d.h.

A := max|α|=p+1

supx∈Br(a)

∣∣∣∣∂p+1f

∂xα(x)

∣∣∣∣ <∞

ist endlich. Weiter behaupten wir das fur alle m, r ∈ N mit m ≥ 1 stets∑α∈Nm

|α|=r

1

α!=mr

r!

ist. Dies kann man beispielsweise durch Induktion nach m einsehen. Fur m = 1 ist dieFormel klar. Sei nun weiter m ∈ N mit m ≥ 1 und fur jedes r ∈ N gelte die Formel. Sei

22-23

Page 24: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

r ∈ N. Fur jedes α ∈ Nm+1 mit |α| = r ist 0 ≤ αm+1 ≤ r und schreiben wir α = (β, k)so sind damit 0 ≤ k ≤ r und |β| = r − k. Mit der binomischen Formel I.§1.Lemma 7und der Induktionsannahme folgt damit∑

α∈Nm+1

|α|=r

1

α!=

r∑k=0

1

k!

∑α∈Nm

|α|=r−k

1

α!=

r∑k=0

mr−k

k!(r − k)!=

1

r!

r∑k=0

(r

k

)mr−k =

(m+ 1)r

r!.

Per vollstandiger Induktion ist diese Behauptung damit bewiesen. In der Situation derTaylorformel erhalten wir fur h ∈ Br(0) ein ξ ∈ (0, 1) mit

τ(h) =∑

|α|=p+1

1

α!

∂p+1f

∂xα(a+ ξh)hα

und wegen a+ ξh ∈ Br(a) ist damit

|τ(h)| ≤∑

|α|=p+1

1

α!

∣∣∣∣∂p+1f

∂xα(a+ ξh)

∣∣∣∣ · |hα| ≤ A||h||p+1∞

∑|α|=p+1

1

α!=

Anp+1

(p+ 1)!||h||p+1

∞ .

Setzen wir also

C :=np+1

(p+ 1)!max|α|=p+1

supx∈Br(a)

∣∣∣∣∂p+1f

∂xα(x)

∣∣∣∣ ,so ist |τ(h)| ≤ C||h||p+1

∞ fur alle h ∈ Br(0). Verwenden wir das in ??.1 eingefuhrteLandau Symbol, so schreibt sich die Taylorformel damit als

f(x) =∑|α|≤p

1

α!· ∂

|α|f

∂xα(a) · (x− a)α +O(||x− a||p+1

∞ ).

8.3 Lokale Extrema

Seien wieder U ⊆ Rn eine offene Menge und f : U → R eine dreimal stetig differenzier-bare Funktion. In §5.Satz 12 hatten wir gesehen, dass jedes lokale Extremum a ∈ Uvon f auch ein kritischer Punkt von f ist, das also grad f(a) = 0 gilt. Ausgerustet mitder Taylorentwicklung des Satz 4 konnen wir nun auch die Frage untersuchen, wannein kritischer Punkt umgekehrt ein lokales Extremum ist. Sei also a ∈ U ein kritischerPunkt von f . Das quadratische Taylorpolynom von f mit Entwicklungspunkt a hatdann wegen ∂f/∂xi(a) = 0 fur i = 1, . . . , n die Form

T2(x) = f(a) +∑|α|=2

1

α!

∂2

∂xα(a)(x− a)α

= f(a) +n∑

i=1

1

2

∂2f

∂x2i

(a)(xi − ai)2 +

∑1≤i<j≤n

∂2f

∂xi∂xj

(a)(xi − ai)(xj − aj)

= f(a) +1

2

∑1≤i,j≤n

∂2f

∂xi∂xj

(a)(x− ai)(x− aj).

22-24

Page 25: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Dies ist nun eine quadratische Funktion im Sinne des §6.3, und kann daher in Matrix-form als

T2(x) = f(a) +1

2(H(x− a)) · (x− a)

geschrieben werden, wobei H die aus den zweiten partiellen Ableitungen gebildeten× n Matrix ist. Die Matrix H wird dann auch als die Hesse Matrix von f im Punkta bezeichnet:

Definition 8.3 (Die Hesse-Matrix)Seien U ⊆ Rn offen, f : U → R eine zweifach differenzierbare Funktion und a ∈ U . DieHesse Matrix H von f in a ist dann die Matrix

H =

∂2f∂x2

1(a) · · · ∂2f

∂x1∂xn(a)

.... . .

...∂2f

∂xn∂x1(a) · · · ∂2f

∂x2n(a)

.

Nach Satz 2 ist die Hesse Matrix H symmetrisch, tatsachlich wurde Satz 2 bewiesenindem die Symmetrie von H nachgewiesen wurde. Kommen wir zu unserem kritischenPunkt a ∈ U zuruck. Nahe bei a haben wir dann

f(x) = f(a) +1

2(H(x− a)) · (x− a) + τ,

wobei wir den Approximationsfehler τ ausreichend nahe bei a erst einmal ignorierenwerden. Als symmetrische Matrix hat die Hesse Matrix H nach §6.Satz 7 nur reelleEigenwerte λ1, . . . , λn und bezuglich eines geeigneten Koordinatensystems konnen wirnach §6.Korollar 11 uber die Hauptachsentransformation auch

f(x) = f(a) +n∑

i=1

λi(xi − ai)2 + τ

schreiben. An dieser Darstellung ist direkt ersichtlich ob in a ein lokales Extremumvorliegt.

–2

0

2x

–3 –2 –1 0 1 2 3

y

0

2

4

6

8

10

12

14

16

18

–3–2

–10

12

3

x

–3

–2

–1

0

1

2

3

y

–8

–6

–4

–2

0

2

4

6

8

–1–0.500.51x

–1

0

y

–2

–1.5

–1

–0.5

0

x2 + y2 x2 − y2 −x2 − y2

22-25

Page 26: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Sind alle Eigenwerte λ1, . . . , λn > 0, so sieht T2 im wesentlichen wie ein nach obengeoffnetes Paraboloid aus, und wir haben ein lokales Minimum. Im Fall λ1, . . . , λn < 0haben wir entsprechend ein nach unten geoffnetes Paraboloid und ein lokales Maximum.Gibt es Eigenwerte λi > 0, λj < 0, so hat f wie die Sattelflache in der Mitte in auberhaupt kein lokales Extremum.

Nach §6.Satz 12 bedeutet λ1, . . . , λn > 0 genau das die Hesse Matrix H positiv de-finit ist, der Fall λ1, . . . , λn < 0 bedeutet das H negativ definit ist und bei Eigenwertenmit verschiedenen Vorzeichen ist H indefinit. Dies fuhrt auf den gleich folgenden Satzuber lokale Extrema. In unserer bisherigen Argumentation haben wir die quadratischeTaylorentwicklung verwendet und mussten dafur dreifache stetige Differenzierbarkeitvoraussetzen. Tatsachlich gilt der Satz auch wenn die Funktion nur als zweifach ste-tig differenzierbar vorausgesetzt wird, wir mussen unseren Beweis aber ein klein wenigabandern.

Zunachst benotigen wir eine kleine Vorbemerkung uber positiv definite Matrizen.Wir betrachten die Menge

S := {A ∈ Rn×n|At = A}

aller symmetrischen n × n-Matrizen uber R als Untervektorraum des Rn×n. Wir be-haupten das die Menge P+ aller positiv definiten n × n-Matrizen uber R eine offeneTeilmenge von S ist. Die Stetigkeit der Determinante ergibt, dass die Menge

Pk :=

a11 · · · a1n

.... . .

...an1 · · · ann

∈ S :

∣∣∣∣∣∣∣a11 · · · a1k...

. . ....

ak1 · · · akk

∣∣∣∣∣∣∣ > 0

fur jedes 1 ≤ k ≤ n offen in S ist, und nach §3.Lemma 17.(g) und §6.Satz 14 ist damitauch

P+ :=n⋂

k=1

Pk

offen in S. Weiter ist damit auch die Menge

P− := {A ∈ S|A ist negativ definit} = {A ∈ S| − A ∈ P+}

aller negativ definiten Matrizen offen in S. Damit kommen wir zu unserem Satz uberlokale Extrema einer zweifach stetig differenzierbaren Funktion.

Satz 8.5 (Kriterium fur lokale Extrema)Seien n ∈ N mit n ≥ 1, U ⊆ Rn offen, f : U → R eine zweifach stetig differenzierbareFunktion und a ∈ U ein kritischer Punkt von f , also grad f(a) = 0. Sei H die HesseMatrix von f in a.

(a) Ist H positiv definit, so hat f in a ein lokales Minimum.

(b) Ist H negativ definit, so hat f in a ein lokales Maximum.

22-26

Page 27: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

(c) Ist H indefinit, so hat f in a kein lokales Extremum.

Beweis: Wahle einen Radius r > 0 mit Br(0) ⊆ R. Da wir voraussetzen das die zweitenpartiellen Ableitungen von f stetig sind, ist auch die Hesse-Matrix H : U → Rn×n alsFunktion von x ∈ U eine stetige Funktion.(a) Da die Menge der positiv definiten Matrizen offen in der Menge aller symmetrischenMatrizen ist gibt es ein δ > 0 mit δ ≤ r so, dass fur jedes x ∈ U mit ||x− a|| < δ auchdie Hesse-Matrix H(x) positiv definit ist. Sei jetzt h ∈ Rn mit 0 < ||h|| < δ gegeben.Nach Satz 4 gibt es ein ξ ∈ (0, 1) mit

f(a+ h) = f(a) + (H(a+ ξh)h) · h,

und wegen ||a+ ξh− a|| = ξ||h|| < δ ist H(a+ ξh) positiv definit und somit

f(a+ h) = f(a) + (H(a+ ξh)h) · h > f(a).

Also ist f(x) > f(a) fur alle a 6= x ∈ Bδ(a) und somit hat f in a ein lokales Minimum.(b) Analog zu (a).(c) Es gibt Vektoren u1, u2 ∈ Rn mit ||u1|| = ||u2|| = 1, (Hu1) ·u1 > 0 und (Hu2) ·u2 <0. Sei i ∈ {1, 2}. Da die Abbildung A 7→ (Aui) · ui stetig ist, gibt es ein δi > 0 mitδi ≤ r so, dass |(H(x)ui) · ui − (Hui) · ui| < |(Hui) · ui| fur alle x ∈ Bδ(a) ist und dannist auch sign((H(x)ui) · ui) = sign((Hui) · ui) fur alle x ∈ Bδ(a).

Setze δ := min{δ1, δ2} > 0. Sei t ∈ (0, δ). Sei i ∈ {1, 2}. Dann ist ||tui|| = t < δ ≤ r,also existiert nach Satz 4 ein ξ ∈ (0, 1) mit

f(a+ tui) = f(a) + t2(H(a+ ξtui)ui) · ui

und wegen ||ξtui|| = ξt ≤ t < δi ist sign((H(a + ξtui)ui) · ui) = sign((Hui) · ui). Dieszeigt f(a+tu1) > f(a) und f(a+tu2) < f(a). Damit hat f in a kein lokales Extremum.

Beachte das die Fallunterscheidung im Satz nicht vollstandig ist, es gibt symmetrischeMatrizen H, die weder positiv definit, negativ definit noch indefinit sind. Dies passiertwenn H den Eigenwert 0 hat, also nicht invertierbar ist. In dieser Situation sagt derSatz nichts aus, und man muss sich den jeweils vorliegenden Spezialfall anschauen. Wirrechnen jetzt einige Beispiele.

Zunachst sei f die schon mehrfach betrachtete Funktion

f(x, y) = x2y + y2 − 2y − xy.

Alle relevanten Ableitungen hatten wir bereits fruher ausgerechnet

∂f

∂x= 2xy − y,

∂f

∂y= x2 − x+ 2y − 2,

∂2f

∂x2= 2y,

∂2f

∂x∂y= 2x− 1,

∂2f

∂y2= 2.

Wir hatten auch bereits alle kritischen Punkte von f berechnet, und genau drei solchegefunden. Gehen wir diese drei kritischen Punkte einmal durch:

22-27

Page 28: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

1. Der Punkt (x, y) = (1/2, 9/8). Die Hesse Matrix in diesem Punkt ist

H =

(∂2f∂x2

(12, 9

8

)∂2f∂x∂y

(12, 9

8

)∂2f∂x∂y

(12, 9

8

)∂2f∂y2

(12, 9

8

) ) =

(94

00 2

).

Diese Matrix ist positiv definit, wir haben also ein lokales Minimum.

2. Der Punkt (x, y) = (−1, 0). Diesmal wird die Hesse Matrix zu

H =

(0 −2

−2 2

).

Da der Eintrag links oben Null ist, ist H weder positiv noch negativ definit. Umzu entscheiden ob H indefinit ist, berechnen wir die Eigenwerte von H

χH(x) = x2 − 2x− 4 =⇒ λ = 1±√

1 + 4 = 1±√

5.

Wegen 1−√

5 < 0, 1 +√

5 > 0 ist die Hesse Matrix H indefinit, und in (x, y) =(−1, 0) ist kein lokales Extremum.

3. Der letzte kritische Punkt ist (x, y) = (2, 0). Diesmal gilt

H =

(0 33 2

).

Wir rechnen wieder

χH(x) = x2 − 2x− 9 =⇒ λ = 1±√

1 + 9 = 1±√

10

und wegen 1−√

10 < 0, 1 +√

10 > 0 haben wir wieder kein lokales Extremum.

Wir wollen noch ein allerletztes Beispiel rechnen, namlich die ebenfalls schon in §5behandelte Funktion

f(x, y, z) = x2 + 4y2 − 2xyz + sin(πz).

Die relevanten partiellen Ableitungen sind

∂f∂x

= 2x− 2yz, ∂f∂y

= 8y − 2xz, ∂f∂z

= −2xy + π cos(πz),∂2f∂x2 = 2, ∂2f

∂x∂y= −2z, ∂2f

∂x∂z= −2y,

∂2f∂y2 = 8, ∂2f

∂y∂z= −2x, ∂2f

∂z2 = −π2 sin(πz).

In einem Beispiel in §5 hatten wir bereits ausgerechnet, dass es nur einen kritischenPunkt (x, y, z) mit y 6= 0 gibt, namlich

(x, y, z) =

(√π,

1

2

√π, 2

).

22-28

Page 29: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Die Hesse Matrix von f in diesem kritischen Punkt ist

H =

2 −4 −√π

−4 8 −2√π

−√π −2

√π 0

.

Wegen ∣∣∣∣ 2 −4−4 8

∣∣∣∣ = 0

ist H nach dem Determinanten Kriterium §6.Satz 14 nicht positiv definit. Die MatrixH kann auch nicht negativ definit sein, und wegen

detH =

∣∣∣∣∣∣2 −4 −

√π

−4 8 −2√π

−√π −2

√π 0

∣∣∣∣∣∣ = π

∣∣∣∣∣∣2 −4 1

−4 8 21 2 0

∣∣∣∣∣∣ = π

∣∣∣∣∣∣2 −4 1

−8 16 01 2 0

∣∣∣∣∣∣= π

∣∣∣∣ −8 161 2

∣∣∣∣ = −32π

ist H invertierbar. Damit ist H indefinit und es liegt kein lokales Extremum vor. Diekritischen Punkte (x, 0, z) sind durch die Gleichungen

2x = 0, −2xz = 0 und π cos(πz) = 0

gegeben, also

(x, y, z) =

(0, 0,

1

2+ n

)mit n ∈ Z.

Wegen

sin(π

2+ nπ

)= (−1)n sin

π

2= (−1)n

wird die Hesse Matrix in diesem kritischen Punkt zu

H =

2 −(2n+ 1) 0−(2n+ 1) 8 0

0 0 (−1)n+1π2

.

Dabei gilt∣∣∣∣ 2 −(2n+ 1)−(2n+ 1) 8

∣∣∣∣ = 16− (2n+ 1)2 = −4

(n2 + n− 15

4

).

Die Nullstellen von x2 + x− 15/4 sind

−1

2+

√1

4+

15

4= −1

2± 2 also x = −5

2und x =

3

2.

22-29

Page 30: 7 Orthogonale und unit¨are Matrizen · Mathematik f¨ur die Physik II, SS 2019 Freitag 5.7 mit einer orthogonalen n× nMatrix Aund einem Vektor u∈ Rn. Wir halten zwei Grundtatsachen

Mathematik fur die Physik II, SS 2019 Freitag 5.7

Die Matrix H ist damit invertierbar und somit positiv definit oder indefinit. Weiter istnach dem Determinanten Kriterium §6.Satz 14

H ist positiv definit ⇐⇒ n2 + n− 15

4< 0 und (−1)n+1π > 0

⇐⇒ n ∈ {−2,−1, 0, 1} und n ungerade

⇐⇒ n = ±1.

In den kritischen Punkten

(x, y, z) =

(0, 0,−1

2

)und (x, y, z) =

(0, 0,

3

2

)hat f also ein lokales Minimum und in den anderen kritischen Punkten liegt kein lokalesExtremum vor.

22-30