8. Repräsentation von Zeit in neuronalen Netzen (KNN mit Speichervermögen)

18. Präsentation von Zeit in KNNSS 2005

2

17

8. Repräsentation von Zeit in neuronalen Netzen

(KNN mit Speichervermögen)Jörg Krone, Ulrich Lehmann, Hans Brenig, Oliver Drölle

2

17


Inhalt

a. Grundlangen Assoziation von Zeitverhalten

b. Jordan-Netze

c. Elman-Netze

d. Hierarchische Elman-Netze

e. Lernverfahren für partiell rekurrente Netze

f. Fragen


2

17

Grundlagen

Repräsentation von Zeit in neuronalen Netzen kann, wie bei der Prognose von Zeitreihen gezeigt, mit einfachen Feedforward-Netzen (MLP) erfolgen, wenn:

• mit einer Trainingsmustersequenz gearbeitet wird, bei der auch die zeitliche Folge f(t) wesentlich ist

• die Reihenfolge der Muster also eine Rolle spielt (siehe Beispiel „Analyse eines Umformprozesses mit KNN)

• dabei wird ein Fenster über die Datenfolge = f(t) geschoben (sliding window) und es wird eine Teilfolge von n-Mustern gleichzeitig als Vektor präsentiert

• n: die Fenstergröße entspricht der Mindestanzahl von Eingabeneuronen

• das dynamische Verhalten von Systemen kann so gelernt werden

Damit wurden gute Ergebnisse in der Praxis erzielt.


2

17

Prinzip der Speicherung mit KNN

Ähnlich wie in digitalen Filtern kann die Zeitfunktion auch direkt in partiell rekurrenten Netzen (mit partieller Rückkopplung) gespeichert werden:

• sie sind abgeleitet von Feedforward-Netzen

• sie enthalten spezielle verdeckte Zellen Kontextzellen

• sie besitzen zusätzlich eine Rückkopplungsschleife mit den Kontextzellen

• die Rückkopplungen erfolgen in genau definierter Weise (feste Gewichte)

• sie können mit geringfügig modifizierten Standardlernverfahren für Feedforward-Netze trainiert werden

• die Standardlernverfahren sind wesentlich effizienter als spezielle Lernverfahren für beliebig rekurrente Netze, wie z.B. für Hopfield-Netze

• einem partiell rekurrenten Netz wird eine Teilfolge von n-Mustern gleichzeitig als Vektor präsentiert

• dabei wird ein Fenster mit n-Mustern über die Datenfolge = f(t) geschoben (sliding window)


2

17

Architektur Jordan-Netzwerk

• Kontextzellen mit der Identität als Aktivierung und festen Gewichtenw = = 1 speichern den Ausgabezustand o(t-1) (grüne Verbindungen)

• die Kontextzellen besitzen weiterhin direkte Rückkopplungen (gelbe Verbindungen), die ebenfalls fest sind w = = 0,5 bis 1 (nicht trainierbar)

• die Anzahl der Kontextzellen (hier 2) ist gleich der Anzahl der Ausgabezellen


2

17

Funktion des Jordan-Netzwerk

O(t) = F (S(t) , I(t) )

S(t+1) = Ğ (S(t) , O(t) )

S(t)

I(t)

O(t)

S(t+1)

S(t+1) = Ğ (S(t) , F (S(t) , I(t) ))

Der Folgezustand ergibt sich aus dem aktuellen Zustand der Eingabe


2

17

Zustandsspeicherung

Die Aktivierungsfunktion der Kontextzellen ist die identische Abbildung. Ausgehend von einem Startzustand S0 ergibt sich für den Zustandsvektor S zur Zeit t:

S(0) falls t = 1

S(t) = S(t-1) + O(t-1) falls t > 1

Der Wert steuert das Erinnerungsvermögen des Netzes. Er liegt im Bereich [0,1].

• Für 1 ist der Einfluss der älteren Ausgaben wichtiger.

• Ein Wert von = 0,5 bildet einen Kompromiss zwischen Speicherung der alten Ausgaben und Flexibilität für neue Änderungen.


2

17

Bewertung Jordan-Netzwerke

ein Jordan-Netz kann zu einem festen Eingabewert eine ganze Ausgabesequenz assoziieren, ähnlich der Antwort von einem digitalen Filter auf eine Testfunktion

mit verschiedenen festen Eingabevektoren können verschiedene Ausgabesequenzen assoziiert werden

- Wahl von viele Probleme verlangen einerseits ein kleines 0,5um flexibel auf neue Änderungen zu reagieren, andererseits aber auch einen großen Wert nahe 1, um länger zurückliegende Ausgaben zu berücksichtigen

- die Kontextzellen erlauben keine Speicherung des internen Zustands der verdeckten Schicht, sondern nur der Ausgaben.

o Abhilfe: Verwendung von Elman-Netzen (siehe nächste Folie).


2

17

Prinzip der Elman-Netze

Sie sind eine Modifikation der Jordan-Netze:

• Rückkopplung von der verdeckten Schicht zur Kontextschicht

• die direkten Rückkopplungen der Kontextschicht zu sich selbst können entfallen 0

• die Zahl der Kontextzellen ist gleich der Zahl der verdeckten Zellen

• jede verdeckte Zelle besitzt eine Rückkopplungsverbindung der ihr 1:1 zugeordneten Kontextzelle mit festem Gewicht 1,0

• die Kontextzellen besitzen wiederum die Identität als Aktivierungsfunktion.


2

17

Architektur Elman-Netzwerk

• Kontextzellen mit festen Gewichten w = 1 speichern den Zustand o(t-1) (rosa Verbindung) der verdeckten Zellen

• die Anzahl der Kontextzellen ist gleich der Anzahl der verdeckten Zellen


2

17

Funktion der Elman-Netze

• Zu Beginn der Verarbeitung werden die Aktivierungen der Kontextzellen auf einen definierten Wert gesetzt

• nach Eingabe des ersten Musters der Musterfolge werden die verdeckten Zellen sowohl von den Eingabezellen als auch von den Kontextzellen aktiviert

• da die Kontextzellen die Identität als Aktivierungsfunktion besitzen, ergibt sich der neue Zustand als Kopie der Ausgabe der verdeckten Zellen

• die verdeckten Zellen propagieren wie üblich zu den Ausgangszellen

• beim nächsten Eingabemuster enthalten allerdings die Kontextzellen die Aktivierung (t-1) der verdeckten Zellen

• auf diese Weise kann der zeitliche Bezug zu früheren Mustern hergestellt werden


2

17

Bewertung Elman-Netzwerke

die Eignung des Netzes für eine bestimmte Anwendung ist nicht direkt von der zu erzeugenden Ausgabesequenz abhängig, wie dies bei Jordan-Netzwerken der Fall ist

die internen Zustände (gespeicherte Zustände) ergeben sich aus den Zuständen der verdeckten Zellen

die verdeckten Zellen werden so zu einer Repräsentation des zeitlichen Kontexts gezwungen

- die einfachen Elman-Netze besitzen nur eine verdeckte Schicht Neuronen. Für viele komplexe Problemstellungen erzielen jedoch Netze mit mehreren verdeckten Schichten etwas bessere Ergebnisse.

o Abhilfe: Hierarchische Elman-Netze mit mehreren Hidden Layern.


2

17

Architektur hierarchischer Elman-Netze

• Kontextzellen (hellblau) mit festen Gewichten w = 1 speichern den Zustand o(t-1) der verdeckten Zellen und in der dritten Schicht auch der Ausgangszellen

• die Kontextzellen können direkte Rückkopplungen besitzen, die ebenfalls fest sind (nicht trainierbar), allerdings für jede Schicht individuelle Werte 123annehmen können

• die Anzahl der Kontextzellen ist gleich der Anzahl der verdeckten Zellen plus Ausgangszellen


2

17

Bewertung Hierarchische Elman-Netze

für komplexe Problemstellungen mit Zeitverhalten (dynamische Systeme) einsetzbar

die Kontextschichten können durch die Wahl unterschiedlicher Parameter i

unterschiedliches Speicherverhalten assoziieren

hierarchische Elman-Netze wurden bereits erfolgreich für Prognose von dynamischen Vorgängen in der Biologie und Physik, z.B. Prognose des Intensitätsverlaufs eines chaotisch pulsierenden NH3-Lasers, eingesetzt (siehe auch A. Zell)

- das Training ist geringfügig aufwendiger als beim MLP mit Fenstertechnik (siehe auch Beispiel: Analyse von Umformprozessen mit KNN)


2

17

Lernverfahren für partiell rekurrente Netze

Ablauf des Backpropagation-Algorithmus für partielle rekurrente Netze:

1. Initialisierung Kontextzellen

2. Für jedes Trainigsmuster erfolgt:

• Anlegen des Eingabemusters und Vorwärtspropagierung bis Ausgabe (ohne Beachtung der rekurrenten Verbindungen / Rückkopplung (oBrV))

• Kontextzellen liefern konstant den gespeicherten Zustand t-1

• Vergleich der tatsächlichen Ausgabe mit erwünschter und Fehlerberechnung für jede Ausgabezelle

• Backpropagation der Fehlersignale bis zur Eingabe (oBrV)

• Berechnung der Gewichtsänderung

• Adaption der Gewichte (bei offline-Verfahren außerhalb der Schleife – nur nach jeder Epoche)

• Berechnung des Folgezustands t der Kontextzellen gemäß ihrer Eingangsverbindungen. Einziger Schritt mit Beachtung der rekurrenten Verbindungen


2

17

Fragen

Fragen Sie bitte!


2

17

Danke

Vielen Dank für Ihr Interesse!

Documents

8. Repräsentation von Zeit in neuronalen Netzen (KNN mit Speichervermögen)