Upload
doquynh
View
218
Download
0
Embed Size (px)
Citation preview
Zusammenfassung des Referates
Neuronale Netze
Forschungsseminar: Neuere psychologische Fachliteratur
LV-Leiter: Ao. Univ.-Prof. Dr. Karl Leidlmair
Patrick Werner PlonerMoritz Klaukien
Innsbruck, 14.05.09
Inhaltsverzeichnis1 Einleitung............................................................................................................................1
2 Geschichtlicher Hintergrund................................................................................................1
3 Neuronale Netzwerke– Unser Nervensystem....................................................................3
3.1 Unser Nervensystem...................................................................................................4
3.1.1 Das Neuron..........................................................................................................4
3.2 Lernen..........................................................................................................................5
4 Anwendungsgebiete KNN...................................................................................................6
5 Gegenüberstellung..............................................................................................................8
6 Aufbau neuronaler Netze....................................................................................................8
7 Wissen und Lernen...........................................................................................................10
8 Trainings- und Testphase..................................................................................................11
9 Lernregeln.........................................................................................................................11
9.1 Delta-Regel................................................................................................................11
9.2 Back-Propagation-Regel...........................................................................................12
10 Rotkäppchen-Beispiel.....................................................................................................13
11 Anwendungsgebiete künstlicher neuronaler Netze.........................................................17
12 Literaturverzeichnis.........................................................................................................18
1 EinleitungDie Folgende Arbeit beschäftigt sich mit Künstlichen Neuronalen Netzen (im Folgenden
KNN). Zunächst soll ein geschichtlicher Abriss einen Überblick über die Entwicklung dieses
Themas der Kognitionswissenschaften verschaffen. Danach wird ein Einblick in Natürliche
Neuronale Netze aufzeigen inwiefern sich KNNs an der Grundidee des natürlichen
Vorbildes orientieren, um dann schließlich genauer auf KNNs einzugehen. Hierbei werden
der Aufbau, die grundlegenden Funktionen und Lernregeln einen genaueren Einblick
verschaffen können. Im Anschluss daran werden noch einige Anwendungsbereiche von
KNNs beschrieben werden.
2 Geschichtlicher HintergrundDie Idee ein künstliches neuronales Netz zu kreieren, dass dem des Menschen ähnelt
entstand zeitgleich mit der Entwicklung von Computern. Im Jahr 1943 gaben Warren
McCulloch und Walter Pitts den Anstoß in der Erforschung neuronaler Netzwerke, indem
sie aufzeigten, dass einfache neuronale Netze prinzipiell jede arithmetische oder logische
Funktion berechnen können. Diese Netze besaßen jedoch nicht die Fähigkeit sich selbst
zu verändern, sodass noch keine Lernprozesse simuliert werden konnten. In seinem Buch
„The Organization of Behaviour“ beschrieb 1949 Donald O. Hebb die Hebb`sche Lernregel,
welche in ihrer allgemeinen Form bis heute die Grundlage für fast alle neurnalen
Lernverfahren ist. Das Prinzip der Hebb`schen Lernregel lautet : „ Je häufiger ein Neuron
A gleichzeitig mit Neuron B aktiv ist umso bevorzugter werden die beiden Neuronen
aufeinander reagieren ("what fires together that wires together").1 Dies konnte Hebb
anhand von Veränderungen der synaptischen Übertragung zwischen Neuronen
nachweisen.
1950 kam der Neuropsychologe Karl Lashley mit der These auf, dass die
Informationsspeicherung im Gehirn verteilt realisiert wird. Begründet wird seine Annahme
an Versuchen mit Ratten, bei denen nur der Umfang und nicht der Ort zerstörten
Nervengewebes ihre Leistung beeinflusst, aus einem Labyrinth zu finden2.
Der erste bekannte Neurocomputer wurde von Marvin Minsky 1951 entwickelt. Die Snark
war in der Lage seine Gewichte selber einzustellen und war somit lernfähig, wurde jedoch
1 http://www.uni-protokolle.de/Lexikon/Hebb%27sche_Lernregel.html [17.05.2009].2 http://www.dkriesel.com
Seite 1
nie eingesetzt.
Frank Rosenblatt, Charles Wightman und Mitarbeitern am MIT entwickelten von 1957 bis
1958 den ersten funktionstüchtigen Neurocomputer Mark I Perceptron. Dieser konnte
bereits mit einem 20x20 Pixel großen Bildsensor einfache Ziffern erkennen und
funktionierte mit Hilfe von 512 motorgetriebenen Potentiometern, je eines für jedes der
variablen Gewichte. In seinem Buch Principles of Neurodynamics. Percptions and the
Theory of Brain Mechanisms ( Rosenblatt, 1961) beschrieb Rosenblatt verschiedene
Varianten des Perzeptrons und beschreibt unter Anderem das Perzeptron-Konvergenz-
Theorem.
Kurz darauf stellen Bernhard Widrow und Marcian E. Hoff das ADALINE (ADAptive Linear
Neuron) vor. Dabei handelt es sich um ein adaptives System, das schnell und genau
lernen kann. Ähnlich wie das Perzeptron ist es ein binäres Schwellenwert-Neuron. Dieses
Netzwerk erreichte als erstes weite kommerzielle Verbreitung. Anwendung fand es in
Analogtelefonen zur Echtzeit-Echofilterung.
1969 unternahmen Marvin Minsky und Seymour Papert in einer Arbeit eine genaue
mathematische Analyse des Perzeptrons und zeigten, dass das Modell des Perzeptrons
viele wichtige Probleme gar nicht repräsentieren kann. Da man annahm, dass sich dieses
Problem auch analog auf ähnliche Konzepte übertragen ließe und der Umstand, dass zu
dieser Zeit die Forschungsgelder im Gebiet der Künstlichen Neuronalen Netzwerke
stagnierten führten dazu, dass in den Folgenden 15 Jahren die Aufmerksamkeit stark
abnahm. In den Jahren der geringen Anerkennung wurden jedoch von heute berühmten
Forschern die theoretischen Grundlagen für die Renaissance des Gebietes gelegt.
Im Jahr 1972 stellte Teuvo Kohonen ein Modell des linearen Assoziierers, eines speziellen
Assoziativspeichers, vor. James A. Anderson präsentierte das gleiche Modell im gleichen
Jahr unabhängig von Kohonen aus neurophysiologischer Sicht. Charakteristisch für dieses
Modell ist die Verwendung linearer Aktivierungsfunktionen und kontinuierlicher Werte für
Gewichte, Aktivierungen und Ausgaben.
Christoph von der Malsburg machte1973 ein bedeutenden deutschen Beitrag. Er
verwendet ein komplexeres, biologisch besser motiviertes nichtlineares Neuronenmodell.
1974 entwickelte Paul Werbos in seiner Dissertation an der Harvard- Universität bereits
das Backpropagation- Verfahren, das allerdings erst ca. 10 Jahre später durch die Arbeiten
von Rumelhart und McClelland seine große Bedeutung erlangte.
Stephen Grossberg veröffentlichte zu dieser Zeit eine Vielzahl von Arbeiten, die sich durch
Seite 2
eine detaillierte mathematische Analyse der darin vorgestellten neuronalen Modelle
auszeichnen. Ein bekanntes Beispiel sind die Modelle der Adaptive Resonance Theory
(ART), die er mit Gail Carpenter und weiteren Mitarbeitern entwickelte.
1982 schrieb John Hopfield (Physiker) einen sehr einflußreichen Artikel, in dem er binäre
Hopfield-Netze als neuronales äquivalent der Ising-Modelle der Physik untersuchte. Später
entwickelte dieses Modell noch weiter.
Im Jahr 1983 stellten Fukushima, Miyake und Ito ein neuronales Modell zur positions- und
skalierungsinvarianten Erkennung hand geschriebener Zeichen vor. Dieses war eine
Erweiterung des schon 1975 entwickelten Cognitrons. Es bestand aus einer Schichtweisen
Folge einfacher und komplexer Zellen, wie sie auch im biologischen visuellen System von
Katzen vorkommt.
1986 fand das Gebiet der neuronalen Netze durch die Publikation des Lernverfahrens
Backpropagation durch Rumelhart, Hinton und Williams einen besonderen Aufschwung. In
zwei im gleichen Jahr veröffentlichten Artikel und in einem von Rumelhart und McClelland
herausgegebenen Buch wurde mit der Backpropagation eine Variante entwickelt, die im
Vergleich zu bisherigen Lernverfahren eine sehr schnelle und robuste Lösung darstellte.
Speziell auf dieses Lernverfahren wird später noch eingegangen.
Seid dieser Zeit hat sich das Gebiet um KNN sehr Stark entwickelt. Neben mehreren
Tausend Wissenschaftlern, die sich mit Neuronalen Netzwerken beschäftigen gibt es
mehrere Zeitschriften, die sich diesem Thema widmen, ( z.B. Neural Networks,
Neurocomputing), große anerkannte wissenschaftliche Gesellschaften wie die ENNS
(European Neural Network Society) sowie Fachgruppen über Neuronale Netze.
3 Neuronale Netzwerke– Unser NervensystemWie oben erwähnt orientieren sich künstliche neuronale Netzwerke an „Natürlichen
Neuronalen Netzwerken“, wie z.B. dem Nervensystem des Menschen. Aus diesem Grund
wird zunächst auf das Neuronale Netz beim Menschen eingegangen um dann wieder auf
die KNN zurückzukommen.
3.1 Unser Nervensystem
Unser Nervensystem besteht aus Milliarden von hoch spezialisierten Nervenzellen, auch
Neurone, die das Gehirn und Nervenfasern bilden, welche man überall im Körper findet.
Seite 3
3.1.1 Das Neuron
„Ein Neuron ist eine Zelle, die darauf spezialisiert ist, Informationen zu empfangen
und/oder an andere Zellen innerhalb des Körpers weiterzuleiten“3.
Neurone können unterschiedliche Größen und Formen besitzen (über 200 in Gehirnen von
Wirbeltieren) und es gibt zwischen 100 Millionen und einer Billarde im menschlichen
Gehirn. Eine Nervenzelle besteht aus drei Teilen:
1. Dendriten; die Hauptaufgabe besteht darin, Erregungen von Sinnesrezeptoren oder
anderen Zellen zu empfangen
2. Zellkern (Nukleus); integriert empfangene Informationen von Dendriten
3. Axon; leitet Information weiter und ist mit anderen Nervenzellen verbunden
Abbildung 1: Aufbau einer Nervenzelle.Quelle GrafiK: http://www.oekosystem-erde.de/assets/images/Neuron.gif
3 Zimbardo & Gerrig (2005). Psychologie. S. 97
Seite 4
Die Grundlage für ein funktionierendes Nervensystem ist die Erregungsleitung. Hierunter
versteht man die Weiterleitung von Impulsen von einem Neuron zum anderen. In unserem
Nervensystem beispielsweise, läuft diese Weiterleitung über biochemische Prozesse ab,
welche zur Erregungsleitung entlang der Nervenfaser in elektrische Impulse umgewandelt
werden.
Synapsen Bilden die Schnittstellen zwischen Axon und Nervenzelle. An diesem Punkt läuft
die Übertragung über Neurotransmitter (chemische Botenstoffe), welche wieder
entsprechende Biochemische Reaktionen ausgelösen, sodass eine Information
weitergeleitet oder gehemmt werden kann.
3.2 LernenWie oben schon erwähnt Beschrieb schon 1949 Donald O. Hebb die Hebb´sche Lernregel,
welche in ihrer allgemeinen Form bis heute die Grundlage für fast alle neuronalen
Lernverfahren ist. Das Prinzip der Hebb´schen Lernregel lautet : „ Je häufiger ein Neuron
A gleichzeitig mit Neuron B aktiv ist umso bevorzugter werden die beiden Neuronen
aufeinander reagieren ("what fires together that wires together"). Dies hat Hebb anhand
von Veränderungen der synaptischen Übertragung zwischen Neuronen nachgewiesen4.
Anders Formuliert kann man sich Vorstellen, dass unsere neuronalen Verbindungen wie
Straßen funktionieren und die Straßen, die öfter benutzt werden sind wie Autobahnen. Wir
können uns dann an etwas erinnern, wenn die dementsprechende Verbindung im Kortex
zu einer „Autobahn“ ausgebaut wurde, weil diese Verbindung bevorzugt genutzt wird.
Aus diesem Lernprinzip entstand ebenfalls von Hebb die Idee der Synaptischen Plastizität.
Synaptische Plastizität ist ein Begriff der die aktivitätsabhängige Änderung der Stärke der
synaptischen Übertragung beschreibt5.
Da diese Arbeit sich im Rahmen der Lehrveranstaltung hauptsächlich mit dem Thema
Künstlicher Neuronaler Netze auseinandersetzen soll wird hier die biologische beendet um
nun auf die Graundlagen KNN sowie auf die Analogien zu biologischen Netzwerken
eingegangen werden.
4 www.uni-protokolle.de/Lexikon/Hebb'sche_Lernregel.html5 http://www.uni-protokolle.de/Lexikon/Synaptische_Plastizit%E4t.html
Seite 5
4 Anwendungsgebiete KNNSemantische Netze
Ein semantisches Netz ist ein formales Modell von Begriffen und ihren Beziehungen
(Relationen) untereinander. Die Möglichkeiten eines Semantischen Netzes bestehen darin
„intelligentere“ Suchanfragen auszuführen. Sie sind insofern „intelligenter“, als sie nicht nur
nach Begriffen Suchen, sondern auch Assoziationen, die man mit bestimmten Begriffen
hat, finden kann. Ein aktuelles Beispiel für ein angewandtes Semantisches Netz ist das
Semantic Web, auch Web 3.0 genannt. Die Idee dieser Neuordnung des Internets geht auf
Tim Berners-Lee, dem Begründer des World Wide Web zurück. Die Informationen im Web
sollen von Maschinen interpretiert und automatisch maschinell weiterverarbeitet werden
können. Informationen über Orte, Personen und Dinge sollen mit Hilfe des Semantischen
Webs von Computern miteinander in Beziehung gesetzt werden können.
Ein Beispiel, wie ein Suchvorgang im Semantic Web ablaufen könnte:
Nehmen wir an, wir suchen nach Dokumenten über Manager in der Telekommuni-
kationsbranche. Wir geben also in unsere Suchmaschine
„Manager“ und „Handy“ ein.
Eine semantische Suchmaschine setzt jetzt Beziehungen her:
• Manager:
Vorstandsvorsitzender ist ein Manager
Geschäftsführer ist ein Manager
Max Mustermann ist ein Vorstandsvorsitznder
• Handies: Telekommunikationsunternehemen vertreiben Handies
A1 ist ein Telekommunikationsunternehmen
Ergebnis: Wir finden auch Dokumente, in denen Max Mustermann und A1 erwähnt wird,
obwohl wir nur nach „Manager“ und „Handy“ gesucht haben.
An diesem Beispiel wird deutlich, wie sich KNN auf unser Alltagsleben auswirken können.
Ein ausgereiftes Semantisches Web würde man durchaus eine Art Intelligenz oder Denken
unterstellen, wobei man nicht vergessen darf, dass es im Output als „Denken“ oder
„Intelligent“ scheint. Die einzelnen Operationen, funktionieren jedoch nach mathematischen
Prinzipien. Kann ein Magier ein Kaninchen verschwinden lassen? Zumindest scheint es so.
Seite 6
5 Gegenüberstellung6
Der Zweck und Gewinn einer Auseinandersetzung mit neuronalen Netzen ist anschaulich anhand einer Aufstellung über die Vor- und Nachteile von traditionellen Entscheidungs-expertensystemen und neuronalen Netzen zu erklären.
Entscheidungsexpertensysteme sind als Computerprogramme realisiert, die heikle, schwierige Probleme lösen bzw. Entscheidungen treffen sollen und unter anderem in der medizinischen Diagnostik eingesetzt werden. Diese Systeme basieren auf umfangreichem Expertenwissen, das in ihrer Datenbank vorab gespeichert wurde. Diese Systeme treffen eine Entscheidung anhand festgelegter Regeln, die schrittweise das problemspezifische Wissen abarbeiten und beurteilen. Schwierigkeiten haben diese Systeme mit Problemen, die von den Entwicklern nicht vorhergesehen wurden; die gelieferten Entscheidungen bzw. Informationen sind in solchen Fällen womöglich nicht brauchbar. Außerdem sind diese Systeme meist statisch und nicht lernfähig.
In solchen Fällen scheint der Einsatz neuronaler Netzwerke sinnvoll, da diese hier ihre Stärken ausspielen können:Neuronale Netze sind lernfähig (können sich selbst organisieren); können ihr Wissen generalisieren und anpassen – liefern also auch in Problemklassen, die zuvor nicht explizit trainiert wurden, plausible Lösungen. Des Weiteren weisen neuronale Netze eine hohe Fehlertoleranz gegenüber unklarem Eingangsmaterial auf. Ein weiterer Vorteil neuronaler Netze ist ihre Stabilität: Während bei Computern der Ausfall einer wichtigen Komponente verheerende Folgen hat, kann das neuronale Netz immer noch funktionieren, wenn einige Zellen ausfallen.
6 Aufbau neuronaler NetzeDer konnektionistische Ansatz lehnt sich metaphorisch an der Informationsverarbeitung des menschlichen Gehirns an. Intelligentes menschliches Verhalten scheint auf der Interaktion einer Unzahl von Neuronen zu basieren, wobei jedes Neuron für sich nur ein geringes Maß an Informationen liefert. Ebenso verhält es sich im Bereich des Konnektionismus, bei dem Informationsverarbeitung als Zusammenspiel vieler Neuronen (Einheiten) betrachtet wird.
6 Im Folgenden wird zitiert ausJones, W. P. & Hoskins, J. (1987). Back-propagation: a generalized delta learning rule. BYTE, v.12 n.11, S. 155-162.
Seite 7
Tabelle 1: Merkmale von Entscheidungsexpertensystemen und Neuronalen Netzen.
Entscheidungsexpertensysteme Neuronale Netze
basieren auf erworbenem Wissen
hohe Fehlertoleranz
meist nicht lernfähig lernfähig
basieren auf umfangreichem vorgegebenem(!) ExpertenwissenEntscheidung anhand festgelegter
RegelnLösung von Problemen durch
Generalisierung erworbenen Wissens
Schwierigkeiten bei unvorhergesehenen Problemen
Jede simulierte Einheit hat vier wichtige Komponenten:
● die Eingangs- oder Input-Verbindungen, durch die die Einheit Aktivierung durch andere Einheiten erhält
● eine Summations-Funktion, welche die Aktivierung durch verschiedene Eingänge in ein einzelnes Maß der Aktivierung zusammenfasst
● eine Schwellenwert-Funktion, die das Maß der Aktivierung in ein Ausgangsmaß konvertiert (unterschreitet die Neuronenaktivierung den Schwellenwert, so wird das Ausgangssignal zB auf Null gesetzt)
● Ausgangs- oder Output-Verbindungen, durch die die Einheit Aktivierung an andere Einheiten weitergibt
Die eben beschriebenen Komponenten sind in Abbildung 2 abgebildet.
Einheiten sind miteinander durch sogenannte Kanten verbunden (wie in Abbildung 3 dar-gestellt). Die Stärke der Verbindung zwischen zwei Neuronen wird durch ein Gewicht ausgedrückt. Je größer der Absolutbetrag des Gewichtes ist, desto größer ist der Einfluss einer Einheit auf eine andere Einheit.
● Ein positives Gewicht bedeutet, dass ein Neuron auf ein anderes Neuron einen exzitatorischen, erregenden Einfluss ausübt.
● Ein negatives Gewicht bedeutet, dass der Einfluss inhibitorisch, also hemmender Natur ist.
● Ein Gewicht von Null besagt, dass ein Neuron auf ein anderes Neuron derzeit keinen Einfluss ausübt, was auch als fehlende Verbindung beschrieben werden kann.
An einem Beispiel soll der beschriebene Sachverhalt geschildert werden:Stellen wir uns Neuron A vor, das eine Aktivierung von 1 aufweist. Dieses Neuron hat eine Verbindung zu Einheit B mit einem Gewicht von 2. Nach der folgenden Formel wird das Eingangssignal von Einheit B berechnet:
Allgemeine Formel für den Input der Einheit i:inputij = aj wij
aj = Aktivitätslevel der sendenden Einheit (j )
wij = Gewicht zwischen der sendenden (j) und der empfangenden (i) Einheit
Input der Einheit B = 1 * 2 = 2
Seite 8
Abbildung 2: Komponenten einer EinheitAbbildung 3: Verbindung zwischen zwei Einheitem mit dem Verbindungsgewicht w
Nehmen wir an, das Aktivierungsmaß der Einheit B übersteigt den Schwellenwert, sodass Einheit B einen von zwei möglichen Aktivierungszuständen (aktiviert respektive nicht aktiviert) annimmt. In Analogie zur Beschreibung der Stellung eines Lichtschalters (Licht an respektive Licht aus) durch die Ziffern 1 respektive 0 kann die Aktivierung von Einheit B bei Überschreitung des Schwellenwertes mit der Ziffer 1 ausgedrückt werden.
Nehmen wir weiterhin an, dass Einheit B ein Signal an Einheit C sendet. Die Verbin-dung zwischen beiden Einheit beträgt 0,8 Gewichtseinheiten. Der Input der Einheit C berechnet sich wie folgt:Input der Einheit C = 1 * 0,8 = 0,8.
7 Wissen und LernenZwei wesentliche Merkmale unterscheiden den konnektionistischen Ansatz von den her-kömmlichen regelbasierten Programmen (i.e. Expertensystemen):
● Das Wissen eines neuronalen Netzes ist in seinen Gewichten gespeichert. Im Gegensatz dazu liegt das Wissen eines Expertensystems in dessen Regeln. Lernen wird bei neuronalen Netzen zumeist als Gewichtsveränderung zwischen den Einheiten definiert. Wie die Gewichtsveränderung genau erfolgt ist abhängig von der verwendeten Lernregel.
● Ein neuronales Netzwerk wird angeregt durch die Aktivitäten, die durch die Einheiten (durch die simulierten Neuronen) weitergegeben werden. Im Gegensatz dazu wird ein Expertensystem angeregt durch die Symbole, die durch die Wenn/dann-Regeln erzeugt werden.
Da in einem neuronalen Netzwerk nur numerische Werte der Aktivierung von Einheit zu Einheit weitergegeben werden, wird oft von einer subsymbolischen Ebene der Informa-tionsverarbeitung gesprochen.
Die auf das Lernen bzw. das Wissen bezogene Charakteristika von neuronalen Netzen bzw. Expertensystemen sind in der folgenden Abbildung gegenübergestellt:
Seite 9
Tabelle 2: Lern- bzw. wissensbezogene Charakteristika von neuronalen Netzen und Entscheidungsexpertensystemen
Neuronale Netze Entscheidungsexpertensysteme
Wissen ist in Regeln gespeichert
Lernen durch Gewichtsveränderung Lernen nicht vorgesehen
angeregt durch „feuernde“ Einheiten
Wissen ist in Verbindungsgewichten gespeichert
Angeregt durch „feuernde“ Regel-Symbole (Wenn/Dann-Paare)
8 Trainings- und TestphaseBei neuronalen Netzen unterscheidet man typischerweise zwischen einer Trainingsphase und einer Testphase (auch Ausbreitungsphase genannt).
● Trainingsphase: In dieser Phase lernt das neuronale Netz anhand des vorgegebenen Lernmaterials. Dementsprechend werden in der Regel die Gewichte zwischen den einzelnen Neuronen modifiziert. Lernregeln geben dabei die Art und Weise an, wie das neuronale Netz diese Veränderungen vornimmt. Viele Lernregeln lassen sich in die folgenden beiden Kategorien einordnen:
○ supervised learning (überwachtes bzw. beaufsichtigtes Lernen): Der korrekte Output wird (als "teaching vector") vorgeben und daran werden die Gewichte optimiert.
○ unsupervised learning (nicht überwachtes bzw. unbeaufsichtigtes Lernen):Es wird kein Output vorgegeben. Die Gewichtsveränderungen erfolgen in Abhängigkeit der Ähnlichkeit der Gewichte mit den Inputreizen.
● Testphase: In der Testphase werden hingegen keine Gewichte verändert. Statt dessen wird hier auf Grundlage der bereits modifizierten Gewichte aus der Trainingsphase untersucht, ob das Netz etwas gelernt hat. Dazu präsentiert man den Inputneuronen Reize und prüft, welchen Output das neuronale Netz berechnet.
Zwei verschiedene Arten von Reizen können unterschieden werden:
○ Ausgangsreize: Durch erneute Präsentation der zu lernenden Ausgangsreize wird geprüft, ob das neuronale Netz das Trainingsmaterial erfasst hat.
○ Neue Reize: Durch Präsentation neuer Reize kann man feststellen, ob das Netz über die zu lernenden Reize hinaus in der Lage ist, Aufgaben zu lösen. Anders formuliert: Findet eine Generalisierung auf neue Reize statt?
9 LernregelnIm Folgenden soll auf die noch nicht näher behandelten Lernregeln eingegangen werden.
9.1 Delta-RegelEin grundlegendes Konzept stellt die Delta-Regel dar. Diese wird bei beaufsichtigtem Lernen zugrunde gelegt.
Die Delta-Regel beruht auf einem Vergleich zwischen dem gewünschten und dem tatsächlich beobachteten Output einer Outputeinheit i. Als Formel kann dieser Vergleich wie folgt dargestellt werden:
δ = Aktivitäti(gewünscht) - Aktivitäti(beobachtet)
genauer: Δwji = n(Tpj – Opj)Ipj
Seite 10
Ist die beobachtete Aktivität einer Einheit geringer als die Zielvorgabe des Trainers vorsieht, wird die Verbindung zu jenen Einheiten mit positivem Input gestärkt, indem ein bestimmter (errechneter) Betrag zu den jeweiligen Verbindungsgewichten hinzugefügt wird. Diese Addition vollzieht sich mit jedem Trainingsdurchgang. Wenn beispielsweise Einheit A eine Aktivierung aufweist und mit Einheit B verbunden ist, wird das Eingangssignal der Einheit B nach jedem Trainingsdurchgang einen höheren numerischen Wert aufweisen. Wird der entsprechende Schwellenwert (nach Multiplikation der Aktivierungsmaße der Einheiten mit den jeweiligen Gewichten) bei Vorliegen eines bestimmten Stimulus überschritten, führt dies zum erwünschten Verhalten des neuronalen Netzes: Das Resultat dieses Vorgangs ist also das, was als das Ergebnis erfolgreichen Lernens beschrieben werden kann.
Ist die beobachtete Aktivität einer Einheit größer als erwünscht, wird die Verbindung zu jenen Einheiten mit positivem Input geschwächt, indem ein bestimmter (errechneter) Betrag von den jeweiligen Verbindungsgewichten abgezogen wird, wie in Abbildung 4 veranschaulicht ist:
Die Delta-Regel versteht sich also als Fehlerkorrektur, die künftiges, nicht erwünschtes Verhalten unwahrscheinlicher machen soll (man könnte dies als Lernen aus Fehlern bezeichnen).
9.2 Back-Propagation-RegelDie Delta-Regel kommt nur bei Netzwerken mit einer Ebene vor und kann Aufgaben, bei der eine Entscheidung zwischen entweder einer Option oder einer anderen getroffen werden soll, nicht lösen (sogenanntes Exclusive-OR).
Zur Lösung solcher Aufgaben werden Mehrebenen-Netzwerke benötigt mit sogenannten hidden Units (versteckten Einheiten). Hidden Units sind Einheiten, die keine direkten Verbindungen zur Außenwelt haben. Eine herausragende Eigenschaft von hidden Units stellt die Möglichkeit dar, diese als Verkörperung von Konzepten im psychologischen Sinne aufzufassen, da hidden Units eine Zusammenfassung von wesentlichen Merkmalen von Gegenständen der Außenwelt und Sachverhalten darstellen. Abbildung 5 veranschaulicht die Anordnung von hidden Units (im Beispiel: der Wolf) mit anderen Einheiten.
Seite 11
Abbildung 4: Veränderung des Verbindungs-gewichtes zweier Einheiten nach der Delta-Regel
Durch die Einführung von hidden Units (also mehrerer Ebenen) wird die Anwendung der Back-Propagation-Regel nötig. Diese Regel basiert, ähnlich wie die delta-Regel, auf der Berechnung der Diskrepanz zwischen Output-Patterns und Target-Patterns, ist allerdings mathe-matisch komplexer. Die grundsätzliche Funktionsweise lässt sich so beschreiben, dass auch hier die Verbindungsgewichte verringert werden. Die Fehlerkorrektur wird allerdings nicht nur für eine Verbindung berechnet, sondern (in entsprechend abgeschwächter Weise) für alle weiteren Verbindungen, die mit der betroffenen Output-Einheit gemeinsam aktiviert sind und somit gemeinsam zum unerwünschten Verhalten beigetragen haben.
Ein Beispiel: Ein Schüler hat einem Lehrer einen Streich gespielt. Der Streich wurde allerdings von einer ganzen Schüler-Bande ausgeheckt; der Lehrer bestraft aber nicht nur den ausführenden Schüler, sondern auch anteilmäßig jene, die daran mitgewirkt haben.
10 Rotkäppchen-BeispielDie zuvor erwähnten Konzepte sollen nun an einem Beispiel verdeutlicht werden.
Stellen wir uns eine Informationsverarbeitungsmaschine vor, die auf einem neuronalen Netz basiert. Nennen wir diese Rotkäppchen. Zu Beginn seiner Existenz ist Rotkäppchen in der Lage, drei distinkte Erscheinungsformen in der Welt zu erkennen: den Wolf, die Großmutter und den Holzfäller. Technisch gesehen stellen wir uns den Aufbau des Rotkäppchen-Netzwerks so vor: Die Input-Einheiten repräsentieren Objekte, die in der Außenwelt beobachtbar sind. Die Output-Einheiten repräsentieren Handlungen, die Rot-käppchen ergreifen kann. Rotkäppchen soll nun lernen, dass es weglaufen, schreien und nach dem Holzfäller Ausschau halten muss, wenn es ein Lebewesen mit großen Ohren, großen Augen und großen Zähnen (den Wolf) entdeckt. Die Fähigkeit, den Wolf zu identifizieren, kann wie in Abbildung 6 dargestellt, schematisch abgebildet werden.
Seite 12
Abbildung 5: Hidden Units als Mittel zur Verkörperung von Konzepten.
Abbildung 6: Merkmale, die einen Wolf auszeichnen.
Auf neuronaler Ebene kann die Erkennung des Wolfs und die dazugehörigen Handlungen folgendermaßen abgebildet werden (Abbildung 7).
Des Weiteren soll Rotkäppchen ein Objekt als Großmutter erkennen, wenn dieses freundlich, faltig ist und große Augen hat – und sich diesem Objekt annähern, zu ihm freundlich sein und einen Kuss auf die Wange geben. Unter diesen Umständen ist das Netzwerk aus Abbildung 8zu bilden:
Zur näheren Erläuterung, wie das neuronale Netz Rotkäppchens im Einzelnen funktioniert, konzen-trieren wir uns nur auf die ersten drei der sechs Reize, die das Rotkäppchen verarbeiten kann: große Ohren, große Augen, große Zähne.
Immer wenn Rotkäppchen den ersten drei Reizen ausgesetzt ist, soll es folgende drei Tätigkeiten ausüben: Weglaufen, Schreien, nach dem Holzfäller Ausschau halten.
Die Verbindungen zwischen den Eingabereizen und den Ausgabeaktivitäten lassen sich durch eine Matrix darstellen. In der Matrix werden die Gewichte der Verbindungen durch numerische Werte ausgedrückt.Setzen wir voraus, dass das Rotkäppchen schon gelernt hat, was zu tun ist, wenn es die ersten drei Reize, die den Wolf kennzeichnen, entdeckt. In diesem Falle sind den Verbindungen zwischen den Input- und Output-Einheiten schon die richtigen Gewichte zugewiesen.
(Warum ist das so? Das Wissen neuronaler Netze steckt in den Gewichten der Verbindungen. Wenn das Netz schon das richtige Wissen hat, stimmen auch die Gewichte.)
Seite 13
Abbildung 7: Ein kleines neuronales Netz
Abbildung 8: Erweitertes neuronales Netz
Das gewünschte Verhalten wird durch den Vektor {1 1 1 0 0 0} ausgedrückt. Nennen wir diesen Vektor das „Target-Pattern“ (Ziel-Pattern).Im Einzelnen bedeutet das folgende Wertzuweisungen: T1 = 1; T2 = 1; T3 = 1; T4 - 6 = 0
Abbildung 9veranschaulicht den beschriebenen Sachverhalt.
Rotkäppchens Erkennungsleistung wird durch den Vektor {1 1 1 0 0 0} ausgedrückt. In diesem Vektor, nennen wir ihn Input-Pattern, ist das Ausmaß an Aktivierung jeder Einheit, die für ein beobachtbares Merkmal der Außenwelt steht, numerisch ausgedrückt.
Nun kennen wir das Target-Pattern und das Input-Pattern. Um zu wissen, wie Rotkäppchen handeln wird, müssen wir das Output-Pattern des neuronalen Netzes betrachten, das den Handlungen zugrundeliegt.
Der Ausmaß an Output für O1, das die Handlungsoption „weglaufen“ repräsentiert, berechnet sich aus der Summe der Akti-vierung aller Einheiten, die mit O1 verbunden sind und an O1 ein Signal senden.
Jede dieser Verbindungen hat ein bestimm-tes Gewicht, welches den Einfluss jeder Einheit auf O1 mitbestimmt. Daher wird das Aktivierungssignal jeder auf O1 wirkenden Einheit mit dem jeweiligen Verbindungs-
Seite 14
Abbildung 9: Das erweiterte neuronale Netz und Input- bzw. Target-Vektoren
Abbildung 10: Inputeinheiten 1 bis 3, verbunden mit Outputeinheit 1
gewicht multipliziert (siehe Abbildung 10, Seite 14).
Dies geschieht für jedes Verbindungspaar nach folgender Formel:
Oj = Σ Ii * wji
Wenn der gegebene Summen-Wert einen gegebenen Schwellenwert überschreitet, kommt es zur Ausführung der Handlungsoption. In unserem Beispiel – aus Gründen der Verständ-lichkeit soll der Fokus auf die Handlungsoption weglaufen eingegrenzt werden – betrage das Eingangssignal von O1 (nach Multiplikation der Aktivierung der Vorläufereinheiten I1, I2, I3 u.a. mit den entsprechenden Verbindungsgewichten) einen (willkürlich gewählten) Wert von 3,5; der Schwellenwert (ebenfalls willkürlich gewählt) sei 0,6. In diesem Fall würde Rotkäppchen als Konsequenz die Flucht ergreifen.
Der eigentliche Lernvorgang
Bisher sind wir in dem Beispiel davon ausgegangen, dass in der Matrix der Verbindungen schon die richtigen Gewichte stehen. Der eigentliche Lernvorgang wurde noch nicht erläutert.
Vor der Lernphase weist ein neuronales Netz Gewichte auf, die alle fast Null betragen (aus mathematischen Gründen werden die Gewichte von den Entwicklern neuronaler Netze meist auf zufällige, geringe Werte nahe Null gesetzt). Sind noch keine Gewichte vorhanden, wurde noch nichts gelernt. Da die Input-Werte mit den Gewichts-Werten multipliziert werden ergibt sich ein Null-Output. Die ins unserem Rotkäppchenbeispiel vom Lernvorgang betroffenen Verbindungen sind in Abbildung 11 rot markiert.
Beim Lernvorgang neuronaler Netze wird häufig die Delta-Regel zugrundegelegt. Das Delta ergibt sich aus der Differenz zwischen erwünschtem Ausgabevektor und tatsächlichem Ausgabevektor.
Die Formel für die Veränderung der Gewichte im Zuge des Lernvorgangs basiert auf dem Delta und lautet:
Gewichtsänderungji = n * (Tj – Oj) * Ii
Seite 15
Abbildung 11: Von der Gewichtsänderung betroffene Einheitenverbindungen
Im Folgenden ist die Berechnung der Gewichtsänderung (bezeichnet als wÄnderung) aller Gewichte, die zu O1 führen, die im Zuge eines Lernvorgangs stattfindet, aufgeführt (für die Lernrate wird willkürlich ein Wert von 0,1 eingesetzt).
wÄnderung11 = 0,1 * (1-0) * 1 = 0,1wÄnderung12 = 0,1 * (1-0) * 1 = 0,1wÄnderung13 = 0,1 * (1-0) * 1 = 0,1wÄnderung14 = 0,1 * (1-0) * 0 = 0wÄnderung15 = 0,1 * (1-0) * 0 = 0wÄnderung16 = 0,1 * (1-0) * 0 = 0
Nach mehreren Trainingsdurchgängen werden die Verbindungsgewichte zwischen I1-3 und O1 ausreichend hohe Werte angenommen haben, um im Falle einer Aktivierung den Schwellenwert von O1 zu überschreiten, wodurch das neuronale Netz schließlich die Umsetzung der vom Trainer vorgesehenen Handlung weglaufen in die Wege leiten würde.
11 Anwendungsgebiete künstlicher neuronaler Netze
Visa International führte ein Frühwarnsystem gegen Kreditkartenmissbrauch ein, das auf einem neuronalen Netz, genannt „VISOR“, basiert. Nach einer Analyse des Karteninhaber- sowie des Händlerprofils und einer Erkennung von auffälligen Abweichungen berechnet das System einen Risikowert, der bei Überschreitung eines Schwellwerts automatisch eine Warnmeldung an die kartenausgebende Bank sendet. Durch Betrachtung aktueller Zahlungsgewohnheiten sollen besonders risikobehaftete Transaktionen mit hohen Beträ-gen vor Betrug geschützt werden7.
Schwankungen von Marktpreisen und Aktienkursen sind ein weiteres Beispiel komplexer multidimensionaler, aber unter manchen Umständen zumindest teilweise determinierter Phänomene zu deren Vorhersage Analysten neuronale Netzwerke einsetzen. Diese Vorhersagen treffen neuronale Netzwerke unter Einbezug vieler Faktoren, wie beispielsweise aus der Vergangenheit bekannte Performanceverläufe oder andere Marktinidikatoren8.
Auch zur Implementierung einer Erkennungsfunktion von Mausgesten in eine Anwendung (beispielsweise verfügt der Internetbrowser „Opera“ über eine derartige Funktion) können neuronale Netzwerke aufgrund ihrer Fähigkeit zur Generalisierung und ihrer Toleranz gegenüber Eingabematerial von schlechter Qualität sinnvollerweise herangezogen werden9.
7 http://www.visa.de/ueber_visa/presse/archiv/2004_neues_fruehwarnsystem_kreditkartenbetrug.jsp [20.05.2009].
8 http://www.statsoft.com/textbook/stneunet.html [20.05.2009].9 http://www.codeproject.com/KB/system/gestureapp.aspx [20.05.2009].
Seite 16
12 Literaturverzeichnis
Jones, W. P. & Hoskins, J. (1987). Back-propagation: a generalized delta learning rule. BYTE, v.12 n.11, S. 155-162, Oct.
Zimbardo & Gerrig (2005). Psychologie. München: Pearson.
http://www.conx.biz/file_upload/semantische_netze.ppt
http://www.codeproject.com/KB/system/gestureapp.aspx [20.05.2009].
http://www.dkriesel.com
http://wwwmath.uni-muenster.de/SoftComputing/lehre/material/wwwnnscript/ge.html
http://www.statsoft.com/textbook/stneunet.html [20.05.2009].
http://www.visa.de/ueber_visa/presse/archiv/2004_neues_fruehwarnsystem_kreditkartenbetrug.jsp [20.05.2009].
http://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz
http://de.wikipedia.org/wiki/Semantisches_Web
http://de.wikipedia.org/wiki/Semantisches_Netz
Seite 17