Neuronale Netze - Universität Innsbruck · 3.1.1 Das Neuron „Ein Neuron ist eine Zelle, die darauf spezialisiert ist, Informationen zu empfangen und/oder an andere Zellen innerhalb

Zusammenfassung des Referates

Neuronale Netze

Forschungsseminar: Neuere psychologische Fachliteratur

LV-Leiter: Ao. Univ.-Prof. Dr. Karl Leidlmair

Patrick Werner PlonerMoritz Klaukien

Innsbruck, 14.05.09

Inhaltsverzeichnis1 Einleitung............................................................................................................................1

2 Geschichtlicher Hintergrund................................................................................................1

3 Neuronale Netzwerke– Unser Nervensystem....................................................................3

3.1 Unser Nervensystem...................................................................................................4

3.1.1 Das Neuron..........................................................................................................4

3.2 Lernen..........................................................................................................................5

4 Anwendungsgebiete KNN...................................................................................................6

5 Gegenüberstellung..............................................................................................................8

6 Aufbau neuronaler Netze....................................................................................................8

7 Wissen und Lernen...........................................................................................................10

8 Trainings- und Testphase..................................................................................................11

9 Lernregeln.........................................................................................................................11

9.1 Delta-Regel................................................................................................................11

9.2 Back-Propagation-Regel...........................................................................................12

10 Rotkäppchen-Beispiel.....................................................................................................13

11 Anwendungsgebiete künstlicher neuronaler Netze.........................................................17

12 Literaturverzeichnis.........................................................................................................18

1 EinleitungDie Folgende Arbeit beschäftigt sich mit Künstlichen Neuronalen Netzen (im Folgenden

KNN). Zunächst soll ein geschichtlicher Abriss einen Überblick über die Entwicklung dieses

Themas der Kognitionswissenschaften verschaffen. Danach wird ein Einblick in Natürliche

Neuronale Netze aufzeigen inwiefern sich KNNs an der Grundidee des natürlichen

Vorbildes orientieren, um dann schließlich genauer auf KNNs einzugehen. Hierbei werden

der Aufbau, die grundlegenden Funktionen und Lernregeln einen genaueren Einblick

verschaffen können. Im Anschluss daran werden noch einige Anwendungsbereiche von

KNNs beschrieben werden.

2 Geschichtlicher HintergrundDie Idee ein künstliches neuronales Netz zu kreieren, dass dem des Menschen ähnelt

entstand zeitgleich mit der Entwicklung von Computern. Im Jahr 1943 gaben Warren

McCulloch und Walter Pitts den Anstoß in der Erforschung neuronaler Netzwerke, indem

sie aufzeigten, dass einfache neuronale Netze prinzipiell jede arithmetische oder logische

Funktion berechnen können. Diese Netze besaßen jedoch nicht die Fähigkeit sich selbst

zu verändern, sodass noch keine Lernprozesse simuliert werden konnten. In seinem Buch

„The Organization of Behaviour“ beschrieb 1949 Donald O. Hebb die Hebb`sche Lernregel,

welche in ihrer allgemeinen Form bis heute die Grundlage für fast alle neurnalen

Lernverfahren ist. Das Prinzip der Hebb`schen Lernregel lautet : „ Je häufiger ein Neuron

A gleichzeitig mit Neuron B aktiv ist umso bevorzugter werden die beiden Neuronen

aufeinander reagieren ("what fires together that wires together").1 Dies konnte Hebb

anhand von Veränderungen der synaptischen Übertragung zwischen Neuronen

nachweisen.

1950 kam der Neuropsychologe Karl Lashley mit der These auf, dass die

Informationsspeicherung im Gehirn verteilt realisiert wird. Begründet wird seine Annahme

an Versuchen mit Ratten, bei denen nur der Umfang und nicht der Ort zerstörten

Nervengewebes ihre Leistung beeinflusst, aus einem Labyrinth zu finden2.

Der erste bekannte Neurocomputer wurde von Marvin Minsky 1951 entwickelt. Die Snark

war in der Lage seine Gewichte selber einzustellen und war somit lernfähig, wurde jedoch

1 http://www.uni-protokolle.de/Lexikon/Hebb%27sche_Lernregel.html [17.05.2009].2 http://www.dkriesel.com

Seite 1

nie eingesetzt.

Frank Rosenblatt, Charles Wightman und Mitarbeitern am MIT entwickelten von 1957 bis

1958 den ersten funktionstüchtigen Neurocomputer Mark I Perceptron. Dieser konnte

bereits mit einem 20x20 Pixel großen Bildsensor einfache Ziffern erkennen und

funktionierte mit Hilfe von 512 motorgetriebenen Potentiometern, je eines für jedes der

variablen Gewichte. In seinem Buch Principles of Neurodynamics. Percptions and the

Theory of Brain Mechanisms ( Rosenblatt, 1961) beschrieb Rosenblatt verschiedene

Varianten des Perzeptrons und beschreibt unter Anderem das Perzeptron-Konvergenz-

Theorem.

Kurz darauf stellen Bernhard Widrow und Marcian E. Hoff das ADALINE (ADAptive Linear

Neuron) vor. Dabei handelt es sich um ein adaptives System, das schnell und genau

lernen kann. Ähnlich wie das Perzeptron ist es ein binäres Schwellenwert-Neuron. Dieses

Netzwerk erreichte als erstes weite kommerzielle Verbreitung. Anwendung fand es in

Analogtelefonen zur Echtzeit-Echofilterung.

1969 unternahmen Marvin Minsky und Seymour Papert in einer Arbeit eine genaue

mathematische Analyse des Perzeptrons und zeigten, dass das Modell des Perzeptrons

viele wichtige Probleme gar nicht repräsentieren kann. Da man annahm, dass sich dieses

Problem auch analog auf ähnliche Konzepte übertragen ließe und der Umstand, dass zu

dieser Zeit die Forschungsgelder im Gebiet der Künstlichen Neuronalen Netzwerke

stagnierten führten dazu, dass in den Folgenden 15 Jahren die Aufmerksamkeit stark

abnahm. In den Jahren der geringen Anerkennung wurden jedoch von heute berühmten

Forschern die theoretischen Grundlagen für die Renaissance des Gebietes gelegt.

Im Jahr 1972 stellte Teuvo Kohonen ein Modell des linearen Assoziierers, eines speziellen

Assoziativspeichers, vor. James A. Anderson präsentierte das gleiche Modell im gleichen

Jahr unabhängig von Kohonen aus neurophysiologischer Sicht. Charakteristisch für dieses

Modell ist die Verwendung linearer Aktivierungsfunktionen und kontinuierlicher Werte für

Gewichte, Aktivierungen und Ausgaben.

Christoph von der Malsburg machte1973 ein bedeutenden deutschen Beitrag. Er

verwendet ein komplexeres, biologisch besser motiviertes nichtlineares Neuronenmodell.

1974 entwickelte Paul Werbos in seiner Dissertation an der Harvard- Universität bereits

das Backpropagation- Verfahren, das allerdings erst ca. 10 Jahre später durch die Arbeiten

von Rumelhart und McClelland seine große Bedeutung erlangte.

Stephen Grossberg veröffentlichte zu dieser Zeit eine Vielzahl von Arbeiten, die sich durch

Seite 2

eine detaillierte mathematische Analyse der darin vorgestellten neuronalen Modelle

auszeichnen. Ein bekanntes Beispiel sind die Modelle der Adaptive Resonance Theory

(ART), die er mit Gail Carpenter und weiteren Mitarbeitern entwickelte.

1982 schrieb John Hopfield (Physiker) einen sehr einflußreichen Artikel, in dem er binäre

Hopfield-Netze als neuronales äquivalent der Ising-Modelle der Physik untersuchte. Später

entwickelte dieses Modell noch weiter.

Im Jahr 1983 stellten Fukushima, Miyake und Ito ein neuronales Modell zur positions- und

skalierungsinvarianten Erkennung hand geschriebener Zeichen vor. Dieses war eine

Erweiterung des schon 1975 entwickelten Cognitrons. Es bestand aus einer Schichtweisen

Folge einfacher und komplexer Zellen, wie sie auch im biologischen visuellen System von

Katzen vorkommt.

1986 fand das Gebiet der neuronalen Netze durch die Publikation des Lernverfahrens

Backpropagation durch Rumelhart, Hinton und Williams einen besonderen Aufschwung. In

zwei im gleichen Jahr veröffentlichten Artikel und in einem von Rumelhart und McClelland

herausgegebenen Buch wurde mit der Backpropagation eine Variante entwickelt, die im

Vergleich zu bisherigen Lernverfahren eine sehr schnelle und robuste Lösung darstellte.

Speziell auf dieses Lernverfahren wird später noch eingegangen.

Seid dieser Zeit hat sich das Gebiet um KNN sehr Stark entwickelt. Neben mehreren

Tausend Wissenschaftlern, die sich mit Neuronalen Netzwerken beschäftigen gibt es

mehrere Zeitschriften, die sich diesem Thema widmen, ( z.B. Neural Networks,

Neurocomputing), große anerkannte wissenschaftliche Gesellschaften wie die ENNS

(European Neural Network Society) sowie Fachgruppen über Neuronale Netze.

3 Neuronale Netzwerke– Unser NervensystemWie oben erwähnt orientieren sich künstliche neuronale Netzwerke an „Natürlichen

Neuronalen Netzwerken“, wie z.B. dem Nervensystem des Menschen. Aus diesem Grund

wird zunächst auf das Neuronale Netz beim Menschen eingegangen um dann wieder auf

die KNN zurückzukommen.

3.1 Unser Nervensystem

Unser Nervensystem besteht aus Milliarden von hoch spezialisierten Nervenzellen, auch

Neurone, die das Gehirn und Nervenfasern bilden, welche man überall im Körper findet.

Seite 3

3.1.1 Das Neuron

„Ein Neuron ist eine Zelle, die darauf spezialisiert ist, Informationen zu empfangen

und/oder an andere Zellen innerhalb des Körpers weiterzuleiten“3.

Neurone können unterschiedliche Größen und Formen besitzen (über 200 in Gehirnen von

Wirbeltieren) und es gibt zwischen 100 Millionen und einer Billarde im menschlichen

Gehirn. Eine Nervenzelle besteht aus drei Teilen:

1. Dendriten; die Hauptaufgabe besteht darin, Erregungen von Sinnesrezeptoren oder

anderen Zellen zu empfangen

2. Zellkern (Nukleus); integriert empfangene Informationen von Dendriten

3. Axon; leitet Information weiter und ist mit anderen Nervenzellen verbunden

Abbildung 1: Aufbau einer Nervenzelle.Quelle GrafiK: http://www.oekosystem-erde.de/assets/images/Neuron.gif

3 Zimbardo & Gerrig (2005). Psychologie. S. 97

Seite 4

Die Grundlage für ein funktionierendes Nervensystem ist die Erregungsleitung. Hierunter

versteht man die Weiterleitung von Impulsen von einem Neuron zum anderen. In unserem

Nervensystem beispielsweise, läuft diese Weiterleitung über biochemische Prozesse ab,

welche zur Erregungsleitung entlang der Nervenfaser in elektrische Impulse umgewandelt

werden.

Synapsen Bilden die Schnittstellen zwischen Axon und Nervenzelle. An diesem Punkt läuft

die Übertragung über Neurotransmitter (chemische Botenstoffe), welche wieder

entsprechende Biochemische Reaktionen ausgelösen, sodass eine Information

weitergeleitet oder gehemmt werden kann.

3.2 LernenWie oben schon erwähnt Beschrieb schon 1949 Donald O. Hebb die Hebb´sche Lernregel,

welche in ihrer allgemeinen Form bis heute die Grundlage für fast alle neuronalen

Lernverfahren ist. Das Prinzip der Hebb´schen Lernregel lautet : „ Je häufiger ein Neuron

A gleichzeitig mit Neuron B aktiv ist umso bevorzugter werden die beiden Neuronen

aufeinander reagieren ("what fires together that wires together"). Dies hat Hebb anhand

von Veränderungen der synaptischen Übertragung zwischen Neuronen nachgewiesen4.

Anders Formuliert kann man sich Vorstellen, dass unsere neuronalen Verbindungen wie

Straßen funktionieren und die Straßen, die öfter benutzt werden sind wie Autobahnen. Wir

können uns dann an etwas erinnern, wenn die dementsprechende Verbindung im Kortex

zu einer „Autobahn“ ausgebaut wurde, weil diese Verbindung bevorzugt genutzt wird.

Aus diesem Lernprinzip entstand ebenfalls von Hebb die Idee der Synaptischen Plastizität.

Synaptische Plastizität ist ein Begriff der die aktivitätsabhängige Änderung der Stärke der

synaptischen Übertragung beschreibt5.

Da diese Arbeit sich im Rahmen der Lehrveranstaltung hauptsächlich mit dem Thema

Künstlicher Neuronaler Netze auseinandersetzen soll wird hier die biologische beendet um

nun auf die Graundlagen KNN sowie auf die Analogien zu biologischen Netzwerken

eingegangen werden.

4 www.uni-protokolle.de/Lexikon/Hebb'sche_Lernregel.html5 http://www.uni-protokolle.de/Lexikon/Synaptische_Plastizit%E4t.html

Seite 5

4 Anwendungsgebiete KNNSemantische Netze

Ein semantisches Netz ist ein formales Modell von Begriffen und ihren Beziehungen

(Relationen) untereinander. Die Möglichkeiten eines Semantischen Netzes bestehen darin

„intelligentere“ Suchanfragen auszuführen. Sie sind insofern „intelligenter“, als sie nicht nur

nach Begriffen Suchen, sondern auch Assoziationen, die man mit bestimmten Begriffen

hat, finden kann. Ein aktuelles Beispiel für ein angewandtes Semantisches Netz ist das

Semantic Web, auch Web 3.0 genannt. Die Idee dieser Neuordnung des Internets geht auf

Tim Berners-Lee, dem Begründer des World Wide Web zurück. Die Informationen im Web

sollen von Maschinen interpretiert und automatisch maschinell weiterverarbeitet werden

können. Informationen über Orte, Personen und Dinge sollen mit Hilfe des Semantischen

Webs von Computern miteinander in Beziehung gesetzt werden können.

Ein Beispiel, wie ein Suchvorgang im Semantic Web ablaufen könnte:

Nehmen wir an, wir suchen nach Dokumenten über Manager in der Telekommuni-

kationsbranche. Wir geben also in unsere Suchmaschine

„Manager“ und „Handy“ ein.

Eine semantische Suchmaschine setzt jetzt Beziehungen her:

• Manager:

Vorstandsvorsitzender ist ein Manager

Geschäftsführer ist ein Manager

Max Mustermann ist ein Vorstandsvorsitznder

• Handies: Telekommunikationsunternehemen vertreiben Handies

A1 ist ein Telekommunikationsunternehmen

Ergebnis: Wir finden auch Dokumente, in denen Max Mustermann und A1 erwähnt wird,

obwohl wir nur nach „Manager“ und „Handy“ gesucht haben.

An diesem Beispiel wird deutlich, wie sich KNN auf unser Alltagsleben auswirken können.

Ein ausgereiftes Semantisches Web würde man durchaus eine Art Intelligenz oder Denken

unterstellen, wobei man nicht vergessen darf, dass es im Output als „Denken“ oder

„Intelligent“ scheint. Die einzelnen Operationen, funktionieren jedoch nach mathematischen

Prinzipien. Kann ein Magier ein Kaninchen verschwinden lassen? Zumindest scheint es so.

Seite 6

5 Gegenüberstellung6

Der Zweck und Gewinn einer Auseinandersetzung mit neuronalen Netzen ist anschaulich anhand einer Aufstellung über die Vor- und Nachteile von traditionellen Entscheidungs-expertensystemen und neuronalen Netzen zu erklären.

Entscheidungsexpertensysteme sind als Computerprogramme realisiert, die heikle, schwierige Probleme lösen bzw. Entscheidungen treffen sollen und unter anderem in der medizinischen Diagnostik eingesetzt werden. Diese Systeme basieren auf umfangreichem Expertenwissen, das in ihrer Datenbank vorab gespeichert wurde. Diese Systeme treffen eine Entscheidung anhand festgelegter Regeln, die schrittweise das problemspezifische Wissen abarbeiten und beurteilen. Schwierigkeiten haben diese Systeme mit Problemen, die von den Entwicklern nicht vorhergesehen wurden; die gelieferten Entscheidungen bzw. Informationen sind in solchen Fällen womöglich nicht brauchbar. Außerdem sind diese Systeme meist statisch und nicht lernfähig.

In solchen Fällen scheint der Einsatz neuronaler Netzwerke sinnvoll, da diese hier ihre Stärken ausspielen können:Neuronale Netze sind lernfähig (können sich selbst organisieren); können ihr Wissen generalisieren und anpassen – liefern also auch in Problemklassen, die zuvor nicht explizit trainiert wurden, plausible Lösungen. Des Weiteren weisen neuronale Netze eine hohe Fehlertoleranz gegenüber unklarem Eingangsmaterial auf. Ein weiterer Vorteil neuronaler Netze ist ihre Stabilität: Während bei Computern der Ausfall einer wichtigen Komponente verheerende Folgen hat, kann das neuronale Netz immer noch funktionieren, wenn einige Zellen ausfallen.

6 Aufbau neuronaler NetzeDer konnektionistische Ansatz lehnt sich metaphorisch an der Informationsverarbeitung des menschlichen Gehirns an. Intelligentes menschliches Verhalten scheint auf der Interaktion einer Unzahl von Neuronen zu basieren, wobei jedes Neuron für sich nur ein geringes Maß an Informationen liefert. Ebenso verhält es sich im Bereich des Konnektionismus, bei dem Informationsverarbeitung als Zusammenspiel vieler Neuronen (Einheiten) betrachtet wird.

6 Im Folgenden wird zitiert ausJones, W. P. & Hoskins, J. (1987). Back-propagation: a generalized delta learning rule. BYTE, v.12 n.11, S. 155-162.

Seite 7

Tabelle 1: Merkmale von Entscheidungsexpertensystemen und Neuronalen Netzen.

Entscheidungsexpertensysteme Neuronale Netze

basieren auf erworbenem Wissen

hohe Fehlertoleranz

meist nicht lernfähig lernfähig

basieren auf umfangreichem vorgegebenem(!) ExpertenwissenEntscheidung anhand festgelegter

RegelnLösung von Problemen durch

Generalisierung erworbenen Wissens

Schwierigkeiten bei unvorhergesehenen Problemen

Jede simulierte Einheit hat vier wichtige Komponenten:

● die Eingangs- oder Input-Verbindungen, durch die die Einheit Aktivierung durch andere Einheiten erhält

● eine Summations-Funktion, welche die Aktivierung durch verschiedene Eingänge in ein einzelnes Maß der Aktivierung zusammenfasst

● eine Schwellenwert-Funktion, die das Maß der Aktivierung in ein Ausgangsmaß konvertiert (unterschreitet die Neuronenaktivierung den Schwellenwert, so wird das Ausgangssignal zB auf Null gesetzt)

● Ausgangs- oder Output-Verbindungen, durch die die Einheit Aktivierung an andere Einheiten weitergibt

Die eben beschriebenen Komponenten sind in Abbildung 2 abgebildet.

Einheiten sind miteinander durch sogenannte Kanten verbunden (wie in Abbildung 3 dar-gestellt). Die Stärke der Verbindung zwischen zwei Neuronen wird durch ein Gewicht ausgedrückt. Je größer der Absolutbetrag des Gewichtes ist, desto größer ist der Einfluss einer Einheit auf eine andere Einheit.

● Ein positives Gewicht bedeutet, dass ein Neuron auf ein anderes Neuron einen exzitatorischen, erregenden Einfluss ausübt.

● Ein negatives Gewicht bedeutet, dass der Einfluss inhibitorisch, also hemmender Natur ist.

● Ein Gewicht von Null besagt, dass ein Neuron auf ein anderes Neuron derzeit keinen Einfluss ausübt, was auch als fehlende Verbindung beschrieben werden kann.

An einem Beispiel soll der beschriebene Sachverhalt geschildert werden:Stellen wir uns Neuron A vor, das eine Aktivierung von 1 aufweist. Dieses Neuron hat eine Verbindung zu Einheit B mit einem Gewicht von 2. Nach der folgenden Formel wird das Eingangssignal von Einheit B berechnet:

Allgemeine Formel für den Input der Einheit i:inputij = aj wij

aj = Aktivitätslevel der sendenden Einheit (j )

wij = Gewicht zwischen der sendenden (j) und der empfangenden (i) Einheit

Input der Einheit B = 1 * 2 = 2

Seite 8

Abbildung 2: Komponenten einer EinheitAbbildung 3: Verbindung zwischen zwei Einheitem mit dem Verbindungsgewicht w

Nehmen wir an, das Aktivierungsmaß der Einheit B übersteigt den Schwellenwert, sodass Einheit B einen von zwei möglichen Aktivierungszuständen (aktiviert respektive nicht aktiviert) annimmt. In Analogie zur Beschreibung der Stellung eines Lichtschalters (Licht an respektive Licht aus) durch die Ziffern 1 respektive 0 kann die Aktivierung von Einheit B bei Überschreitung des Schwellenwertes mit der Ziffer 1 ausgedrückt werden.

Nehmen wir weiterhin an, dass Einheit B ein Signal an Einheit C sendet. Die Verbin-dung zwischen beiden Einheit beträgt 0,8 Gewichtseinheiten. Der Input der Einheit C berechnet sich wie folgt:Input der Einheit C = 1 * 0,8 = 0,8.

7 Wissen und LernenZwei wesentliche Merkmale unterscheiden den konnektionistischen Ansatz von den her-kömmlichen regelbasierten Programmen (i.e. Expertensystemen):

● Das Wissen eines neuronalen Netzes ist in seinen Gewichten gespeichert. Im Gegensatz dazu liegt das Wissen eines Expertensystems in dessen Regeln. Lernen wird bei neuronalen Netzen zumeist als Gewichtsveränderung zwischen den Einheiten definiert. Wie die Gewichtsveränderung genau erfolgt ist abhängig von der verwendeten Lernregel.

● Ein neuronales Netzwerk wird angeregt durch die Aktivitäten, die durch die Einheiten (durch die simulierten Neuronen) weitergegeben werden. Im Gegensatz dazu wird ein Expertensystem angeregt durch die Symbole, die durch die Wenn/dann-Regeln erzeugt werden.

Da in einem neuronalen Netzwerk nur numerische Werte der Aktivierung von Einheit zu Einheit weitergegeben werden, wird oft von einer subsymbolischen Ebene der Informa-tionsverarbeitung gesprochen.

Die auf das Lernen bzw. das Wissen bezogene Charakteristika von neuronalen Netzen bzw. Expertensystemen sind in der folgenden Abbildung gegenübergestellt:

Seite 9

Tabelle 2: Lern- bzw. wissensbezogene Charakteristika von neuronalen Netzen und Entscheidungsexpertensystemen

Neuronale Netze Entscheidungsexpertensysteme

Wissen ist in Regeln gespeichert

Lernen durch Gewichtsveränderung Lernen nicht vorgesehen

angeregt durch „feuernde“ Einheiten

Wissen ist in Verbindungsgewichten gespeichert

Angeregt durch „feuernde“ Regel-Symbole (Wenn/Dann-Paare)

8 Trainings- und TestphaseBei neuronalen Netzen unterscheidet man typischerweise zwischen einer Trainingsphase und einer Testphase (auch Ausbreitungsphase genannt).

● Trainingsphase: In dieser Phase lernt das neuronale Netz anhand des vorgegebenen Lernmaterials. Dementsprechend werden in der Regel die Gewichte zwischen den einzelnen Neuronen modifiziert. Lernregeln geben dabei die Art und Weise an, wie das neuronale Netz diese Veränderungen vornimmt. Viele Lernregeln lassen sich in die folgenden beiden Kategorien einordnen:

○ supervised learning (überwachtes bzw. beaufsichtigtes Lernen): Der korrekte Output wird (als "teaching vector") vorgeben und daran werden die Gewichte optimiert.

○ unsupervised learning (nicht überwachtes bzw. unbeaufsichtigtes Lernen):Es wird kein Output vorgegeben. Die Gewichtsveränderungen erfolgen in Abhängigkeit der Ähnlichkeit der Gewichte mit den Inputreizen.

● Testphase: In der Testphase werden hingegen keine Gewichte verändert. Statt dessen wird hier auf Grundlage der bereits modifizierten Gewichte aus der Trainingsphase untersucht, ob das Netz etwas gelernt hat. Dazu präsentiert man den Inputneuronen Reize und prüft, welchen Output das neuronale Netz berechnet.

Zwei verschiedene Arten von Reizen können unterschieden werden:

○ Ausgangsreize: Durch erneute Präsentation der zu lernenden Ausgangsreize wird geprüft, ob das neuronale Netz das Trainingsmaterial erfasst hat.

○ Neue Reize: Durch Präsentation neuer Reize kann man feststellen, ob das Netz über die zu lernenden Reize hinaus in der Lage ist, Aufgaben zu lösen. Anders formuliert: Findet eine Generalisierung auf neue Reize statt?

9 LernregelnIm Folgenden soll auf die noch nicht näher behandelten Lernregeln eingegangen werden.

9.1 Delta-RegelEin grundlegendes Konzept stellt die Delta-Regel dar. Diese wird bei beaufsichtigtem Lernen zugrunde gelegt.

Die Delta-Regel beruht auf einem Vergleich zwischen dem gewünschten und dem tatsächlich beobachteten Output einer Outputeinheit i. Als Formel kann dieser Vergleich wie folgt dargestellt werden:

δ = Aktivitäti(gewünscht) - Aktivitäti(beobachtet)

genauer: Δwji = n(Tpj – Opj)Ipj

Seite 10

Ist die beobachtete Aktivität einer Einheit geringer als die Zielvorgabe des Trainers vorsieht, wird die Verbindung zu jenen Einheiten mit positivem Input gestärkt, indem ein bestimmter (errechneter) Betrag zu den jeweiligen Verbindungsgewichten hinzugefügt wird. Diese Addition vollzieht sich mit jedem Trainingsdurchgang. Wenn beispielsweise Einheit A eine Aktivierung aufweist und mit Einheit B verbunden ist, wird das Eingangssignal der Einheit B nach jedem Trainingsdurchgang einen höheren numerischen Wert aufweisen. Wird der entsprechende Schwellenwert (nach Multiplikation der Aktivierungsmaße der Einheiten mit den jeweiligen Gewichten) bei Vorliegen eines bestimmten Stimulus überschritten, führt dies zum erwünschten Verhalten des neuronalen Netzes: Das Resultat dieses Vorgangs ist also das, was als das Ergebnis erfolgreichen Lernens beschrieben werden kann.

Ist die beobachtete Aktivität einer Einheit größer als erwünscht, wird die Verbindung zu jenen Einheiten mit positivem Input geschwächt, indem ein bestimmter (errechneter) Betrag von den jeweiligen Verbindungsgewichten abgezogen wird, wie in Abbildung 4 veranschaulicht ist:

Die Delta-Regel versteht sich also als Fehlerkorrektur, die künftiges, nicht erwünschtes Verhalten unwahrscheinlicher machen soll (man könnte dies als Lernen aus Fehlern bezeichnen).

9.2 Back-Propagation-RegelDie Delta-Regel kommt nur bei Netzwerken mit einer Ebene vor und kann Aufgaben, bei der eine Entscheidung zwischen entweder einer Option oder einer anderen getroffen werden soll, nicht lösen (sogenanntes Exclusive-OR).

Zur Lösung solcher Aufgaben werden Mehrebenen-Netzwerke benötigt mit sogenannten hidden Units (versteckten Einheiten). Hidden Units sind Einheiten, die keine direkten Verbindungen zur Außenwelt haben. Eine herausragende Eigenschaft von hidden Units stellt die Möglichkeit dar, diese als Verkörperung von Konzepten im psychologischen Sinne aufzufassen, da hidden Units eine Zusammenfassung von wesentlichen Merkmalen von Gegenständen der Außenwelt und Sachverhalten darstellen. Abbildung 5 veranschaulicht die Anordnung von hidden Units (im Beispiel: der Wolf) mit anderen Einheiten.

Seite 11

Abbildung 4: Veränderung des Verbindungs-gewichtes zweier Einheiten nach der Delta-Regel

Durch die Einführung von hidden Units (also mehrerer Ebenen) wird die Anwendung der Back-Propagation-Regel nötig. Diese Regel basiert, ähnlich wie die delta-Regel, auf der Berechnung der Diskrepanz zwischen Output-Patterns und Target-Patterns, ist allerdings mathe-matisch komplexer. Die grundsätzliche Funktionsweise lässt sich so beschreiben, dass auch hier die Verbindungsgewichte verringert werden. Die Fehlerkorrektur wird allerdings nicht nur für eine Verbindung berechnet, sondern (in entsprechend abgeschwächter Weise) für alle weiteren Verbindungen, die mit der betroffenen Output-Einheit gemeinsam aktiviert sind und somit gemeinsam zum unerwünschten Verhalten beigetragen haben.

Ein Beispiel: Ein Schüler hat einem Lehrer einen Streich gespielt. Der Streich wurde allerdings von einer ganzen Schüler-Bande ausgeheckt; der Lehrer bestraft aber nicht nur den ausführenden Schüler, sondern auch anteilmäßig jene, die daran mitgewirkt haben.

10 Rotkäppchen-BeispielDie zuvor erwähnten Konzepte sollen nun an einem Beispiel verdeutlicht werden.

Stellen wir uns eine Informationsverarbeitungsmaschine vor, die auf einem neuronalen Netz basiert. Nennen wir diese Rotkäppchen. Zu Beginn seiner Existenz ist Rotkäppchen in der Lage, drei distinkte Erscheinungsformen in der Welt zu erkennen: den Wolf, die Großmutter und den Holzfäller. Technisch gesehen stellen wir uns den Aufbau des Rotkäppchen-Netzwerks so vor: Die Input-Einheiten repräsentieren Objekte, die in der Außenwelt beobachtbar sind. Die Output-Einheiten repräsentieren Handlungen, die Rot-käppchen ergreifen kann. Rotkäppchen soll nun lernen, dass es weglaufen, schreien und nach dem Holzfäller Ausschau halten muss, wenn es ein Lebewesen mit großen Ohren, großen Augen und großen Zähnen (den Wolf) entdeckt. Die Fähigkeit, den Wolf zu identifizieren, kann wie in Abbildung 6 dargestellt, schematisch abgebildet werden.

Seite 12

Abbildung 5: Hidden Units als Mittel zur Verkörperung von Konzepten.

Abbildung 6: Merkmale, die einen Wolf auszeichnen.

Auf neuronaler Ebene kann die Erkennung des Wolfs und die dazugehörigen Handlungen folgendermaßen abgebildet werden (Abbildung 7).

Des Weiteren soll Rotkäppchen ein Objekt als Großmutter erkennen, wenn dieses freundlich, faltig ist und große Augen hat – und sich diesem Objekt annähern, zu ihm freundlich sein und einen Kuss auf die Wange geben. Unter diesen Umständen ist das Netzwerk aus Abbildung 8zu bilden:

Zur näheren Erläuterung, wie das neuronale Netz Rotkäppchens im Einzelnen funktioniert, konzen-trieren wir uns nur auf die ersten drei der sechs Reize, die das Rotkäppchen verarbeiten kann: große Ohren, große Augen, große Zähne.

Immer wenn Rotkäppchen den ersten drei Reizen ausgesetzt ist, soll es folgende drei Tätigkeiten ausüben: Weglaufen, Schreien, nach dem Holzfäller Ausschau halten.

Die Verbindungen zwischen den Eingabereizen und den Ausgabeaktivitäten lassen sich durch eine Matrix darstellen. In der Matrix werden die Gewichte der Verbindungen durch numerische Werte ausgedrückt.Setzen wir voraus, dass das Rotkäppchen schon gelernt hat, was zu tun ist, wenn es die ersten drei Reize, die den Wolf kennzeichnen, entdeckt. In diesem Falle sind den Verbindungen zwischen den Input- und Output-Einheiten schon die richtigen Gewichte zugewiesen.

(Warum ist das so? Das Wissen neuronaler Netze steckt in den Gewichten der Verbindungen. Wenn das Netz schon das richtige Wissen hat, stimmen auch die Gewichte.)

Seite 13

Abbildung 7: Ein kleines neuronales Netz

Abbildung 8: Erweitertes neuronales Netz

Das gewünschte Verhalten wird durch den Vektor {1 1 1 0 0 0} ausgedrückt. Nennen wir diesen Vektor das „Target-Pattern“ (Ziel-Pattern).Im Einzelnen bedeutet das folgende Wertzuweisungen: T1 = 1; T2 = 1; T3 = 1; T4 - 6 = 0

Abbildung 9veranschaulicht den beschriebenen Sachverhalt.

Rotkäppchens Erkennungsleistung wird durch den Vektor {1 1 1 0 0 0} ausgedrückt. In diesem Vektor, nennen wir ihn Input-Pattern, ist das Ausmaß an Aktivierung jeder Einheit, die für ein beobachtbares Merkmal der Außenwelt steht, numerisch ausgedrückt.

Nun kennen wir das Target-Pattern und das Input-Pattern. Um zu wissen, wie Rotkäppchen handeln wird, müssen wir das Output-Pattern des neuronalen Netzes betrachten, das den Handlungen zugrundeliegt.

Der Ausmaß an Output für O1, das die Handlungsoption „weglaufen“ repräsentiert, berechnet sich aus der Summe der Akti-vierung aller Einheiten, die mit O1 verbunden sind und an O1 ein Signal senden.

Jede dieser Verbindungen hat ein bestimm-tes Gewicht, welches den Einfluss jeder Einheit auf O1 mitbestimmt. Daher wird das Aktivierungssignal jeder auf O1 wirkenden Einheit mit dem jeweiligen Verbindungs-

Seite 14

Abbildung 9: Das erweiterte neuronale Netz und Input- bzw. Target-Vektoren

Abbildung 10: Inputeinheiten 1 bis 3, verbunden mit Outputeinheit 1

gewicht multipliziert (siehe Abbildung 10, Seite 14).

Dies geschieht für jedes Verbindungspaar nach folgender Formel:

Oj = Σ Ii * wji

Wenn der gegebene Summen-Wert einen gegebenen Schwellenwert überschreitet, kommt es zur Ausführung der Handlungsoption. In unserem Beispiel – aus Gründen der Verständ-lichkeit soll der Fokus auf die Handlungsoption weglaufen eingegrenzt werden – betrage das Eingangssignal von O1 (nach Multiplikation der Aktivierung der Vorläufereinheiten I1, I2, I3 u.a. mit den entsprechenden Verbindungsgewichten) einen (willkürlich gewählten) Wert von 3,5; der Schwellenwert (ebenfalls willkürlich gewählt) sei 0,6. In diesem Fall würde Rotkäppchen als Konsequenz die Flucht ergreifen.

Der eigentliche Lernvorgang

Bisher sind wir in dem Beispiel davon ausgegangen, dass in der Matrix der Verbindungen schon die richtigen Gewichte stehen. Der eigentliche Lernvorgang wurde noch nicht erläutert.

Vor der Lernphase weist ein neuronales Netz Gewichte auf, die alle fast Null betragen (aus mathematischen Gründen werden die Gewichte von den Entwicklern neuronaler Netze meist auf zufällige, geringe Werte nahe Null gesetzt). Sind noch keine Gewichte vorhanden, wurde noch nichts gelernt. Da die Input-Werte mit den Gewichts-Werten multipliziert werden ergibt sich ein Null-Output. Die ins unserem Rotkäppchenbeispiel vom Lernvorgang betroffenen Verbindungen sind in Abbildung 11 rot markiert.

Beim Lernvorgang neuronaler Netze wird häufig die Delta-Regel zugrundegelegt. Das Delta ergibt sich aus der Differenz zwischen erwünschtem Ausgabevektor und tatsächlichem Ausgabevektor.

Die Formel für die Veränderung der Gewichte im Zuge des Lernvorgangs basiert auf dem Delta und lautet:

Gewichtsänderungji = n * (Tj – Oj) * Ii

Seite 15

Abbildung 11: Von der Gewichtsänderung betroffene Einheitenverbindungen

Im Folgenden ist die Berechnung der Gewichtsänderung (bezeichnet als wÄnderung) aller Gewichte, die zu O1 führen, die im Zuge eines Lernvorgangs stattfindet, aufgeführt (für die Lernrate wird willkürlich ein Wert von 0,1 eingesetzt).

wÄnderung11 = 0,1 * (1-0) * 1 = 0,1wÄnderung12 = 0,1 * (1-0) * 1 = 0,1wÄnderung13 = 0,1 * (1-0) * 1 = 0,1wÄnderung14 = 0,1 * (1-0) * 0 = 0wÄnderung15 = 0,1 * (1-0) * 0 = 0wÄnderung16 = 0,1 * (1-0) * 0 = 0

Nach mehreren Trainingsdurchgängen werden die Verbindungsgewichte zwischen I1-3 und O1 ausreichend hohe Werte angenommen haben, um im Falle einer Aktivierung den Schwellenwert von O1 zu überschreiten, wodurch das neuronale Netz schließlich die Umsetzung der vom Trainer vorgesehenen Handlung weglaufen in die Wege leiten würde.

11 Anwendungsgebiete künstlicher neuronaler Netze

Visa International führte ein Frühwarnsystem gegen Kreditkartenmissbrauch ein, das auf einem neuronalen Netz, genannt „VISOR“, basiert. Nach einer Analyse des Karteninhaber- sowie des Händlerprofils und einer Erkennung von auffälligen Abweichungen berechnet das System einen Risikowert, der bei Überschreitung eines Schwellwerts automatisch eine Warnmeldung an die kartenausgebende Bank sendet. Durch Betrachtung aktueller Zahlungsgewohnheiten sollen besonders risikobehaftete Transaktionen mit hohen Beträ-gen vor Betrug geschützt werden7.

Schwankungen von Marktpreisen und Aktienkursen sind ein weiteres Beispiel komplexer multidimensionaler, aber unter manchen Umständen zumindest teilweise determinierter Phänomene zu deren Vorhersage Analysten neuronale Netzwerke einsetzen. Diese Vorhersagen treffen neuronale Netzwerke unter Einbezug vieler Faktoren, wie beispielsweise aus der Vergangenheit bekannte Performanceverläufe oder andere Marktinidikatoren8.

Auch zur Implementierung einer Erkennungsfunktion von Mausgesten in eine Anwendung (beispielsweise verfügt der Internetbrowser „Opera“ über eine derartige Funktion) können neuronale Netzwerke aufgrund ihrer Fähigkeit zur Generalisierung und ihrer Toleranz gegenüber Eingabematerial von schlechter Qualität sinnvollerweise herangezogen werden9.

7 http://www.visa.de/ueber_visa/presse/archiv/2004_neues_fruehwarnsystem_kreditkartenbetrug.jsp [20.05.2009].

8 http://www.statsoft.com/textbook/stneunet.html [20.05.2009].9 http://www.codeproject.com/KB/system/gestureapp.aspx [20.05.2009].

Seite 16

12 Literaturverzeichnis

Jones, W. P. & Hoskins, J. (1987). Back-propagation: a generalized delta learning rule. BYTE, v.12 n.11, S. 155-162, Oct.

Zimbardo & Gerrig (2005). Psychologie. München: Pearson.

http://www.conx.biz/file_upload/semantische_netze.ppt

http://www.codeproject.com/KB/system/gestureapp.aspx [20.05.2009].

http://www.dkriesel.com

http://wwwmath.uni-muenster.de/SoftComputing/lehre/material/wwwnnscript/ge.html

http://www.statsoft.com/textbook/stneunet.html [20.05.2009].

http://www.visa.de/ueber_visa/presse/archiv/2004_neues_fruehwarnsystem_kreditkartenbetrug.jsp [20.05.2009].

http://de.wikipedia.org/wiki/K%C3%BCnstliches_neuronales_Netz

http://de.wikipedia.org/wiki/Semantisches_Web

http://de.wikipedia.org/wiki/Semantisches_Netz

Seite 17

Documents

Neuronale Netze - Universität Innsbruck · 3.1.1 Das Neuron „Ein Neuron ist eine Zelle, die darauf spezialisiert ist, Informationen zu empfangen und/oder an andere Zellen innerhalb