Neuronale Netze, Deep Learning - uni-potsdam.de€¦ · Neuronale Netze sind genaueste bekannte...

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Neuronale Netze, Deep Learning

Tobias Scheffer

Maschin

Ohne die richtigen Merkmale sind manche Lernprobleme unmöglich

Motorrad

Maschin

Motorrad Rad

Rahmen Griff

Motorrad

Maschin

Rad Rad

Rahmen Griff

Rohdaten

(low-level)

Abstrakte

Features

(high-level)

Feature-Funktion

Maschin

Neuronale Netze

Modelle neuronaler Informationsverarbeitung

Ansatz hat mehrere Popularitätswellen erlebt

Perceptron: Rosenblatt 1960

Verdrängt duch SVM, Bayes‘sche Verfahren

Jetzt Stand der Technik Voice Recognition (Google

DeepMind), Face Recognition (Deep Face, 2014)

Tiefes Lernen, unsupervised feature leaning:

Unüberwachtes Lernen der richtigen Merkmale für

schwierige Probleme.

Künstliche Intelligenz als größere Vision

Maschin

„Rekorde“ von Deep Learning

Neuronale Netze sind genaueste bekannte

Verfahren für

Objektklassifikation (CIFAR/NORB/PASCAL VOC-

Benchmarks)

Videoklassifikation, verschiedene Benchmark-

Datensätze

Sentiment-Analysis von Texten (MR-Benchmark)

Erkennung von Fußgängern

Spracherkennung

Maschin

Deep Learning

Schrittweise Transformation

der rohen Eingabedaten in

höhere Merkmale

Ende der Kette: Merkmale,

mit denen sich die Klassen

separieren lassen

Beim Training nur

Eingabedaten und Label

gegeben

Merkmale der

Zwischenebenen ergeben

sich als Teil der Lösung

Optimierungsproblems

Grauwertmatrix

Lokale Muster

Gesichts-Teile

Individuen-

diskriminierende

Merkmale

Label „Gwyneth Paltrow“

Maschin

Deep Learning

Bildverarbeitung

Pixel Kanten lokale Muster Objektteile Objekte

Zeichen Wort Wortgruppe Klausel Satz

Dokument

Sprache

Signal Spektralband Phon Phonem Wort …

Maschin

Deep Learning

Eine (ausreichend große) Zwischenebene und eine

Ausgabeebene genügen grundsätzlich, um jede

beliebige Funktion zu approximieren

Aber: Mit mehreren Ebenen genügen häufig viel

weniger Knoten

Berechnungen können mehrfach verwendet werden

Beispiel: Parity-Funktion

N Elemente in log(N) Ebenen

Oder 2N Elemente in zwei Ebenen

Maschin

Deep Learning

Sind Kernel-Verfahren „tief“?

Nein, eine Anwendung der Kernel-Funktion, dann

lineare Funktion

Keine Zwischen-Merkmale

Sind Entscheidungsbäume „tief“?

Nein, alle Entscheidungen werden anhand der

Eingabeattribute getroffen

Es werden keine neuen Merkmale Berechnet

Sind Empfehlungsalgorithmen „tief“?

Ja, wenn latente Merkmale berechnet werden

Allerdings nur eine Ebene latenter Merkmale

Maschin

Überwachtes, unüberwachtes Lernen

Überwachtes Lernen

Gesamtes Netzt wird überwacht trainiert

(Merkmale der Zwischenebenen Teil der Lösung des

Optimierungsproblems)

Unüberwacht + überwachter Klassifikator oben

Ebenen werden sequentiell unüberwacht trainiert

Oberste Ebene wird überwacht trainiert

Unüberwachtes Pre-Training + überwachtes Lernen

Ebenen werden sequentiell unüberwacht trainiert

Mit diesen Startwerten wird danach gesamtes Netz

überwacht trainiert

Gut bei vielen ungelabelten, wenigen gelabelten Daten

Maschin

Neuronale Informationsverarbeitung

Eingänge

Synaptische Gewichte:

Werden durch Lernprozesse

Verstärkt oder abgeschwächt

Gewichtete Eingangssignale

werden aggregiert

Ausgangssignal:

Gewichtete Eingangssignale

lichkeit

usgangs-S

ignals

Verbindungen zu anderen Nervenzellen

Signale in Form von „Spikes“

Maschin

Neuronale Informationsverarbeitung: Modell

0h x θ

)(hEingabevektor x

Gewichtsvektor θ

Ausgabe Gewichtete Eingangssignale

Ausgangssig

Maschin

Feed-Forward-Netze

Forward Propagation:

Eingabevektor:

Lineares Modell:

Jede Einheit hat

Parametervektor:

Ebene i hat

Parametermatrix:

k n θ

i i i i

k k kh θ x

1 1 0 1

0k k kh θ x

1 1( )k kx h

2 2 1 2

0k k kh θ x

2 2( )k kx h

Index k Index i

Eingabe-Ebene

Verdeckte Ebenen

Ausgabe-Ebene

i i i i

n n n n

Maschin

Feed-Forward-Netze

Forward Propagation:

Eingabevektor:

Lineares Modell:

Aktivierungsfunktion und

Propagation:

Ausgabevektor:

( )i ix hd

1 1( )k kx h

2 2( )k kx h

Index k Index i

Eingabe-Ebene

Verdeckte Ebenen

Ausgabe-Ebene

i i i i

k k kh θ x

2 2 1 2

0k k kh θ x

1 1 0 1

0k k kh θ x

Maschin

Feed-Forward-Netze

„Bias Unit“

Lineares Modell:

Konstantes Element wird

häufig weggelassen und durch

zusätzliche Knoten mit

konstanter Aktivierung von 1

ersetzt:

1 1( )k kx h

2 2( )k kx h

Index k Index i

[1.. 1]k

k k nh

i i i i

k k kh θ x

2 2 1 2

0k k kh θ x

1 1 0 1

0k k kh θ x

Maschin

Feed-Forward-Netze

Forward Propagation pro Ebene

in Vektornotation:

1 1( )k kx h

2 2( )k kx h

Index k Index i

1i i ih θ x

2 2 1 2

0k k kh θ x

1 1 0 1

0k k kh θ x

Maschin

Feed-Forward-Netze

Training durch Gradientenabstieg,

häufig stochastic Gradient

Fehlerfunktion:

Gradientenabstieg:

Stochastischer Gradient, Bsp. x

21( ) ( )

m j jjE

m θ y x

( )' ( ) '

θθ θ θ θ

212( )

y xθ θ

1 1( )k kx h

2 2( )k kx h

2 2 1 2

0k k kh θ x

1 1 0 1

0k k kh θ x

Maschin

Feed-Forward-Netze: Back Propagation

Stochastischer Gradient, Bsp. x

Für Gewichte der obersten Ebene:

212( )

y xθ θ

k k ky

2 21 12 2

( ) ( )

( '( )

k k k k

θ x θ x θ x

θ x θ x

dx dy x

Maschin

Feed-Forward-Netze: Back Propagation

Für Gewichte der Ebene i:

2 21 12 2

( ) ( )d d

k k k k

y x y x h

1 12112

( ,..., )( )

( ,..., )

i i ill k k

l lk kl

k l lk

i idnk k

x xy x

dx dy x

...1ix

1ix 1i

pagation

Back P

ropagatio

Maschin

Aktivierungsfunktion

Jede differenzierbare, sigmoide Funktion ist

möglich

Beispiel:

'( ) ( )(1 ( ))h h h

Maschin

Back Propagation: Algorithmus

Iteriere über alle Trainingsbeispiele (x, y):

Forward Propagation: Für i=0…d:

Für k=1…ni:

Back Propagation:

Für k=1…ni:

Für i=d-1…1:

• Für k=1…ni:

Bis zur Konvergenz

i i i i

k k kh θ x

( )i ix h

'( )( )d d d

k k k kh y x

1 1'( )i i i i

k k l lklh

k xθ θ

Maschin

Back Propagation

Fehlerfunktion ist nicht konvex

Jede Permutation von Gewichten der inneren Knoten

eines Minimums ergibt wieder ein Minimum

Gelernte Merkmale (Gewichte der inneren Knoten)

können ok aber nicht optimal sein

Hoffnung:

Lokale Optima können trotzdem beliebig gut sein

Bessere Lösung mit mehr Daten

Realität:

Back Propagation funktioniert nur für wenige (1,

maximal 2) verdeckte Ebenen

Training tiefer Netze endet in lokalem Optimum

Maschin

Regularisierung

L2-regularisierte Verlustfunktion

Entspricht normalverteiltem Prior auf Parametern

Regularisierter Gradient:

Update:

Wird auch als Weight Decay bezeichnet.

Weitere Formen von Regularisierung verbreitet

Early Stopping (nicht mehr Stand der Technik):

Training vor Konvergenz abbrechen

Units mit geringen Gewichten rauswerfen

Dropout: Units beim Training zufällig ausblenden

Länge der propagierten Vektoren normalisieren

2( ) ( )d

m j jm jE

θ y x θ θ

1( )i i

jmE δ xθ θ

' j δ xθ θ θ

Maschin

Regularisierung: Dropout

In komplexen Netzen bilden sich durch Co-

Adaption von Knoten zu komplexe Mechanismen

Nicht robust für neue Testdaten

Dropout: In jedem Trainingsschritt wird ein Anteil

(Hyperparameter) der Units ausgeblendet

Bei der Anwendung des trainierten Netzes werden

alle Units verwendet.

Verbessert Robustheit: Jeder Knoten muss in

unterschiedlichen Kombinationen von anderen

Knoten zum Ergebnis beitragen

Maschin

Regularisierung: Stochastic Binary Units

Ein stochastisch-binärer Knoten berechnet

Aktivierung

Und propagiert mit einer Wahrscheinlichkeit von

einen Wert von 1

Ungefähr äquivalent dazu, mit einer festen

Wahrscheinlichkeit einen Wert von zu schicken

Mögliche Implementierung von Dropout

Biologische Neuronen scheinen sich so zu

verhalten.

( )i i

k kx h

Maschin

Back Propagation: Tricks

Cross-Entropy als Verlust für Klassifikation

Stochastic Gradient auf kleinen Batches

Trainingsdaten zufällig mischen

Lernrate über den Verlauf der Optimierung hinweg

sinken lassen

Gewichte zufällig initialisieren (Nullpunkt kann

Sattelpunkt sein)

Gewichte durch unsupervised Pre-Training

initialisieren

Maschin

Restricted Boltzmann Machine

Unüberwachtes Lernen

Eingabeebene und eine Ebene verdeckter Knoten

Binäre stochastische Knoten, Bias-Unit pro Ebene

- log P(Aktivierung) ~ Energiefunktion

Energiefunktion:

1x ... 0

1x ... 1

1 1 0 0 1

0 1 1 0 T 1

T1 1 0 100 0 0 0

1 1 0 1

( , ) ( )

n n n n n

x x θ x x

Bias-Units

=0 (Bias-Units

nicht verbunden)

Maschin

Energiefunktion:

P(Aktivierung) ~ Energiefunktion

Z ist Normalisierungsfaktor

1x ... 0

1x ... 1

0 1 1 0 T 1( , ) ( )E x x θ x x

Bias-Units

0 10 1 ( , )1( , ) E

ZP e x x

x x0 1

0 ( , )1( ) E

ZP e x x

0 10 1

( , )1

( , )( | )

x xx x

Maschin

Lernen: Maximiere log-Wahrscheinlichkeit der

Eingabevektoren.

Gradient:

Energiegradient:

1x ... 0

1x ... 1

Energiegradient für beobachtete Eingabe

0arg max log ( )Pθ

0 11 0

log ( )

( , )( | )

( , )( , )

x xx x

Marginaler Energiegradient

0 1 1 0 T 10 1

( , ) ( )

x x θ x x

Maschin

RBM: Sampling von Zuständen

RBM generiert Zustände wie Bayessches Netz

MCMC: Iteriere über alle Knoten, abwechselnd

einen Eingaben und verdeckten Knoten

Ziehe Aktivierung des Knotens gegeben Aktivierung

der Nachbarn

Nach Burn-In-Phase ergibt die Markov-Kette eine

Stichprobe aus der vom Netz modellierten

Verteilung

Maschin

Restricted Boltzmann Machine: Lernen

Gradient:

Gewichtungs-Update:

1 0 11 1 1

0 0 1 0 11 0 1 0

log ( ) ( , ) ( , )( | ) ( | )

ji ji ji

p E Ep p

x x x x xx x x x

0 1 1 0 T 10 1

( , ) ( )

x x θ x x

0 1 0 11 1' )(ji ji i j jx h x h

Beobachtete Eingabe

In einem MCMC-Schritt

generierter Eingabevektor

Maschin

Unsupervised Feature Learning

Auto Encoder: Lerne Identitätsfunktion

Von m Eingabeknoten über n1 verdeckten Knoten

nach m Ausgabeknoten mit n1 << m.

Idee: verdeckte Knoten lernen Repräsentation, aus

denen sich die Daten rekonstruieren lassen.

1x ... 0

Maschin

Auto Encoder

Komprimierte Repräsentation der Daten auf der

verdeckten Ebene

Training mit RBM oder Backprop

1x ... 0

Maschin

Auto Encoder mit Back Propagation

Zusätzliche Regularisierung: verdeckte Knoten

sollen sparse sein, meistens Aktivierung 0 haben.

Regularisierungsparameter

Regularisierungsterm

Backprop-Updateregel

1x ... 0

1|| ) log (1 ) log

2 2 3 3

1k k l lkl

Maschin

Auto Encoder

Beispiel: Binäre Eingabevektoren mit einer 1.

Ausgabe

Verdeckt

Eingabe

Verdeckte Ebene lernt Binärcode

Code-Wörter können aber

beliebig permutiert sein

1x ... 0

0000 0010 0100 1000

00 01 10 11

0000 0010 0100 1000

Maschin

Auto Encoder

Beispiel: Handgeschriebene Ziffern

Verdeckte Ebene lernt Muster,

aus denen Ziffern bestehen

1x ... 0

Maschin

Convolution / Faltung

Multiplikation eines Filters mit dem Ausschnitt einer

Eingabe: Intensität des Filtersignals an dieser Stelle

Jedes neue Pixel ist Ergebnis einer Konvolution.

Verarbeitung von Bildern, Audiosignalen

Z.B. Detektion von Kanten, bestimmten Frequenzen,

Muster, Gesichtern

ij i k j l kl

k n l n

Maschin

Convolution / Faltung

Verschiedene Detektoren pro Position

Z.B. Kanten verschiedener Orientierungen

Unterschiedlich skalierte Detektoren

ergeben ein Array von Feature Maps

Maschin

Convolutional Networks

Mustererkennung: Objekterkennung,

Spracherkennung, Photo Tagger

Detektoren erzeugen Merkmale aus Bereich der

Eingabe

Detektoren mit denselben Gewichten werden auf

unterschiedliche Bereiche angewendet, ergibt ein

Feld von Werten eines Merkmals

Z.B. Kantendekektor für Kanten eines bestimmten

Winkels wird auf gesamtes Bild angewendet, ergibt

Kantenbild

Auch „Local Receptive Field“ genannt

Maschin

Knoten mit gekoppelten Gewichten (identische

Funktion) werden auf überlappende Bereiche der

Eingabe angewandt.

0 0 0 0 0

1 2 3 4 5( , , , , )x x x x x

Gleiche Gewichte

Maschin

Knoten mit gekoppelten Gewichten (identische

Funktion) werden auf überlappende Bereiche der

Eingabe angewandt.

Parallel angeordnete Layer mit unterschiedlichen

Filtern

0 0 0 0 0

1 2 3 4 5( , , , , )x x x x x

Maschin

Für Bildverarbeitung: Pro Filter ergibt sich ein Array

von Knoten mit gekoppelten Gewichten

Maschin

Beispiel: Kantendetektoren für 8 Richtungen x 5

Skalierungen (Fenstergrößen)

Maschin

Convolutional Stacked Auto Encoder

Schrittweise Transformation in abstraktere visuelle

Merkmale

Ebenenweises

Training mit RBF

oder Backprop

0 0 0 0 0

1 2 3 4 5( , , , , )x x x x x

Maschin

Schrittweise Transformation in abstraktere visuelle

Merkmale

Ebenenweises

Training mit RBF

oder Backprop

0 0 0 0 0

1 2 3 4 5( , , , , )x x x x x

Maschin

MaxPooling-Layer:

Teile jedes Filter-Array in nicht-überlappende

Bereiche

Liefere für jeden Bereich das Maximum zurück

Feature Neuronen

Aggregiertes Feature

Maschin

Convolution

Pooling

Convolution

Pooling

Convolution

Pooling

Diskriminative Ebene: gleiche

Person oder nicht?

Training der diskriminativen Ebene

mit gelabelten Daten und Backprop

Maschin

Tiefe Autoencoder: Beispiel

2D-Visualisierung eines Korpus von Dokumenten

TF-Vektor wird auf 500 Dimensionen 250

Dimensionen 2 Dimensionen abgebildet

Worthäufigkeiten von vielen Wörtern

1θ ...500 Einheiten

...2θ

250 Einheiten

2 Einheiten

Maschin

Google Brain

Tiefer Auto Encoder

3 Ebenen

Convolutional Layer (local receptive field)

Pooling

Local contrast

normalization

Lokale

Features

Pooling

Stage 1

Stage 2

Stage 3

Eingabe

Maschin

Google Brain: Training

Unüberwachtes Lernen

10 Millionen zufällig ausgewählte YouTube-Frames

Ca. 1 Mrd Parameter,

1 Tag Training mit

stochastic gradient

descent auf Cluster von

1000 Rechnern

Maschin

Google Brain: Analyse

Netzwerk hat Neuronen entwickelt, die spezifische

Objekte in Videos erkennen

Gesichter, Katzen, Autos, …

Analyse des optimalen Stimulus für Neuronen der

obersten Ebene, z.B. Gesichts-Neuron

Top Stimuli in Testdaten Optimaler Stimulus

Maschin

GPU-Training

Grafikkarten eignen sich zur Parallelisierung des

Trainings neuronaler Netze

Matrixmultiplikation, Faltungen, elementweise

Operationen

GPU-Software

CUDA: NVIDIA C-API

OPENCL: nicht NVIDIA-spezifisch

PyCUDA: Python-API

PyOPENCL: nicht NVIDIA-spezifisch

Neuronale Netze, Deep Learning - uni-potsdam.de€¦ · Neuronale Netze sind genaueste bekannte...

Documents

6. Neuronale Netze - swl.htwsaar.de · 3 Neuronale Netze § Künstliche neuronale Netze (artificialneuralnetworks) werden seit den 1940ern als Modell zur Darstellung mathematischer

Einfuhrung in neuronale Netze - neurorobotik.de · MotivationDas NeuronAufbau des NetzesNeuronale Netze in AktionBackpropagationBsp. MustererkennungQuellen Reproduktion es werden

KAPITEL 1 Wie neuronale Netze arbeiten - dpunkt.verlag · 2020. 8. 31. · Tariq Rashid, Neuronale Netze selbst programmieren, O’Reilly, ISBN 978-3-96009-043-4 8 | Kapitel 1: Wie

: Neuronale Netze - eine Einführung · PDF fileAbbildung 3: Schematische Darstellung eines neuronalen Netzes Grundlagen/Units Units Neuronale Netze bestehen aus mehreren Neuronen

Künstliche Neuronale Netze

Einfuhrung¨ in Neuronale Netze - Universität Ulm · Einfuhrung¨ in Neuronale Netze Thomas Ruland Contents 1 Das menschliche Gehirn - H¨ochstleistungen im t¨aglichen Leben 2 2

Neuronale Netze und ihre Bedeutung in der Cognitive … · Gliederung 1. Einleitung 2. Das Konzept der natürlicher neuronaler Netze 2.1. Aufbau der natürlicher neuronaler Netze

Neuronale Netze in der modernen Spracherkennungdnt.kr.hsnr.de/ASR17/neuralnets_gref.pdf · Neuronale Netze in der modernen Spracherkennung Michael Gref 7. Februar 2018 Michael Gref

Neuronale Netze - Wettbewerbslernen Folie 1 Wissensextraktion mittels künstlicher neuronaler Netze Wettbewerbslernen Uwe Lämmel Wismar Business School

Neuronale Netze - Neuronale Netze Anna Wallner Motivation Informationsverarbeitung im Gehirn: Interaktion von stark vernetzten Neuronen über elektrische Impulse · 2007-8-7

Kapitel 7 Neuronale Netze zur Datenklassiﬁkationkolanosk/smd_ss02/skripte/nn.pdf · 80 KAPITEL 7. NEURONALE NETZE ZUR DATENKLASSIFIKATION Abbildung 7.1: Hit-Muster, die von Teilchenspuren

Klassifizierungsverfahren und neuronale Netze - KITekptkuhr/HauptseminarWS1112/Keck_handout.pdf · Klassifizierungsverfahren und neuronale Netze – Thomas Keck 1.2 Der Klassifikator

2.4. Neuronale Netze: Modellierung von Lernen und ...Neuronale Netze:... Page 99 of 151 Modellbildung und Simulation 2. Diskrete Modellierung und Simulation Hans-Joachim Bungartz 2.4.2

Neuronale Netze - techfak.uni-bielefeld.de

Maschinelles Lernen: Neuronale Netze · Maschinelles Lernen: Neuronale Netze Ideen der Informatik Kurt Mehlhorn 16. Januar 2014, überarbeitet am 20. Januar 2017

9. Vorlesung Neuronale Netze - uni-saarland.de · SC WS 17/18 Georg Frey236 Vorbemerkungen • Neuronale Netze können beliebige nichtlineare Zusammenhänge

Neuronale Netze Optionspreistheorie Und Risikobewertung

Neuronale Netze Von Kay-Patrick Wittbold. BESTANDTEILE

Neuronale Netze zur Diagnose und Tilgung von ... · Lehrstuhlfur˜ ElektrischeAntriebssysteme TechnischeUniversit˜at M˜unc hen Neuronale Netze zur Diagnose und Tilgung von Drehmomentschwingungen

Theorie neuronaler Netze - Uni Ulm Aktuelles · Computer vs. Neuronale Netze Computer Neuronale Netze kaum fehlertolerant fehlertolerant, robust gegenub er verrauschtenDaten Totalausfall