Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... ·...

Reinforcement Learning in der Modellfahrzeugnavigation

vonvon

Manuel Trittel

Informatik

HAW Hamburg

Vortrag im Rahmen der Veranstaltung AW2 im Masterstudiengang, 02.07.2009

Einführung

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA

Einführung• Thema• Problemstellung

Relevante Reinforcement Learning Verfahren • Dynamische Programmierung• Temporal Difference Learning• Generalisierung und Funktionsapproximation • Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

• Generalisierung und Funktionsapproximation

Anwendungsfälle der Verfahren

Praktische Herausforderungen• Beschleunigung der Lernverfahren• Diskretisierung kont. Zustands- und Aktionsräume

Zusammenfassung

Bedeutung für eigene Arbeitsziele

Reinforcement Learningin der Modellfahrzeugnavigation

Konkreter Anwendungsfall:

Einführung

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAKonkreter Anwendungsfall:

Ø Geschwindigkeitsregelung

Ø Geschwindigkeitsmaximierung= Zeitminimierung

Ø Einhaltung einer maximalen Zentripetalkraft

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Einführung

ProblemstellungGliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FA• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Relevante Reinforcement Learning Verfahren

Ø Dynamische Programmierung

Ø Temporal Difference Learning

Ø Generalisierung und Funktionsapproximation

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Dynamische Programmierung

Ø aus den 1950er Jahren von Richard E. Bellman

Ø basiert auf vollständigem Markov Modell

Ø Bestimmung einer optimalen Zustandstrajektorie durchØ value iterationØ policy iteration

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ policy iteration

-7 -6 -5 -6 -7

0 -5 -4 -5 -6

-1 -2 -3 -8 -7

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

))'(),((max)(1

sVasRsV kak −⋅+= γ

Temporal Difference Learning (TD Learning)

Ø schrittweise Update der value function

Ø Zustandswert wird beim Verlassen geupdated:

))(),(()()1()( 11 ++ ⋅++⋅−= tktktk sVasRsVsV γηη

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Ø ∆V(st) wird als temporal difference bezeichnet

Ø prinzipiell analog mit der Q-Funktion

Ø mit π als estimation policy

),()','(),( asQasQasRtdππγ −⋅+=

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Temporal Difference Learning (TD Learning)

Ø Strategien…Ø zur praktischen AnwendungØ zum Erlernen der Q-Funktion

Ø eine Strategie für beides Nutzen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ eine Strategie für beides NutzenØ on-policy Verfahren (SARSA)

Ø jeweils eine unabhängige StrategieØ off-policy Verfahren (Q-learning)

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Generalisierung und Funktionsapproximation

Ø Problem: Sehr große Zustands- u. AktionsräumeØ zu wenig SpeicherplatzØ zu wenig RechenzeitØ zu viel Zeit zum Lernen benötigt

Ø Funktionsapproximation nach [Sutton u. Barto]:Ø Gradienten-Abstiegs-Methoden

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ Gradienten-Abstiegs-MethodenØ lineare Methoden

Ø Grob- u. TeilkodierungØ Kubische SplinesØ Radiale Basisfunktionen

Ø nicht lineare MethodenØ MustererkennungØ neuronale NetzeØ Regressionsmethoden

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhal - Gliederung

Anwendungsfälle aus [Kaelbling u.a.]

Devilsticking robotDP

Anwendungsfälle

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Ø Boxpushing robots [Mahadevan](Q-learning)

Ø Fahrstuhlsteuerung [Crites u. Barto](Q-learning, MLP)

Backgammon [Tesauro] 2-gliedriges Pendel [Coulom]MLP mit TD(λ) TD(λ) mit MLP / Gauss network

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhal - Gliederung

Prothese (Bein/Hüfte/Knie) aus [Thrasher]SL + RL [Williams] Reinforce Algorithmus

Anwendungsfälle

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

Ø Beschleunigung der LernverfahrenØ Vorwissen über die SystemumgebungØ Eligibility TracesØ Hybride AnsätzeØ Exploration vs Exploitation

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ Diskretisierung von Zustands- und Aktionsräumen

Ø Konferenzen, Symposia, WorkshopsØ National conference on Artificial Intelligence (24th in 2010)Ø Florida Artificial Intelligence Research Society (23th in 2010)

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

Beschleunigung der Lernverfahren

v Vorwissen über die Systemumgebung

Ø vorprogrammierte, menschliche VorkenntnisseØ geringerer Grad der Autonomie

Beispiele aus [Kaelbling u.a.]:

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FABeispiele aus [Kaelbling u.a.]:Ø Erwartung bestimmter Funktionsverläufe (Approx.)Ø Passende, manuelle Diskretisierung des ZustandsraumsØ Vorkenntnisse über den ZustandsraumØ Erfahrungen aus Statistiken

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

v Eligibility Traces (e-traces)

Ø Erweiterung für TD VerfahrenØ Schnellere Erkundung des Zustandsraums durchØ Berücksichtigung von „Delayed Rewards“ undØ Einbeziehung der zuletzt besuchten Zustände

{ ssfallssese

≠⋅⋅= ),()(

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FA{ tt ssfalls

t se≠⋅⋅

+ = ),(

1/4 1/2 1

1/32 1/16 1/8

Beispiel mitλ = 0,5 u. γ = 1

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

v Hybride Ansätze

Ø Häufig zur Gewinnung von VorwissenØ Hart kodierte, menschliche Vorkenntnisse (s.o.)

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ In [Thrasher u.a.]:

Ø Kombination mit Supervised LearningØ Gelerntes auf ähnliche Anwendungsfälle anwenden

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

v Exploration vs Exploitation

Ø Methoden mit zufälliger AktionsauswahlØ ε-Greedy SucheØ Boltzmann ExplorationØ Simulated Annealing

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ Simulated Annealing

Ø Im Rahmen von SIRL* [Chen u. Dong]Ø Reinforcement Learning und Explorationen aufGrundlage von Quanten Charakteristiken

* SIRL: superposition-inspired reinforcement learning

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

Diskretisierung von Zustands- und Aktionsräumen

Ø kontinuierliche Zustandsräume (z.B Winkel) oderAktionsräume (z.B. Kräfte) praktisch unendlich groß

Ø Nutzung der üblichen Methoden durch Diskretisierungen

Gitteransatz von [Coulom] Gitteransatz fein/grob

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

Diskretisierung von Zustands- und Aktionsräumen

Mehrgitterverfahren Dreiecksverfahren

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Zusammenfassung

Ø unzählige, verschiedenartige Anwendungsfälle

Ø in abgewandelten/erweiterten Formen

Ø spezifische Finessen

Ø Beschleunigung meist notwendig für praktikables Lernen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

Ø vielfältige Approximationsverfahren

Ø grundlegende Vorgehensweise konkretisiert

Ø ähnliche Anwendungsfälle als Anreize, Ideen

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Inhalt - Gliederung

Ø keine aufwendigen Diskretisierungen erforderlich, aber

Ø Approximationen z.B. für Sollgeschwindigkeiten möglichØ Kubische Splines ?Ø Radiale Basisfunktionen ?

Ø träges Beschleunigungsverhalten → Einfluss der VorzuständeØ TD Verfahren bieten sich an

Bedeutung für eigene Arbeitsziele

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• TD Learning

• Generalisierung u. FAØ TD Verfahren bieten sich anØ Nutzung von e-traces

Ø Exploration zeitunkritisch und unabhängig von Exploitation

Ø Vorwissen für schnellere Exploration nutzbar

Ø irgendwann Selbstlokalisierung notwendig (Odometriefehler)

Ø Reinforcement Learning Toolbox [Neumann]

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Literaturverzeichnis

[Chen und Dong]CHEN, Chun-Lin ; DONG, Dao-Yi: Superposition-Inspired ReinforcementLearning and Quantum Reinforcement Learning. In: Reinforcement Learning: Theoryand Applications. Wien, Österreich : I-Tech Education and Publishing, 2008, S. 59–84. – ISBN 978-3-902613-14-1

[Coulom]COULOM, M. R.: Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur, Nationales Institut für PolytechnikGrenoble, Doktorarbeit, 2002

[Crites u. Barto]CRITES, R.H.; BARTO, A.G.; Improving elevator performance using reinforcement learning. In Touretzky, D., Mozer, M., Hasselmo, M. (Eds.); Neural Information Processing Systems 8

[Kaelbling u.a.]KAELBLING, Leslie P.; LITTMAN, Michael L.; MOORE, Andrew W.: Reinforcement Learning: A Survey. In: Journal of Artificial Intelligence Research (JAIR). 4 (1996), S. 237-285

[Mahadevan]MAHADEVAN, S.; CONNELL, J.; Automatic Programming of behavior-based robots usingreinforcement learning. In: Proceedings of Ninth National conference on ArtificialIntelligence, Anaheim, CA

Literaturverzeichnis

[Neumann]NEUMANN, Gerhard: The Reinforcement Learning Toolbox, ReinforcementLearning for Optimal Control Tasks, University of Technology Graz, Diplomarbeit, 2005

[Sutton und Barto]SUTTON, Richard S. ; BARTO, Andrew G.: Reinforcement Learning- An Introduction. Cambridge : MIT Press, 1998. – ISBN 978-0262193986

[Tesauro]TESAURO, Gerald; Practical issues in temporal difference learning. Machine Learning, 8, TESAURO, Gerald; Practical issues in temporal difference learning. Machine Learning, 8, 1992, S. 257-277TESAURO, Gerald; Temporal difference learning and TD-Gammon. Communications ofthe ACM, 38(3), 1995, S. 58-67

[Thrasher u.a.]THRASHER, Adam; ANDREWS, Brian; WANG, Feng: Control of FES using Reinforcement Learning: Accelerating the learning rate. In: Proceedings – 19th International Conference – IEEE/EMBS. Chicago, IL., USA : IEEE Computer Society, 1997, S. 1774-1776. – ISBN 0-7803-4262-3

[Williams]WILLIAMS, R.J.; Simple statistical gradient-following algorithms for connectionistreinforcement learning, Machine Learning, 8, 1992, S. 229-256

Vielen Dank für die Aufmerksamkeit!Vielen Dank für die Aufmerksamkeit!

Fragen?

Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... ·...

Documents

GPR-Based Periodic Monitoring of Reinforcement Corrosion ... · GPR-Based Periodic Monitoring of Reinforcement Corrosion in Chloride-Contaminated Concrete Berlin 2015 vorgelegt von

On the reduction of shear reinforcement as derived from ...aquarius.ime.eb.br/~webde2/prof/ethomaz/moersch/t... · On the reduction of shear reinforcement as derived from the Stuttgart

Deep Reinforcement Learning of Volume-Guided …openaccess.thecvf.com/content_CVPR_2019/papers/Han_Deep...Deep Reinforcement Learning of Volume-guided Progressive View Inpainting for

Community Reinforcement Approach (CRA) - suchthilfe.de · Community Reinforcement Approach (CRA) Dr.med.Christiane Rasmus BUSS-Jahrestagung Berlin 2010. Konzept CRA ist ein umfassendes

Reinforcement Learning for tactile-based ﬁnger gaiting · 2017. 2. 9. · folding origami or repairing a watch. On the other side tasks requiring high forces can be done as well

Deep Reinforcement Learning for Crazyhouse · Deep Reinforcement Learning for Crazyhouse MasterthesisbyJohannesCzech Dateofsubmission:December30,2019 1.Review:Prof.Dr.KristianKersting

Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick

Learning a State Representation for a Game Agent’s ... · Agent’s Reactive Behaviour ... In reinforcement learning, an agent interacts with its environment by taking actions and

CRAFT: Community Reinforcement Ansatz und Familien · PDF fileCRAFT: Community Reinforcement Ansatz und Familien-Training Dr. Gallus Bischof Universität zu Lübeck Klinik für Psychiatrie

Durchmesser 18 63 - g-s.dk · ISO 15835-1, 2: 2009 Steels for the reinforcement of concrete - Reinforcement couplers for mechanical splices of bars Part-1: Requirements Part-2: Test

Reinforcement Learning 2 - Universität Potsdam · Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Sawade/Dick, Maschinelles

Deep Learning for Reinforcement Learning in Pacman · a feature representation of observations of Pacman game states is learned using a deep learning method. This feature representation

Reinforcement Learning in der Schachprogrammierung Marco Block... n x x x o oo x xx x o x oo d4c4 a5a6 30%50% 40%20%

Reinforcement Learning Lecture Model-Based Reinforcement ......2013/12/06 · Wolfgang Kohler (1917)¨ Intelligenzprufungen am¨ Menschenaffen The Mentality of Apes [movie] Goal-directed

Temporal Difference Learning - Universität Ulm · Temporal Difference Learning Das Temporal Difference (TD) Lernen ist eine bedeutende Entwicklung im Reinforcement Lernen. Im TD

Einführung in das Reinforcement Learning · 1 Abstract Diese schriftlichen Ausarbeitung zu meinem Seminar-Vortrag mit dem Thema “Einführung in das Reinforcement Learning” soll

PRAXISORIENTIERT STUDIEREN AN DER HAW … · HAW Hamburg Fakultät DMI Modecampus Armgartstraße HAW Hamburg Fakultät DMI Kunst- und Mediencampus Hamburg HAW Hamburg Fakultäten

Bar reinforcement plus Steel Fiber reinforced Concrete Design_Germany, Gossla

Entscheidungsunterstützungssysteme IWI Frankfurt 2004 Michael Schwind EUS-Übung Yield Management und Reinforcement- Learning

Reinforcement Learning 2 - cs.uni-potsdam.de · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Reinforcement Learning 2 Uwe Dick