23
Reinforcement Learning in der Modellfahrzeugnavigation von von Manuel Trittel Informatik HAW Hamburg Vortrag im Rahmen der Veranstaltung AW2 im Masterstudiengang, 02.07.2009

Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

  • Upload
    others

  • View
    3

  • Download
    0

Embed Size (px)

Citation preview

Page 1: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Reinforcement Learning in der Modellfahrzeugnavigation

vonvon

Manuel Trittel

Informatik

HAW Hamburg

Vortrag im Rahmen der Veranstaltung AW2 im Masterstudiengang, 02.07.2009

Page 2: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Einführung

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA

Einführung• Thema• Problemstellung

Relevante Reinforcement Learning Verfahren • Dynamische Programmierung• Temporal Difference Learning• Generalisierung und Funktionsapproximation • Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

• Generalisierung und Funktionsapproximation

Anwendungsfälle der Verfahren

Praktische Herausforderungen• Beschleunigung der Lernverfahren• Diskretisierung kont. Zustands- und Aktionsräume

Zusammenfassung

Bedeutung für eigene Arbeitsziele

Page 3: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Thema

Reinforcement Learningin der Modellfahrzeugnavigation

Konkreter Anwendungsfall:

Einführung

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAKonkreter Anwendungsfall:

Ø Geschwindigkeitsregelung

Ø Geschwindigkeitsmaximierung= Zeitminimierung

Ø Einhaltung einer maximalen Zentripetalkraft

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 4: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Einführung

ProblemstellungGliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 5: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Relevante Reinforcement Learning Verfahren

Ø Dynamische Programmierung

Ø Temporal Difference Learning

Ø Generalisierung und Funktionsapproximation

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 6: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Relevante Reinforcement Learning Verfahren

Dynamische Programmierung

Ø aus den 1950er Jahren von Richard E. Bellman

Ø basiert auf vollständigem Markov Modell

Ø Bestimmung einer optimalen Zustandstrajektorie durchØ value iterationØ policy iteration

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ policy iteration

-7 -6 -5 -6 -7

0 -5 -4 -5 -6

-1 -2 -3 -8 -7

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

))'(),((max)(1

sVasRsV kak −⋅+= γ

Page 7: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Relevante Reinforcement Learning Verfahren

Temporal Difference Learning (TD Learning)

Ø schrittweise Update der value function

Ø Zustandswert wird beim Verlassen geupdated:

))(),(()()1()( 11 ++ ⋅++⋅−= tktktk sVasRsVsV γηη

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA

Ø ∆V(st) wird als temporal difference bezeichnet

Ø prinzipiell analog mit der Q-Funktion

Ø mit π als estimation policy

),()','(),( asQasQasRtdππγ −⋅+=

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Vk

R+Vk

Page 8: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Relevante Reinforcement Learning Verfahren

Temporal Difference Learning (TD Learning)

Ø Strategien…Ø zur praktischen AnwendungØ zum Erlernen der Q-Funktion

Ø eine Strategie für beides Nutzen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ eine Strategie für beides NutzenØ on-policy Verfahren (SARSA)

Ø jeweils eine unabhängige StrategieØ off-policy Verfahren (Q-learning)

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 9: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Relevante Reinforcement Learning Verfahren

Generalisierung und Funktionsapproximation

Ø Problem: Sehr große Zustands- u. AktionsräumeØ zu wenig SpeicherplatzØ zu wenig RechenzeitØ zu viel Zeit zum Lernen benötigt

Ø Funktionsapproximation nach [Sutton u. Barto]:Ø Gradienten-Abstiegs-Methoden

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ Gradienten-Abstiegs-MethodenØ lineare Methoden

Ø Grob- u. TeilkodierungØ Kubische SplinesØ Radiale Basisfunktionen

Ø nicht lineare MethodenØ MustererkennungØ neuronale NetzeØ Regressionsmethoden

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 10: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhal - Gliederung

Anwendungsfälle aus [Kaelbling u.a.]

Devilsticking robotDP

Anwendungsfälle

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA

Ø Boxpushing robots [Mahadevan](Q-learning)

Ø Fahrstuhlsteuerung [Crites u. Barto](Q-learning, MLP)

Backgammon [Tesauro] 2-gliedriges Pendel [Coulom]MLP mit TD(λ) TD(λ) mit MLP / Gauss network

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 11: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhal - Gliederung

Prothese (Bein/Hüfte/Knie) aus [Thrasher]SL + RL [Williams] Reinforce Algorithmus

Anwendungsfälle

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 12: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Ø Beschleunigung der LernverfahrenØ Vorwissen über die SystemumgebungØ Eligibility TracesØ Hybride AnsätzeØ Exploration vs Exploitation

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ Diskretisierung von Zustands- und Aktionsräumen

Ø Konferenzen, Symposia, WorkshopsØ National conference on Artificial Intelligence (24th in 2010)Ø Florida Artificial Intelligence Research Society (23th in 2010)

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 13: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Beschleunigung der Lernverfahren

v Vorwissen über die Systemumgebung

Ø vorprogrammierte, menschliche VorkenntnisseØ geringerer Grad der Autonomie

Beispiele aus [Kaelbling u.a.]:

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FABeispiele aus [Kaelbling u.a.]:Ø Erwartung bestimmter Funktionsverläufe (Approx.)Ø Passende, manuelle Diskretisierung des ZustandsraumsØ Vorkenntnisse über den ZustandsraumØ Erfahrungen aus Statistiken

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 14: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Beschleunigung der Lernverfahren

v Eligibility Traces (e-traces)

Ø Erweiterung für TD VerfahrenØ Schnellere Erkundung des Zustandsraums durchØ Berücksichtigung von „Delayed Rewards“ undØ Einbeziehung der zuletzt besuchten Zustände

Praktische Herausforderungen

{ ssfallssese

≠⋅⋅= ),()(

γλ

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA{ tt ssfalls

sonst

se

t se≠⋅⋅

+ = ),(

,11)(

γλ

1/4 1/2 1

1/32 1/16 1/8

Beispiel mitλ = 0,5 u. γ = 1

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 15: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Beschleunigung der Lernverfahren

v Hybride Ansätze

Ø Häufig zur Gewinnung von VorwissenØ Hart kodierte, menschliche Vorkenntnisse (s.o.)

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ In [Thrasher u.a.]:

Ø Kombination mit Supervised LearningØ Gelerntes auf ähnliche Anwendungsfälle anwenden

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 16: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Beschleunigung der Lernverfahren

v Exploration vs Exploitation

Ø Methoden mit zufälliger AktionsauswahlØ ε-Greedy SucheØ Boltzmann ExplorationØ Simulated Annealing

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ Simulated Annealing

Ø Im Rahmen von SIRL* [Chen u. Dong]Ø Reinforcement Learning und Explorationen aufGrundlage von Quanten Charakteristiken

* SIRL: superposition-inspired reinforcement learning

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 17: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Diskretisierung von Zustands- und Aktionsräumen

Ø kontinuierliche Zustandsräume (z.B Winkel) oderAktionsräume (z.B. Kräfte) praktisch unendlich groß

Ø Nutzung der üblichen Methoden durch Diskretisierungen

Gitteransatz von [Coulom] Gitteransatz fein/grob

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 18: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Diskretisierung von Zustands- und Aktionsräumen

Mehrgitterverfahren Dreiecksverfahren

Praktische Herausforderungen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 19: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Zusammenfassung

Ø unzählige, verschiedenartige Anwendungsfälle

Ø in abgewandelten/erweiterten Formen

Ø spezifische Finessen

Ø Beschleunigung meist notwendig für praktikables Lernen

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FA

Ø vielfältige Approximationsverfahren

Ø grundlegende Vorgehensweise konkretisiert

Ø ähnliche Anwendungsfälle als Anreize, Ideen

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 20: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Inhalt - Gliederung

Ø keine aufwendigen Diskretisierungen erforderlich, aber

Ø Approximationen z.B. für Sollgeschwindigkeiten möglichØ Kubische Splines ?Ø Radiale Basisfunktionen ?

Ø träges Beschleunigungsverhalten → Einfluss der VorzuständeØ TD Verfahren bieten sich an

Bedeutung für eigene Arbeitsziele

Gliederung

Einführung

• Thema

• Problemstellung

Verfahren

• Dyn. Programmierung

• TD Learning

• Generalisierung u. FAØ TD Verfahren bieten sich anØ Nutzung von e-traces

Ø Exploration zeitunkritisch und unabhängig von Exploitation

Ø Vorwissen für schnellere Exploration nutzbar

Ø irgendwann Selbstlokalisierung notwendig (Odometriefehler)

Ø Reinforcement Learning Toolbox [Neumann]

• Generalisierung u. FA

Anwendungsfälle

Herausforderungen

• Beschleunigung

• Diskretisierung

Zusammenfassung

Bedeutung f. AZ

Page 21: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Literaturverzeichnis

[Chen und Dong]CHEN, Chun-Lin ; DONG, Dao-Yi: Superposition-Inspired ReinforcementLearning and Quantum Reinforcement Learning. In: Reinforcement Learning: Theoryand Applications. Wien, Österreich : I-Tech Education and Publishing, 2008, S. 59–84. – ISBN 978-3-902613-14-1

[Coulom]COULOM, M. R.: Apprentissage par renforcement utilisant des réseaux de neurones, avec des applications au contrôle moteur, Nationales Institut für PolytechnikGrenoble, Doktorarbeit, 2002

[Crites u. Barto]CRITES, R.H.; BARTO, A.G.; Improving elevator performance using reinforcement learning. In Touretzky, D., Mozer, M., Hasselmo, M. (Eds.); Neural Information Processing Systems 8

[Kaelbling u.a.]KAELBLING, Leslie P.; LITTMAN, Michael L.; MOORE, Andrew W.: Reinforcement Learning: A Survey. In: Journal of Artificial Intelligence Research (JAIR). 4 (1996), S. 237-285

[Mahadevan]MAHADEVAN, S.; CONNELL, J.; Automatic Programming of behavior-based robots usingreinforcement learning. In: Proceedings of Ninth National conference on ArtificialIntelligence, Anaheim, CA

Page 22: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Literaturverzeichnis

[Neumann]NEUMANN, Gerhard: The Reinforcement Learning Toolbox, ReinforcementLearning for Optimal Control Tasks, University of Technology Graz, Diplomarbeit, 2005

[Sutton und Barto]SUTTON, Richard S. ; BARTO, Andrew G.: Reinforcement Learning- An Introduction. Cambridge : MIT Press, 1998. – ISBN 978-0262193986

[Tesauro]TESAURO, Gerald; Practical issues in temporal difference learning. Machine Learning, 8, TESAURO, Gerald; Practical issues in temporal difference learning. Machine Learning, 8, 1992, S. 257-277TESAURO, Gerald; Temporal difference learning and TD-Gammon. Communications ofthe ACM, 38(3), 1995, S. 58-67

[Thrasher u.a.]THRASHER, Adam; ANDREWS, Brian; WANG, Feng: Control of FES using Reinforcement Learning: Accelerating the learning rate. In: Proceedings – 19th International Conference – IEEE/EMBS. Chicago, IL., USA : IEEE Computer Society, 1997, S. 1774-1776. – ISBN 0-7803-4262-3

[Williams]WILLIAMS, R.J.; Simple statistical gradient-following algorithms for connectionistreinforcement learning, Machine Learning, 8, 1992, S. 229-256

Page 23: Reinforcement Learning in der Modellfahrzeugnavigationubicomp/projekte/master2009... · Reinforcement Learning in der Modellfahrzeugnavigation von Manuel Trittel Informatik HAW Hamburg

Vielen Dank für die Aufmerksamkeit!Vielen Dank für die Aufmerksamkeit!

Fragen?