K D 3D-K FÜR BILDBASIERTE GESTENERKENNUNG DIPLOMARBEIT · 1 Einleitung Mobile und humanoide Roboter sind derzeit Gegen-stand intensiver Forschung. Sie könnten in Zukunft zahlreiche

K INEMATIK UND DYNAMIK

EINES 3D-KÖRPERMODELLS

FÜR BILDBASIERTE GESTENERKENNUNG

DIPLOMARBEIT

vorgelegt von Jan Lümkemannan der Technischen Fakultät der Universität Bielefeld

K INEMATIK UND DYNAMIK

EINES 3D-KÖRPERMODELLS

FÜR BILDBASIERTE GESTENERKENNUNG

DIPLOMARBEIT

vorgelegt von Jan Lümkemannan der Technischen Fakultät der Universität Bielefeld

betreut von Prof. Dr.-Ing. Franz Kummert undDipl. Inform. Joachim Schmidt

23. November 2005

Hiermit versichere ich, Jan Lümkemann, geboren am 09.10.1979 in Bielefeld, die vor-liegende Arbeit selbstständig angefertigt und nur die angegebenen Quellen und Hilfs-mittel verwendet zu haben. Zitate sind als solche gekennzeichnet.

Bielefeld den 23. November 2005

Danksagung

Zu Beginn meiner Diplomarbeit möchte ich mich bei allen bedanken, die mich bei ihrerErstellung unterstützt haben. Zunächst bei Prof. Dr.-Ing. Franz Kummert und Dipl. In-form. Joachim Schmidt, die diese Arbeit betreut haben. Besonders Joachim Schmidt,der mir während meiner Arbeit jederzeit für Fragen und anregende Diskussionen zurVerfügung stand, hat wesentlich zum Gelingen beigetragen .Außerdem möchte ich mich bei Dr.-Ing. Jannik Fritsch bedanken, der mich schon wäh-rend meines Studiums unterstützte und mir immer wieder die Arbeit in interssantenProjekten ermöglichte.Bei der Suche nach Tippfehlern hat meine Mutter einen großen Beitrag geleistet.Danke auch dafür.

i

Inhaltsverzeichnis

1 Einleitung 11.1 Stand der Forschung . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Lösungsansätze und Zielsetzung . . . . . . . . . . . . . . . . . . . . 31.3 Gliederung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

2 Tracking-Framework 52.1 Körpermodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62.2 Cues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72.3 Condensation-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . 102.3.2 Anwendung im Tracking-Framework . . . . . . . . . . . . . 11

2.4 Meanshift-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . 112.5 Berechnung des Mean-Modells . . . . . . . . . . . . . . . . . . . . . 122.6 Herausforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

3 Bewegungsmodelle 153.1 Geschwindigkeitsschätzung mittels Mean-Modell . . . . . . . . . . . 15

3.1.1 Schätzung der Geschwindigkeit . . . . . . . . . . . . . . . . 163.1.2 Fehlerquellen . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2 Adaption des Condensation-Algorithmus . . . . . . . . . . . . . . . . 163.3 Lineares Bewegungsmodell . . . . . . . . . . . . . . . . . . . . . . . 19

3.3.1 Vorhersage des Mean-Modells . . . . . . . . . . . . . . . . . 203.3.2 Varianzskalierung . . . . . . . . . . . . . . . . . . . . . . . . 203.3.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213.3.4 Einschränkungen . . . . . . . . . . . . . . . . . . . . . . . . 21

3.4 Bewegungsmodell auf Basis der Handposition . . . . . . . . . . . . . 223.4.1 Inverse Kinematik des menschlichen Arms . . . . . . . . . . 233.4.2 Prädiktion des Mean-Modells und Varianzskalierung . . . . . 273.4.3 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.4.4 Einschränkungen . . . . . . . . . . . . . . . . . . . . . . . . 29

3.5 Bewegungsmodell mit Motion-Templates . . . . . . . . . . . . . . . 303.5.1 Motion-Templates für Zeigegesten . . . . . . . . . . . . . . . 303.5.2 Parametrisierung der Motion-Templates . . . . . . . . . . . . 323.5.3 Optimierung mittels Condensation-Algorithmus . . . . . . . . 343.5.4 Mean-Templates und Template-Wahrscheinlichkeiten . . . . . 383.5.5 Vorhersage des Mean-Modells und Varianzskalierung . . . . . 403.5.6 Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

ii

Inhaltsverzeichnis

4 Ergebnisse 434.1 Erzeugung von Ground-Truth . . . . . . . . . . . . . . . . . . . . . . 434.2 Fehlermaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.2.1 Winkelfehler . . . . . . . . . . . . . . . . . . . . . . . . . . 444.2.2 Handfehler . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.3 Evaluationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4 Integration der Bewegungsmodelle ins Tracking-Framework . . . . . 47

4.4.1 Bedeutung der Recovery-Komponente . . . . . . . . . . . . . 474.4.2 Bewegungsmodelle für unsichere Freiheitsgrade . . . . . . . 48

4.5 Einfluss auf die Verfolgungsqualität . . . . . . . . . . . . . . . . . . 494.5.1 Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 494.5.2 Verfolgungsergebnisse . . . . . . . . . . . . . . . . . . . . . 50

4.6 Skalierbarkeit und Generalisierungsfähigkeit . . . . . . . . . . . . . . 52

5 Zusammenfassung und Ausblick 545.1 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.2 Ausblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

Literaturverzeichnis 57

Abbildungsverzeichnis 59

Tabellenverzeichnis 60

iii

1 Einleitung

Mobile und humanoide Roboter sind derzeit Gegen-stand intensiver Forschung. Sie könnten in Zukunftzahlreiche Aufgaben übernehmen. Die Einsatzgebietereichen von der Hilfe im Haushalt bis hin zur Ortungund Bergung von Katastrophenopfern. Roboter könntendort eingesetzt werden, wo die Arbeit von Menschen zuteuer oder aber auch zu gefährlich ist.Die Akzeptanz solcher Roboter hängt entscheidend vonihrer Kommunikationsfähigkeit ab. Je menschenähn-licher die Roboter in ihrem Aussehen werden, destomehr erwartet der Mensch auch eine menschenähnlicheKommunikationsfähigkeit. Dazu gehört, neben demVerstehen und Sprechen von natürlicher Sprache, auchdas Verstehen und Ausführen von Gesten. Zeigegestensind bei der Kommunikation mit einem Roboter vonbesonderem Interesse. Zusammen mit der Sprache kannder Mensch durch Zeigegesten Objekte in seiner Um-gebung beschreiben. Ein Roboter, der zu multimodalerKommunikation fähig ist, kann so z.B. die Namen neuerObjekte lernen.

Abbildung 1.1: MobilerRoboter BIRON der AGAngewandte Informatik ander Universität Bielefeld.

Eine Geste ist eine Änderung der Körperhaltung (der Körperpostur), die der Kommu-nikation dient. Daher ist die Grundlage zum Verstehen von Gesten die Erfassung undVerfolgung der Körperpostur. Eine nachgeschaltete Gestenerkennung kann auf Basisdes Verfolgungsergebnisses Gesten erkennen und klassifizieren.

Abbildung 1.2: Humano-ider Roboter BARTHOCder AG Angewandte Infor-matik an der UniversitätBielefeld.

Diese Arbeit setzt auf einem Tracking-Framework auf,das die Körperpostur des Menschen auf monokularenKamerabildern verfolgt [Sch04]. Dabei werden die Pa-rameter eines Modells des menschlichen Körpers so be-stimmt, dass die Postur des Modells der Postur des Men-schen im Bild entspricht. Das Ziel dieser Arbeit ist es,biologisch motivierte Verfeinerungen für das Körpermo-dell zu finden, so dass eine robustere Verfolgung vonZeigegesten möglich wird. Der Schwerpunkt liegt hierauf der Modellierung der Bewegung des Arms.Die Anwendung des Tracking-Frameworks als Teil desKommunikationssystems eines mobilen Roboters bringtstrenge Anforderungen an das Antwortverhalten des Sy-stems mit sich. Die Verfolgung der Körperpostur mussin Echtzeit erfolgen, damit eine natürliche Kommunika-tion mit dem Roboter möglich ist.

1

1. EINLEITUNG

1.1 Stand der Forschung

In der Literatur finden sich zahlreiche Ansätze zur Modellierung von menschlichenBewegungsabläufen. In diesem Abschnitt werden die Ansätze vorgestellt, von denendie im Rahmen dieser Arbeit entwickelten Modelle inspiriert wurden.Admiraal u.a. haben in [AKG04] verschiedene Modelle zur Beschreibung der Kine-matik und Dynamik des menschlichen Arms untersucht. Das „Donder’s Law“ besagt,dass zu jeder Handposition im Raum eine eindeutige Orientierung für den Oberarmexistiert. Im „Minimum-Work Model“ wird davon ausgegangen, dass unter allen mög-lichen Trajektorien, auf denen die Hand eine Zielposition erreichen kann, diejenigeausgewählt wird, bei der am wenigsten Arbeit aufgewandt werden muss. Dabei neh-men Admiraal u.a. insbesondere an, dass die Geschwindigkeitsverläufe in den Ge-lenkwinkeln glockenförmig sind. Im „Minimum-Torque-Change Model“ wird davonausgegangen, dass unter allen möglichen Trajektorien, auf denen die Hand eine Zielpo-sition erreichen kann, diejenige ausgewählt wird, bei der die geringsten Drehmoment-änderungen in den Gelenken auftreten. Die experimentellen Ergebnisse haben gezeigt,dass kein Modell allein die Bewegung des Arms vollständig beschreiben kann. Admi-raal u.a. schließen daraus, dass die Bewegungssteuerung des Arms situationsabhängigmehreren Steuerungsprinzipien gehorcht.Harris und Wolpert beschreiben in [HW98] wie die gewählte Trajektorie des Arms dieUngenauigkeit der Handposition am Ende der Bewegung minimiert. Sie gehen davonaus, dass das Rauschen der Steuerungssignale für die Bewegungssteuerung mit derSignalamplitude wächst. Die Minimierung der Positionsungenauigkeit der Hand unterdieser Annahme führt zu glockenförmigen Geschwindigkeitsprofilen der Hand. Dieswird in ähnlicher Weise auch von „Fitt’s Law“ vorausgesagt. Harris und Wolpert konn-ten ihre Annahmen für kurze Bewegungen experimentell bestätigen.Schmidt und House haben ein vollständiges Modell der Dynamik des menschlichenArms in ein Gestenerkennungssystem integriert [SH04]. Sie versuchen Gesten zu klas-sifizieren, indem sie die aktuellen Bewegungsdaten mit Modellgesten vergleichen. Diegelernten Modellgesten werden mittels der inversen Dynamik in die entsprechendenDrehmomente umgesetzt. Diese fließen dann zusammen mit den aktuellen Bewegungs-daten in die Vorwärtsdynamik ein. Schmidt und House erreichen mit diesem Systemeine hohe Klassifikationsrate.Das Tracking-Framework, das als Grundlage dieser Arbeit dient, ist eine Weiterent-wicklung eines Systems von Sidenbladh [Sid01]. In [SBS02] beschreibt Sidenbladhdie Integration probabilistischer Bewegungsmodelle in das Tracking-Framework. Indiesem Ansatz wird eine Vielzahl typischer Bewegungsabläufe in einer Datenbankgespeichert. Es wird der gespeicherte Bewegungsablauf gesucht, der dem bisher be-obachteten Bewegungsverlauf am besten entspricht. Auf Basis des ausgewählten Be-wegungsablaufs wird eine probabilistische Voraussage über die zukünftige Bewegunggetroffen. Sidenbladh konnte durch den Einsatz der Bewegungsmodelle eine deutlicheBeschleunigung des Tracking-Frameworks erreichen.Alle bisher vorgestellten Arbeiten beschäftigen sich mit der Modellierung von mensch-lichen Bewegungsabläufen. Beim Verfolgen der Körperpostur ist auch die Vermeidungunnatürlicher Posturen eine wichtige Aufgabe. Fua u.a. entwickeln in [HUF03] ein

2

1. EINLEITUNG

Verfahren zum automatischen Lernen der Gelenkwinkelgrenzen des Schultergelenks.Dazu zeichnen sie die Gelenkwinkel der Schulter bei typischen Bewegungen auf. DieAufzeichnung der Gelenkwinkel erfolgt dabei mit einem Bewegungsverfolgungssy-stem. Die bei den Bewegungen auftretenden Winkelkombinationen werden in den Qua-ternionenraum projiziert. Die Winkeldaten können im Quaternionenraum durch dieOberfläche eines Körpers approximiert werden. Auf dieser Oberfläche liegen die gül-tigen Gelenkwinkelkombinationen. Zu jeder nicht gültigen Gelenkwinkelkombinationkann durch Projektion dieser Kombination auf die Oberfläche die ähnlichste gültigegefunden werden. In [HUF05] verallgemeinern Fua u.a. diesen Ansatz auf den gesam-ten Arm inklusive des Ellenbogengelenks.Cruse u.a haben in [CWB+90] haben untersucht, welche Armposturen als bequemempfunden werden. Diese Information kann bei der Posturverfolgung helfen, untermehreren ähnlichen Posturen, die plausibelste auszuwählen. Cruse u.a haben Kosten-funktionen aufgestellt, die den Grad der Bequemheit für jeden einzelnen Gelenkwinkeldes Arms beschreiben.

1.2 Lösungsansätze und Zielsetzung

In diesem Abschnitt werden die im Rahmen dieser Arbeit entwickelten Verfeinerun-gen des Körpermodells vorgestellt. Dies geschieht in Abgrenzung zu den im obigenAbschnitt skizzierten Ansätzen.Der Schwerpunkt dieser Arbeit liegt darin, Modelle zu entwickeln, die die Bewegungdes Menschen beim Ausführen von Zeigegesten beschreiben. Besonders interessantsind dabei die Bewegungsabläufe des Arms. Im Gegensatz zu den Ansätzen in [HW98]und [SH04] wird auf eine vollständige Modellierung der Dynamik des menschlichenArms verzichtet. Die im Rahmen dieser Arbeit entwickelten Bewegungsmodelle setz-ten direkt auf den Bewegungen der einzelnen Gelenkwinkel des Körpermodells bzw.auf der Handposition auf. Sie dienen insbesondere dazu, die Verfolgung von Zeige-gesten robuster zu machen. Diese Fokussierung auf die Verfolgung von Zeigegestenermöglicht es, spezifische Annahmen über die Art der Bewegung zu machen. Einevollständige Modellierung der Dynamik wird daher überflüssig. Gleichzeitig ist zubeachten, dass die Bewegungsmodelle die Verfolgung anderer Bewegungen nicht ver-schlechtern.Bei der Suche nach der Körperpostur des Menschen im Bild kann weiteres Wissen überden menschlichen Körper berücksichtigt werden. So kann z.B. Wissen über bequemePosturen die Suche nach der Postur des Menschen im Bild erleichtern. Konzepte zurNutzung solchen Wissens im Tracking-Framework werden im letzten Kapitel disku-tiert, wurden im Rahmen dieser Arbeit aber nicht umgesetzt.

1.3 Gliederung

Im ersten Teil dieser Arbeit werden die Komponenten und die Funktionsweise desbestehenden Tracking-Frameworks vorgestellt. Im Hauptteil werden die Bewegungs-modelle, die im Rahmen dieser Arbeit entwickelt wurden, beschrieben. Anschließend

3

1. EINLEITUNG

werden die Auswirkungen der Bewegungsmodelle auf die Qualität der Posturverfol-gung untersucht. Im letzten Teil werden die Ergebnisse diskutiert und weitere Ideenzur Verfeinerung des Körpermodells skizziert.

4

2 Tracking-Framework

Als Grundlage dieser Diplomarbeit dient ein bestehendes Tracking-Framework zurVerfolgung der menschlichen Körperpostur in monokularen Bildern [Sch04]. DieKomponenten des Tracking-Frameworks werden in diesem Kapitel beschrieben.Bei der Verfolgung der Körperpostur wird versucht, ein Modell des menschlichenKörpers so auf das Bild zu legen, dass es der Postur des Menschen im Bild möglichstgut entspricht. Dabei repräsentiert das Körpermodell die dreidimensionale Geometriedes menschlichen Körpers im Rechner.Um festzustellen, wie gut die Postur des Modells mit der Postur des Menschen imBild übereinstimmt, werden vier Bildverarbeitungsmerkmale (Cues) benutzt. Die-se liefern jeweils eine Bewertung für die Übereinstimmung zwischen Modell und Bild.

particle filtering

image preprocessing

normalizedpartial derivations

gauss pyramid

skin colorsegmentation

propagate

update

select

mean shift

reweight

mean model

1

2

4

5

3

6

78

9

Abbildung 2.1: Aufbau des Tracking-Frameworks. Nach der Bildaufnahme (1) er-folgt die Vorverarbeitung der Bilder (2) für die spätere Bewertung der Modellpos-turen. Der Condensation-Algorithmus schätzt die Wahrscheinlichkeitsdichte in denSchritten Select, Propagate und Update. Nachgelagert ist die Verfeinerung der Schät-zung durch den Meanshift-Algorithmus. Das Ergebnis der Verfolgung in jeden Zeit-schritt ist das sog. Mean-Modell. (aus: [KS05])

Die Suche der Modellpostur, die am besten zur Postur des Menschen im Bild passt, er-folgt mit Hilfe des Condensation-Algorithmus. Der Condensation-Algorithmus ist einprobabilistisches Suchverfahren, das versucht, mit einer Menge von Beispielpunkten(Partikeln) eine Wahrscheinlichkeitsdichte zu approximieren. Ein Partikel bezeichnet

5

2. TRACKING-FRAMEWORK

einen Punkt im Parameterraum. In dieser Anwendung entspricht ein Partikel einer Pos-tur des Körpermodells.Der Condensation-Algorithmus verfolgt die Maxima der approximierten Wahrschein-lichkeitsdichte. In diesem Fall werden die Maxima im Raum der Modellposturenverfolgt. Die approximierte Wahrscheinlichkeitsdichte wird dann genutzt, um eineSchätzung für die Körperpostur des Menschen im Bild zu gewinnen. Das Tracking-Framework verwendet zusätzlich zum Condensation-Algorithmus den Meanshift-Algorithmus [KS05]. Dieser verbessert die Schätzung der Wahrscheinlichkeitsdich-te durch eine weitere, kernelbasierte Dichteschätzung. Abbildung 2.1 veranschaulichtden Aufbau des Tracking-Frameworks.Dieses Kapitel schließt mit einer Betrachtung der Herausforderungen beim Verfolgender Körperpostur mit dem beschriebenen Ansatz.

2.1 Körpermodell

Zur Verfolgung der Körperpostur wird ein dreidimen-sionales Modell des menschlichen Körpers verwendet.Dieses geht vereinfachend davon aus, dass sich sämtli-che Gliedmaßen durch Kegelstümpfe mit elliptischemQuerschnitt darstellen lassen. In Abbildung 2.2 istdieses Körpermodell dargestellt.Die Abmessungen des zu verfolgenden Menschen wer-den durch die Parameter der Kegelstümpfe (Radien undLängen) modelliert. Diese werden bei der Initialisierungdes Tracking-Systems einmalig festgelegt und währendder Verfolgung nicht verändert.Die einzelnen Kegelstümpfe sind durch Drehgelenkemiteinander verbunden. Jedes Drehgelenk hat einenbis drei rotatorische Freiheitsgrade. Die Bezeichnungder einzelnen Freiheitsgrade ist in Abbildung 2.3dargestellt. Zusammen mit der globalen Translationund der globalen Rotation des Modells im Raum bildendiese die während der Verfolgung zu optimierendenParameter. Um die Postur des 3D-Körpermodellsmit der Postur des Menschen im Bild vergleichen zukönnen, wird die 2D-Projektion des Körpermodellsin die Bildebene durch ein einfaches Kameramodellbestimmt.

Abbildung 2.2: Körpermo-dell aus Kegelstümpfen mitelliptischem Querschnitt.

6


ΨL zL

xL

yL

ΘL

ΦL

Abbildung 2.3: Rotatorische Freiheitsgrade. Jeder KegelstumpfL hat ein lokalesKoordinatensystem, das durch die AchsenxL, yL undzL aufgespannt wird. Die Ro-tationen des Kegelstumpfes um die einzelnen Achsen werden mitΦL, ΘL und ΨL

bezeichnet.

Im betrachteten Szenario (Kommunikation mit einem mobilen Roboter) geht es um dieVerfolgung von Zeigegesten. Daher wird das Körpermodell vereinfacht, indem aus-schließlich der Torso, der Kopf und der rechte Arm betrachtet werden. Wenn mandavon ausgeht, dass sowohl der Kopf unbeweglich mit dem Torso also auch die Handunbeweglich mit dem Unterarm verbunden sind, bleiben für dieses vereinfachte Kör-permodell noch zehn Freiheitsgrade:

• 3 rotatorische Freiheitsgrade für das Schultergelenk (ΦS , ΘS , ΨS)

• 1 rotatorischer Freiheitsgrad für das Ellenbogengelenk (ΦE)

• 3 rotatorische Freiheitsgrade für die globale Rotation (Φg, Θg, Ψg)

• 3 translatorische Freiheitsgrade für die globale Translation (xg, yg, zg)

Eine Modellpostur wird also eindeutig durch den 10-dimensionalen Zustandsvektor

Φ = [xg, yg, zg, Φg, Θg, Ψg, ΦS , ΘS , ΨS , ΦE ]T

beschrieben. Abbildung 2.4 zeigt eine 2D-Projektiondieses vereinfachten Körpermodells während desTrackings.Um unnatürliche Modellposturen zu verhindern, wirdfür jeden Freiheitsgrad ein gültiger Wertebereichfestgelegt. So wird zum Beispiel vermieden, dassder Ellenbogen überstreckt wird. Die Ränder dieserWertebereiche werden Gelenkwinkelgrenzen genannt.

Abbildung 2.4: 2D-Projektion des verein-fachten Körpermodells

2.2 Cues

Die Übereinstimmung einer Modellpostur mit den Bilddaten wird mit Hilfe von vierBildverarbeitungsmerkmalen (Cues) gemessen. Eine Modellpostur wird bezüglich je-des Merkmals bewertet. Jeder Cuec liefert dazu eine Cue-Likelihoodpc(I|Φ), die dieWahrscheinlichkeitsdichte der BilddatenI bei Vorliegen der ModellposturΦ bezüg-lich dem Cuec angibt. Die vier Cue-Likelihoods werden zu einer Gesamtbewertung,

7


der Gesamt-Likelihoodp(I|Φ) der Modellpostur, zusammengefasst. Dies geschiehtdurch die Multiplikation aller Cue-Likelihoods. Die Likelihoodp(I|Φ) gibt die Wahr-scheinlichkeitsdichte der Beobachtung des BildesI bei Vorliegen der ModellposturΦan.Im Folgenden werden die vier verwendeten Merkmale vorgestellt. Mean- und Skin-Cue arbeiten auf Farbbildern, während Edge- und Ridge-Cue lediglich auf dem Inten-sitätsbild arbeiten. Abbildung 2.5 zeigt die vorverarbeiteten Bilder, die als Grundlagefür die Berechnung der Cues dienen.

Abbildung 2.5: Bilddaten zur Posturbewertung. Das Bild oben links zeigt die erstepartielle Ableitung des Bildes in y-Richtung. Diese dient zusammen mit dem ent-sprechenden Ableitungsbild in x-Richtung als Grundlage für den Edge-Cue. Das Bildoben rechts zeigt die zweite partielle Ableitung des Bildes in y-Richtung. Dieses Bildwird vom Ridge-Cue auf einer niedrigen Auflösungsstufe verwendet, um länglicheStrukturen zu detektieren. Das Bild unten links zeigt die Aufteilung der einzelnenKörperteile in Regionen. In den Rechtecken werden jeweils die aktuellen Farbmittel-werte dargestellt. Das Bild unten rechts zeigt das Ergebnis der Hautfarbenklassifika-tion. Alle Pixel, die als hautfarben klassifiziert werden, sind weiß dargestellt.

Edge-Cue Der Edge-Cue verwendet die ersten partiellen Ableitungen des Bildes,die die Intensitätsänderungen im Bild hervorheben. Die Ableitungsbilder markierenpotentielle Kantenpixel im Bild. Die Kanten des in die Bildebene projizierten Kör-permodells werden nun mit den Ableitungsbildern verglichen. Als Antwort liefert derCue ein Maß für die Übereinstimmung zwischen den Kanten der Modellpostur undden Kantenpunkten in den Ableitungsbildern.

Ridge-Cue Es ist zu erwarten, dass die Kanten der Extremitäten im Bild meist einelängliche Form haben. Der Ridge-Cue ist auf solch längliche Strukturen besonders

8


sensitiv und unterdrückt punktförmige Strukturen. Er arbeitet auf den zweiten parti-ellen Ableitungen des Intensitätsbildes und liefert eine hohe Antwort, falls parallelzur den Kanten der Modellpostur ein hoher Gradientenwert und senkrecht dazu einniedriger Gradientenwert vorliegt.

Mean-Cue Der Mean-Cue arbeitet auf Farbbildern. Auf jedem Körperteil sind biszu vier Regionen definiert, für die ein Farbmittelwert berechnet wird. Die Farbmit-telwerte werden mit der Projektion der Startpostur auf das Bild initialisiert und injedem Zeitschritt langsam adaptiert. Der Mean-Cue berechnet den Abstand zwischenden Farbmittelwerten der Modellpostur und den gespeicherten Farbmittelwerten. Beiähnlichen Farbmittelwerten liefert der Mean-Cue eine hohe Antwort.

Skin-Cue Ein Hautfarbenklassifikator liefert ein Binärbild, das die Pixel im Bildmarkiert, die hautfarben sind. Der Skin-Cue bestimmt den Anteil der hautfarbenenPixel in der 2D-Projektion eines Körperteils. Ein hoher Anteil führt zu einer hohenAntwort des Cues. Dieser Cue wird für den Kopf und die Hand verwendet.

2.3 Condensation-Algorithmus

Das Verfolgen der Körperpostur des Menschen im Bild kann als Suche derjenigenModellpostur aufgefasst werden, die der Körperpostur des Menschen im Bild am be-sten entspricht. Wie in Abschnitt 2.2 erwähnt, dient die Likelihoodp(I|Φ) als Maßfür die Übereinstimmung zwischen einer Modellpostur und den Bilddaten. Ein hoherLikelihoodwert bedeutet dabei eine gute Übereinstimmung. Gesucht wird also das Ma-ximum der Likelihoodp.Die Dimensionalität des zu durchsuchenden Parameterraums entspricht der Anzahl derFreiheitsgrade des Körpermodells. Da das verwendete Körpermodell 10 Freiheitsgradehat (siehe auch Abschnitt 2.1), ist es in akzeptabler Rechenzeit unmöglich, den Para-meterraum so dicht abzutasten, dass das globale Maximum der Likelihood durch einevollständige Suche gefunden werden kann. Desweiteren ist nicht gewährleistet, dassdie Likelihood bei der gesuchten Postur ihr globales Maximum erreicht. Die Suchebzw. Verfolgung des globalen Maximums über die Zeit reicht also nicht aus. Vielmehrist es sinnvoll, ein oder mehrere lokale Maxima (sog. Modes) über die Zeit zu verfol-gen.Diese Anforderungen führten zur Auswahl des Condensation-Algorithmus [IB98]. DerCondensation-Algorithmus ist eine Variante der Particle Filtering Verfahren, die es er-möglichen, mehrerer lokale Maxima einer Wahrscheinlichkeitsdichte über die Zeit zuverfolgen. Im Folgenden wird der Condensation-Algorithmus zunächst losgelöst vonseiner Anwendung im Tracking-Framework beschrieben. Anschließend folgt die kon-krete Ausgestaltung des Algorithmus im Tracking-Framework.

9


2.3.1 Algorithmus

Die Wahrscheinlichkeitsdichte wird durch eine feste Anzahl vonN Beispielpunkten(Partikeln) im Parameterraum approximiert. Jedes Partikelsn

t im Zeitschrittt erhält ei-ne Bewertungπn

t , die sich nach erfolgter Normierung als Wahrscheinlichkeit auffassenlässt. Das Ziel ist nun, mit Hilfe der bewerteten Partikel im Zeitschrittt − 1 und derbeobachteten Datenzt im Zeitschrittt eine neue bewertete Partikelmenge und damiteine neue Schätzung für die Wahrscheinlichkeitsdichte im Zeitschrittt zu finden. Diefolgende Beschreibung des Condensation-Algorithmus ist an [IB98] angelehnt.

Select Im ersten Schritt erfolgt die Auswahl der Partikel zur Approximation derWahrscheinlichkeitsdichte im Zeitschrittt. Dazu werdenN Partikel aus der appro-ximierten Wahrscheinlichkeitsdichte des Zeitschrittst − 1 gezogen. Dies geschiehtmittels Monte Carlo-Sampling aus der kumulativen Verteilungsfunktion. Dabei wirdjedes Partikelsn

t−1 mit der Wahrscheinlichkeitπnt−1 ausgewählt. Das Ergebnis dieses

Schrittes sindN neue Partikels′ nt .

Durch diese Art der Schätzung werden die Modes der Wahrscheinlichkeitsdichte mithöherer Wahrscheinlichkeit ausgewählt. Dies hat zur Folge, dass Bereiche mit hoherWahrscheinlichkeitsdichte, also die lokalen Maxima, im nächsten Zeitschritt dichterabgetastet werden.

Propagate Im Propagate-Schritt wird die Konfiguration Partikel im Zeitschrittt mitHilfe eines Bewegungsmodells vorausgesagt. Die aus dem Select-Schritt erhaltenenPartikels′ n

t wurden allein aufgrund der approximierten Wahrscheinlichkeitsdichte desZeitschrittst − 1 gezogen. Um zu berücksichtigen, dass sich die zugrunde liegendenDaten vom Zeitschrittt− 1 zum Zeitschrittt ändern, werden die Partikelsn

t aus einerWahrscheinlichkeitsdichte

pm(xt|xt−1 = s′ nt ) (2.1)

gezogen. Die Partikelsnt bilden die Beispielpunkte im Parameterraum, die zur Ap-

proximation der Wahrscheinlichkeitsdichte im Zeitschrittt genutzt werden. Die Wahr-scheinlichkeitsdichtepm modelliert die Bewegung der Partikel zwischen zwei Zeit-schritten. Die so erhaltenen Partikelsn

t werden auch als Prädiktion bezeichnet.

Update Im letzten Schritt werden die Partikelsnt neu bewertet. Die Bewertungen

π′ nt im Zeitschrittt ergeben sich wie folgt:

π′ nt = po(zt|xt = sn

t ) (2.2)

Die Bewertungπ′ nt ergibt sich also aus der Wahrscheinlichkeitsdichte der Datenzt

unter der Annahme der Modellkonfigurationsnt . Die endgültige Bewertung der neuen

Partikel erhält man nach Normierung durch:

πnt =

π′ nt∑N

k=1 π′ kt

(2.3)

10


Die Kombination dersnt und derπn

t liefert die Approximation der Wahrscheinlichkeits-dichte im Zeitschrittt. Im nächsten Zeitschrittt+1 wird erneut mit dem Select-Schrittbegonnen.

2.3.2 Anwendung im Tracking-Framework

Im Tracking-Framework haben die einzelnen Elemente des Condensation-Algorithmusdie folgende Bedeutung:

• Die Partikelsnt sind die ModellposturenΦn

t .

• Die Wahrscheinlichkeitsdichtepm aus (2.1) ist eine Normalverteilung um denMittelwert Φ′ n

t .

• Die Wahrscheinlichkeitsdichtepo aus (2.2) ist die Gesamt-Likelihoodp(I|Φ)(siehe auch Abschnitt 2.2).

Die zu optimierenden Parameter sind die Freiheitsgrade des Körpermodells. Der Para-meterraum wird also durch eine Menge von Modellposturen abgetastet. Im Propagate-Schritt wird auf die Anwendung eines konkreten Bewegungsmodells verzichtet. Denim Select-Schritt gezogenen Modellposturen wird lediglich ein normalverteiltes Rau-schen hinzugefügt. An dieser Stelle fließt also keine Information über die Bewegungder Modellposturen ein. Die Varianzen dieser Normalverteilung bestimmen die Streu-ung der Modellposturen um die im Select-Schritt gezogenen Posturen. Sie werdenzu Beginn der Verfolgung als Parameter des Condensation-Algorithmus gewählt. ImUpdate-Schritt werden die Modellposturen auf Basis der vorliegenden Bilddaten be-wertet.Der Condensation-Algorithmus benötigt bereits zu Beginn eine Menge von Modell-posturen. Diese werden alle mit einer identischer AnfangsposturΦ0 initialisiert. DieInitialpostur wird vom Benutzer des Systems von Hand an die Postur des Menschen imBild angepasst. Alle Anfangsposturen erhalten dieselbe Bewertungπ0 = 1/N . Mit die-ser Menge wird im ersten Select-Schritt gestartet. Im ersten Propagate-Schritt werdendie ausgewählten Modellposturen verrauscht, so dass eine Menge unterschiedlicherModellposturen für die Bewertung im ersten Update-Schritt zur Verfügung steht.

2.4 Meanshift-Algorithmus

Wie in Abbildung 2.1 dargestellt, ist dem Condensation-Algorithmus der Meanshift-Algorithmus nachgeschaltet. Der Condensation-Algorithmus implementiert ein pro-babilistisches Suchverfahren, das eine Approximation der Wahrscheinlichkeitsdich-te in Form von bewerteten Modellposturen liefert. Der deterministische Meanshift-Algorithmus verschiebt diese Modellposturen mit Hilfe kernelbasierter Verfahren indie Modes der Wahrscheinlichkeitsdichte. Dadurch entsteht eine Mode-basierte Ap-proximation der Wahrscheinlichkeitsdichte. Die Modellposturen nach dem Meanshift-Schritt entsprechen also den lokalen Maxima der Wahrscheinlichkeitsdichte (siehehierzu auch [KS05]).

11


2.5 Berechnung des Mean-Modells

Das Ergebnis in jedem Zeitschrittt ist das sog. Mean-Modellµt. Das Mean-Modell be-rechnet sich aus den Modellposturen, die zu dem Mode gehören, in dem sich die Wahr-scheinlichkeitsdichte konzentriert. Die MengeMt der Modellposturen, die zu diesemMode gehören, wird mittels kernelbasierter Verfahren bestimmt. Es ist nicht sinnvoll,einen globalen Mittelwert über alle Modellposturen zu bestimmen, da der Meanshift-Algorithmus bereits eine Mode-basierte Approximation der Wahrscheinlichkeitsdichteliefert. Die einzelnen Modes können sehr unterschiedliche Modellposturen repräsen-tieren, so dass der Mittelwert kein plausibles Ergebnis liefern würde.Das Mean-Modell berechnet sich wie folgt:

µt =

∑kεMt

πkt ·Φk

t∑kεMt

πkt

(2.4)

Das Mean-Modell ist also der gewichtete Mittelwert, der Modellposturen aus der Men-geMt. Als Gewichte dienen die Bewertungen der Modellposturen. Das Mean-Modellwird jeweils nach Durchlaufen des Condensation- und des Meanshift-Schritts berech-net (siehe Abb. 2.1).Für den Benutzer des Tracking-Systems stellt das Mean-Modell, als „beste“ erkanntePostur, die sichtbare Ausgabe in jedem Zeitschritt dar. Es kann zu einem auf dem Bild-schirm dargestellt, zum anderen auch z.B. durch eine nachfolgende Gestenerkennungweiterverarbeitet werden.

2.6 Herausforderungen

Die Aufgabe, die dreidimensionale Körperpostur eines Menschen im Bild zu verfol-gen, ist ein hochdimensionales Optimierungsproblem. Eine Modellpostur kann als ein10-dimensionaler Parametervektor aufgefasst werden. Es gilt nun denjenigen Parame-tervektor zu finden, der bezüglich der in Abschnitt 2.2 beschriebenen Bildverarbei-tungsmerkmale optimal ist. Im Condensation- und Meanshift-Algorithmus werden imEchtzeitbetrieb des Systems mit aktuellen Rechnern1 höchstens 150 Modellposturenverwendet. Das bedeutet eine äußerst dünne Abtastung des hochdimensionalen Para-meterraums. In hochdimensionalen Räumen wächst das Volumen sehr schnell mit demRadius, was dazu führt, dass eine dichte Abtastung mit wachsender Dimensionalitätunmöglich wird. Die sehr dünne Abtastung des Parameterraums kann dazu führen,dass nicht immer die optimale Postur gefunden wird oder sogar dass die Verfolgungin eine falsche Richtung geleitet wird und verloren geht. Die Modellpostur des Mean-Modells stimmt in diesem Fall nicht mit der Postur des Menschen überein. Auch wennder probabilistische Ansatz des Condensation-Algorithmus die Möglichkeit der Wie-derherstellung (Recovery) der Verfolgung bietet, kann sich das Tracking-Frameworkoft aus einer solchen falschen Konfiguration nicht befreien. Das System dann kann erst

1Pentium 4 mit 2,4 GHz

12


nach einer erneuten manuellen Initialisierung wieder die Körperpostur verfolgen.

Selbst bei einer ausreichend dichten Abtastung des Pa-rameterraums bleiben weitere Herausforderungen beste-hen. So lassen sich in bestimmten Posturen einige Frei-heitsgrade des Körpermodells nur sehr schwer beobach-ten. Ein Beispiel ist der WinkelΨS des Schultergelenksbei ausgestrecktem Arm. Wenn der Ellbogen nicht odernur sehr wenig angewinkelt ist, lässt sich allein aufgrunddes Bildes der WinkelΨS des Schultergelenks nur sehrschwer bestimmen. Abbildung 2.6 zeigt ein solches Bei-spiel. Desweiteren führt die Kameraprojektion zu Mehr-deutigkeiten. So lässt sich z.B. im Bild ein leicht nachvorn von einem leicht nach hinten geschwenkten Arm(Winkel ΘS des Schultergelenks) kaum unterscheiden.Abbildung 2.7 zeigt ein Beispiel für eine solche Mehr-deutigkeit aufgrund der Kameraprojektion.

Abbildung 2.6: Ausge-streckter Arm. Der WinkelΨS des Schultergelenks istnicht beobachtbar.

Abbildung 2.7: Mehrdeutigkeit aufgrund von 2D-Projektion. Im linken Bild zeigt diePerson leicht nach vorn, im rechten leicht nach hinten. Der Unterschied ist nach der2D-Projektion in die Bildebene kaum festzustellen.

In beiden Fällen kann aufgrund der Gesamt-Likelihood nicht entschieden werden, wel-che Postur vorliegt. Die Mehrdeutigkeiten führen dazu, dass mehrere Modellposturen,die stark unterschiedliche Konfigurationen haben können (s.o.), dieselbe Bewertungbekommen.Wie bereits in Abschnitt 2.3 angedeutet, können die in Abschnitt 2.2 beschriebenenBildverarbeitungsmerkmale nicht garantieren, dass das globale Maximum der Like-lihood bei der gesuchten Modellpostur erreicht wird. Es ist vielmehr der Regelfall,dass andere, nicht plausible Modellposturen höher bewertet werden als die gesuch-te Postur. Diese nicht plausiblen Maxima der Likelihood entstehen z.B. durch starkeKanten im Hintergrund oder dadurch, dass sowohl die Hand als auch das Gesicht haut-farben sind.Neben diesen stark mit dem verwendeten Tracking-Algorithmus verbundenen Her-ausforderungen, ist das System den typischen Herausforderungen der automatischenBildverarbeitung ausgesetzt. Dies sind z.B. Bildrauschen aufgrund mangelnder Ka-meraqualität, Bewegungsunschärfe aufgrund zu langer Belichtungszeiten und eine be-grenzte Framerate aufgrund von beschränkten Hardwareressourcen. Außerdem können

13


bei der Videoaufnahme einzelne Bilder verloren gehen. Solche verlorenen Bilder nenntman „Framedrops“. Da keine Information über die Postur des Menschen in diesen Bil-dern vorhanden ist, muss das Tracking-Framework die Bewegung über einen längerenZeitraum interpolieren. Die Bildverarbeitungsmerkmale berücksichtigen diese Heraus-forderungen (z.B. durch Mittelung im Mean-Cue). Desweiteren hilft die Kombinationmehrerer Merkmale den Einfluss von Unzulänglichkeiten in den Bildern zu verringern.

14

3 Bewegungsmodelle

Das Thema dieser Arbeit ist es, den im vorigen Abschnitt beschriebenen Herausfor-derungen beim Verfolgen der Körperpostur mit biologisch motivierten Verfeinerungendes Körpermodells zu begegnen. Dabei geht es vor allem darum, Bewegungsmodellezu entwickeln, die die natürlichen Bewegungsabläufe des Menschen modellieren.Durch die Verfolgung des Mean-Modells von Zeitschritt zu Zeitschritt ist bereits impli-zit Information über die Bewegung der Postur des Menschen im Bild vorhanden. DieseBewegungsinformation dient den Bewegungsmodellen als Grundlage für die Schät-zung der Postur des Mean-Modells im nächsten Zeitschritt. Die Bewegungsmodelleliefern eine Vorhersage für das Mean-Modell und hilfen damit den Suchraum einzu-grenzen.Dieses Kapitel beginnt mit einer Beschreibung der Geschwindigkeitsschätzung auf Ba-sis des Mean-Modells. Die Schätzung der Geschwindigkeiten, mit der sich die ein-zelnen Freiheitsgrade ändern, ist Grundlage für die im folgenden vorgestellten Be-wegungsmodelle. Anschließend folgt die Einordnung der Bewegungsmodelle in denCondensation-Algorithmus. Im Hauptteil des Kapitels werden drei unterschiedlicheBewegungsmodelle vorgestellt, die im Rahmen dieser Arbeit entwickelt wurden. Daseinfachste Modell ist die lineare Bewegungsprädiktion. Diese baut direkt auf der Ge-schwindigkeitsschätzung auf. Während die lineare Bewegungsprädiktion direkt dieGeschwindigkeiten der Freiheitsgrade (vor allem der Gelenkwinkel) des Körpermo-dells betrachtet, setzt der zweite Ansatz auf einer anderen Ebene an. Da ein vorran-giges Ziel das Verfolgen von Zeigegesten ist, ist es sinnvoll, die Trajektorie der Handals Grundlage für die Bewegungsschätzung zu nutzen. Dies erfordert die Analyse derinversen Kinematik des menschlichen Arms, um von der Handposition auf die ent-sprechenden Gelenkwinkel schließen zu können. Die Bewegungsprädiktion auf Basisder Handposition erfolgt wie bereits beim ersten Bewegungsmodell linear. Das dritteModell, die Bewegungsprädiktion mittels sog. Motion-Templates, setzt wie das er-ste Modell auf den Gelenkwinkeln auf. Motion-Templates modellieren typische Be-wegungsabläufe (z.B. Zeigegesten). Diese werden zur Unterstützung der Geschwin-digkeitsschätzung eingesetzt. Alle drei Bewegungsmodelle konzentrieren sich auf dieModellierung von Armbewegungen. Ansätze zur Verallgemeinerung auf den gesamtenKörper werden in Abschnitt 5.2 skizziert.

3.1 Geschwindigkeitsschätzung mittels Mean-Modell

Die Grundlage für die im Folgenden vorgestellten Bewegungsmodelle ist die Schät-zung der Geschwindigkeiten der einzelnen Freiheitsgrade des Körpermodells. Die Ver-folgung des Mean-Modells (siehe auch Abschnitt 2.5) über die Zeit liefert dabei Basisfür die Geschwindigkeitsschätzung.In diesem Abschnitt wird zunächst die Schätzung der Geschwindigkeit beschrieben.Anschließend werden mögliche Fehlerquellen bei der Schätzung identifiziert.

15

3. BEWEGUNGSMODELLE

3.1.1 Schätzung der Geschwindigkeit

Die Geschwindigkeiten der einzelnen Freiheitsgrade des Mean-Modellsµt im Zeit-schritt t werden im Geschwindigkeitsvektorvt zusammengefasst. Der Geschwindig-keitsvektorvt wird wie folgt berechnet:

vt = α · µt − µt−1

∆t+ (1− α) · vt−1 (3.1)

Wobei µt−1 und µt die Konfiguration des Mean-Modells in den Zeitschrittent − 1bzw. t bezeichnen.∆t ist die Zeit, die zwischen den Zeitschrittent − 1 und t ver-geht. Diese lässt sich aus der Framerate der Kamera bestimmen. Um den Einfluss vonSchätzfehlern im Mean-Modell bei der Geschwindigkeitsschätzung zu verringern, mit-telt der Glättungsfaktorα zwischen der Konfigurationsänderung im Zeitschrittt undder Geschwindigkeit im Zeitschrittt − 1. Die Einführung des Glättungsfaktors ent-spricht der Annahme, dass die Person im Bild glatte Bewegungen ausführt und keineabrupten Bewegungsänderungen vorkommen. Diese Annahme ist für die Verfolgungvon Zeigegesten durchaus sinnvoll. Typische Werte fürα liegen zwischen 0,7 und 0,9.

3.1.2 Fehlerquellen

Eine robuste Schätzung des Geschwindigkeitsvektorsvt ist nur auf Basis einer robu-sten Verfolgung der Körperpostur möglich. Die in Abschnitt 2.6 beschriebenen Her-ausforderungen treffen insbesondere auch auf die Geschwindigkeitsschätzung zu. Wirddas Mean-Modell aufgrund von Mehrdeutigkeiten oder nicht beobachtbaren Freiheits-graden nicht korrekt geschätzt, kann auch die Geschwindigkeitsschätzung nur fehler-haft funktionieren. Es zeigt sich, dass die Fehler in der Geschwindigkeitsschätzung inden Dimensionen am größten sind, die nur schwer zu beobachten sind (siehe auchAbschnitt 2.6).Eine weitere Fehlerquelle für die Geschwindigkeitsschätzung liegt im Glättungsfak-tor α in (3.1). Die Glattheitsannahme führt dazu, dass die Ableitung der Geschwindig-keit, also die Beschleunigung, unterschätzt wird. Dies ist zum einen nötig, um Ausrei-ßer zu vernachlässigen, zum anderen wird die Reaktionsfähigkeit der Schätzung redu-ziert. In Beschleunigungsphasen wird die Geschwindigkeit zu niedrig eingeschätzt, inAbbremsphasen zu hoch. Daher ist eine geeignete Wahl des Glättungsfaktors entschei-dend für die Qualität der Geschwindigkeitsschätzung.Die Existenz dieser Ungenauigkeiten bei der Geschwindigkeitsschätzung muss in dennachfolgenden Bewegungsmodellen entsprechend berücksichtigt werden.

3.2 Adaption des Condensation-Algorithmus

Alle im folgenden vorgestellten Bewegungsmodelle sind im Propagate-Schritt desCondensation-Algorithmus (siehe auch Abschnitt 2.3.1) angesiedelt. Im Propagate-Schritt des Zeitschrittst werden neue Modellposturen für die Verfolgung erzeugt. Die-se werden bisher aus der durch die Modellposturen approximierten Wahrscheinlich-keitsdichte im Zeitschrittt− 1 gezogen und verrauscht.

16

3. BEWEGUNGSMODELLE

Die Idee ist nun, statt der Prädiktion der Modellposturen auf Basis der Wahrschein-lichkeitsdichte des Zeitschrittst−1 eine auf Gleichverteilungen basierende Prädiktionzu verwenden. Die beiden folgenden Prädiktionsverfahren werden parallel eingesetzt:

Prädiktion ohne Bewegungsmodell Bei der Prädiktion ohne Bewegungsmo-dell werden die Modellposturen für den Zeitschrittt aus einer Gleichverteilung umdas Mean-Modellµt−1 des Zeitschrittst − 1 gezogen. Das Mean-Modellµt−1 dientalso als Mittelwert der Gleichverteilung. Die Varianzen der Gleichverteilung werdenwie bisher als Parameter des Condensation-Algorithmus beim Beginn der Verfolgunggewählt. Abbildung 3.1 zeigt ein Beispiel für die Prädiktion ohne Bewegungsmodell.

Abbildung 3.1: Prädiktion ohne Bewegungsmodell. Im linken Bild ist das Mean-Modell µt−1 des Zeitschrittst − 1 abgebildet. Im Zeitschrittt dient dieses als Mit-telwertµ′

t für die Schätzung der Gleichverteilung. Im rechten Bild ist die Approxi-mation der Gleichverteilung im Zeitschrittt durch 250 Modellposturen dargestellt.

Prädiktion mit Bewegungsmodell Bei der Prädiktion mit Bewegungsmodellwird der Mittelwert der Gleichverteilung aus dem Bewegungsmodell gewonnen. DasBewegungsmodell liefert auf Basis des Mean-Modellsµt−1 des Zeitschrittt − 1 unddem bisherigen Bewegungsverlauf eine Schätzung für das Mean-Modellµ′

t im Zeit-schritt t. Diese Schätzungµ′

t wird als Mittelwert der Gleichverteilung verwendet.Die als Parameter des Condensation-Algorithmus gewählten Varianzen werden ab-hängig von der Bewegungsgeschwindigkeit und der Framerate skaliert. Bei geringenGeschwindigkeiten ist eine gute Schätzung des Mean-Modellsµ′

t zu erwarten, daherkann durch eine Skalierung der Varianzen der Suchraum eingeschränkt werden. Ab-bildung 3.2 zeigt ein Beispiel für die Prädiktion mit Bewegungsmodell.

17

3. BEWEGUNGSMODELLE

Abbildung 3.2: Prädiktion mit Bewegungsmodell. Im linken Bild ist das Mean-Modell µt−1 zum Zeitschrittt − 1 abgebildet. Auf dessen Basis liefert das Bewe-gungsmodell den Mittelwertµ′

t für die Schätzung der Gleichverteilung im Zeitschrittt. Im rechten Bild ist die Approximation der Gleichverteilung im Zeitschrittt dar-gestellt. Die Varianzen der Gleichverteilung sind gegenüber der Approximation inAbbildung 3.1 skaliert.

In jedem Zeitschritt wird ein Teil der Modellposturen ohne und der Rest mit Bewe-gungsmodell prädiziert. Wie groß der Anteil der Modellposturen ist, die mit Bewe-gungsmodell prädiziert werden, wird im Select-Schritt bestimmt. Jede Modellposturwird im Zeitschritt t mit dem Verfahren prädiziert, mit dem sie im Zeitschrittt − 1prädiziert wurde. Werden also im Select-Schritt des Zeitschrittst viele Modellpos-turen ausgewählt, die im Zeitschrittt− 1 mit Bewegungsmodell prädiziert wurden, sowerden auch im Zeitschrittt viele Modellposturen mit Bewegungsmodell prädiziert.Dieses Auswahlverfahren im Select-Schritt bewirkt, dass nach mehreren Zeitschrittendas Prädiktionsverfahren bevorzugt wird, das die am besten bewerteten Modellpos-turen produziert. Die Bevorzugung wird dadurch erreicht, dass Modellposturen, die imZeitschrittt − 1 so prädiziert wurden, dass sie der Postur des Menschen in Bild gutentsprechen auch eine gute Bewertung erlangen und damit im Select-Schritt des Zeit-schrittst mit höherer Wahrscheinlichkeit ausgewählt werden.Der Teil der Modellposturen, die ohne Bewegungsmodell prädiziert werden, dienenals sog. Recovery-Komponente. Sie sind unabhängig vom jeweiligen Bewegungsmo-dell und können z.B. bei Fehlern in der Geschwindigkeitsschätzung (siehe auch Ab-schnitt 3.1.2) die Verfolgung aufrecht erhalten.Es wäre möglich, dass in einem Zeitschritt nur Modellposturen eines Prädiktionstypsausgewählt werden. In einem solchen Fall stünde für die weitere Verfolgung nur nochdieses eine Prädiktionsverfahren zur Verfügung. Um dies zu verhindern, werden fürjedes Prädiktionsverfahren Schwellwerte definiert, die die untere Grenze des Anteilsder mit dem jeweiligen Verfahren prädizierten Modellposturen angeben.Zu Beginn der Verfolgung ist keine Geschwindigkeitsinformation vorhanden. Daherwird im ersten Zeitschritt allein das Prädiktionsverfahren ohne Bewegungsmodell an-gewandt. Im nächsten Zeitschritt wird dann die Geschwindigkeitsinformation mit Hilfedes Mean-Modells aus dem ersten Zeitschritt gewonnen. Ab jetzt ist die Anwendungeines Bewegungsmodells möglich. Abbildung 3.3 zeigt ein Beispiel für das Zusam-menwirken der beiden Prädiktionsverfahren.

18

3. BEWEGUNGSMODELLE

Zeitschritt 1

Zeitschritt 6

Zeitschritt 11

Zeitschritt 26

Zeitschritt 36

Zeitschritt 21

Zeitschritt 16 Zeitschritt 41

Zeitschritt 31

Zeitschritt 46

Abbildung 3.3: Zusammenwirken der Prädiktionsverfahren. Die Abbildung zeigt ei-ne Zeitserie in zwei Spalten. Links sind die approximierten Gleichverteilungen undrechts die Mean-Modelle dargestellt. Die Modellposturen, die mit Bewegungsmodellprädiziert werden, sind blau dargestellt. Nach dem Beginn ohne Bewegungsmodellwerden immer mehr Modellposturen mit Bewegungsmodell prädiziert. (Framerate:15 Hz, Abbildung: jedes fünfte Bild).

3.3 Lineares Bewegungsmodell

Der einfachste Ansatz für ein Bewegungsmodell besteht darin, die Bewegung zwi-schen zwei Zeitschritten linear zu interpolieren. Dabei wird angenommen, dass sichjeder Freiheitsgrad des Körpermodells zwischen zwei Zeitschritten mit konstanter Ge-schwindigkeit verändert.Die Aufgaben eines Bewegungsmodells im Tracking-Framework sind die Vorhersage

19

3. BEWEGUNGSMODELLE

des Mean-Modells und die Skalierung der Varianz (siehe auch Abschnitt 3.2). DieLösung dieser beiden Aufgaben durch das lineare Bewegungsmodell werden im Fol-genden dargestellt. Dieser Abschnitt schließt mit einem Beispiel und einer Betrachtungder Einschränkungen dieses einfachen Modells.

3.3.1 Vorhersage des Mean-Modells

Die Schätzung der Konfiguration des Mean-Modellsµ′t im Zeitschrittt ergibt sich wie

folgt aus der Konfiguration des Mean-Modellsµt−1 im Zeitschrittt− 1:

µ′t = µt−1 + vt−1 ·∆t (3.2)

Der Geschwindigkeitsvektorvt−1 wurde im Zeitschrittt − 1 auf Basis des Mean-Modells geschätzt (siehe auch Abschnitt 3.1).∆t ist die Zeit, die zwischen den Zeit-schrittent − 1 und t vergeht. Abbildung 3.4 veranschaulicht die lineare Bewegungs-prädiktion am Beispiel eines Freiheitsgrades.

Abbildung 3.4: Lineare Bewegungsprädiktion. Die blaue Kurve zeigt den Zeitverlaufdes GelenkwinkelsΦ im Mean-Modell. Die GeschwindigkeitvΦ,t−1 in Zeitschrittt−1 ist durch die Steigung der roten Geraden dargestellt. Die PrädiktionΦ′

t für denZeitschrittt ergibt sich als lineare Extrapolation von Zeitschrittt− 1 zu Zeitschrittt.Die Schätzung des WinkelsΦt im Mean-Modell im Zeitschrittt weicht leicht von derPrädiktion ab.

3.3.2 Varianzskalierung

Die Unsicherheit der Bewegungsschätzung steigt sowohl mit wachsender Geschwin-digkeit als auch mit sinkender Framerate. Bei großen Geschwindigkeiten führen schongeringe Fehler bei der Schätzung der Geschwindigkeit zu großen Fehlern bei der Vor-hersage der Modellpostur. Ähnliches gilt für eine niedrige Framerate: Je größer derzeitliche Abstand zwischen zwei Bildern wird, desto weiter bewegt sich der Mensch

20

3. BEWEGUNGSMODELLE

im Bild. Desweiteren wird es mit wachsendem zeitlichen Abstand zwischen zwei Bil-dern immer wahrscheinlicher, dass sich die Bewegungsrichtung während dieser Zeitändert und somit nicht mehr gut linear approximiert werden kann. Diese Zusammen-hänge werden durch die Skalierung der Varianzen der prädizierten Gleichverteilungberücksichtigt. Je größer die Geschwindigkeit und je kleiner die Framerate wird, destogrößer wird die Streuung der prädizierten Gleichverteilung. So kann die Unsicherheitbei der Geschwindigkeitsschätzung aufgefangen werden.Die Varianz jedes Freiheitsgrades wird unabhängig von den anderen skaliert, da auchbei der Geschwindigkeitsschätzung keine Abhängigkeiten zwischen den einzelnenFreiheitsgraden berücksichtigt werden. Die Varianzσn, t des n-ten Freiheitsgradeswird im Zeitschrittt wird folgt skaliert:

σn,t = k · vn,t−1 ·∆t︸︷︷︸k′

·σn (3.3)

vn,t−1 ist die geschätzte Geschwindigkeit des n-ten Freiheitsgrades im Zeitschrittt−1und∆t die zwischen den Zeitschrittent− 1 undt vergangene Zeit.σn bezeichnet dieinitial gewählte Prädiktionsvarianz des n-ten Freiheitsgrades.k ist ein konstanter Skalierungsfaktor, dessen Wert typischerweise zwischen 15 und20 liegt. Durch den Faktork wird erreicht, dass der Wert des Skalierungsfaktorsk′

typischerweise zwischen 0 und 1 liegt. Zu große und zu kleine Skalierungsfaktorenk′ werden durch geeignete Schwellwerte verhindert. Ein typischer Wertebereich fürk′ ist [0.2, 0.8]. Ohne solche Schwellwerte würde die Varianz in einem nicht beweg-ten Freiheitsgrad null werden. Dies ist nicht erwünscht, da die Streuung fehlerhafteGeschwindigkeitsmessungen bzw. unzureichende Bewegungsmodelle auffangen soll.Zu große Skalierungen könnten dazu führen, dass die Streuung der Modellposturen zugroß wird und damit das Ziel, eine möglichst lokale Suche durchzuführen (siehe auchAbschnitt 2.3), verfehlt wird. Desweiteren würden die zur Verfügung stehenden Mo-dellposturen weit im Parameterraum verstreut werden, so dass die Abtastung für einerobuste Verfolgung der Postur zu dünn wird.

3.3.3 Beispiel

Abbildung 3.3 zeigt ein Beispiel für den Betrieb des Tracking-Frameworks mit line-arem Bewegungsmodell. Es ist deutlich zu erkennen, wie die Modellposturen, die mitdem Bewegungsmodell prädiziert werden, der Bewegung folgen. So sind sie beispiels-weise in Zeitschritt 21 deutlich gegenüber den Modellposturen, die ohne Bewegungs-modell prädiziert werden, verschoben.Auch die Skalierunng der Varianzen ist in der Zeitserie zu erkennen. Während in Zeit-schritt 41 die Modellposturen aufgrund der Bewegung noch eine breitere Streuunghaben, sind sie bei ruhendem Arm in Zeitschritt 46 sehr konzentriert.

3.3.4 Einschränkungen

Wie oben dargestellt, beruht das lineare Bewegungsmodell auf der Annahme, dass sichalle Freiheitsgrade zwischen zwei Zeitschritten linear, also mit konstanter Geschwin-

21

3. BEWEGUNGSMODELLE

digkeit, verändern. Je höher die Framerate ist, desto besser ist diese Annahme erfüllt.Bei einer hohen Framerate führt die Person im Bild zwischen zwei Zeitschritten nurkleine Bewegungen aus. Diese können gut durch ein lineares Modell approximiert wer-den.Ist jedoch die Framerate relativ gering, wie z.B. im Echtzeitbetrieb des Systems bei 7.5Hz, so ist die Annahme von der konstanten Geschwindigkeit zwischen zwei Zeitschrit-ten verletzt. In diesem Fall wird die Bewegung zwischen zwei Zeitschritten durch daslineare Bewegungsmodell nur unzureichend approximiert. Es ist dann möglich, dassdie Modellposturen, die mit dem linearen Bewegungsmodell prädiziert werden, in ei-ne falsche Richtung geleitet werden. Führt die Person z.B. eine abgebremste Bewe-gung durch, wird die durchschnittliche Geschwindigkeit zwischen zwei Zeitschrittenüberschätzt. Die Modellposturen, die mit dem linearen Bewegungsmodell prädiziertwerden, bewegen sich zu schnell und schießen über die wahre Postur hinaus. Lan-den die Posturen zu weit von der wahren Postur entfernt, können sie nicht mehr zurVerfolgung in diesem Zeitschritt beitragen. Das in Abschnitt 3.5 vorgestellte Bewe-gungsmodell auf Basis von Motion-Templates enthält weitere Annahmen über die Be-wegungsabläufe des menschlichen Arms bei Zeigegesten und ist damit nicht mehr vonder Linearitätsannahme abhängig.

3.4 Bewegungsmodell auf Basis der Handposition

Ein vorrangiges Ziel des Tracking-Frameworks ist die Verfolgung von Zeigegesten.Dabei ist insbesondere die Verfolgung der Handposition von Bedeutung. Die Trajekto-rie der Hand kann in einer nachgeschalteten Gestenerkennung zur Klassifikation vonZeigegesten verwendet werden [HFS04]. Daher bietet es sich an, bereits während derVerfolgung der Körperpostur, Informationen über die Bewegung der Hand mit einzu-beziehen.Die Idee in diesem Ansatz ist, die Linearitätsannahme aus Abschnitt 3.3 von der Bewe-gung der Gelenkwinkel auf die Bewegung der Hand zu übertragen. Es wird angenom-men, dass sich die Hand zwischen zwei Zeitschritten mit konstanter Geschwindigkeitbewegt.Die zu optimierenden Parameter im Tracking-Framework sind die Gelenkwinkel desKörpermodells. Aus den Gelenkwinkeln kann mittels der Vorwärtskinematik die Hand-position berechnet werden. In der Vorwärtskinematik werden die Transformationsma-trizen, die zwischen den Koordinatensystemen der einzelnen Gelenke vermitteln, auf-multipliziert. So erhält man die Translation und Rotation des Handkoordinatensystemsmit Ursprung im Handgelenk.Im Bewegungsmodell auf Basis der Handposition soll nun aber eine Handposition vor-gegeben werden. Daraus müssen dann Gelenkwinkel bestimmt werden, die zu dieserHandposition führen. Dies geschieht mittels der inversen Kinematik des menschlichenArms. Die erhaltenen Gelenkwinkel können dann zur Prädiktion der Modellposturenverwendet werden.In diesem Abschnitt wird zunächst die inverse Kinematik des menschlichen Arms her-geleitet. Anschließend folgt die Beschreibung der linearen Bewegungsprädiktion aufBasis der Handposition.

22

3. BEWEGUNGSMODELLE

3.4.1 Inverse Kinematik des menschlichen Arms

Der Begriff der inversen Kinematik bezeichnet Verfahren in der Robotik, die es er-möglichen, aus der Position und Orientierung des Endeffektors die korrespondierendenGelenkwinkel zu berechnen. In diesem Fall ist allein die Handposition gegeben. DasHandgelenk ist im Körpermodell nicht modelliert, so dass Handorientierung durch dieOrientierung des Unterarms bereits festgelegt ist. Gesucht sind die vier Gelenkwinkeldes Arms, die die Hand zu der gewünschten Position führen.Tolani u.a. haben in [TGB00] die inverse Kinematik für den menschlichen Arm her-geleitet. Sie beschreiben die inverse Kinematik für einen Arm mit sieben Freiheitsgra-den. Die drei zusätzlichen Freiheitsgrade gegenüber dem hier verwendeten Modell desArms kommen durch die Modellierung des Handgelenks zustande. So ist eine voll-ständige Beschreibung der inversen Kinematik unter Berücksichtigung der Handorien-tierung möglich. Im Folgenden wird auf Basis von [TGB00] der einfachere Fall einesArms mit vier Freiheitsgraden (ohne Berücksichtigung der Handorientierung) betrach-tet.Zunächst wird der Winkel des Ellenbogengelenks bestimmt. Zur eindeutigen Berech-nung der Schulterwinkel reicht die Angabe der gewünschten Handposition allein nichtaus. Die Handposition ist durch die drei Koordinaten im Raum bestimmt. Der Arm hatvier Freiheitsgrade, um diese Handposition zu erreichen. Das Problem ist also unterbe-stimmt und es gibt unendlich viele Lösungen für das Problem der inversen Kinematik.Annahmen über eine bequeme Position des Ellenbogengelenks wählen aus diesen dieplausibelste aus.In den folgenden Betrachtungen wird davon ausgegangen, dass die Handposition imSchulterkoordinatensystem angegeben ist. Die Schulter ist der Ursprung des Koordi-natensystems. Auch die benötigten Rotationen werden bezüglich dieses Koordinaten-systems angegeben.Die Herleitung der inversen Kinematik zeigt die grundsätzliche Vorgehensweise auf.Es wird nicht auf Sonderfälle wie Singularitäten und Gelenkwinkelgrenzen eingegan-gen. Die Behandlung dieser Fälle kann wie in [TGB00] erfolgen.

Ellenbogen

Der Gelenkwinkel des EllenbogengelenksΦE ist eindeutig durch die Handpositionbestimmt. Der Abstand zwischen der Schulter und der Hand wird allein durch denWinkel ΦE festgelegt. Abbildung 3.5 zeigt das Dreieck, das durch Ober- und Unterarmaufgespannt wird.

23

3. BEWEGUNGSMODELLE

Lo

Lu

S

d

H

E

α

ΦE

Abbildung 3.5: Gelenkwinkel des Ellenbogengelenks. Das Dreieck4SEH wirdvon SchultergelenkS, EllenbogengelenkE und HandschwerpunktH aufgespannt.Die Länge des Oberarms beträgtLo, die Länge des Unterarms (bis zum Schwerpunktder Hand) beträgtLu und der Abstand zwischen Schultergelenk und Schwerpunkt derHand beträgtd.

Der Winkelα in Abbildung 3.5 wird wie folgt mit Hilfe des Kosinussatzes berechnet:

d2 = L2o + L2

u − 2LoLucos(α)

⇔ cos(α) = d2−L2o−L2

u−2LoLu

(3.4)

Der gesuchte GelenkwinkelΦE ergibt sich nun wie folgt:

ΦE = π − α (3.5)

Schulter

Wie bereits oben angedeutet, sind die drei Gelenkwinkel der Schulter nicht eindeutigdurch die Handposition bestimmt. Bei fester Handposition kann sich der Ellenbogenauf einer Kreisbahn frei bewegen. Diese Situation ist in Abbildung 3.6 dargestellt.

E

S

H

L

Lu

o

d

Abbildung 3.6: Zusätzlicher Freiheitsgrad im Schultergelenk. Bei vorgegebenerHandposition, kann sich der Arm frei um die Achse

−−→SH drehen.

24

3. BEWEGUNGSMODELLE

Die gewünschte Handposition wird über die folgenden drei Rotationen des Arms umdas Schultergelenk erreicht:

1. Rotation um die x-AchsexS des Schulterkoordinatensystems um den Win-kel−α. Die Hand befindet sich nach dieser Rotation an der PositionH∗.

2. Rotation um die z-AchsezS des Schulterkoordinatensystems um den Winkelβ.Die Hand befindet sich nach dieser Rotation bereits an der gewünschten PositionH∗∗.

3. Rotation um die Achse−→SH um den Winkelγ. Diese Rotation ändert die Hand-

position nicht mehr.

Das Schulterkoordinatensystem ist in Abbildung 3.7 dargestellt. Im Folgenden wirddie Berechnung der drei Winkel hergeleitet.

Rotation um die x-Achse Ist der GelenkwinkelΦE des Ellenbogengelenks gege-ben, so kann die z-Koordinate der HandzH allein durch eine Rotation des Arms um diex-Achse desxS des Schultergelenks erreicht werden. Abbildung 3.7 veranschaulichtdie geometrischen Verhältnisse bei der Rotation des Arms umxS .

yS

S

z

xS

S H

E

H*

d

L

Lu

o

α α1 2

*

E

Abbildung 3.7: Rotation um x-Achse des Schulterkoordinatensystems. Der Armwird aus der Konfiguration4SEH um die x-Achse und den Winkel−α = −(α1 +α2) in die Konfiguration4SE∗H∗ gedreht.

Der gesuchte Winkelα setzt sich aus den Anteilenα1 undα2 zusammen. Der Winkelα1 ergibt sich aus dem Abstandd zwischen SchultergelenkS und der z-KoordinatezH

des HandschwerpunktsH∗:

cos(α1) =zH

d(3.6)

Der Winkelα2 ergibt sich gemäß des Kosinussatzes im Dreieck4SEH:

L2u = L2

o + d2 − 2dLocos(α2)

⇔ cos(α2) = L2u−d2−L2

o−2dLo

(3.7)

25

3. BEWEGUNGSMODELLE

Der gesamte Rotationswinkelα für die Rotation um die x-Achse ergibt als Summe ausα1 undα2.

Rotation um die z-Achse Die gewünschte HandpositionH∗∗ liegt nun auf einemKreis in der x-y-Ebene mit der z-KoordinatezH und kann durch eine Drehung desArms um die z-Achse erreicht werden. Abbildung 3.8 zeigt die Projektion des Arms indie x-y-Ebene.

yS S

z

xS

SH

H

βε*

**

Abbildung 3.8: Rotation um z-Achse des Schulterkoordinatensystems. Die Abbil-dung zeigt die Projektion des Arms in die x-y-Ebene des Schulterkoordinatensystems.Nach der Rotation um die x-Achse befindet sich die Hand an PositionH∗. Die Rota-tion des Arms umzS um den Winkelβ bewegt die Hand an die gewünschte PositionH∗∗.

Der gesuchte Winkelβ ergibt sich aus den KoordinatenxH und yH der gesuchtenHandposition:

β = π − ε

mit tan(ε) =xHyH

(3.8)

Nach der Rotation um die z-Achse befindet sich die Hand bereits an der gewünschtenPosition. Es bleibt als unbestimmter Freiheitsgrad die Rotation um die Achse

−→SH.

Rotation um die Achse SH Der Drehwinkelγ um die Achse−→SH kann frei

gewählt werden, da die Rotation die Position der Hand nicht ändert (siehe auchAbbildung 3.6).

Die gesamte RotationsmatrixRinv für den Arm ergibt sich als Produkt der zu den dreiRotationen gehörenden Matrizen:

Rinv = Rx,α ·Rz,β ·R−→SH ,β(3.9)

Die Aufgabe besteht nun darin, aus der RotationsmatrixRinv die entsprechenden Ge-lenkwinkelΦ, Θ undΨ für das Schultergelenk zu berechnen. Diese können dann als

26

3. BEWEGUNGSMODELLE

Parameter für die Modellpostur verwendet werden. Die RotationsmatrixR hat bezüg-lich Φ, Θ undΨ die Form:

R = Rz,Ψ ·Ry,Θ ·Rx,Φ =

cΨcΘ cΨsΘsΦ + sΨcΦ −cΨsΘcΦ + sΨsΦ

−sΨcΘ −sΨsΘsΦ + cΨcΦ sΨsΘcΦ + cΨsΦ

sΘ −cΘsΦ cΘcΦ

(3.10)

Die Notationsα bzw. cα bezeichnet jeweils den Sinus bzw. den Kosinus des Winkelsα. Die GelenkwinkelΦ, Θ undΨ können nun mittels Koeffizientenvergleich aus derMatrix Rinv nach (3.9) bestimmt werden.Ein Winkelα kann eindeutig bestimmt werden, wenn sowohlsα undcα bekannt sind.Es gilt dann:

α = atan2(sα, cα) (3.11)

Die Funktion atan2(a,b) liefert den Arkustangens vona/b unter Berücksichtigung derVorzeichen vona undb. Dies führt dazu, dass im Gegensatz zum einfachen Arkustan-gens der resultierende Winkel im richtigen Quadranten des Koordinatensystems liegt.Zur Bestimmung der Gelenkwinkel genügt es also deren Sinus- und Kosinuswerte zuermitteln:

sΘ = Rinv(3, 1)

cΘ =√

Rinv(3, 2)2 + Rinv(3, 3)2

sΨ = −Rinv(2,1)cΘ

cΨ = Rinv(1,1)cΘ

sΦ = −Rinv(3,2)cΘ

cΦ = Rinv(3,3)cΘ

(3.12)

Damit sind alle vier Freiheitsgrade des Arms mittels der inversen Kinematik bestimmt.Im Folgenden wird die inverse Kinematik genutzt, um die Gelenkwinkel zu berechnen,die zu der geschätzten Handposition führen.

3.4.2 Prädiktion des Mean-Modells und Varianzskalierung

Beim linearen Bewegungsmodell aus Abschnitt 3.3 wird das Mean-Modell als Gleich-verteilung mit Mittelwert und Varianzen geschätzt. In diesem Ansatz wird die Handpo-sition als Gleichverteilung mit Mittelwert und Varianzen geschätzt. Das Ergebnis wirdmittels der inversen Kinematik auf die Gelenkwinkel des Arms übertragen.Ähnlich wie die Geschwindigkeiten der Freiheitsgrade des Mean-Modells kann auchdie translatorische Geschwindigkeit der Hand geschätzt werden. Die Handpositionwird in jedem Zeitschritt mittels der Vorwärtskinematik berechnet. Die Schätzung derGeschwindigkeitvH erfolgt dann nach dem in Abschnitt 3.1 vorgestellten Verfahren.Für die Schätzung der Handpositionp′

H,t des Mean-Modellsµ′t im Zeitschrittt gilt:

p′H,t = pH,t−1 + vH,t−1 ·∆t (3.13)

27

3. BEWEGUNGSMODELLE

Die Handbewegung zwischen den Zeitschrittent − 1 und t wird also linear approxi-miert. Dazu wird angenommen, dass sich die Hand zwischen zwei Zeitschritten mitkonstanter Geschwindigkeit bewegt. Die Schätzung des korrespondierenden Mean-Modellsµ′

t erfolgt mittels der inversen Kinematik. Zu der geschätzten Handpositionp′

H,t werden die entsprechenden Gelenkwinkel berechnet. Dabei wird der Drehwinkelγt normalverteilt um den Wertγt−1 des vorigen Zeitschritts gezogen.Die Varianzskalierung erfolgt ebenfalls auf Basis der Handgeschwindigkeit. Ähnlichwie in Abschnitt 3.3.2 werden die Varianzen der Gleichverteilung um die geschätzteHandposition mit den jeweiligen Geschwindigkeiten skaliert.

3.4.3 Beispiel

Abbildung 3.9 zeigt ein Beispiel für den Betrieb des Tracking-Frameworks unter Ver-wendung des Bewegungsmodells auf Basis der Handposition.

28

3. BEWEGUNGSMODELLE

Zeitschritt 1

Zeitschritt 6

Zeitschritt 11

Zeitschritt 26

Zeitschritt 36

Zeitschritt 21

Zeitschritt 16 Zeitschritt 41

Zeitschritt 31

Zeitschritt 46

Abbildung 3.9: Anwendung des Bewegunngsmodells auf Basis der Handposition.Zum Aufbau der Abbildung siehe auch Abbildung 3.3 (Framerate: 15 Hz, Abbildung:jedes fünfte Bild).

Zur besonderen Beachtung seien die Bilder aus Zeitschritt 36 hervorgehoben. Hierbewegt sich die Hand nach links oben. Die Handposition wird in dieser Richtung auf-grund der hohen Geschwindigkeit stark gestreut. Die Abhängigkeit der Streubreite vonder Handgeschwindigkeit ist im Zeitverlauf deutlich zu erkennen. Während zu Beginnund am Ende der Bewegung die blauen Modellposturen sehr konzentriert sind, sind sieim Verlauf der Bewegung stärker in Richtung der Handbewegung gestreut.

3.4.4 Einschränkungen

Ähnlich wie im linearen Bewegungsmodell aus Abschnitt 3.3 wird auch beim Bewe-gungsmodell auf Basis der Handposition die Linearitätsannahme gemacht. Aus diesemGrund gelten die in Abschnitt 3.3.4 vorgestellten Einschränkungen auch für das Bewe-gungsmodell auf Basis der Handposition.

29

3. BEWEGUNGSMODELLE

Die Rotation um die Achse−→SH ändert die Handposition nicht. Es ist aber trotzdem

wichtig, den Drehwinkel korrekt zu bestimmen, um robust auf die Posturänderungendes Menschen im Bild reagieren zu können. Wenn der Arm ausgestreckt ist, ist dieSchätzung des Winkelsγ allerdings fast unmöglich. Hier ist das System den in Ab-schnitt 2.6 beschriebenen Herausforderungen in besonderer Weise ausgesetzt. Bei aus-gestrecktem Arm kann zusätzliches Wissen z.B. über bequeme Posturen helfen, diePostur des Menschen im Bild besser zu erfassen.

3.5 Bewegungsmodell mit Motion-Templates

Die lineare Bewegungsprädiktion verlässt sich allein auf die Geschwindigkeitsschät-zung mittels Mean-Modell (siehe auch Abschnitt 3.1). Eine Aufgabe dieser Arbeit istes, die Robustheit des Tracking-Frameworks bei der Verfolgung von Zeigegesten zuverbessern. Daher ist es sinnvoll, Vorwissen über typische Bewegungsabläufe bei Zei-gegesten in das Bewegungsmodell einzubringen.Eine Möglichkeit besteht darin, typische Geschwindigkeitsverläufe der Gelenkwin-kel des Arms bei Zeigegesten als Modellkurven, sog. Motion-Templates, darzustellen.Diese können dann so verschoben und skaliert werden, dass sie dem bisherigen Ge-schwindigkeitsverlauf bestmöglich entsprechen. Aus den verschobenen und skaliertenMotion-Templates kann dann eine Vorhersage für die Geschwindigkeit und damit fürdie Konfiguration des Körpermodells im nächsten Zeitschritt gewonnen werden.In diesem Abschnitt werden mögliche Motion-Templates sowie ein Verfahren zurApproximation der Geschwindigkeitsverläufe durch Motion-Templates vorgestellt.Anschließend folgt die Beschreibung der Geschwindigkeitsschätzung auf Basis derMotion-Templates.

3.5.1 Motion-Templates für Zeigegesten

Menschliche Bewegungsabläufe zeigen typische Geschwindigkeitsverläufe in denGelenkwinkeln. Admiraal u.a. haben verschiedene Modelle zur Beschreibungder Kinematik und Dynamik des menschlichen Arms untersucht [AKG04]. Im„Minimum-Work Model“ gehen sie davon aus, dass die Geschwindigkeitsverläufeder Gelenkwinkel glockenförmig sind. Diese Annahme konnte im Rahmen dieser Ar-beit durch die Analyse der Geschwindigkeitsverläufe bei Zeigegesten bestätigt werden.

30

3. BEWEGUNGSMODELLE

0 0.2 0.4 0.6 0.8 1 1.2 1.4 1.6−6

−4

−2

0

2

4

6

8

10

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

ΦS

ΘS

ΨS

ΦE

Abbildung 3.10: Geschwindigkeitsverläufe bei Zeigegesten. Die Geschwindigkeits-verläufe der Armwinkel wurden beim Ausführen einer Zeigegeste mit Hilfe desTracking-Frameworks bei einer Framerate von 30 Hz aufgenommen. Die Abbildungzeigt die Geschwindigkeitsverläufe der SchulterwinkelΦS , ΘS und ΨS sowie desEllenbogenwinkelsΦE .

Abbildung 3.10 zeigt typische Geschwindigkeitsverläufe der vier Armwinkel beimAusführen einer Zeigegeste. Diese wurden mit Hilfe des Tracking-Frameworks ohneVerwendung eines Bewegungsmodells aufgezeichnet.Die in Abbildung 3.10 dargestellten Geschwindigkeitsverläufe lassen sich zu den inAbbildung 3.11 dargestellten Motion-Templates verallgemeinern. Eine Ausnahmestellt der WinkelΨS des Schultergelenks dar. Aufgrund der schlechten Beobacht-barkeit dieses Freiheitsgrades in vielen Situationen ist eine gesonderte Behandlungerforderlich (siehe auch Abschnitt 4.4.2).

0 0.5 1−1

−0.5

0

0.5

1

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

a)

0 0.5 10

0.5

1

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

b)

0 0.5 1−1

−0.5

0

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

c)

Abbildung 3.11: Motion-Templates. Das linke Motion-Template modelliert den Ge-schwindigkeitsverlauf des Ellenbogengelenks bei einer Zeigegeste. Der Ellenbogenwird zunächst angewinkelt (positive Geschwindigkeit) und zum Ende der Geste wie-der gestreckt (negative Geschwindigkeit). Die beiden anderen Motion-Templates mo-dellieren die Geschwindigkeitsverläufe für die Winkel des Schultergelenks. Bei einerZeigegeste werden diese Winkel zunächst beschleunigt und dann abgebremst.

31

3. BEWEGUNGSMODELLE

Die Motion Templates aus Abbildung 3.11 sind aus verschobenen und skaliertenGaussglocken aufgebaut:

a) h(t) = N (t|0,3, 0,1)−N (t|0,7, 0,1)N (0,3|0,3, 0,1)

b) h(t) = N (t|0,5, 0,13)N (0,5|0,5, 0,13)

c) h(t) = − N (t|0,5, 0,13)N (0,5|0,5, 0,13)

Die Idee besteht nun darin, jedem Gelenkwinkel des Arms mehrere Motion-Templateszuzuordnen, um unterschiedliche Bewegungsabläufe berücksichtigen zu können.Gleichzeitig wird für jeden Gelenkwinkel der bisherige Geschwindigkeitsverlaufals endliche Geschwindigkeitshistorie gespeichert. Für jeden Freiheitsgrad wird dasMotion-Template gesucht, das der Geschwindigkeitshistorie am besten entspricht. DieSuche erfolgt, indem die Motion-Templates skaliert und verschoben werden. Anschlie-ßend findet ein Vergleich mit der Geschwindigkeitshistorie statt.

3.5.2 Parametrisierung der Motion-Templates

Die Aufgabe bei der Approximation der bisherigen Geschwindigkeitsverläufe durchMotion-Templates besteht darin, die Motion-Templates so zu parametrisieren,dass sie den bisherigen Geschwindigkeitsverläufen bestmöglich entsprechen. DieMotion-Templatesh(t) sind standardmäßig so skaliert, dass eine Modellbewegung 1s dauert und ihre maximale Geschwindigkeit bei 1 rad/s bzw. -1 rad/s (57,30◦/s bzw.-57,30◦/s) erreicht.Die Motion-Templates werden durch die drei Parameter Amplitudenskalierungα,Zeitskalierungρ und Zeitverschiebungφ skaliert und verschoben. Die Auswirkungendieser Parameter auf die Motion-Templates werden im Folgenden dargestellt.

Amplitudenskalierung Die Amplitudenskalierungα bestimmt die Skalierung derMotion-Templates in Richtung der Geschwindigkeitsachse. Diese Skalierung ermög-licht die Anpassung an unterschiedliche Maximalgeschwindigkeiten während der Be-wegungsabläufe. Abbildung 3.12 zeigt die Auswirkung der Amplitudenskalierung.

32

3. BEWEGUNGSMODELLE

0 0.2 0.4 0.6 0.8 1−2

−1

0

1

2

Zeit [s]W

inke

lges

chw

indi

gkei

t [ra

d/s]

Amplitudenskalierung α

Abbildung 3.12: Amplitudenskalierung. Skalierung des Motion-Templates in Ge-schwindigkeitsrichtung.

Zeitskalierung Die Zeitskalierung ρ bestimmt die Skalierung der Motion-Templates in Richtung der Zeitachse. Die durch die Motion-Templates modelliertenBewegungsabläufe können unterschiedlich schnell ausgeführt werden. Daher ist eineSkalierung in Richtung der Zeitachse nötig. Abbildung 3.13 zeigt die Auswirkung derZeitskalierung.

0 0.2 0.4 0.6 0.8 1 −1

−0.5

0

0.5

1

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

Zeitskalierung ρ

Abbildung 3.13: Zeitskalierung. Skalierung des Motion-Templates in Zeitrichtung.

Zeitverschiebung Die Zeitverschiebungφ dient dazu, die aktuelle Position imMotion-Template zu bestimmen. Das Motion-Template wird in Richtung der Zeitach-se so verschoben, dass es dem bisherigen Geschwindigkeitsverlauf möglichst gut ent-spricht. Abbildung 3.14 zeigt die Auswirkung der Zeitverschiebung.

33

3. BEWEGUNGSMODELLE

0 0.2 0.4 0.6 0.8 1−1

−0.5

0

0.5

1

Zeit [s]W

inke

lges

chw

indi

gkei

t [ra

d/s]

Zeitverschiebung φ

Abbildung 3.14: Zeitverschiebung. Verschiebung des Motion-Templates in Zeitrich-tung.

3.5.3 Optimierung mittels Condensation-Algorithmus

Die Aufgabe besteht nun darin, für jeden Gelenkwinkel des Arms die Motion-Templates so zu parametrisieren, dass sie der Geschwindigkeitshistorie bestmöglichentsprechen. Die Suche nach den optimalen Parametern erfolgt mit dem Condensation-Algorithmus (siehe auch Abschnitt 2.3.1). Wie bereits beschrieben, dient derCondensation-Algorithmus dazu, lokale Maxima einer Wahrscheinlichkeitsdichte überdie Zeit zu verfolgen. In diesem Fall geht es darum, die lokalen Maxima der Wahr-scheinlichkeitsdichte

pmotion(zt|m) (3.14)

zu verfolgen. Hier bezeichnetzt die Geschwindigkeitshistorie im Zeitschrittt undmden Parametervektor, der ein Motion-Template beschreibt. Die Wahrscheinlichkeits-dichtepmotion ist also die Wahrscheinlichkeitsdichte der Geschwindigkeitshistoriezt

bezüglich des Parametervektorsm. Die Verfolgung der lokalen Maxima der Wahr-scheinlichkeitsdichtepmotion erfolgt für jeden Gelenkwinkel unabhängig. Daher wirdauf eine entsprechende Unterscheidung in der Notation verzichtet.Fritsch nutzt in [Fri03] den Condensation-Algorithmus zur trajektorienbasiertenAktivitätserkennung. Auch dort ist es nötig, Modellkurven dem bisherigen Tra-jektorienverlauf anzupassen. Daher bildet das in [Fri03] vorgestellte Verfahrenzur trajektorienbasierten Aktivitätserkennung die Grundlage für die nun folgendeAnwendung des Condensation-Algorithmus.

Partikel

Wie in Abschnitt 2.3.1 dargestellt, wird die Wahrscheinlichkeitsdichte imCondensation-Algorithmus durch eine Menge bewerteter Partikel approximiert. In die-sem Fall wird ein Partikelm durch die folgenden Parameter beschrieben:

• Einen Templateindexτ , der eines der Motion-Templates bezeichnet.

• Die Amplitudenskalierungα des Motion-Templates.

34

3. BEWEGUNGSMODELLE

• Die Zeitskalierungρ des Motion-Templates.

• Die Zeitverschiebungφ des Motion-Templates.

Die Bedeutung der Parameterα, ρ und φ wurde bereits in Abschnitt 3.5.2 erläutert.Der Templateindexτ bezeichnet eines der Motion-Templates. Jedem Gelenkwinkelsind mehrere Motion-Templates zugeordnet. Der Templateindexτ wählt eines davonaus. Ein Partikel beschreibt also ein skaliertes und verschobenes Motion-Template.Die Partikel werden zu Beginn des Condensation-Algorithmus wie folgt initialisiert:

• Der Templateindexτ wird gleichverteilt aus der Menge[1, τmax] gezogen, wobeiτmax die Anzahl des Motion-Templates angibt.

• Die Amplitudenskalierungα wird gleichverteilt aus dem Intervall[αmin, αmax]gezogen. Die Werteαmin undαmax wurden empirisch aus den aufgezeichnetenGeschwindigkeitsverläufen (siehe auch Abschnitt 3.5.1) bestimmt. Typischer-weise wird aus dem Intervall[0.5, 8.0] gezogen.

• Die Zeitskalierungρ wird gleichverteilt aus dem Intervall[ρmin, ρmax] gezogen.Die Werteρmin undρmax wurden empirisch aus den aufgezeichneten Geschwin-digkeitsverläufen bestimmt. Typischerweise wird aus dem Intervall[0.02, 0.05]gezogen.

• Die Zeitverschiebungφ wird so initialisiert, dass ein großer Teil der Partikel einekleine Zeitverschiebung hat. Dadurch wird eine höhere Abtastdichte am Beginnder Motion-Templates erreicht. Dies ist sinnvoll, da die Verfolgung aus einerRuheposition beginnt. Die Zeitskalierungρ wird wie folgt initialisiert:

– Ziehex gleichverteilt aus dem Intervall[0, 1].

– Berechney = 0.25 + 0.75 · x.

– Initialisiereφ =1−√y√

y

Abbildung 3.15 verdeutlicht die Konzentration der Partikel bei kleinen Zeitver-schiebungen.

0 0.2 0.4 0.6 0.8 10

0.2

0.4

0.6

0.8

1

x

φ

Abbildung 3.15: Initialisierung der Zeitverschiebung. Die gleichverteilten Werte xwerden zu kleineren Wertenφ verschoben. Dies erleichtert die Verfolgung neuerMotion-Templates von Beginn an.

35

3. BEWEGUNGSMODELLE

Mit der so initialisierten Menge von Partikeln wird im ersten Durchlauf desCondensation-Algorithmus gestartet. Dieses Initialisierungsverfahren wird auch ver-wendet, um in jeder Iteration einen Teil der Partikel zufällig im Parameterraum zuverteilen.

Fehlermaß und Bewertungsfunktion

Ein zentraler Schritt im Condensation-Algorithmus ist die Bewertung der Partikel aufBasis der vorliegenden Daten (Update-Schritt). In diesem Fall sind die zugrunde lie-genden Daten durch die Geschwindigkeitshistoriezt gegeben. Die Bewertung einesPartikels erfolgt unter Berücksichtigung des quadratischen Abstands zwischen demdurch das Partikel beschriebenen Motion-Template und der Geschwindigkeitshistorie.Die Geschwindigkeitshistorie hat die Längew. Experimente haben gezeigt, dass ei-ne Geschwindigkeitshistorie von einer halben Sekunde sinnvoll ist. Der quadratischeAbstand berechnet sich wie folgt:

d(zt, mnt ) =

w∑u=1

(z(t− u)− α · hτ (φ− ρ · u)

)2(3.15)

Hier bezeichnenmnt den n-ten Partikel im Zeitschrittt und hτ das durch den Tem-

plateindexτ bestimmte Motion-Template.z(t − u) bezeichnet den Wert aus der Ge-schwindigkeitshistorie, der im Zeitschrittt−u aufgezeichnet wurde. Der quadratischeAbstand dient als Fehlermaß für die Bewertungsfunktion. Die Bewertungsfunktion istdie zu approximierende Wahrscheinlichkeitsdichte aus (3.14). Damit ergibt sich dieunnormierte Bewertungπ′ n

t des n-ten Partikelsmnt in Zeitschrittt zu:

π′ nt = pmotion(zt|mn

t ) =1√

2πσm· exp

(−d(zt, m

nt )

2σ2m · w

)(3.16)

Die Wahrscheinlichkeitsdichtepmotion(zt|mnt ) ist also normalverteilt. Die Varianzσm

dieser Dichte bestimmt die Selektivität der Bewertungsfunktion. Bei kleiner Varianzwerden schon Partikel, deren Motion-Template nur geringfügig von der Geschwindig-keitshistorie abweicht, schlecht bewertet. Eine größere Varianz führt zu einer größerenFehlertoleranz. Typische Werte fürσm liegen zwischen 0.05 und 0.1.

Algorithmus

In diesem Abschnitt wird die konkrete Ausführung des Condensation-Algorithmus zurAuswahl und Parametrisierung der Motion-Templates vorgestellt. Dabei wird auf dietatsächliche Umsetzung der Schritte Select, Propagate und Update aus Abschnitt 2.3.1eingegangen.

Select Der Select-Schritt erfolgt exakt wie in Abschnitt 2.3.1 dargestellt. Die Parti-kel m′ n

t im Zeitschrittt werden aus der approximierten Wahrscheinlichkeitsdichte desZeitschrittst− 1 gezogen.

36

3. BEWEGUNGSMODELLE

Propagate Der Propagate-Schritt dient dazu, die Veränderung der Daten zwischenden Zeitschrittent − 1 und t zu berücksichtigen. Dazu werden die aus dem Select-Schritt erhaltenen Partikel so verschoben, dass sie dem geschätzten Verlauf der Datenentsprechen. In diesem Fall besteht die Veränderung der Daten im Geschwindigkeits-verlauf zwischen den Zeitschrittent − 1 undt. Die einzelnen Parameter des Partikelsm′ n

t werden wie folgt prädiziert:

• Der Templateindexτnt wird nicht verändert, solange das Motion-Template nicht

vollständig durchlaufen wurde (φ ≈ 1).

τnt = τ ′ n

t (3.17)

Die aktuelle Position im Motion-Template wird durch die Zeitverschiebungφnt

bestimmt. Daher fällt die Entscheidung über eine Veränderung vonτnt bei der

Prädiktion vonφnt .

• Die Amplitudenskalierungαnt kann beim Durchlaufen des Motion-Templates

kleiner oder größer werden. Die Richtung dieser Änderung kann nur schwergeschätzt werden. Daher wirdαn

t normalverteilt umα′ nt prädiziert:

αnt = α′ n

t +N (0, σα) (3.18)

Die Varianzσα bestimmt die mögliche Änderung der Amplitudenskalierungzwischen zwei Zeitschritten. Typische Werte liegen zwischen 0.2 und 0.5.

• Für die Zeitskalierungρnt gilt ähnliches wie für die Amplitudenskalierung. Auch

hier wird normalverteilt um den Wert des im Select-Schritt gezogenen Partikelsprädiziert:

ρnt = ρ′ n

t +N (0, σρ) (3.19)

Typische Werte fürσρ liegen zwischen 0.01 und 0.02.

• Die Zeitverschiebungφnt im Zeitschritt t kann auf Basis der Zeitverschiebung

φ′ nt und der Zeitskalierungρn

t geschätzt werden. Die Zeitskalierungρnt ist ein

Maß für die Änderung der Zeitverschiebung zwischen zwei Zeitschritten. Daherwird die Zeitverschiebungφn

t wir folgt prädiziert:

φnt = φ′ n

t + ρnt +N (0, σφ) (3.20)

Zusätzlich zur Schätzung der auf Basis vonφ′ nt undρn

t wird die Zeitverschie-bungφn

t mittels einer Normalverteilung verrauscht, um den Einfluss möglicherFehler in der Schätzung zu mindern. Typische Werte fürσφ liegen zwischen 0.02und 0.05.Sollte die Zeitverschiebung am Ende des Motion-Templates (φ ≈ 1) angekom-men sein, wird der Partikel neu initialisiert, um die Verfolgung eines neuenMotion-Templates zu ermöglichen.

Es ist möglich, dass im Predict-Schritt Werte außerhalb des erlaubten Wertebereichsder jeweiligen Parameter erreicht werden. In einem solchen Fall wird die Prädiktion

37

3. BEWEGUNGSMODELLE

für diesen Parameter bis zu dreimal wiederholt. Sollte bis dahin kein gültiger Wert zu-stande kommen, wird der gesamte Partikel neu initialisiert.Desweiteren werden in jedem Durchlauf des Condensation-Algorithmus 10% der Par-tikel neu initialisiert. Dies ist nötig, da aufgrund der sich ständig ändernden Geschwin-digkeitshistorie andere Motion-Templates als die aktuell verfolgten plausibler werdenkönnen.

Update Im Update-Schritt werden die aus dem Predict-Schritt erhaltenen Partikelmn

t bezüglich der Wahrscheinlichkeitsdichtepmotion(z|m) bewertet. Die Bewertungπ′ n

t des Partikelsmnt ergibt sich zu:

π′ nt = pmotion(zt|mn

t ) (3.21)

Die Berechnung vonpmotion(zt|mnt ) erfolgt gemäß (3.16). Die Bewertungenπ′ n

t sindnoch unnormiert. Die Normierung erfolgt gemäß (2.3) aus Abschnitt 2.3.1.

3.5.4 Mean-Templates und Template-Wahrscheinlichkeiten

Das Ergebnis eines Durchlaufs des Condensation-Algorithmus ist eine approximier-te Wahrscheinlichkeitsdichte, die die Übereinstimmung der einzelnen parametrisiertenMotion-Templates mit der Geschwindigkeitshistorie beschreibt. Es ist das Ziel, aufBasis der Motion-Templates eine Schätzung für die Geschwindigkeiten der Gelenk-winkel des Körpermodells zu gewinnen. Dazu ist es nötig, für die einzelnen Motion-Templates sog. Mean-Templates zu bestimmen, die die beste Parametrisierung der ein-zelnen Motion-Templates beschreiben. Für jedes Motion-Templateτk wird ein Mean-Templatemτk mit Hilfe eines kernelbasierten Verfahrens bestimmt. In den folgendenSchritten werden die Partikel gesucht, die zu Motion-Templateτk gehören und in derenNachbarschaft sich die Wahrscheinlichkeitsdichte konzentriert.

1. Berechne für jeden Partikelmn, der zu Motion-Templateτk gehört, die Wahr-scheinlichkeitsdichte in seiner Nachbarschaft:

pn(mn) =∑

miεMτk

Kp(mn, mi) · πi (3.22)

Wobei Mτk die Menge aller Partikel ist, die zu Motion-Templateτk gehören.Die KernelfunktionKp wählt die Partikel aus, die zur Nachbarschaft von Partikelmn gehören. In diesem Fall wird eine uniforme Kernelfunktion verwendet:

Kp(mn, mi) =

{1 wennd(mn, mi) < 10 sonst

(3.23)

Als Abstandsmaßd dient ein varianzgewichteter quadratischer Abstand:

d(mn, mi) =(αn − αi

κ · σα

)2+

(ρn − ρi

κ · σρ

)2+

(φn − φi

κ · σφ

)2(3.24)

38

3. BEWEGUNGSMODELLE

Der Skalierungsfaktorκ dient dazu, die Größe der Nachbarschaft zu bestimmen.Je größerκ wird, desto größer wird auch die Nachbarschaft um jeden Partikel.In den durchgeführten Experimenten hat sich 1 als sinnvoller Wert fürκ veraus-gestellt.

2. Bestimme den Partikelmbest, in dessen Nachbarschaft sich die Wahrscheinlich-keitsdichte konzentriert:

mbest = argmaxmk

pn(mk) (3.25)

Die Menge aller Partikel, die bezüglich der Kernelfunktion zur Nachbarschaftdes Partikelsmbest gehören, wird mitNmbest bezeichnet.

3. Berechne für jeden Partikelmn aus der MengeNmbest das Gewichtwn, mit demer zum Mean-Templatemk

τ beiträgt.

wn = πn ·Kw(mbest, mn) (3.26)

Die Gewichtewn werden ähnlich wie in (3.16) normalisiert. Der Dreiecks-KernelKw fällt mit größer werdendem Abstand zwischenmbest undmn ab:

Kw = 1− d(mbest, mn) (3.27)

4. Bestimme die Parameter des Mean-Templatesmτk :

ττk = τk

ατk =∑

mnεNmbest

wn · αn

ρτk =∑

mnεNmbest

wn · ρn

φτk =∑

mnεNmbest

wn · φn

(3.28)

Das Mean-Templatemτk ist also eine gewichtete Summe der Partikel in derNachbarschaft mit der höchsten Wahrscheinlichkeitsdichte.

Die Mean-Templates stellen die skalierten und verschobenen Motion-Templates dar,die der Geschwindigkeitshistorie am besten entsprechen.Zusätzlich zu den Mean-Templates kann für jedes Motion-Templateτk eine Wahr-scheinlichkeitpτk geschätzt werden. Diese ist ein Maß für die Übereinstimmung zwi-schen dem Motion-Templateτk und der Geschwindigkeitshistorie.

pτk =∑

mnεMτk

πn (3.29)

Die Wahrscheinlichkeit, dass die aktuelle Geschwindigkeitshistorie dem Motion-Templateτk entspricht, ergibt sich also aus der Summe der Partikelbewertungen, diezu Motion-Templateτk gehören.

39

3. BEWEGUNGSMODELLE

3.5.5 Vorhersage des Mean-Modells und Varianzskalierung

Die Mean-Templates werden zur Schätzung der Gelenkwinkelgeschwindigkeiten desArms genutzt. Jedem Gelenkwinkel sind mehrere Motion-Templates zugeordnet, fürdie jeweils ein Mean-Template berechnet wird. Die Auswahl des Mean-Templatesauf Basis dessen die Geschwindigkeit geschätzt wird, erfolgt mit Hilfe der Template-Wahrscheinlichkeiten aus (3.29).

0 0.2 0.4 0.6 0.8 1 1.2 1.4−6

−4

−2

0

2

4

6

8

10

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

v(t−1)+0.5∆t

t−1

Abbildung 3.16: Geschwindigkeitsschätzung mit Motion-Templates. Die rote Kurvebeschreibt den gemessenen Geschwindigkeitsverlauf für den WinkelΦE des Ellen-bogengelenks beim Ausführen einer Zeigegeste. Die grüne Kurve beschreibt die Ap-proximation durch das Motion-Template aus Abbildung 3.11 a) zum im Zeitschrittt− 1. Die Geschwindigkeitsschätzung im Zeitschrittt erfolgt gemäß der Fortsetzungdieser Approximation um0.5∆t (blaue Kurve).

Die Vorhersage des Mean-Modellsµ′t geschieht in den folgenden Schritten:

1. Wähle ein Mean-Templatemτk . Dabei ist die Wahrscheinlichkeit, dass Mean-Templatemτk gewählt wird, durch die Template-Wahrscheinlichkeitpτk gege-ben.

2. Schätze die Gelenkwinkelgeschwindigkeitv(t−1)+1

2∆tzwischen den Zeitschrit-

tent− 1 undt aus dem Mean-Template:

v(t−1)+1

2∆t= ατk · hτk

(φτk +

1

2· ρτk

)(3.30)

Abbildung 3.16 verdeutlicht das Verfahren zur Geschwindigkeitsschätzung.

3. Schätze das Mean-Modellµ′t im Zeitschritt t:

µ′t = µt−1 + v

(t−1)+12∆t

·∆t (3.31)

Wie bisher bezeichnet∆t den Zeitraum zwischen den Zeitschrittent− 1 undt.Das Verfahren entspricht der numerischen Integration nach der Rechteckmetho-de bezüglich des mittleren Punktes.

40

3. BEWEGUNGSMODELLE

Die Prädiktion des Mean-Modells erfolgt also ganz ähnlich wie bei der linearen Prä-diktion aus Abschnitt 3.3. Der Unterschied besteht in der Schätzung der Geschwindig-keiten. Während die lineare Prädiktion sich allein auf die Schätzung der Geschwin-digkeiten mittels Mean-Modell verlässt, nutzt die Prädiktion mit Motion-Templateszusätzliche Informationen über typische Bewegungsabläufe.Die Varianzskalierung erfolgt exakt wie im linearen Fall aus Abschnitt 3.3.2 mit demUnterschied, dass die Geschwindigkeiten durch die aus den Mean-Templates geschätz-ten Geschwindigkeiten ersetzt werden.

3.5.6 Beispiel

In diesem Abschnitt wird die Approximation der Geschwindigkeitshistorie durch einMotion-Template am Beispiel des Ellenbogengelenks veranschaulicht. Die Grundlagefür dieses Beispiel ist der Geschwindigkeitsverlauf des Ellenbogengelenks, der beimAusführen einer Zeigegeste aufgenommen wurde. Der Geschwindigkeitsverlauf ist imersten Bild von Abbildung 3.17 abgebildet (siehe auch Abbildung 3.16).

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 1

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 5

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 9

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 13

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 17

Zeit [s]W

inke

lges

chw

indi

gkei

t [ra

d/s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 21

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 25

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 29

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 33

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

0 0.5 1−6

−4

−2

0

2

4

6

8

10Zeitschritt 37

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

Abbildung 3.17: Approximation der Geschwindigkeitshistorie. Die rote Kurve stelltden gemessenen Geschwindigkeitsverlauf des GelenkwinkelsΦE des Ellenbogenge-lenks zeilenweise dar. Der Geschwindigkeitsverlauf wurde mit einer Framerate von30 Hz aufgenommen. Die Abbildung stellt die Approximation des Geschwindigkeits-verlaufs als grüne Kurve in jedem vierten Zeitschritt dar. Der blaue Anschnitt be-schreibt jeweils die Vorhersage der Geschwindigkeit für den nächsten Zeitschritt.

Abbildung 3.17 zeigt wie sich die Parameter des Motion-Templates über die Zeit ver-ändern, um die Geschwindigkeitshistorie möglichst gut zu approximieren. In der Ab-bildung sind vor allem die Veränderungen der Amplitudenskalierung und der Zeitver-schiebung zu beobachten. Zu Beginn der Zeigegeste bis Zeitschritt 5 ist die Schätzung

41

3. BEWEGUNGSMODELLE

der Parameter aufgrund der kurzen Historie noch ungenau. Zwischen den Zeitschritten9 und 13 steigt der Geschwindigkeitsverlauf deutlich an. Darauf reagiert die Approxi-mation durch eine deutliche Vergrößerung der Amplitudenskalierung.In den Zeitschritten 25 und 29 wird deutlich, welchen Einfluss die Größe des Zeit-fensters auf die Qualität der Approximation hat. Die Größe des Zeitfensters wird inder Abbildung durch die Länge der grünen Kurve dargestellt. In diesem Bereich findetder Vergleich zwischen der Geschwindigkeitshistorie und dem Motion-Template statt(siehe auch (3.15)). Während der Geschwindigkeitsverlauf im Beispiel sein Maximumbei ca. 8 rad/s erreicht, liegt das Minimum bei ca. -5,5 rad/s. Mit einer konstanten Am-plitudenskalierung könnten bei einem großem Zeitfenster nicht beide Extrema erfasstwerden. In diesem Beispiel ist das Zeitfenster gerade so groß, dass nicht beide Maximagleichzeitig erfasst werden. Eine gute Approximation ist so möglich, da im Bereich desMaximums eine größere Amplitudenskalierung gewählt werden kann als im Bereichdes Minimums.

42

4 Ergebnisse

Das Ziel der in Kapitel 3 entwickelten Verfahren ist es, die Verfolgung der Körper-postur bei der Ausführung von Zeigegesten robuster zu machen. In diesem Kapitelwird der Einfluss der Bewegungsmodelle auf die Verfolgungsqualität untersucht. Einesinnvolle Messgröße für die Verfolgungsqualität zu finden, ist in diesem Zusammen-hang eine wichtige Aufgabe.Der wesentliche Aspekt bei dieser Aufgabe ist das Finden der wahren Körperposturdes Menschen in jedem Zeitschritt. Dies ist die sog. „Ground-Truth“, auf deren Ba-sis Messgrößen für die Verfolgungsqualität entwickelt werden können. Im ersten Ab-schnitt werden Verfahren diskutiert, mit denen die „Ground-Truth“ für das Tracking-Framework erzeugt werden kann. Anschließend werden Fehlermaße zur Bewertungder Verfolgungsqualität vorgestellt. In den folgenden Abschnitten wird der Einflussder Bewegungsmodelle unter unterschiedlichen Gesichtspunkten untersucht. Es wer-den lediglich das lineare Bewegungsmodell und das Bewegungsmodell mit Motion-Templates betrachtet. Ein Evaluationsverfahren für das Bewegungsmodell auf Basisder Handposition wird in Abschnitt 5.2 dargestellt.

4.1 Erzeugung von Ground-Truth

Die wahre Postur des Menschen kann am genauesten mit „Motion-Capture“-Systemengefunden werden. Bei diesen Systemen werden Markierungen an der Kleidung desMenschen befestigt. Ein „Motion-Capture“-System kann dann durch Verfolgen die-ser Markierungen die Postur des Menschen sehr gut bestimmen. Ein solches Systemsteht zur Evaluation der Ergebnisse dieser Arbeit nicht zur Verfügung. Daher wirddie „Ground-Truth“ mit dem Tracking-Framework selbst erzeugt. Dazu wird ein zu-sätzlicher Cue zur Bewertung der Modellposturen im Update-Schritt (siehe auch Ab-schnitt 2.3.2) benutzt. Dieser Cue bewertet die Modellposturen auf Basis der Tiefen-daten, die aus den Bildern einer Stereo-Kamera ermittelt werden.Eine Stereo-Kamera besteht aus zwei einzelnen Kameras, die mit einer festen horizon-talen Verschiebung, der sog. Stereo-Basis, montiert sind. Die Kameras sind synchroni-siert, so dass sie ihre Bilder gleichzeitig aufnehmen.Die Stereo-Basis bewirkt einen Versatz in den Bildern. Derselbe Punkt im Raum er-scheint in beiden Kamerabildern um die sog. Disparität verschoben. Die Disparität ei-nes Punktes ist ein Maß für die Entfernung des entsprechenden Punktes im Raum vonder Kamera. Es existieren zahlreiche Algorithmen um die Disparitäten in einem Stereo-Bild zu bestimmen. Der Hersteller Videre Design liefert zu seinen Stereo-Kameras einSoftwarepaket zur Stereo-Bildverarbeitung mit [KB05]. In dieser Arbeit wird diesesPaket zur Bestimmung der Disparitäten sowie der Tiefe der abgebildeten Punkte imRaum verwendet.Der Stereo-Cue vergleicht die Tiefe der Schwerpunkte der einzelnen Gliedmaßen.Dazu wird die wahre Tiefe aus dem Disparitätenbild geschätzt, indem die Tiefe überalle Pixel, die auf dem entsprechen Körperteil liegen, gemittelt wird. Dadurch erhält

43

4. ERGEBNISSE

man die Tiefe des Schwerpunkts des Körperteils. Die Tiefe des Schwerpunkts des Kör-perteils in der Modellpostur wird über die Vorwärtskinematik berechnet.Der Stereo-Cue wird zusätzlich zu den bildverarbeitenden Cues aus Abschnitt 2.2 ver-wendet, um die „Ground Truth“ zu erzeugen. Dazu wird das Tracking-Frameworkmit 1000 Modellposturen betrieben. Es liegt nun eine Serie von Mean-Modellen vor,die ein optimales Verfolgungsergebnis repräsentieren. In den folgenden Auswertungenwird das Tracking-Framework ohne den Stereo-Cue betrieben. Die Verfolgungsergeb-nisse werden mit der optimalen Serie von Mean-Modellen, die unter Verwendung desStereo-Cues entstanden sind, verglichen.Die Stereo-LikelihoodpS berechnet sich wie folgt:

pS(IS |Φ) =L∏

l=1

exp(−

(xl,S − xl,Φ)2

2 · σS

)(4.1)

Für jeden Körperteill wird der quadratische Abstand der Tiefe im Disparitätenbildxl,S und der Tiefe in der Modellposturxl,Φ gebildet. Die VarianzσS bestimmt dieEmpfindlichkeit des Cues. Die Stereo-Likelihood für die gesamte PosturΦ ergibtsich durch die Multiplikation der Likelihoods für die einzelnen Körperteile. Sie istein Maß für die Wahrscheinlichkeitsdichte des DisparitätenbildesIS bezüglich derModellposturΦ.

4.2 Fehlermaße

In diesem Abschnitt werden zwei mögliche Fehlermaße vorgestellt, die die Überein-stimmung zwischen zwei Modellposturen messen. Diese können zur Bewertung derVerfolgungsqualität eingesetzt werden. Das erste Fehlermaß berücksichtigt die Un-terschiede in den einzelnen Freiheitsgraden des Körpermodells, während das zweiteFehlermaß allein die Handposition betrachtet.

4.2.1 Winkelfehler

Das naheliegenste Fehlermaß zur Messung der Übereinstimmung zwischen zwei Mo-dellposturen ist der euklid’sche Abstand zwischen den beiden Parametervektoren.Balan u.a. entwickeln in [BSB05] ein Evaluationsverfahren für die videobasierte Pos-turverfolgung. Sie kommen zu dem Schluss, dass der Vergleich der Parametervektorennur eingeschränkt als Fehlermaß geeignet ist.Ein Fehlermaß auf Basis der Gelenkwinkel ist insofern nicht sinnvoll, dass mehrereGelenkwinkelkombinationen zu derselben Postur führen können. So kann ein großereuklid’scher Abstand zwischen zwei Parametervektoren in einer geringen Differenzder beiden Posturen im Bild resultieren.Aus diesen Gründen wird in den folgenden Experimenten ein Fehlermaß auf Basis derHandposition verwendet.

44

4. ERGEBNISSE

4.2.2 Handfehler

In [BSB05] werden Fehlermaße auf Basis der 3D-Koordinaten von Referenzpunktenauf der Modellpostur vorgeschlagen. Diese Referenzpunkte sind virtuelle Markie-rungspunkte an wichtigen Stellen auf der Modellpostur (z.B. Ellenbogengelenk, Hand,etc.). Die 3D-Koordinaten der Referenzpunkte hängen gemäß der Vorwärtskinematikvon mehreren Gelenkwinkeln ab und können daher zur Bestimmung des Abstandszwischen zwei Modellposturen herangezogen werden. In den folgenden Experimentenwird der Handschwerpunkt als Referenzpunkt genutzt, da es für eine der Posturverfol-gung nachgeschaltete Gestenerkennung besonders wichtig ist, dass die Handpositionrobust verfolgt wird.

y

z

x

Abbildung 4.1: Fehlerquader um Handschwerpunkt. Die 2D-Projektion des Körper-modells stellt die gesuchte Postur in diesem Zeitschritt dar (Ground-Truth). Liegt derHandschwerpunkt des Verfolgungsergebnisses im grünen Quader, gilt die Postur alsgut verfolgt, liegt er im roten Quader, gilt die Postur als schlecht verfolgt. Alle Ver-folgungsergebnisse, deren Handposition außerhalb des roten Quaders liegen, geltenals nicht verfolgt.

Es werden zwei Quader um die Hand der gesuchten Modellpostur gelegt (siehe Abbil-dung 4.1). Diese beschreiben drei Qualitätsstufen der Verfolgung:

• Liegt das Verfolgungsergebnis im inneren Quader, wird die Postur als „gut ver-folgt“ bezeichnet.

• Liegt das Verfolgungsergebnis im äußeren Quader, wird die Postur als „schlechtverfolgt“ bezeichnet.

• Liegt das Verfolgungsergebnis außerhalb des äußeren Quaders, wird die Posturals „nicht verfolgt“ bezeichnet.

So ist eine abgestufte Aussage über die Qualität der Verfolgung möglich. Es könnendie Zeitschritte gezählt werden, in denen die Verfolgung gut, schlecht oder gar nichtfunktioniert hat.Dieses Evaluationsverfahren bietet gegenüber dem euklid’schen Abstand der Hand-positionen den Vorteil, dass es möglich ist, in den unterschiedlichen Raumdimensio-nen unterschiedliche Fehlertoleranzen zu erlauben. So ist die Kantenlänge der Quader

45

4. ERGEBNISSE

senkrecht zur Bildebene der Kamera, also in Tiefenrichtung entlang der x-Achse desglobalen Koordinatensystems, deutlich größer als die beiden anderen. In dieser Rich-tung wird ein größerer Fehler toleriert, da sich die Tiefe mit nur einer Kamera nurschwer schätzen lässt. In den Auswertungen werden die folgenden Kantenlängen be-nutzt:

• innerer Quader: x = 40 cm, y = 12 cm, z = 12 cm

• äußerer Quader: x = 70 cm, y = 24 cm, z = 24 cm

4.3 Evaluationsverfahren

Zur Evaluation der Bewegungsmodelle wurden Videos mit einer Stereo-Kamera, be-stehend aus zwei Kameras des Typs Sony DFW-VL500, aufgenommen. Die Videoswurden mit einer Auflösung von 800 x 600 Pixeln und einer Framerate von 15 Hz er-stellt.Die Versuchspersonen stellen sich in einer Entfernung von 2m vor der Kamera auf.Dabei ist der Oberkörper parallel zur Bildebene der Kamera ausgerichtet. Die Ver-suchspersonen führen zunächst dreimal eine seitliche Zeigegeste aus. Dabei bleibenArm und Hand mit dem Oberkörper nahezu in einer Ebene. Es findet also keine Ände-rung in der Tiefe statt. Im zweiten Teil des Videos zeigen die Versuchspersonen untereinem seitlichen Winkel von ca. 45◦auf die Kamera zu. Dabei befindet sich die Handam Ende der Zeigegeste ca. 50 cm vor dem Oberkörper der Versuchsperson. Auch die-se Zeigegeste wird dreimal ausgeführt.Zur Evaluation der Auswirkung der Bewegungsmodelle auf die Verfolgungsqualitätwird die Postur der Versuchspersonen mit dem Tracking-Framework unter verschie-denen Parametrisierungen verfolgt. Im Folgenden wird ein solcher Verfolgungsver-such als Experiment bezeichnet. Alle Experimente wurden 10 mal mit denselben Para-metern durchgeführt. Dies ist nötig, da der Condensation-Algorithmus probabilistischarbeitet und nicht bei jedem Lauf dieselben Ergebnisse liefert. Durch die 10 maligeAusführung und anschließende Aufsummierung der Ergebnisse wird der Einfluss vonstatistischen Schwankungen verringert.Für die folgende quantitative Bewertung der Verfolgungsergebnisse wurde das Videoeiner Versuchsperson verwendet. Das Video besteht insgesamt aus 580 Einzelbildern(Frames). Die drei seitlichen Zeigegesten sind in den ersten 290 Frames aufgenommen.Die drei Zeigegesten nach vorn sind in den restlichen 290 Frames aufgenommen. DieVerfolgungsergebnisse werden, für beide Zeigegesten getrennt, den Abschnitt 4.2.2beschriebenen Qualitätsstufen zugeordnet. Dazu wird die Anzahl Frames, in denendie Postur gut, schlecht bzw. nicht verfolgt wurde, gezählt. Als quantitatives Ergeb-nis jedes Experiments wird die Summe dieser Werte über alle zehn Durchläufe einesExperiments berechnet, so dass die Gesamtzahl der Frames für jede Zeigegeste 2900beträgt. Diese Summen sind in den folgenden Tabellen dargestellt.

46

4. ERGEBNISSE

4.4 Integration der Bewegungsmodelle insTracking-Framework

In diesem Abschnitt wird untersucht, wie die Bewegungsmodelle in das Tracking-Framework integriert werden können, um die Posturverfolgung möglichst gut zu un-terstützen. Die in diesem Abschnitt beschriebenen Experimente dienen dazu, geeigne-te Parameter für die Bewegungsmodelle zu finden. Eine vollständige Darstellung derin den Experimenten verwendeten Parameter für das Tracking-Framework ist in Ab-schnitt 4.5.1 zu finden.Wie in Abschnitt 3.2 beschrieben, werden im Propagate-Schritt des Condensation-Algorithmus die Prädiktionsverfahren mit und ohne Bewegungsmodell parallel an-gewendet. Im ersten Teil dieses Abschnitts wird analysiert, in welchem Verhältnisdie beiden Prädiktionsverfahren genutzt werden sollten. In Abschnitt 2.6 wurden dieSchwierigkeiten bei der Beobachtung einiger Freiheitsgrade beschrieben. Im zweitenTeil dieses Abschnitts wird der Einfluss dieser Schwierigkeiten auf die Bewegungsmo-delle und damit auf die Verfolgungsqualität diskutiert.

4.4.1 Bedeutung der Recovery-Komponente

Die Modellposturen, die ohne Bewegungsmodell prädiziert werden, stellen dieRecovery-Komponente in jedem Zeitschritt dar. Wie in Abschnitt 3.2 beschrieben, die-nen sie dazu mögliche Unsicherheiten im Bewegungsmodell auszugleichen. Im Falleeiner fehlerhaften Geschwindigkeitsschätzung, können sich die Modellposturen sehrschnell in eine falsche Richtung im Parameterraum bewegen. Wird ein hoher Anteilder Modellposturen mit Bewegungsmodell prädiziert, geht die Verfolgung in einemsolchen Fall verloren.Für beide Prädiktionsverfahren können untere Schwellwerte als Parameter angege-ben werden. Diese bestimmen den minimalen Anteil der Modellposturen, die mitdem jeweiligen Verfahren prädiziert werden. Die Tabelle 4.1 zeigt den Einfluss dieserSchwellwerte auf die Verfolgungsqualität. Als Grundlage der Tabelle dient das Videoeiner Versuchsperson. Die Postur wird mit 250 Modellposturen unter Verwendung deslinearen Bewegungsmodells verfolgt.Die erste Zeile von Tabelle 4.1 zeigt das Ergebnis der Verfolgung ohne Bewegungsmo-dell. Im Vergleich dazu zeigen die folgenden Zeilen die Auswirkungen verschiedenerMischungsverhältnisse von Modellposturen, die ohne bzw. mit Bewegungsmodell prä-diziert werden. In diesen Experimenten wurden mindestens 10% der Modellposturenmit Bewegungsmodell prädiziert. Der mimimale Anteil der Modellposturen, die ohneBewegungsmodell prädiziert werden, wird variiert. Je kleiner dieser Anteil ist, destomehr Modellposturen können potentiell mit Bewegungsmodell prädiziert werden. Dasgenaue Mischungsverhältnis ergibt sich jeweils aus der Auswahl der Modellposturenim Select-Schritt des Condensation-Algorithmus (siehe auch Abschnitt 3.2).Im Experiment, in dem mindestens 80% der Modellposturen ohne Bewegungsmodellprädiziert werden, ist gegenüber dem Referenzexperiment ohne Bewegungsmodell fürbeide Zeigegesten eine deutliche Verschiebung zu besseren Ergebnissen zu beobach-ten. Die Anzahl der gut verfolgten Posturen hat sich für beide Zeigegesten erhöht,

47

4. ERGEBNISSE

seitlich vornParameter gut schlecht nicht gut schlecht nichtmo; mm [#] [#] [#] [#] [#] [#]

1.0; 0.0 2165 707 28 2226 465 2090.8; 0.1 2256 591 53 2301 365 2340.7; 0.1 2226 612 62 2448 390 620.6; 0.1 2080 770 50 1962 682 256

Tabelle 4.1:Anteil der Modellposturen ohne und mit Bewegungsmodell. Die Para-metermo undmm geben den minimalen Anteil der Modellposturen an, die ohne bzw.mit Bewegungsmodell prädiziert werden. Die linke Teiltabelle zeigt die Auswertungfür die drei seitlichen Zeigegesten. Die rechte Teiltabelle zeigt die Auswertung fürdie drei Zeigegesten nach vorn. Die Tabelle stellt jeweils die Anzahl der gut, schlechtund nicht verfolgten Posturen für 10 Ausführungen der Versuche dar.

während die Anzahl der schlecht verfolgten Posturen zurückgegangen ist. Die An-zahl der nicht verfolgten Posturen erhöht sich jeweils geringfügig. Dies ist auf Fehlerin der Geschwindigkeitsschätzug zurückzuführen und in Anbetracht der statistischenSchwankungen der Ergebnisse des Condensation-Algorithmus zu vernachlässigen.Wird ein größerer Anteil an Modellposturen zugelassen, die mit Bewegungsmodellprädiziert werden, wie in der vierten Zeile der Tabelle 4.1, so ist bei der Zeigegestenach vorn eine deutliche Verschlechterung des Verfolgungsergebnisses zu beobachten.Die Versuchsperson zeigt in diesem Fall auf die Kamera zu. Diese Bewegung ist immonokularen Kamerabild nur schwer zu erkennen und die Geschwindigkeitsschätzungwird sehr ungenau. Die Verschlechterung des Verfolgungsergebnisses kommt dadurchzustande, dass viele Modellposturen auf Basis einer fehlerhaften Geschwindigkeits-schätzung prädiziert werden und zu wenige als Recovery-Anteil zur Verfügung stehen.Bei der seitlichen Zeigegeste ist die Bewegung deutlich besser im Kamerabild beob-achtbar. Hier ist das Verfolgungsergebnis nahezu identisch mit dem Verfolgungsergeb-nis aus der zweiten Zeile der Tabelle 4.1.Diese Ergebnisse liefern die Grundlage für die Wahl der Parametermo undmm in denfolgenden Experimenten. Um eine möglichst robuste Verfolgung auch bei unsichererGeschwindigkeitsschätzung zu ermöglichen, werden die Parameterwerte der zweitenZeile aus Tabelle 4.1 gewählt, alsomo = 0.8 undmm = 0.1.

4.4.2 Bewegungsmodelle für unsichere Freiheitsgrade

Bereits in Abschnitt 2.6 wurden Situationen beschrieben, in denen einzelne Freiheits-grade des Körpermodells nur schwer im Bild zu beobachten sind. Ein wichtiges Bei-spiel ist der WinkelΨS des Schultergelenks, der die Rotation um den Oberarm be-schreibt. In solchen Fällen ist eine robuste Schätzung der Winkelgeschwindigkeitenkaum möglich. Abbildung 4.2 zeigt die Geschwindigkeitsschätzung für WinkelΨS desSchultergelenks bei ruhendem, ausgestrecktem Arm im Vergleich mit der Geschwin-digkeitsschätzung für die übrigen Winkel.

48

4. ERGEBNISSE

0 0.2 0.4 0.6 0.8 1−1.5

−1

−0.5

0

0.5

1

1.5

Zeit [s]

Win

kelg

esch

win

digk

eit [

rad/

s]

ΦS

Θs

ΨS

ΦE

Abbildung 4.2: Geschwindigkeitsverläufe bei ruhendem Arm. Die Geschwindig-keitsschätzung für den WinkelΨS ist sehr unsicher.

Während die Geschwindigkeitsschätzungen für die übrigen Winkel um null schwan-ken, zeigen sich bei der Schätzung fürΨS deutliche Ausreisser.Sowohl das lineare Bewegungsmodell als auch das Bewegungsmodell mit Motion-Templates bauen auf einer soliden Geschwindigkeitsschätzung auf. Misslingt die Ge-schwindigkeitsschätzung ist eine plausible Prädiktion auf Basis der Bewegungsmo-delle unmöglich. Da die Geschwindigkeitsschätzung für den WinkelΨS des Schul-tergelenks sehr unzuverlässig ist, erfolgt die Prädiktion dieses Freiheitsgrades ohneBewegungsmodell.

4.5 Einfluss auf die Verfolgungsqualität

In diesem Abschnitt wird der Einfluss der beiden Bewegungsmodelle auf die Verfol-gungsqualität untersucht. Dazu wird die Postur im Video einer Versuchsperson ver-folgt. Die Verfolgungsqualität, die unter Verwendung der Bewegungsmodelle erreichtwird, wird mit der Verfolgungsqualität des Referenzexperiments ohne Bewegungsmo-dell verglichen.Das Tracking-Framework wird durch eine Vielzahl von Parametern konfiguriert. Im er-sten Teilabschnitt wird die Wahl der entscheidenden Parameter für diese Experimenteerläutert. Im zweiten Teilabschnitt werden die Verfolgungsergebnisse diskutiert.

4.5.1 Parameter

Die Wahl der Streuungen für die einzelnen Freiheitsgrade des Körpermodells, ist ent-scheidend für die Qualität der Verfolgung. Die Streuungen werden im Propagate-Schritt des Condensation-Algorithmus genutzt. Eine große Streuung führt zu einerdünneren Abdeckung des Suchraums, während mit einer kleinen Streuung schnelleBewegungen nicht erfasst werden können. In Tabelle 4.2 sind die in den Experimentenverwendeten Streuungen für die einzelnen Freiheitsgrade dargestellt.

49

4. ERGEBNISSE

σΦ σΘ σΨ σx σy σz

Gelenk [◦] [◦] [◦] [cm] [cm] [cm]

Torso 0.6 0.5 0.5 1.5 2 1Schulter 10 10 20 - - -Ellenbogen 20 0 0 - - -

Tabelle 4.2: Streuungen für Propagate-Schritt. Für den Torso sind die Streuungenfür die translatorischen und rotatorischen Freiheitsgrade angegeben. Schulter- undEllenbogengelenk haben nur rotatorische Freiheitsgrade. Die Hand und der Kopf sindfest mit dem Unterarm bzw. dem Torso verbunden, daher werden für das Handgelenkund die Halswirbelsäule keine Streuungen angegeben.

Die in Tabelle 4.2 dargestellten Streuungen wurden so bestimmt, dass die Verände-rung der Postur des Menschen im Bild auch ohne Bewegungsmodell vom Tracking-Framework verfolgt werden kann.Für die Experimente mit Bewegungsmodell werden die Schwellwerte, wie in Abschnitt4.4.1 beschrieben, so festgelegt, dass mindestens 80% der Modellposturen ohne Be-wegungsmodell und mindestens 10% der Modellposturen mit Bewegungsmodell prä-diziert werden.Für die Experimente, in denen das Bewegungsmodell mit Motion-Templates verwen-det wird, sind zusätzlich die Parameter des Condensation-Algorithmus zur Approxima-tion der Geschwindigkeitshistorie zu wählen. Den Gelenkwinkeln der Schulter sind diebeiden Motion-Templates aus Abbildung 3.11 b) und c) zugeordnet. Dem Gelenkwin-kel des Ellenbogens ist das Motion-Template aus 3.11 a) zugeordnet. Für die Suche deroptimalen Parameter der Motion-Templates werden jeweils 1000 Partikel verwendet.Das Zeitfenster zum Vergleich der Motion-Templates mit dem Geschwindigkeitsver-lauf beträgt ca. eine halbe Sekunde, in diesem Fall also acht Zeitschritte (siehe auchAbschnitt 3.5.6). Die Parameter für den Initialisierungs- und den Propagate-Schritt imCondensation-Algorithmus sind in Tabelle 4.3 aufgeführt. Die Varianzσm in der Be-wertungsfunktion beträgt 0.05.

Parameter min max σ

α 0.5 8.0 0.5ρ 0.02 0.05 0.01φ - - 0.02

Tabelle 4.3:Parameter für Optimierung der Motion-Templates. Es sind jeweils dieMinimal- und Maximal-Werte der Parameter sowie deren Varianzen aufgeführt.

4.5.2 Verfolgungsergebnisse

In Tabelle 4.4 sind die Verfolgungsergebnisse unter Verwendung der beiden Bewe-gungsmodelle gegenübergestellt. Die Daten aus der Tabelle werden in den Diagram-men in Abbildung 4.3 veranschaulicht. Die Versuche wurden sowohl mit 100 als auch

50

4. ERGEBNISSE

mit 250 Modellposturen durchgeführt. Wie erwartet, ist das Verfolgungsergebnis beiallen Versuchen mit 250 Modellposturen deutlich besser als bei den entsprechendenVersuchen mit 100 Modellposturen. In den Versuchen mit 250 Modellposturen wirdder Suchraum dichter abgetastet, was zu einer besseren Schätzung des Mean-Modellsführt.

seitlich vornModelle Bewegungs- gut schlecht nicht gut schlecht nicht

[#] modell [#] [#] [#] [#] [#] [#]

Ohne 1724 1042 134 2178 442 280100 Linear 1979 775 146 1950 633 317

Template 1936 910 54 1934 804 162

Ohne 2165 707 28 2226 465 209250 Linear 2256 591 53 2301 365 234

Template 2284 541 75 2430 323 147

Tabelle 4.4:Einfluss der Bewegungsmodelle auf die Verfolgungsqualität. Die Versu-che wurden mit 100 und 250 Modellposturen durchgeführt. Die Postur wurde jeweilsohne Bewegungsmodell, mit linearem Bewegungsmodell und mit Motion-Templatesverfolgt. Die Tabelle zeigt jeweils die Anzahl der gut, schlecht und nicht verfolgtenPosturen für 10 Ausführungen der Versuche.

Sowohl bei den Experimenten mit 100 als auch bei den Experimenten mit 250 Modell-posturen zeigt sich deutlich, dass das lineare Bewegungsmodell und insbesondere dasBewegungsmodell mit Motion-Templates zur Verbesserung der Verfolgungsqualitätbeitragen. Die Qualitätsverbesserung zeigt sich daran, dass einige Modellposturen vonder Qualitätsstufe „nicht verfolgt“ zur Qualitätsstufe „schlecht verfolgt“ bzw. von derQualitätsstufe „schlecht verfolgt“ zur Qualitätsstufe „gut verfolgt“ wandern.Bei der seitlichen Zeigegeste sind die sich ändernden Freiheitsgrade gut beobachtbar,so dass die Geschwindigkeiten gut geschätzt werden können. Dies kommt demlinearen Bewegungsmodell zugute. Das lineare Bewegungsmodell sagt die Bewegungallein auf Basis der geschätzten Geschwindigkeit voraus. Da diese Schätzung beider seitlichen Zeigegeste gut gelingt, führt das lineare Bewegungsmodell bereits zueiner deutlichen Verbesserung der Verfolgungsqualität gegenüber den entsprechendenExperimenten ohne Bewegungsmodell. Das Bewegungsmodell mit Motion-Templatesliefert in diesem Fall keine wesentliche Verbesserung mehr.Bei der Zeigegeste nach vorn ist die Geschwindigkeitsschätzung weitaus schwieriger.Daher kann das lineare Bewegungsmodell die Verfolgungsqualität bei dieser Zeige-geste nicht verbessern. Im Experiment mit 100 Modellposturen verschlechtert siesich sogar leicht. Eine fehlerhafte Geschwindigkeitsschätzung kann die prädiziertenModellposturen weit von der tatsächlichen Postur des Menschen im Bild entfernen,so dass sie nicht mehr zur Verfolgung beitragen können. Dies beeinflusst die Ver-folgungsqualität bei der geringen Anzahl von 100 Modellposturen besonders stark.Schlägt die Prädiktion auf Basis des Bewegungsmodells fehl, trägt nur noch der Teilder Modellposturen zur Verfolgung bei, der ohne Bewegungsmodell prädiziert wurde.

51

4. ERGEBNISSE

In diesem Experiment sind dies im Extremfall nur noch 80 Modellposturen.

gutschlecht

nicht

0

1000

2000

seitlich − 100 Modellposturen

gutschlecht

nicht

0

1000

2000

vorn − 100 Modellposturen

gutschlecht

nicht

0

1000

2000

seitlich − 250 Modellposturen

gutschlecht

nicht

0

1000

2000

vorn − 250 Modellposturen

OhneLinearTemplate

Abbildung 4.3: Einfluss der Bewegungsmodelle auf die Verfolgungsqualität. DieDiagramme visualisieren die Daten aus Tabelle 4.4.

Das Bewegungsmodell mit Motion-Templates verlässt sich nicht allein auf die Ge-schwindigkeitsschätzung, sondern nutzt zusätzlich Vorwissen über typische Bewe-gungsabläufe. Dies kann bei einer unsicheren Geschwindigkeitsschätzung helfen, diePrädiktion zu verbessern. Die Verfolgungsqualität kann sowohl im Experiment mit 100als auch im Experiment mit 250 Modellposturen deutlich gesteigert werden. Besondersist hier der Rückgang der nicht verfolgten Posturen zu beachten. Dem Bewegungsmo-dell mit Motion-Templates gelingt es trotz einer unsicheren Geschwindigkeitsschät-zung, die Modellposturen hinreichend genau in Richtung der Bewegung zu prädizierenund so die Verfolgung zu ermöglichen.

4.6 Skalierbarkeit und Generalisierungsfähigkeit

Es wurden weitere, qualitative Experimente durchgeführt, um die Skalierbarkeit undGeneralisierungsfähigkeit der Bewegungsmodelle einzuschätzen.Auf aktuellen Rechnern ist ein Echtzeit-Betrieb des Systems mit 7.5 Hz möglich. Ge-genüber den Experimenten aus Abschnitt 4.5 bedeutet das eine Halbierung der Fra-merate. Ohne Verwendung eines Bewegungsmodells müsste die Streuung der Modell-posturen deutlich erhöht werden, um die Bewegung des Menschen im Bild bei derniedrigeren Framerate erfassen zu können. Zwischen zwei Bildern ist doppelt so viel

52

4. ERGEBNISSE

Zeit und der Mensch kann sich weiter bewegen. Eine Erhöhung der Varianz ist abernur bis zu einem gewissen Maße erwünscht (siehe auch Abschnitt 3.3.2). Experimentehaben gezeigt, dass es die Bewegungsmodelle ermöglichen, die Postur des Menschenim Bild bei einer Framerate von 7.5 Hz zu verfolgen, auch wenn die Streuung der Mo-dellposturen relativ gering ist. Das Bewegungsmodell konzentriert die Modellposturendort, wo die Postur des Menschen im nächsten Zeitschritt erwartet wird. Daher reichteine relativ geringe Streuung der Modellposturen aus.Die im Rahmen dieser Arbeit entwickelten Bewegungsmodelle sind sehr allgemeingehalten. Das lineare Bewegungsmodell nutzt lediglich die Linearitätsannahme unddas Bewegungsmodell mit Motion-Templates macht Annahmen über die Geschwin-digkeitsverläufe in den Gelenkwinkeln. Experimente mit den Videos unterschiedlicherVersuchspersonen haben gezeigt, dass die Bewegungsmodelle auch allgemein ähnlicheErgebnisse liefern, wie in Abschnitt 4.5 dargestellt. Im Bewegungsmodell mit Motion-Templates werden keine Annahmen über den konkreten Zeitverlauf der Gelenkwin-kel gemacht. Die durch die Motion-Templates modellierten Geschwindigkeitsverläufelassen sich auf eine Vielzahl von Zeigegesten anwenden. Die beiden in Abschnitt 4.5quantitativ untersuchten Gesten bestätigen dies.

53

5 Zusammenfassung und Ausblick

In diesem Kapitel wird zunächst nochmals auf die im Rahmen dieser Arbeit entwickel-ten Ansätze zur Verfeinerung des Körpermodells zurückgeblickt. Anschließend wer-den ausgehend von den bisherigen Ergebnissen Ideen für die weitere Entwicklungskizziert.

5.1 Zusammenfassung

Das Ziel dieser Arbeit war es, biologisch motivierte Verfeinerungen für das Körper-modell zu finden, die es ermöglichen, Zeigegesten robuster zu verfolgen. Es wurdendrei Bewegungsmodelle für den menschlichen Arm entwickelt, die verschiedene An-nahmen über die Bewegungsabläufe des Arms bei der Ausführung von Zeigegestenmachen. Im linearen Bewegungsmodell wird davon ausgegangen, dass sich jeder Ge-lenkwinkel zwischen zwei Zeitschritten mit konstanter Geschwindigkeit bewegt. DasBewegungsmodell auf Basis der Handposition wendet diese Linearitätsannahme aufdie Bewegung der Handposition an. Die spezielle Domäne der Verfolgung von Zeige-gesten bietet die Möglichkeit weitere Annahmen zu treffen. Im Bewegungsmodell mitMotion-Templates wird Wissen über typische Bewegungsabläufe des Menschen beimAusführen von Zeigegesten zur Vorhersage der Körperpostur genutzt.Die Analyse des Einflusses der Bewegungsmodelle auf die Verfolgungsqualität in Ka-pitel 4 hat gezeigt, dass die Bewegungsmodelle zur Verbesserung der Verfolgungs-qualität beitragen können. Besonders das Bewegungsmodell auf Basis von Motion-Templates hilft, die Bewegung der Postur vorauszusagen, auch wenn die Bewegungim monokularen Kamerabild nur schwer beobachtbar ist.Die intensive Beschäftigung mit der Bewegungsschätzung für das Körpermodell hatgezeigt, dass die Schätzung immer dann gut gelingt, wenn die betreffenden Freiheits-grade gut beobachtbar sind. Ist ein Freiheitsgrad nur schwer oder gar nicht beob-achtbar, scheitern die Bewegungsmodelle bei der Voraussage der Postur. Hier hilftdie Kombination der modellbasierten und der gleichverteilten Prädiktion der Wahr-scheinlichkeitsdichte. Der Anteil, der ohne Bewegungsmodell prädiziert wird, dientals Recovery-Komponente bei unsicherer Geschwindigkeitsschätzung.Desweiteren können durch die Kombination der beiden Prädiktionsverfahren weiterhinbeliebige Bewegungen verfolgt werden. Nicht modellierte Bewegungen werden durchdie Prädiktion ohne Bewegungsmodell erfasst.

5.2 Ausblick

In diesem Abschnitt werden Ideen für die weitere Arbeit mit dem Tracking-Frameworkskizziert, die im Rahmen dieser Arbeit entstanden sind.

54

5. ZUSAMMENFASSUNG UNDAUSBLICK

Evaluation des Bewegungsmodells auf Basis der Handposition In Ab-schnitt 3.4 wird das Bewegungsmodell auf Basis der Handposition vorgestellt. In Ka-pitel 4 wurde lediglich der Einfluss der beiden anderen Bewegungsmodelle auf dieVerfolgungsqualität untersucht. Es ist zu Erwarten, dass auch die Bewegungsprädiktionauf Basis der Handposition zur Steigerung der Verfolgungsqualität beitragen kann. DieBestätigung dieser Vermutung kann mit denselben Evaluationsverfahren wie in Kapitel4 erfolgen.

Kombination mit Gestenerkennung Die Nutzung der Handposition bei der Be-wegungsprädiktion bietet die Möglichkeit weitere Informationen in den Verfolgungs-prozess mit einzubeziehen. In [BD01] untersuchen Blakemore u.a. wie der MenschBewegungen anderer Menschen wahrnimmt und daraus die zugrunde liegenden In-tentionen ableitet. Sie gehen davon aus, dass der Mensch aus den situationsabhängigabgeleiteten Intentionen wieder eine Voraussage für die zukünftige Bewegung trifft.Für Zeigegesten könnte das bedeuten, dass schon in einem frühen Stadium der Verfol-gung als Intention das Zeigen auf ein bestimmtes Objekt durch ein Gestenerkennungs-system vermutet wird. Diese Information kann wiederum im Tracking-Framework ge-nutzt werden, um die Trajektorie der Hand in Richtung des Objektes vorauszusagen.Ein solcher Ansatz setzt eine enge Verzahnung des Tracking-Frameworks mit einemGestenerkennungssystem voraus. Die gewonnene Information über die Intention desMenschen kann gerade in schwer beobachtbaren Situationen helfen, eine plausibleVorhersage für die Körperpostur zu treffen.

Abhängigkeiten zwischen Gelenkwinkeln In den im Rahmen dieser Arbeitentwickelten Bewegungsmodellen werden, abgesehen vom Bewegungsmodell auf Ba-sis der Handposition, die Geschwindigkeiten der Gelenkwinkel unabhängig von ein-ander betrachtet. Gerade bei den Gelenkwinkeln des Arms existieren aber Abhängig-keiten zwischen den einzelnen Gelenkwinkeln (siehe hierzu auch [HUF03]). DieseAbhängigkeiten könnten mit Hilfe einer Hauptkomponentenanalyse (PCA) der Ge-lenkwinkeldaten des menschlichen Arms gefunden werden. Die gefundenen Haupt-komponenten könnten eingesetzt werden, um die Bewegung der Postur entlang dieserHauptkomponenten zu prädizieren. So wäre es möglich, möglichst natürliche Bewe-gungen zu erzeugen.

Apriori-Dichten für Gelenkwinkel Während der Verfolgung der Postur kommtes relativ häufig vor, dass nur sehr wenig Information zur Bestimmung einzelner Frei-heitsgrade vorhanden ist. In Abschnitt 2.6 wurden einige Situationen vorgestellt, indenen die Information aus dem Kamerabild nicht ausreicht, um die Postur eindeutigzu bestimmen. In solchen Situationen kann es helfen, weitere Informationen über denmenschlichen Körper in den Verfolgungsprozess mit einzubeziehen. Cruse u.a. ha-ben in [CWB+90] Kostenfunktionen für die Gelenkwinkel des Arms aufgestellt. Diesemodellieren den Grad der Bequemheit für die einzelnen Winkelpositionen. Auf Basissolcher Kostenfunktionen könnten Apriori-Wahrscheinlichkeitsdichten für die Gelenk-winkel definiert werden. Diese könnten immer dann für die Schätzung der Gelenkwin-kel herangezogen werden, wenn die Information aus dem Bild nicht ausreichend ist.

55

5. ZUSAMMENFASSUNG UNDAUSBLICK

Dies zeigt sich dadurch, dass die Gesamt-Likelihood in einem Zeitschritt unabhängigvon der Wahl der Gelenkwinkel ist.

Bewegungsmodelle zur Schätzung des Mean-Modells In dieser Arbeit wur-den die Bewegungsmodelle allein zur Prädiktion der Wahrscheinlichkeitsdichte imPropagate-Schritt des Condensation-Algorithmus genutzt. Es wäre auch denkbar, dieBewegungsmodelle bei der Schätzung des Mean-Modell mit einzubeziehen. Dieskönnte z.B. durch Anwendung des Kalman-Filters geschehen, in dem sowohl dieSchätzung auf Basis der Bilddaten als auch auf Basis des Bewegungsmodells einflie-ßen.

Verallgemeinerung der Bewegungsmodelle Diese Arbeit konzentriert sichauf die Verfolgung von Zeigegesten. Es ist prinzipiell möglich, mit dem Tracking-Framework auch die Postur des gesamten menschlichen Körpers zu verfolgen (sieheauch [Sid01]). Die in dieser Arbeit vorgestellten Bewegungsmodelle lassen sich ineinem solchen Fall auch auf andere Gelenkwinkel als die des Arms erweitern. DasBewegungsmodell mit Motion-Templates könnte zum Beispiel zur Modellierung desmenschlichen Gangs durch neue Motion-Templates angepasst werden.

56

Literaturverzeichnis

[AKG04] A DMIRAAL , MARJAN A., MARTIJN J. M. A. M. KUSTERSund STAN

C. A. M. GIELEN: Modelling Kinematics and Dynamics of Human ArmMovements. Motor Control, 8:312–338, 2004.

[BD01] BLAKEMORE, SARAH-JAYNE und JEAN DECETY: From the Perceptionof Action to the Understanding of Intention. Nature Reviews Neuros-cience, 2:561–567, 2001.

[BSB05] BALAN , ALEXANDRU O., LEONID SIGAL und MICHAEL J. BLACK :A Quantitative Evaluation of Video-Based 3D Person Tracking. In: TheSecond Joint IEEE International Workshop on Visual Surveillance andPerformance Evaluation of Tracking and Surveillance. Springer-Verlag,2005.

[CWB+90] CRUSE, H., E. WISCHMEYER, M. BRÜWER, P. BROCKFELD undA . DREES: On the Cost Functions for the Control of the Human ArmMovement. Biological Cybernetics, 62:519–528, 1990.

[Fri03] FRITSCH, JANNIK : Vision-based Recognition of Gestures with Context.Doktorarbeit, Universität Bielefeld, Technische Fakultät, 2003.

[HFS04] HOFEMANN, N., J. FRITSCH und G. SAGERER: Recognition of DeicticGestures with Context. Band 3175 der ReiheLecture Notes in ComputerScience, Seiten 334–341, Heidelberg, Germany, 2004. Springer-Verlag.

[HUF03] HERDA, LORNA, RAQUEL URTASUN und PASCAL FUA: Automatic De-termination of Shoulder Joint Limits using Quaternion Field Boundaries.International Journal of Robotics Research, 22(6), 2003.

[HUF05] HERDA, LORNA, RAQUEL URTASUN und PASCAL FUA: HierarchicalImplicit Surface Joint Limits for Human Body Tracking. Computer Visionand Image Understanding, 99(2):189–209, 2005.

[HW98] HARRIS, CHRISTOPHER M. und DANIEL M. WOLPERT: Signal-Dependent Noise Determines Motor Planing. Nature, 394:780–784, 1998.

[IB98] I SARD, M ICHAEL und ANDREW BLAKE : Condensation – ConditionalDensity Propagation for Visual Tracking. International Journal of Com-puter Vision, 29(1):5–28, 1998.

[KB05] K ONOLIGE, KURT und DAVID BEYMER: SRI Small Vision System -User’s Manual Software version 4.1e, 2005.

57

Literaturverzeichnis

[KS05] KWOLEK, BOGDAN und JOACHIM SCHIMDT: Kernel Particle Filter forReal-Time 3D Body Tracking from Monocular Color Images, 2005.

[SBS02] SIDENBLADH , HEDVIG, M ICHAEL J. BLACK und LEONID SIGAL : Im-plicit Probabilistic Models of Human Motion for Synthesis and Tracking.In: ECCV ’02: Proceedings of the 7th European Conference on ComputerVision-Part I, Band 2350 der ReiheLecture Notes in Computer Science,Seiten 784–800, London, UK, 2002. Springer-Verlag.

[Sch04] SCHMIDT, JOACHIM: Inkrementelle Adaption eines 3d-Körpermodellsaus Bildsequenzdaten. Diplomarbeit, Universität Bielefeld, TechnischeFakultät, 2004.

[SH04] SCHMIDT, GREG S. und DONALD H. HOUSE: Model-Based Motion Fil-tering for Improving Arm Gesture Recognition Performance. In: Gesture-based Communication in Human-Computer Interaction: Selected and Re-vised Papers from International Gesture Workshop 2003, Band 2915 derReiheLecture Notes in Computer Science, Seiten 210–230, Heidelberg,Germany, 2004. Springer-Verlag.

[Sid01] SIDENBLADH , H.: Probabilistic Tracking and Reconstruction of 3D Hu-man Motion in Monocular Video Sequences. Doktorarbeit, KTH Sweden,2001.

[TGB00] TOLANI , DEEPAK, AMBARISH GOSWAMI und NORMAN I. BADLER:Real-Time Inverse Kinematics Techniques for Anthropomorphic Limbs.Graphical Models, 62(5):353–388, 2000.

58

Abbildungsverzeichnis

1.1 Mobiler Roboter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Humanoider Roboter . . . . . . . . . . . . . . . . . . . . . . . . . . 1

2.1 Aufbau des Tracking-Frameworks . . . . . . . . . . . . . . . . . . . 52.2 Körpermodell aus Kegelstümpfen . . . . . . . . . . . . . . . . . . . 62.3 Rotatorische Freiheitsgrade . . . . . . . . . . . . . . . . . . . . . . . 72.4 2D-Projektion des vereinfachten Körpermodells . . . . . . . . . . . 72.5 Bilddaten zur Posturbewertung . . . . . . . . . . . . . . . . . . . . . 82.6 Ausgestreckter Arm . . . . . . . . . . . . . . . . . . . . . . . . . . . 132.7 Mehrdeutigkeit aufgrund von 2D-Projektion . . . . . . . . . . . . . . 13

3.1 Prädiktion ohne Bewegungsmodell . . . . . . . . . . . . . . . . . . . 173.2 Prädiktion mit Bewegungsmodell . . . . . . . . . . . . . . . . . . . . 183.3 Zusammenwirken der Prädiktionsverfahren . . . . . . . . . . . . . . 193.4 Lineare Bewegungsprädiktion . . . . . . . . . . . . . . . . . . . . . 203.5 Gelenkwinkel des Ellenbogengelenks . . . . . . . . . . . . . . . . . 243.6 Zusätzlicher Freiheitsgrad im Schultergelenk . . . . . . . . . . . . . 243.7 Rotation um x-Achse des Schulterkoordinatensystems . . . . . . . . . 253.8 Rotation um z-Achse des Schulterkoordinatensystems . . . . . . . . . 263.9 Anwendung des Bewegunngsmodells auf Basis der Handposition . . . 293.10 Geschwindigkeitsverläufe bei Zeigegesten . . . . . . . . . . . . . . . 313.11 Motion-Templates . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.12 Amplitudenskalierung . . . . . . . . . . . . . . . . . . . . . . . . . . 333.13 Zeitskalierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.14 Zeitverschiebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.15 Initialisierung der Zeitverschiebung . . . . . . . . . . . . . . . . . . 353.16 Geschwindigkeitsschätzung mit Motion-Templates . . . . . . . . . . 403.17 Approximation der Geschwindigkeitshistorie . . . . . . . . . . . . . 41

4.1 Fehlerquader um Handschwerpunkt . . . . . . . . . . . . . . . . . . 454.2 Geschwindigkeitsverläufe bei ruhendem Arm . . . . . . . . . . . . . 494.3 Einfluss der Bewegungsmodelle auf die Verfolgungsqualität . . . . . 52

59

Tabellenverzeichnis

4.1 Anteil der Modellposturen ohne und mit Bewegungsmodell . . . . . . 484.2 Streuungen für Propagate-Schritt . . . . . . . . . . . . . . . . . . . . 504.3 Parameter für Optimierung der Motion-Templates . . . . . . . . . . . 504.4 Einfluss der Bewegungsmodelle auf die Verfolgungsqualität . . . . . 51

60

Documents

K D 3D-K FÜR BILDBASIERTE GESTENERKENNUNG DIPLOMARBEIT · 1 Einleitung Mobile und humanoide Roboter sind derzeit Gegen-stand intensiver Forschung. Sie könnten in Zukunft zahlreiche