Recovering 3D Human Body Configurations Using Shape Contexts
Hauptseminar Bildverstehen:Videobasierte Erkennung und Analyse menschlicher Aktionen
Peter PichlmaierSS 2006
2
Gliederung
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
1. Grundprinzip exemplarbasierter Verfahren
2. Bilderkennung mittels Shape Contexts
- Idee
- Schritte des Verfahrens
- Optimierung
- Beispiele
3. Videoerkennung mittels Motion Descriptors
- Problemstellung
- Schritte des Verfahrens
- Beispiele
- Erweiterte Anwendungen
4. Bewertung
3
Grundprinzip exemplarbasierter Verfahren
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Problem:
- Kontext notwendig
- Ohne Details kein Kontext
Exemplardatenbanken:
- manuell markierte Exemplare
- kein direktes Erkennen von Details
- Vergleich des Testbildes und Exemplars
- Ausgabe: Daten des besten Exemplars
4
Grundprinzip exemplarbasierter Verfahren
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Testbild
Bestes Exemplar
Vergleich
Daten
5
Idee - Shape Contexts
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Manuell markierte Exemplardaten: 14 Gelenkpunkte
- Kopf
- Schultern
- Ellbogen
- Hände
- Bauch
- Hüfte
- Knie
- Knöchel
6
Idee - Shape Contexts
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
1. Kantendetektor und Sample Points
Shape
2. Korrespondierende Punkte in Exemplar und Testbild
Vergleichmöglichkeit
3. Deformation des Exemplarshapes in das Testshape
Kinematische Kette
2D-Gelenkpunkte
4. 3D-Rekonstruktion
7
Shapeberechnung
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Kantendetektor
externe Konturen
interne Konturen
Auswahl von 300-1000 Sample Points aus Kanten
Shape:
- Eckpunkte
- Tangenten
8
Korrespondierenden Punkte
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Erweiterte Shape-Kontextdeskriptoren:
- polare Histogramme
- Aufsummierung der Tangenten pro Bin
- 2d-dimensionaler Vektor aus d Bins
- Berechnung für jeden Punkt
9
Korrespondierenden Punkte
Problem: Welcher Punkt gehört zu welchem ?
Vektorenvergleiche
bipartiter Graph:
- Punkte als Knoten
- Vergleichswerte als Kanten
Ausreißerpunkt
Testbild Exemplar
Zuweisungoptimierer
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
10
Deformation
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
- Methode: kleinste Quadrate (Punktabweichungen)
- Bis zu vier Iterationsschritte
Abweichung:
Start: Exemplar Ziel: Testbild
11
Experimente: Ausschlussalgorithmus
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Anatomische Beschränkungen
Bewegungsmodell mit 9 Segmenten:
- Torso Translation- Oberarme
- Unterarme Rotation- Oberschenkel
- Unterschenkel
Zuordnung der Punkte:
Exemplar: Nächste Knochenlinie
Testbild: Korrespondierende Punkte
12
Wiederholung: Matching
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Vergleich: Testbild und einzelnes Exemplar
1. Kantendetektor Shape
3. Erweiterte Shape-Deskriptoren
korrespondierende Punkte
3. Mehrmalige Deformation
Gelenkpunkte und Wertung des Exemplars
Trivialer Ansatz:
Vergleich mit allen Exemplaren
nicht praktikabel : 20-30 s pro Exemplar
13
Optimierung: Ausschlussalgorithmus
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Viele Exemplare eindeutig unpassend
Aussortieren mittels RSCs
Representative Shape Context (RSC):
- Einzelnes Radialhistogramm
- Berechnung aus allen Shapepunkten
Verfahren:
- Vorausberechnung: ca. 800 Shape Contexts pro Exemplar
- nur 5-10 RSCs für Testbild
- Summe: Vergleichswerte RSC und bester SC
schnelle Auswahl: 10 sinnvollste Exemplare
14
Optimierung: Teilexemplare
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Problemstellung: Mehr Details
wesentlich mehr Exemplare
doppelte Exemplarzahl
Lösung: Teilexemplare
- getrennte Bewertung der Segmente
- Vorsicht: anatomische Einschränkungen
15
Optimierung: Teilexemplare
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Exemplare immer konsistent
Abstände zwischen Gelenken als Grenzen
verpflichtend für Kombinationen
Testbild Exemplare ungültige gültige
Kombination
16
3D - Rekonstruktion
Hauptseminar Bildverstehen: Recovering 3d Human Body Configurations Using Shape Contexts Peter Pichlmaier
Verfahren von Taylor 3D-Modell
Eingabedaten:
- 2D-Gelenkpunkte X und Y - Koordinaten
- Körperteillängen relative Z – Koordinaten
- Closer Endpoint Labels Reihenfolge
17
Experimente: Ausschlussalgorithmus
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Testbild die zehn besten Exemplare
18
Experimente: Problemfaktor Kleidung
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Testbild
Exemplar
Testbild
Exemplar
19
Experimente: Teilexemplare
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Ganze Exemplare
Teilexemplare
leichte Verbesserung
Risiko: mehrfache Verwendung von Pixeln
20
Experimente: Küchenschabe
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
- Identisches Verfahren
- Bewegungsmodell mit zwei zusätzlichen Körpergliedern
21
Motion Descriptor: Problemstellung
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Mittlere Entfernung: 30 Pixel-Figuren
Details nicht auswertbar
nötig: robuster Motion Descriptor
22
Schritte
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Exemplarbasierter Ansatz: Sequenzdatenbank
manuelle Beschreibung
optional 2D-Gelenkpunkte
Verfahren:
1. Stabilisierung und Optical Flow
2. Auftrennung und Glättung
3. Sequenzvergleich
Motion Descriptor
23
Stabilisierung
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Tracker
- Zentrierung auf Figur und Ausschnitt
- Bedingung: ähnliche Figur ähnlicher Ausschnitt
- Verlust von Translationen
24
Optical Flow
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
- allgemeine Ansicht: eher unzuverlässig, ungenau
- Interpretation als grobes Bewegungsmuster
Reduzierung auf relevante Informationen
25
Relevante Daten
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Trennung nach X und Y- Anteile (2 Kanäle)
Trennung in negative und positive Komponenten
(4 Kanäle)
Glättung mit Gaußfunktion
Motion Descriptor
26
Ziele
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
- Aktionserkennung
- 3D-Rekonstruktion
Eingabe: Video
laufen
nach linksgehen
schwingennach rechts
gehen
joggen
27
Matching
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
- einzelne Frames nicht aussagekräftig
Vergleich von Sequenzen
- Zentrierung auf zwei Frames in beiden Sequenzen
Vergleich sämtlicher Framepaare notwendig
…
…
…
…Σ
Testsequenz A
Exemplarsequenz B
Temporale Erweiterung
28
Matching
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Vergleich sämtlicher Framepaare notwendig
Optimierung mittels Matrizen
BFrame-
Ähnlichkeitsmatrix
A
Bewegungs-Ähnlichkeitsmatrix
A
B
I Matrix
Kernelmatrix
29
Experimente: Ballettschritte
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
16 Balletschritte, exakt choreographierte Bewegungen
einfaches Problem
30
Experimente: Tennisspieler
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
sechs Aktionen, spontane Bewegungen
schlechtere Ergebnisse,
nur logische Verwechslungen
31
Video: Klassifizierung
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
32
Video: Do as I Do
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Anwendung: Synthese von Videos mit anderen Personen
- Exemplarsequenzen der Zielperson Target
- Steuersequenz durch Testvideo Driver
Relevant:
- Übereinstimmung mit Anweisungen
Vergleich: Target und Driver
- Flüssiges Video
Vergleich: Target und vorherige Targetsequenz
33
Video: Do as I Do
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Greg in the World Cup
34
Video: Do as I Say
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Anwendung: Synthese von Videos mit anderen Personen
- Exemplarsequenzen der Zielperson Target
- Anweisungen Driver
- analog wie Do as I Do
zukünftige Computerspiele
35
Video: Do as I Say
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Steuerbarer Tennisspieler
36
Vergleich
Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier
Shape Contexts:
- Bilder in guter Qualität 2D-Gelenkpunkte
- keine zeitliche Konsistenz, Einzelbilder
Motion Descriptors:
- unscharfe Videodaten aus mittlerer Entfernung
Klassifizierung
- Sequenzvergleiche
Gemeinsamkeiten:
- Exemplarbasiert:
Gesamtkontext verfügbar
nur Bekanntes erkennbar
unpraktikabel für allgemeine Probleme
- nicht echtzeitfähig