Download pdf - Peter Pichlmaier SS 2006 · Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier Vergleich: Testbild und einzelnes Exemplar 1

Recovering 3D Human Body Configurations Using Shape Contexts

Hauptseminar Bildverstehen:Videobasierte Erkennung und Analyse menschlicher Aktionen

Peter PichlmaierSS 2006

2

Gliederung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

1. Grundprinzip exemplarbasierter Verfahren

2. Bilderkennung mittels Shape Contexts

- Idee

- Schritte des Verfahrens

- Optimierung

- Beispiele

3. Videoerkennung mittels Motion Descriptors

- Problemstellung

- Schritte des Verfahrens

- Beispiele

- Erweiterte Anwendungen

4. Bewertung

3

Grundprinzip exemplarbasierter Verfahren


Problem:

- Kontext notwendig

- Ohne Details kein Kontext

Exemplardatenbanken:

- manuell markierte Exemplare

- kein direktes Erkennen von Details

- Vergleich des Testbildes und Exemplars

- Ausgabe: Daten des besten Exemplars

4

Grundprinzip exemplarbasierter Verfahren


Testbild

Bestes Exemplar

Vergleich

Daten

5

Idee - Shape Contexts


Manuell markierte Exemplardaten: 14 Gelenkpunkte

- Kopf

- Schultern

- Ellbogen

- Hände

- Bauch

- Hüfte

- Knie

- Knöchel

6

Idee - Shape Contexts


1. Kantendetektor und Sample Points

Shape

2. Korrespondierende Punkte in Exemplar und Testbild

Vergleichmöglichkeit

3. Deformation des Exemplarshapes in das Testshape

Kinematische Kette

2D-Gelenkpunkte

4. 3D-Rekonstruktion

7

Shapeberechnung


Kantendetektor

externe Konturen

interne Konturen

Auswahl von 300-1000 Sample Points aus Kanten

Shape:

- Eckpunkte

- Tangenten

8

Korrespondierenden Punkte


Erweiterte Shape-Kontextdeskriptoren:

- polare Histogramme

- Aufsummierung der Tangenten pro Bin

- 2d-dimensionaler Vektor aus d Bins

- Berechnung für jeden Punkt

9

Korrespondierenden Punkte

Problem: Welcher Punkt gehört zu welchem ?

Vektorenvergleiche

bipartiter Graph:

- Punkte als Knoten

- Vergleichswerte als Kanten

Ausreißerpunkt

Testbild Exemplar

Zuweisungoptimierer


10

Deformation


- Methode: kleinste Quadrate (Punktabweichungen)

- Bis zu vier Iterationsschritte

Abweichung:

Start: Exemplar Ziel: Testbild

11

Experimente: Ausschlussalgorithmus


Anatomische Beschränkungen

Bewegungsmodell mit 9 Segmenten:

- Torso Translation- Oberarme

- Unterarme Rotation- Oberschenkel

- Unterschenkel

Zuordnung der Punkte:

Exemplar: Nächste Knochenlinie

Testbild: Korrespondierende Punkte

12

Wiederholung: Matching


Vergleich: Testbild und einzelnes Exemplar

1. Kantendetektor Shape

3. Erweiterte Shape-Deskriptoren

korrespondierende Punkte

3. Mehrmalige Deformation

Gelenkpunkte und Wertung des Exemplars

Trivialer Ansatz:

Vergleich mit allen Exemplaren

nicht praktikabel : 20-30 s pro Exemplar

13

Optimierung: Ausschlussalgorithmus


Viele Exemplare eindeutig unpassend

Aussortieren mittels RSCs

Representative Shape Context (RSC):

- Einzelnes Radialhistogramm

- Berechnung aus allen Shapepunkten

Verfahren:

- Vorausberechnung: ca. 800 Shape Contexts pro Exemplar

- nur 5-10 RSCs für Testbild

- Summe: Vergleichswerte RSC und bester SC

schnelle Auswahl: 10 sinnvollste Exemplare

14

Optimierung: Teilexemplare


Problemstellung: Mehr Details

wesentlich mehr Exemplare

doppelte Exemplarzahl

Lösung: Teilexemplare

- getrennte Bewertung der Segmente

- Vorsicht: anatomische Einschränkungen

15

Optimierung: Teilexemplare


Exemplare immer konsistent

Abstände zwischen Gelenken als Grenzen

verpflichtend für Kombinationen

Testbild Exemplare ungültige gültige

Kombination

16

3D - Rekonstruktion

Hauptseminar Bildverstehen: Recovering 3d Human Body Configurations Using Shape Contexts Peter Pichlmaier

Verfahren von Taylor 3D-Modell

Eingabedaten:

- 2D-Gelenkpunkte X und Y - Koordinaten

- Körperteillängen relative Z – Koordinaten

- Closer Endpoint Labels Reihenfolge

17

Experimente: Ausschlussalgorithmus


Testbild die zehn besten Exemplare

18

Experimente: Problemfaktor Kleidung


Testbild

Exemplar

Testbild

Exemplar

19

Experimente: Teilexemplare


Ganze Exemplare

Teilexemplare

leichte Verbesserung

Risiko: mehrfache Verwendung von Pixeln

20

Experimente: Küchenschabe


- Identisches Verfahren

- Bewegungsmodell mit zwei zusätzlichen Körpergliedern

21

Motion Descriptor: Problemstellung


Mittlere Entfernung: 30 Pixel-Figuren

Details nicht auswertbar

nötig: robuster Motion Descriptor

22

Schritte


Exemplarbasierter Ansatz: Sequenzdatenbank

manuelle Beschreibung

optional 2D-Gelenkpunkte

Verfahren:

1. Stabilisierung und Optical Flow

2. Auftrennung und Glättung

3. Sequenzvergleich

Motion Descriptor

23

Stabilisierung


Tracker

- Zentrierung auf Figur und Ausschnitt

- Bedingung: ähnliche Figur ähnlicher Ausschnitt

- Verlust von Translationen

24

Optical Flow


- allgemeine Ansicht: eher unzuverlässig, ungenau

- Interpretation als grobes Bewegungsmuster

Reduzierung auf relevante Informationen

25

Relevante Daten


Trennung nach X und Y- Anteile (2 Kanäle)

Trennung in negative und positive Komponenten

(4 Kanäle)

Glättung mit Gaußfunktion

Motion Descriptor

26

Ziele


- Aktionserkennung

- 3D-Rekonstruktion

Eingabe: Video

laufen

nach linksgehen

schwingennach rechts

gehen

joggen

27

Matching


- einzelne Frames nicht aussagekräftig

Vergleich von Sequenzen

- Zentrierung auf zwei Frames in beiden Sequenzen

Vergleich sämtlicher Framepaare notwendig

…

…

…

…Σ

Testsequenz A

Exemplarsequenz B

Temporale Erweiterung

28

Matching


Vergleich sämtlicher Framepaare notwendig

Optimierung mittels Matrizen

BFrame-

Ähnlichkeitsmatrix

A

Bewegungs-Ähnlichkeitsmatrix

A

B

I Matrix

Kernelmatrix

29

Experimente: Ballettschritte


16 Balletschritte, exakt choreographierte Bewegungen

einfaches Problem

30

Experimente: Tennisspieler


sechs Aktionen, spontane Bewegungen

schlechtere Ergebnisse,

nur logische Verwechslungen

31

Video: Klassifizierung


32

Video: Do as I Do


Anwendung: Synthese von Videos mit anderen Personen

- Exemplarsequenzen der Zielperson Target

- Steuersequenz durch Testvideo Driver

Relevant:

- Übereinstimmung mit Anweisungen

Vergleich: Target und Driver

- Flüssiges Video

Vergleich: Target und vorherige Targetsequenz

33

Video: Do as I Do


Greg in the World Cup

34

Video: Do as I Say


Anwendung: Synthese von Videos mit anderen Personen

- Exemplarsequenzen der Zielperson Target

- Anweisungen Driver

- analog wie Do as I Do

zukünftige Computerspiele

35

Video: Do as I Say


Steuerbarer Tennisspieler

36

Vergleich


Shape Contexts:

- Bilder in guter Qualität 2D-Gelenkpunkte

- keine zeitliche Konsistenz, Einzelbilder

Motion Descriptors:

- unscharfe Videodaten aus mittlerer Entfernung

Klassifizierung

- Sequenzvergleiche

Gemeinsamkeiten:

- Exemplarbasiert:

Gesamtkontext verfügbar

nur Bekanntes erkennbar

unpraktikabel für allgemeine Probleme

- nicht echtzeitfähig