Peter Pichlmaier SS 2006 · Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations...

Preview:

Citation preview

Recovering 3D Human Body Configurations Using Shape Contexts

Hauptseminar Bildverstehen:Videobasierte Erkennung und Analyse menschlicher Aktionen

Peter PichlmaierSS 2006

2

Gliederung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

1. Grundprinzip exemplarbasierter Verfahren

2. Bilderkennung mittels Shape Contexts

- Idee

- Schritte des Verfahrens

- Optimierung

- Beispiele

3. Videoerkennung mittels Motion Descriptors

- Problemstellung

- Schritte des Verfahrens

- Beispiele

- Erweiterte Anwendungen

4. Bewertung

3

Grundprinzip exemplarbasierter Verfahren

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Problem:

- Kontext notwendig

- Ohne Details kein Kontext

Exemplardatenbanken:

- manuell markierte Exemplare

- kein direktes Erkennen von Details

- Vergleich des Testbildes und Exemplars

- Ausgabe: Daten des besten Exemplars

4

Grundprinzip exemplarbasierter Verfahren

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Testbild

Bestes Exemplar

Vergleich

Daten

5

Idee - Shape Contexts

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Manuell markierte Exemplardaten: 14 Gelenkpunkte

- Kopf

- Schultern

- Ellbogen

- Hände

- Bauch

- Hüfte

- Knie

- Knöchel

6

Idee - Shape Contexts

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

1. Kantendetektor und Sample Points

Shape

2. Korrespondierende Punkte in Exemplar und Testbild

Vergleichmöglichkeit

3. Deformation des Exemplarshapes in das Testshape

Kinematische Kette

2D-Gelenkpunkte

4. 3D-Rekonstruktion

7

Shapeberechnung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Kantendetektor

externe Konturen

interne Konturen

Auswahl von 300-1000 Sample Points aus Kanten

Shape:

- Eckpunkte

- Tangenten

8

Korrespondierenden Punkte

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Erweiterte Shape-Kontextdeskriptoren:

- polare Histogramme

- Aufsummierung der Tangenten pro Bin

- 2d-dimensionaler Vektor aus d Bins

- Berechnung für jeden Punkt

9

Korrespondierenden Punkte

Problem: Welcher Punkt gehört zu welchem ?

Vektorenvergleiche

bipartiter Graph:

- Punkte als Knoten

- Vergleichswerte als Kanten

Ausreißerpunkt

Testbild Exemplar

Zuweisungoptimierer

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

10

Deformation

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

- Methode: kleinste Quadrate (Punktabweichungen)

- Bis zu vier Iterationsschritte

Abweichung:

Start: Exemplar Ziel: Testbild

11

Experimente: Ausschlussalgorithmus

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Anatomische Beschränkungen

Bewegungsmodell mit 9 Segmenten:

- Torso Translation- Oberarme

- Unterarme Rotation- Oberschenkel

- Unterschenkel

Zuordnung der Punkte:

Exemplar: Nächste Knochenlinie

Testbild: Korrespondierende Punkte

12

Wiederholung: Matching

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Vergleich: Testbild und einzelnes Exemplar

1. Kantendetektor Shape

3. Erweiterte Shape-Deskriptoren

korrespondierende Punkte

3. Mehrmalige Deformation

Gelenkpunkte und Wertung des Exemplars

Trivialer Ansatz:

Vergleich mit allen Exemplaren

nicht praktikabel : 20-30 s pro Exemplar

13

Optimierung: Ausschlussalgorithmus

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Viele Exemplare eindeutig unpassend

Aussortieren mittels RSCs

Representative Shape Context (RSC):

- Einzelnes Radialhistogramm

- Berechnung aus allen Shapepunkten

Verfahren:

- Vorausberechnung: ca. 800 Shape Contexts pro Exemplar

- nur 5-10 RSCs für Testbild

- Summe: Vergleichswerte RSC und bester SC

schnelle Auswahl: 10 sinnvollste Exemplare

14

Optimierung: Teilexemplare

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Problemstellung: Mehr Details

wesentlich mehr Exemplare

doppelte Exemplarzahl

Lösung: Teilexemplare

- getrennte Bewertung der Segmente

- Vorsicht: anatomische Einschränkungen

15

Optimierung: Teilexemplare

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Exemplare immer konsistent

Abstände zwischen Gelenken als Grenzen

verpflichtend für Kombinationen

Testbild Exemplare ungültige gültige

Kombination

16

3D - Rekonstruktion

Hauptseminar Bildverstehen: Recovering 3d Human Body Configurations Using Shape Contexts Peter Pichlmaier

Verfahren von Taylor 3D-Modell

Eingabedaten:

- 2D-Gelenkpunkte X und Y - Koordinaten

- Körperteillängen relative Z – Koordinaten

- Closer Endpoint Labels Reihenfolge

17

Experimente: Ausschlussalgorithmus

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Testbild die zehn besten Exemplare

18

Experimente: Problemfaktor Kleidung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Testbild

Exemplar

Testbild

Exemplar

19

Experimente: Teilexemplare

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Ganze Exemplare

Teilexemplare

leichte Verbesserung

Risiko: mehrfache Verwendung von Pixeln

20

Experimente: Küchenschabe

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

- Identisches Verfahren

- Bewegungsmodell mit zwei zusätzlichen Körpergliedern

21

Motion Descriptor: Problemstellung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Mittlere Entfernung: 30 Pixel-Figuren

Details nicht auswertbar

nötig: robuster Motion Descriptor

22

Schritte

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Exemplarbasierter Ansatz: Sequenzdatenbank

manuelle Beschreibung

optional 2D-Gelenkpunkte

Verfahren:

1. Stabilisierung und Optical Flow

2. Auftrennung und Glättung

3. Sequenzvergleich

Motion Descriptor

23

Stabilisierung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Tracker

- Zentrierung auf Figur und Ausschnitt

- Bedingung: ähnliche Figur ähnlicher Ausschnitt

- Verlust von Translationen

24

Optical Flow

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

- allgemeine Ansicht: eher unzuverlässig, ungenau

- Interpretation als grobes Bewegungsmuster

Reduzierung auf relevante Informationen

25

Relevante Daten

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Trennung nach X und Y- Anteile (2 Kanäle)

Trennung in negative und positive Komponenten

(4 Kanäle)

Glättung mit Gaußfunktion

Motion Descriptor

26

Ziele

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

- Aktionserkennung

- 3D-Rekonstruktion

Eingabe: Video

laufen

nach linksgehen

schwingennach rechts

gehen

joggen

27

Matching

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

- einzelne Frames nicht aussagekräftig

Vergleich von Sequenzen

- Zentrierung auf zwei Frames in beiden Sequenzen

Vergleich sämtlicher Framepaare notwendig

…Σ

Testsequenz A

Exemplarsequenz B

Temporale Erweiterung

28

Matching

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Vergleich sämtlicher Framepaare notwendig

Optimierung mittels Matrizen

BFrame-

Ähnlichkeitsmatrix

A

Bewegungs-Ähnlichkeitsmatrix

A

B

I Matrix

Kernelmatrix

29

Experimente: Ballettschritte

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

16 Balletschritte, exakt choreographierte Bewegungen

einfaches Problem

30

Experimente: Tennisspieler

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

sechs Aktionen, spontane Bewegungen

schlechtere Ergebnisse,

nur logische Verwechslungen

31

Video: Klassifizierung

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

32

Video: Do as I Do

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Anwendung: Synthese von Videos mit anderen Personen

- Exemplarsequenzen der Zielperson Target

- Steuersequenz durch Testvideo Driver

Relevant:

- Übereinstimmung mit Anweisungen

Vergleich: Target und Driver

- Flüssiges Video

Vergleich: Target und vorherige Targetsequenz

33

Video: Do as I Do

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Greg in the World Cup

34

Video: Do as I Say

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Anwendung: Synthese von Videos mit anderen Personen

- Exemplarsequenzen der Zielperson Target

- Anweisungen Driver

- analog wie Do as I Do

zukünftige Computerspiele

35

Video: Do as I Say

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Steuerbarer Tennisspieler

36

Vergleich

Hauptseminar Bildverstehen: Recovering 3D Human Body Configurations Using Shape Contexts Peter Pichlmaier

Shape Contexts:

- Bilder in guter Qualität 2D-Gelenkpunkte

- keine zeitliche Konsistenz, Einzelbilder

Motion Descriptors:

- unscharfe Videodaten aus mittlerer Entfernung

Klassifizierung

- Sequenzvergleiche

Gemeinsamkeiten:

- Exemplarbasiert:

Gesamtkontext verfügbar

nur Bekanntes erkennbar

unpraktikabel für allgemeine Probleme

- nicht echtzeitfähig

Recommended