35
Human Action Recognition Using Temporal Templates Jonas von Beck

Human Action Recognition Using Temporal Templates Jonas von Beck

Embed Size (px)

Citation preview

Page 1: Human Action Recognition Using Temporal Templates Jonas von Beck

Human Action Recognition Using Temporal Templates

Jonas von Beck

Page 2: Human Action Recognition Using Temporal Templates Jonas von Beck

Übersicht

1.Motivation

2.Einführung

3.Temporal Templates

4.Grundlagen der Bilderkennung

5.Implementierung des Verfahrens

6.Fazit

7.Anwendungen

Page 3: Human Action Recognition Using Temporal Templates Jonas von Beck

1. Motivation

Bewegungsmuster lassen sich durch die

Bewegung an sich erkennen.

Man erkennt trotz miserabler Bildqualität

eine sich setzende Person.

Frame 5 25 40

Page 4: Human Action Recognition Using Temporal Templates Jonas von Beck

2. Einführung

1. Aufnahme der

Bildsequenz

2. Reduzieren

der Auflösung

3. Bewegung

extrahiert &

Binärbild

oder

Graustufen-

bilder

erzeugen

4. Berechnung

invarianter

Merkmale

5. Ablage oder

Abgleich mit

Datenbank

Page 5: Human Action Recognition Using Temporal Templates Jonas von Beck

3. Temporal Templates

Es werden Informationen über Bewegung festgehalten.

Diese werden in einem Binärbild oder Graustufenbild festgehalten.

Bewegung: Wo? Wie?

Page 6: Human Action Recognition Using Temporal Templates Jonas von Beck

3.1. Motion-Energy Images (MEI)

Generierung eines Binärbildes wobei Bewegung weiß dargestellt wird

Hier Bewegungserkennung durch DifferenzbilderD.h. Aufeinanderfolgende Frames werden differenziert

Um Rauschen entgegenzuwirken wird die Auflösung herabgesetzt.

Page 7: Human Action Recognition Using Temporal Templates Jonas von Beck

An den Stellen wo Bewegung stattfindet,

färbt sich das MEI weiß.

Page 8: Human Action Recognition Using Temporal Templates Jonas von Beck

3.2. Motion-History Images (MHI)

Erweiterung von MEI

Graustufenbild, bei der frühere Bewegung dunkler dargestellt wird

Dadurch zusätzliche Information über Richtung der Bewegung

Page 9: Human Action Recognition Using Temporal Templates Jonas von Beck

Hinsetzen MHI

Arme Schwenken MHI

Hinknien MHI

Durch die Graustufen lässt sich erkennen, wie die Bewegung stattgefunden hat.

Page 10: Human Action Recognition Using Temporal Templates Jonas von Beck

4. Grundlagen aus der Bilderkennung

ο Ziel: Merkmale extrahieren die

unabhängig von Position, Rotation oder

Skalierung sind.

Die gleiche Bewegung

aus verschiedenen

Sichtweisen.

(z.B. wenn Person weiter

Weg)

Page 11: Human Action Recognition Using Temporal Templates Jonas von Beck

4.1. Invariante Merkmale

Allgemeine Merkmale:• Fläche der Form• Umfang der Form• Minimum Bounding Rectangle (MBR)• Best Ellipse Fit

Invariante Merkmale:• Verhältnis Höhe/Breite: |log(H/B)|• Füllungsgrad• Kompaktheit: Fläche/Umfang²• Elongierttheit:

(1- Nebenachse/Hauptachse) des BEF• Und weitere

• MBR

• BEF

Page 12: Human Action Recognition Using Temporal Templates Jonas von Beck

4.1.1. Momente

Durch Momente lassen sich Objektform und Intensitätsverläufe eindeutig darstellen.

Dazu werden aus der Bildfunktion B(x,y) die Momente mp,q gebildet.

Page 13: Human Action Recognition Using Temporal Templates Jonas von Beck

4.1.1. Momente

• Die Ordnung des Moments berechnet sich aus (p+q)

• m0,0 = Summe der Pixelwerte. (Fläche bei Binärbild)

• m1,0 = Zeilenmoment erster Ordnung

• m0,1 = Spaltenmoment erster Ordnung

• Daraus lässt sich der Schwerpunkt des Bildes berechnen

Page 14: Human Action Recognition Using Temporal Templates Jonas von Beck

4.1.2. Hu-Momente

Mit Hilfe des Schwerpunkts können die zentralen Momente

μp,qdefiniert werden

Hu hat die unskalierten zentralen Momente normiert

Page 15: Human Action Recognition Using Temporal Templates Jonas von Beck

4.1.2. Hu-Momente

Hu hat mit den normierten zentralen Momenten 7 Merkmale entwickelt, die invariant gegen Translation, Rotation, und Größenskalierung sind .

Die Merkmale werden in einen Vektor (x1x2x3x4x5x6x7)T gepackt.

Page 16: Human Action Recognition Using Temporal Templates Jonas von Beck

Die 7 invarianten Hu-Momente

Page 17: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2. Klassifizierung

Aus den Trainingsdaten wird ein Merkmalsvektor nach Hu erstellt und in einer Datenbank den Einzelnen Bewegungen zugeordnet.

Die Eingabedaten müssen Klassifiziert werden. Dafür werden diese mit der Datenbank abgeglichen.

Page 18: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2. Klassifizierung Am einfachsten ist es einen Mittelwert x der

Trainingsdaten zu berechnen Abgleich erfolgt dann durch suchen der kleinsten

euklidischen Norm im R7

Leider gibt es dabei einige Nachteile und Probleme

2 2 21 1 1 1 7 7(x t ) (x t ) ... (x t )

Page 19: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.1. Probleme bei euklid.

x1 t1

t2x2

t1 und t2 sind gleich weit von

Verschiedenen Mittelwerten entfernt.

Dennoch sollten beide unterschiedlich

gewichtet werden, da das obere Merkmal

eine größere Streuung hat als das Untere.

Page 20: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.1. Probleme bei euklid.

Realistischere

Abstandsmessung

x• Trainingsdaten• Testwerte

t1

t2

t2 ist zwar näher an x, t1 ist aber

eher im Streuungsbereich

Page 21: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.2. Mittelwert und Varianz

Mittelwert = E[x]

Standartabweichung = Sqr(Var[x])Gilt für Vektor 1. Dimension

Abweichungen lassen sich skalieren, so dass

diese Einheitlich sind.

Standarisierte Distanz r:

x td

Stan dardabweichung

Page 22: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.3. Standarisierte Distanz

t sei zu Klassifizierender Vektor mit den 7 Hu-Momenten

ti = i-ter Eintrag im Vektor t

xi,j = Mittelwert des Merkmals i aus der Klasse (Bewegung) j

si,j = Standardabweichung des Merkmals i aus der Klasse j

Wir berechnen die Standarisierte Distanz

2 2 2

2 1 1, j 2 2, j 7 7, jj

1, j 2, j 7, j

t x t x t xd t, x ...

s s s

Wenn die Distanz so berechnet wird, haben die unterschiedlichen

Streuungen der Merkmale keinen Einfluss auf die Klassifizierung

Page 23: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.4. Kovarianzen

• Verschiedene Momente können

zueinander Abhängig sein. (korreliert)• Wir berechnen also paarweise die

Kovarianz der Momente.• Eine Kovarianzmatrix mit allen

Kovarianzen wird aufgestellt

Page 24: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.4. Kovarianzen

1,i 2,i n,i

1, j 2, j n, j

x , x ,..., x

x , x ,..., x

m(i) m( j)

Seien eine Serie von n Beispielen zum Merkmal i

und eine Serie von n Beispielen zum Merkmal j

jeweils vom gleichen Muster

und sind jeweils die Mittel wert

1,i i 1, j j n,i i n, j j

1c i, j x m x m ... x m x m

n 1c i, j 0

c i, j 0

e der Merkmale

Die Kovarianz von Merkmal i u

i

nd j ist definiert durch

, falls und zusammen Wachsen und Fallen

, falls steigt

j

i /

c i, j 0

fällt wenn fällt/steigt

,

j

i jfalls und unabhäng sind

Page 25: Human Action Recognition Using Temporal Templates Jonas von Beck

4.2.5. Die Kovarianzmatrix Mahalanobisdistanz

T2 1x x x

c 1,1 c 1,n

C

c n,1 c n,n

d t m C t m

Mit dieser Matrix

lassen sich Distanzen

unabhängig von

Streuung und

Korrelation zwischen

Merkmalen berechnen

Page 26: Human Action Recognition Using Temporal Templates Jonas von Beck

5.1. Trainieren des Systems

Es werden 18 Aerobicübungen aufgenommen

und die Zugehörigen MEIs und MHIs

Generiert. Dies wir für Verschiedene Blick-

winkel von -90° bis 90° (30°Schritte) getan.

Page 27: Human Action Recognition Using Temporal Templates Jonas von Beck

5.1. Trainieren des Systems

• MEIs und MHIs werden über einen

Zeitraum von „r“ bis „r+Δr“ rückwirkend

erzeugt, da Bewegungen unterschiedlich

schnell durchgeführt werden können.• Zu den erhaltenen Daten werden die

Statistischen Daten berechnet und in der

Datenbank abgelegt.

Page 28: Human Action Recognition Using Temporal Templates Jonas von Beck

5.2. Test mit einer Kamera

Um das System zu testen werden die

Übungen von einer Weiteren Person

Wiederholt. Aufnahmewinkel 30°

Wieder werden MEI und MHI erstellt, die

statistischen Daten berechnet. Dann folgt

der Abgleich mit der Datenbank durch

Mahalanobis Distanzen.

Page 29: Human Action Recognition Using Temporal Templates Jonas von Beck

Die Tabelle zeigt die

Distanz zur nahesten

Bewegung, sowie die

Nummer dieser.

Zudem die Distanz zur

Korrekten Bewegung

und die durchschnittliche

Distanz, sowie der Rang

der Korrekten

Bewegung.

Page 30: Human Action Recognition Using Temporal Templates Jonas von Beck

5.2. Test mit einer Kamera

Bei den Bewegungen die

falsch erkannt wurden,

ist dies auf die

Ähnlichkeit

zurückzuführen.

Auch wurde die

Bewegung durch die

andere Person nicht

identisch durchgeführt

Testbewegung bester Match korrekter Match

Page 31: Human Action Recognition Using Temporal Templates Jonas von Beck

5.3. Test mit mehreren Kameras

Einige Bewegungen die von einem

Sichtwinkel ähnlich MEIs und MHIs haben,

können von einem anderen Winkel

unterschiedlich aussehen.

Der gleich Test wird mit zwei Kameras

wiederholt die in einem Winkel von 90°

zueinander stehen.

Page 32: Human Action Recognition Using Temporal Templates Jonas von Beck

Das Ergebnis sieht mit

zwei Kameras deutlich

besser aus.

Es muss berücksichtigt

werden, dass jede

Bewegung nur wenig

trainiert wurde.

Dennoch gibt es andere

Probleme die eine

Ursache sein könnten

Page 33: Human Action Recognition Using Temporal Templates Jonas von Beck

6.1. Probleme / Nachteile

1. Bewegungserkennung:• Bewegung im Hintergrund• Bewegung der Kamera• Einfarbige Kleidung• Helligkeitsschwankungen

2.Verdeckung durch Personen Objekte

3.Kombinierte Bewegungen• Werfen eines Balls• Bewegung des Oberkörpers beim

gehen

Page 34: Human Action Recognition Using Temporal Templates Jonas von Beck

6.2. Vorteile

1.Sehr geringer Berechnungsaufwand

2.Funktioniert auch bei sehr schlechter

Bildqualität

Page 35: Human Action Recognition Using Temporal Templates Jonas von Beck

7. Anwendungen

1.Als Teil von anderen Bildsequenz-

erkennungsprogrammen

2.KidsRoom Interaktiver Spielraum