Human Action Recognition Using Temporal Templates Jonas von Beck

Human Action Recognition Using Temporal Templates

Jonas von Beck

Übersicht

1.Motivation

2.Einführung

3.Temporal Templates

4.Grundlagen der Bilderkennung

5.Implementierung des Verfahrens

6.Fazit

7.Anwendungen

1. Motivation

Bewegungsmuster lassen sich durch die

Bewegung an sich erkennen.

Man erkennt trotz miserabler Bildqualität

eine sich setzende Person.

Frame 5 25 40

2. Einführung

1. Aufnahme der

Bildsequenz

2. Reduzieren

der Auflösung

3. Bewegung

extrahiert &

Binärbild

oder

Graustufen-

bilder

erzeugen

4. Berechnung

invarianter

Merkmale

5. Ablage oder

Abgleich mit

Datenbank

3. Temporal Templates

Es werden Informationen über Bewegung festgehalten.

Diese werden in einem Binärbild oder Graustufenbild festgehalten.

Bewegung: Wo? Wie?

3.1. Motion-Energy Images (MEI)

Generierung eines Binärbildes wobei Bewegung weiß dargestellt wird

Hier Bewegungserkennung durch DifferenzbilderD.h. Aufeinanderfolgende Frames werden differenziert

Um Rauschen entgegenzuwirken wird die Auflösung herabgesetzt.

An den Stellen wo Bewegung stattfindet,

färbt sich das MEI weiß.

3.2. Motion-History Images (MHI)

Erweiterung von MEI

Graustufenbild, bei der frühere Bewegung dunkler dargestellt wird

Dadurch zusätzliche Information über Richtung der Bewegung

Hinsetzen MHI

Arme Schwenken MHI

Hinknien MHI

Durch die Graustufen lässt sich erkennen, wie die Bewegung stattgefunden hat.

4. Grundlagen aus der Bilderkennung

ο Ziel: Merkmale extrahieren die

unabhängig von Position, Rotation oder

Skalierung sind.

Die gleiche Bewegung

aus verschiedenen

Sichtweisen.

(z.B. wenn Person weiter

Weg)

4.1. Invariante Merkmale

Allgemeine Merkmale:• Fläche der Form• Umfang der Form• Minimum Bounding Rectangle (MBR)• Best Ellipse Fit

Invariante Merkmale:• Verhältnis Höhe/Breite: |log(H/B)|• Füllungsgrad• Kompaktheit: Fläche/Umfang²• Elongierttheit:

(1- Nebenachse/Hauptachse) des BEF• Und weitere

• MBR

• BEF

4.1.1. Momente

Durch Momente lassen sich Objektform und Intensitätsverläufe eindeutig darstellen.

Dazu werden aus der Bildfunktion B(x,y) die Momente mp,q gebildet.

4.1.1. Momente

• Die Ordnung des Moments berechnet sich aus (p+q)

• m0,0 = Summe der Pixelwerte. (Fläche bei Binärbild)

• m1,0 = Zeilenmoment erster Ordnung

• m0,1 = Spaltenmoment erster Ordnung

• Daraus lässt sich der Schwerpunkt des Bildes berechnen

4.1.2. Hu-Momente

Mit Hilfe des Schwerpunkts können die zentralen Momente

μp,qdefiniert werden

Hu hat die unskalierten zentralen Momente normiert

4.1.2. Hu-Momente

Hu hat mit den normierten zentralen Momenten 7 Merkmale entwickelt, die invariant gegen Translation, Rotation, und Größenskalierung sind .

Die Merkmale werden in einen Vektor (x1x2x3x4x5x6x7)T gepackt.

Die 7 invarianten Hu-Momente

4.2. Klassifizierung

Aus den Trainingsdaten wird ein Merkmalsvektor nach Hu erstellt und in einer Datenbank den Einzelnen Bewegungen zugeordnet.

Die Eingabedaten müssen Klassifiziert werden. Dafür werden diese mit der Datenbank abgeglichen.

4.2. Klassifizierung Am einfachsten ist es einen Mittelwert x der

Trainingsdaten zu berechnen Abgleich erfolgt dann durch suchen der kleinsten

euklidischen Norm im R7

Leider gibt es dabei einige Nachteile und Probleme

2 2 21 1 1 1 7 7(x t ) (x t ) ... (x t )

4.2.1. Probleme bei euklid.

x1 t1

t2x2

t1 und t2 sind gleich weit von

Verschiedenen Mittelwerten entfernt.

Dennoch sollten beide unterschiedlich

gewichtet werden, da das obere Merkmal

eine größere Streuung hat als das Untere.

4.2.1. Probleme bei euklid.

Realistischere

Abstandsmessung

x• Trainingsdaten• Testwerte

t1

t2

t2 ist zwar näher an x, t1 ist aber

eher im Streuungsbereich

4.2.2. Mittelwert und Varianz

Mittelwert = E[x]

Standartabweichung = Sqr(Var[x])Gilt für Vektor 1. Dimension

Abweichungen lassen sich skalieren, so dass

diese Einheitlich sind.

Standarisierte Distanz r:

x td

Stan dardabweichung

4.2.3. Standarisierte Distanz

t sei zu Klassifizierender Vektor mit den 7 Hu-Momenten

ti = i-ter Eintrag im Vektor t

xi,j = Mittelwert des Merkmals i aus der Klasse (Bewegung) j

si,j = Standardabweichung des Merkmals i aus der Klasse j

Wir berechnen die Standarisierte Distanz

2 2 2

2 1 1, j 2 2, j 7 7, jj

1, j 2, j 7, j

t x t x t xd t, x ...

s s s

Wenn die Distanz so berechnet wird, haben die unterschiedlichen

Streuungen der Merkmale keinen Einfluss auf die Klassifizierung

4.2.4. Kovarianzen

• Verschiedene Momente können

zueinander Abhängig sein. (korreliert)• Wir berechnen also paarweise die

Kovarianz der Momente.• Eine Kovarianzmatrix mit allen

Kovarianzen wird aufgestellt

4.2.4. Kovarianzen

1,i 2,i n,i

1, j 2, j n, j

x , x ,..., x

x , x ,..., x

m(i) m( j)

Seien eine Serie von n Beispielen zum Merkmal i

und eine Serie von n Beispielen zum Merkmal j

jeweils vom gleichen Muster

und sind jeweils die Mittel wert

1,i i 1, j j n,i i n, j j

1c i, j x m x m ... x m x m

n 1c i, j 0

c i, j 0

e der Merkmale

Die Kovarianz von Merkmal i u

i

nd j ist definiert durch

, falls und zusammen Wachsen und Fallen

, falls steigt

j

i /

c i, j 0

fällt wenn fällt/steigt

,

j

i jfalls und unabhäng sind

4.2.5. Die Kovarianzmatrix Mahalanobisdistanz

T2 1x x x

c 1,1 c 1,n

C

c n,1 c n,n

d t m C t m

Mit dieser Matrix

lassen sich Distanzen

unabhängig von

Streuung und

Korrelation zwischen

Merkmalen berechnen

5.1. Trainieren des Systems

Es werden 18 Aerobicübungen aufgenommen

und die Zugehörigen MEIs und MHIs

Generiert. Dies wir für Verschiedene Blick-

winkel von -90° bis 90° (30°Schritte) getan.

5.1. Trainieren des Systems

• MEIs und MHIs werden über einen

Zeitraum von „r“ bis „r+Δr“ rückwirkend

erzeugt, da Bewegungen unterschiedlich

schnell durchgeführt werden können.• Zu den erhaltenen Daten werden die

Statistischen Daten berechnet und in der

Datenbank abgelegt.

5.2. Test mit einer Kamera

Um das System zu testen werden die

Übungen von einer Weiteren Person

Wiederholt. Aufnahmewinkel 30°

Wieder werden MEI und MHI erstellt, die

statistischen Daten berechnet. Dann folgt

der Abgleich mit der Datenbank durch

Mahalanobis Distanzen.

Die Tabelle zeigt die

Distanz zur nahesten

Bewegung, sowie die

Nummer dieser.

Zudem die Distanz zur

Korrekten Bewegung

und die durchschnittliche

Distanz, sowie der Rang

der Korrekten

Bewegung.

5.2. Test mit einer Kamera

Bei den Bewegungen die

falsch erkannt wurden,

ist dies auf die

Ähnlichkeit

zurückzuführen.

Auch wurde die

Bewegung durch die

andere Person nicht

identisch durchgeführt

Testbewegung bester Match korrekter Match

5.3. Test mit mehreren Kameras

Einige Bewegungen die von einem

Sichtwinkel ähnlich MEIs und MHIs haben,

können von einem anderen Winkel

unterschiedlich aussehen.

Der gleich Test wird mit zwei Kameras

wiederholt die in einem Winkel von 90°

zueinander stehen.

Das Ergebnis sieht mit

zwei Kameras deutlich

besser aus.

Es muss berücksichtigt

werden, dass jede

Bewegung nur wenig

trainiert wurde.

Dennoch gibt es andere

Probleme die eine

Ursache sein könnten

6.1. Probleme / Nachteile

1. Bewegungserkennung:• Bewegung im Hintergrund• Bewegung der Kamera• Einfarbige Kleidung• Helligkeitsschwankungen

2.Verdeckung durch Personen Objekte

3.Kombinierte Bewegungen• Werfen eines Balls• Bewegung des Oberkörpers beim

gehen

6.2. Vorteile

1.Sehr geringer Berechnungsaufwand

2.Funktioniert auch bei sehr schlechter

Bildqualität

7. Anwendungen

1.Als Teil von anderen Bildsequenz-

erkennungsprogrammen

2.KidsRoom Interaktiver Spielraum

Documents

Human Action Recognition Using Temporal Templates Jonas von Beck