View
221
Download
0
Category
Preview:
Citation preview
Bachelorarbeit
Ein System für Motion Capture
-
Andreas Weiß
17. Juli 2012
Betreuer:
Prof. Dr. Raúl Rojas
Tobias Langner
Freie Universität Berlin
Fachbereich Mathematik und Informatik
Institut für Informatik
Zusammenfassung
I
Zusammenfassung
Das Motion Capture-Verfahren dient dazu, Bewegungsinformationen aus einem von
einem Akteur ausgeführten Bewegungsablauf zu extrahieren. In dieser Arbeit werden
das Verfahren und seine verschiedenen Systeme erläutert. Ziel ist es, ein eigenes,
für Privatpersonen geeignetes Motion Capture-Programm nach dem Prinzip optischer
Systeme mittels zweier Webcams zu entwickeln.
Eigenständigkeitserklärung
II
Eigenständigkeitserklärung
Hiermit versichere ich, dass ich die vorliegende Arbeit „Ein System für Motion Captu-
re“ selbstständig und ohne unerlaubte Hilfe verfasst habe. Desweiteren bestätige ich,
dass ich ausschließlich auf die angegebenen Quellen zurückgegriffen habe und dass
diese Arbeit keiner anderen Prüfungskommission vorgelegt wurde.
Berlin, 17.07.2012
____________________________
Andreas Weiß
Inhaltsverzeichnis
III
Inhaltsverzeichnis
Zusammenfassung ........................................................................................ I
Eigenständigkeitserklärung ......................................................................... II
Inhaltsverzeichnis ....................................................................................... III
Abbildungsverzeichnis ................................................................................ V
Tabellenverzeichnis...................................................................................... V
1. Einleitung ............................................................................................ 1
2. Motion Capture ................................................................................... 2
2.1 Entwicklungsgeschichte ............................................................. 2
2.2 Beginn des Motion Capturing ..................................................... 3
2.3 Motion Capture heute ................................................................. 4
3. Motion Capture-Systeme ................................................................... 5
3.1 Optische Verfahren .................................................................... 5
3.2 Elektromagnetische Verfahren ................................................... 7
3.3 Elektromechanische Verfahren .................................................. 9
3.4 Akustische Verfahren ............................................................... 10
3.5 Performance Capture ............................................................... 10
4. Nachbearbeitung / Anpassung ........................................................ 11
4.1 Motion Editing ........................................................................... 11
4.2 Motion Blending ........................................................................ 12
4.3 Motion Retargeting ................................................................... 12
5. Motion Capture-Programm .............................................................. 13
6. Algorithmus ...................................................................................... 14
6.1 Verarbeitungsschritte ............................................................... 15
6.1.1 Analyseparameter .......................................................... 15
6.1.2 Pixelklassifizierung ......................................................... 16
6.1.3 Pixelgruppierung ............................................................ 16
6.1.4 Markerzuordnung ........................................................... 17
6.1.5 Auflösen von Mehrfachassoziationen ............................. 17
6.1.6 Nachbearbeitung ............................................................ 18
6.2 z-Komponenten ........................................................................ 19
Inhaltsverzeichnis
IV
7. Experiment – Praktischer Test des Algorithmus ........................... 20
7.1 Versuchsaufbau ....................................................................... 20
7.2 Versuchsdurchführung ............................................................. 22
7.2.1 Einzelschritte .................................................................. 22
7.3 Ergebnisse ............................................................................... 23
7.3.1 Tageslichtversuche ........................................................ 23
7.3.2 Normallichtversuche ....................................................... 26
7.4 Auswertung .............................................................................. 27
8. Fazit ................................................................................................... 29
8.1 Weitere Entwicklung ................................................................. 29
Literaturverzeichnis..................................................................................... VI
Abbildungsverzeichnis
V
Abbildungsverzeichnis
Abb. 1 Funktionsprinzip: Rotoscoping (e. Abb.) .............................................. 3
Abb. 2 Aufnahmeraum optischer Systeme (e. Abb.) ....................................... 5
Abb. 3 Vergleich: Anzug - erkannte Marker (e. Abb.) ..................................... 6
Abb. 4 Spezialkamera mit LED-Leuchtdioden (e. Abb.) ................................. 7
Abb. 5 Exo-Skelett (e. Abb.) ........................................................................... 9
Abb. 6 Motion Editing (e. Abb.) ..................................................................... 11
Abb. 7 Programm: Benutzeroberfläche (e. Abb.) .......................................... 13
Abb. 8 Allgemeiner Aufbau (e. Abb.) ............................................................ 14
Abb. 9 Farbabweichung und Marker-Erkennung (e. Abb.) ........................... 15
Abb. 10 Funktionsprinzip: Pixelgruppierung (e. Abb.) ................................... 16
Abb. 11 Marker-Assoziation (e. Abb.) ........................................................... 18
Abb. 12 Skelettstruktur (e. Abb.) ................................................................... 19
Abb. 13 Versuchsaufbau (e. Abb.) ................................................................ 21
Abb. 14 Vergleich: Skelettstruktur - 3D-Modell (e. Abb.) .............................. 24
e. Abb. = eigene Abbildung
Tabellenverzeichnis
Tab. 1 Ergebnisse Tageslicht – Stoffmarker: Bewegung 1-3 ........................ 23
Tab. 2 Ergebnisse Tageslicht – Stoffmarker: Bewegung 4 ........................... 25
Tab. 3 Ergebnisse Tageslicht – Tischtennisbälle .......................................... 25
Tab. 4 Ergebnisse Normallichtversuche – Stoffmarker ................................. 26
1. Einleitung 1
1. Einleitung
Das Ziel dieser Arbeit besteht darin, das Motion Capture-Verfahren zu rekapitulieren,
sowie ein eigenes, für Privatpersonen geeignetes Motion Capture-Programm zu ent-
wickeln. Es soll die Frage beantwortet werden, inwiefern sich das Verfahren mit han-
delsüblichen, kostengünstigen Mitteln umsetzen lässt und wie sich eine solche Um-
setzung in der Qualität ihrer Ergebnisse von einem professionellen System unter-
scheidet.
Das Motion Capture-Verfahren dient der Computererkennung natürlicher Bewegun-
gen, um damit virtuelle Charaktere realitätsnah zu animieren. Die Technik hat sich im
Laufe der Zeit zu einem Standard in der Unterhaltungsindustrie entwickelt. Aufgrund
seiner hohen Anschaffungskosten und Komplexität in der Handhabung, ist die Tech-
nologie für Normalverbraucher in der Regel jedoch nicht zugänglich.
Die Arbeit ist in drei Abschnitte unterteilt.
Im ersten Abschnitt soll der Leser an das Motion Capture-Verfahren herangeführt
werden. Hierbei werden sowohl die Entwicklung des Verfahrens als auch die unter-
schiedlichen Motion Capture-Systeme behandelt.
Der zweite Abschnitt thematisiert das im Rahmen dieser Arbeit entwickelte Prog-
ramm und erläutert den Algorithmus zur Bewegungsanalyse in seinen einzelnen Ver-
arbeitungsschritten.
Abschnitt Drei behandelt einen praktischen Test des Programms. Verschiedene Be-
wegungen sollen unter unterschiedlichen Aufnahmebedingungen vom Algorithmus
ausgewertet werden. Eine Qualitative Analyse der Ergebnisse soll Aufschluss über
die Möglichkeiten und Grenzen des Algorithmus geben.
2. Motion Capture 2
2. Motion Capture
Motion Capturing ist ein Verfahren, welches dazu dient, einen von einem Akteur aus-
geführten Bewegungsablauf auf ein virtuelles Modell zu übertragen. Ein Computer
wertet hierfür den aufgezeichneten Bewegungsablauf aus und wandelt diesen in ei-
nen, zur Animation des virtuellen Darstellers verwendbaren Datensatz um. Das Ver-
fahren wird heutzutage in zahlreichen Film- und Videospielproduktionen eingesetzt.
Die Entwicklung der Technologie wurde in den 70er Jahren jedoch maßgeblich durch
Forschungen für medizinische- sowie militärische Zwecke vorangetrieben [6]. „So
wird Motion Capture in der Orthopädie zur dynamischen, nicht-invasiven Diagnose
und Kontrolle von Störungen des Bewegungsapparats verwendet […].“ [9]. Ebenso
versprach man sich Fortschritte in der Sportmedizin, zum Beispiel, um den genauen
Bewegungsfluss einer Pirouette nachvollziehen und analysieren zu können.
2.1 Entwicklungsgeschichte
Im Kontext des eigenen Motion Capture-Programmes für Trickanimation soll im Fol-
genden ein stärkeres Augenmerk auf die Entwicklung des Motion Capturing im Be-
reich der Computer-/ Animation gelegt werden.
Das Studium menschlicher, bzw. tierischer Bewegungen reicht bis ins späte neun-
zehnte Jahrhundert zurück. Kitagawa und Windsor verweisen hierbei auf den briti-
schen Fotografen Eadweard Muybridge (1830-1904) als Pionier auf dem Bereich der
Bewegungsanalyse [6]. Muybridge machte sich durch Serienfotografien einen Na-
men, welche verschiedene Bewegungsabläufe nachvollziehen ließen. So fotografier-
te er beispielsweise ein galoppierendes Pferd oder ein laufendes Bison, indem er ei-
ne Reihe von Kameras entlang einer Strecke positionierte, wobei jede Kamera im
Vorbeilaufen durch einen speziellen Mechanismus ausgelöst wurde [3].
Ein früher Ansatz der Trickanimation realistischer Bewegungen stellt das sogenannte
Rotoscoping dar. Dieses Verfahren wurde im Jahre 1915 von Max Fleischer entwi-
ckelt [8]. Hierzu wird ein Akteur mit einer Kamera gefilmt. Das aufgezeichnete Mate-
rial wird anschließend auf die Rückseite einer Art Staffelei oder auf einen lichtdurch-
lässigen Tisch projiziert [3], wie in Abb. 1 veranschaulicht. Ein Zeichner kann auf die-
se Weise die Bewegungen des Akteurs nach und nach von der Staffelei abpausen.
2. Motion Capture 3
Abb. 1 Funktionsprinzip: Rotoscoping (e. Abb.)
Ein Problem dieser Technik war der für Fleischer unerwartet hohe Zeitaufwand, der
mit dem Animieren verbunden war. Laut Menache war es Fleischers Absicht, das
System als Massenproduktionsverfahren zur Zeichentrickanimation zu vermarkten.
Für die Fertigstellung seines ersten Trickfilms benötigte Fleischer jedoch über ein
Jahr Produktionszeit [8]. Das Verfahren konnte sich über die Jahre durchsetzen und
findet auch in aktuelleren Produktionen Verwendung. So basieren die Animationen
des Filmes „A Scanner Darkly“ von 2006 auf dem Rotoskopieverfahren [10]. Alberto
Menache bezeichnet das Motion Capture -Verfahren als Nachkomme des Rotosco-
pings innerhalb der Unterhaltungsindustrie [8].
2.2 Beginn des Motion Capturing
In der Computergrafik bediente man sich, zunächst an verschiedenen Universitäten,
erstmals gegen Ende der 70er Jahre / Anfang der 80er Jahre des Motion Capture-
Verfahrens [7]. In der Industrie wurde man dagegen in den 80ern auf die Technologie
aufmerksam [6]. So wurde Motion Capture das erste Mal im Jahre 1985 für kommer-
zielle Zwecke in der Computergrafik eingesetzt. Robert Abel produzierte damals ei-
nen Werbesport, welcher während des Super Bowl ausgestrahlt wurde. „Brilliance“,
so der Name der 3D-Figur, wurde mittels der Motion Capture -Technologie animiert.
Hierfür wurden 18 Marker auf dem Körper einer Frau befestigt. Ihre Bewegungen
wurden aus verschiedenen Perspektiven aufgenommen und Bild für Bild auf das 3D-
Modell übertragen [6]. Kitagawa und Windsor beschreiben die Rechenleistung der
damaligen Computer als Hindernis bei der Produktion. Daher musste der Spot auf
verschiedenen Rechnern gerendert werden [6].
2. Motion Capture 4
2.3 Motion Capture heute
Inzwischen hat sich das Verfahren mehr und mehr zu einem Standard in der Unter-
haltungsindustrie entwickelt. In einer Vielzahl von Filmen kommt die Technologie
zum Einsatz, um virtuelle Charaktere realitätsnah zu animieren. Motion Capture wird
hierbei häufig zur Unterstützung in Realfilmen eingesetzt, zum Beispiel, wenn große
Menschenmengen in der Ferne dargestellt werden sollen. Desweiteren werden eini-
ge Animationsfilme komplett mit dem Verfahren produziert, wobei zunehmend nicht
nur die Körperbewegungen, sondern auch die Mimik des Akteurs auf den digitalen
Schauspieler übertragen werden (siehe: Abschnitt 3.5). Auch Entwicklerstudios grei-
fen für ihre Videospiele immer häufiger auf Motion Capturing zurück, gerade wenn in
einem Spiel viel Wert auf fotorealistische Grafiken gelegt wird.
Der Einsatz von Motion Capture ist nicht auf Film und Fernsehen beschränkt. Auch
die Erbauer sogenannter Animatronics haben das Potential der Bewegungserfas-
sung erkannt. So hat die BBC für eine Live-Show mehrere Dinosaurier-Animatronics
bauen lassen, welche über ein spezielles Armgerüst durch reale Bewegungen eines
Puppenspielers gesteuert werden können [1].
3. Motion Capture-Systeme 5
3. Motion Capture-Systeme
Es existieren verschiedene Systeme, die das Motion Capture-Verfahren umsetzen.
Diese unterscheiden sich in ihrer Aufnahmetechnik, sowie im Aufnahmeprozess. So
erlauben einige Technologien eine Ganzkörperbewegungserfassung in Echtzeit, an-
dere erfordern eine aufwändige Nachbearbeitung der aufgenommenen Daten. Sven
Eric Härtel unterscheidet drei grundlegende Prinzipien der Bewegungserfassung:
Elektromagnetische, optische und elektromechanische Verfahren [3]. Alberto Mena-
che bezeichnet diese Systeme als „die wichtigsten heutzutage verwendeten Techno-
gien“ zur Motion Capture-Erfassung menschlicher Bewegungen [7]. Laut Jackél,
Neunreither und Wagner existieren desweiteren akustische Systeme [5]. Im Folgen-
den soll auf die oben genannten Systeme, ihre Vor- und Nachteile, sowie auf das so-
genannte Performance Capture eingegangen werden.
3.1 Optische Verfahren
Eine weite Verbreitung finden optische Motion Capture-Systeme. Hierbei trägt der
aufzunehmende Darsteller einen eigens angefertigten, mit Markern versehenen An-
zug. Die Bewegungen des Akteurs werden von im Aufnahmeraum angebrachten
Kameras gefilmt (Abb. 2). Das aufgezeichnete Material wird anschließend durch eine
Spezialsoftware analysiert, um den ausgeführten Bewegungsablauf zu extrahieren.
Als Orientierung dienen hierbei die Marker, anhand derer die Position und Ausrich-
tung jedes Körperteiles bestimmt werden kann. Aus den gewonnenen Daten errech-
net die Software daraufhin einen zur Animation eines virtuellen Modells verwendba-
ren Datensatz (veranschaulicht in Abb. 3).
Abb. 2 Aufnahmeraum optischer Systeme (e. Abb.)
3. Motion Capture-Systeme 6
Abb. 3 Vergleich: Anzug - erkannte Marker (e. Abb.)
Die Anzahl der Marker variiert hierbei je nach Anforderung. Je mehr Marker verwen-
det werden, desto mehr Bezugspunkte liegen der Software vor und desto präziser
wird der Bewegungsablauf erfasst. Für eine Ganzkörpererfassung einfacher men-
schlicher Bewegungen, etwa Arm- oder Beinbeugung, reicht bereits eine zweistellige
Anzahl an Markern aus (siehe: Abschnitt 2.2). Eine weitere Variable ist die Anzahl
der zu verwendenden Kameras. Laut Alberto Menache werden üblicherweise nicht
weniger als vier und nicht mehr als 32 Kameras verwendet [7]. Wie bei den Markern
steigt auch bei den Kameras die Genauigkeit der erfassten Daten mit zunehmender
Anzahl [3], da weitere Kameraperspektiven der Software zusätzliches Referenzmate-
rial zur Bewegungsauswertung bieten. Wichtig ist hierbei, dass alle Kameras genau
aufeinander abgestimmt sind. Um dies zu gewährleisten, ist vor der Aufnahme eine
präzise Kalibrierung jeder Kamera notwendig, wobei Position und Ausrichtung jeder
Kamera innerhalb der Software eingegeben werden müssen.
Die eigentliche Aufnahme des Akteurs kann laut Jackél, Neunreither und Wagner un-
ter zwei verschiedenen Aufnahmebedingungen durchgeführt werden [5]. Unter Erste-
rer wird der Aufnahmeraum für die Aufzeichnung abgedunkelt. Als Marker dienen
hierbei „pulsierende Leuchtdioden“ [5] (siehe: Abb. 4). Für die zweite Variante ist kein
Abdunkeln des Raumes erforderlich. Stattdessen läuft die Aufnahme unter normalen
Lichtverhältnissen, wobei reflektierende Marker mit infrarotem Licht beleuchtet wer-
den. Sven Eric Härtel erwähnt zudem eine weitere Variante, laut derer die Bewegun-
gen eines Akteurs ohne die Hilfe von Markern extrahiert werden können.
3. Motion Capture-Systeme 7
Abb. 4 Spezialkamera mit LED-Leuchtdioden (e. Abb.)
„Hierzu werden einzelne Bildteile einer Analyse unterzogen und ausgefeilten Algo-
rithmen unterworfen, um die entsprechenden Animationsdaten zu erhalten“ [3].
Mit dem Verwenden optischer Motion Capture-Systeme gehen nach Alberto Mena-
che verschiedene Vor- und Nachteile einher [7]. Vom Vorteil sind demnach die hohe
Genauigkeit des Systems, sowie die Bewegungsfreiheit der Akteure, die aus dem
Nichtvorhandensein von Kabeln oder Exo-Skeletten resultiert. Zudem sei eine einfa-
che Veränderung der Marker-Konfiguration möglich. Dagegen ist die Notwendigkeit
einer Nachbearbeitung der Daten ein Nachteil optischer Verfahren [7]. Ein weiteres
bekanntes Problem optischer Systeme ist die Verdeckung von Markern. So kann es
passieren, dass Kameras einen Marker nicht erfassen können, zum Beispiel, wenn
dieser durch ein Hindernis verdeckt wird. Tritt dieses Problem auf, entsteht eine Ani-
mationslücke, in welcher die Position des jeweiligen Markers durch die Software nicht
mehr bestimmt werden kann. Durch eine höhere Kameraanzahl wird dem Problem
entgegengewirkt, da hierdurch die Wahrscheinlichkeit sinkt, dass Marker gänzlich
aus dem Sichtfeld verschwinden.
3.2 Elektromagnetische Verfahren
Elektromagnetische Motion Capture-Systeme kommen ohne Marker aus. Stattdes-
sen trägt die gefilmte Person spezielle Sensoren am Körper. Ein im Aufnahmeraum
angebrachter Transmitter sendet während der Aufnahme ein elektromagnetisches
Feld niederer Frequenz aus [3]. Die Sensoren erfassen das Signal und übertragen
ihre Messungen an einen zentralen Rechner, welcher aus den empfangenen Daten
die Position, sowie die Ausrichtung [4] jedes Sensors errechnet.
3. Motion Capture-Systeme 8
Der Frequenzbereich der Transmittereinheit liegt laut Martin Giese bei über 100 Hz
[2]. Zudem sei es typisch, zwischen elf und 18 Sensoreinheiten zu verwenden, wobei
jedoch mehr als 100 Einheiten unterschieden werden können. Je nach Leistungsfä-
higkeit können die Transmitter ein Magnetfeld unterschiedlicher Größe aufbauen.
Nach Eduard Horber stehe den Akteuren „oft nur eine Bühne von acht mal acht Me-
tern zur Verfügung, die von den Transmittern mit einem Magnetfeld bestrahlen [sic]
werden.“ [4]. Inzwischen seien laut Sven Eric Härtel jedoch Reichweiten von bis zu
150 Metern auf freien Flächen und 50 Metern in geschlossenen Räumen möglich [3].
Elektromagnetische Systeme haben gegenüber optischen Systemen den Vorteil,
dass das für optische Verfahren typische Verdeckungsproblem nicht besteht. Des-
weiteren erlaubt das magnetische Verfahren die Bewegungserfassung mehrerer
Darsteller gleichzeitig [3]. Ein weiterer Vorteil im Gegensatz zu optischen Verfahren
ist die Echtzeitfähigkeit des Systems, wodurch der Nutzer sofort die erfassten Daten
betrachten kann. Desweiteren ist keine nachträgliche Bearbeitung der Daten erfor-
derlich [7]. Von Nachteil ist hingegen, dass elektromagnetische Systeme eine Anfäl-
ligkeit gegenüber Interferenzen aufweisen, welche zum Beispiel durch Metall in der
Umgebung verursacht werden können [3]. Nach Eduard Horber sind auch die Senso-
ren selbst eine Störquelle, weswegen er in der zeitgleichen Aufzeichnung mehrerer
Darsteller ein Problem sieht. „Durch die Nähe der Akteure […] können aber Interfe-
renzen auftreten, die die Qualität der Daten mehr oder weniger stark
sen.“ [4]. Ein weiterer Nachteil ist laut Horber, Menache und Giese die Verkabelung
des Anzugs. Demnach muss jeder Sensor über ein separates Kabel mit einer Re-
chenstation verbunden sein [4], was für den Darsteller mit einer gewissen Bewe-
gungseinschränkung verbunden ist. Laut Härtel besteht dieses Problem jedoch nur
bei früheren elektromagnetischen Systemen: „Früher musste ein Akteur ein Daten-
kabel hinter sich herführen, inzwischen sind jedoch leistungsstarke Funknetze einge-
führt worden […]“ [3].
3. Motion Capture-Systeme 9
3.3 Elektromechanische Verfahren
Eine Alternative zu optischen und elektromagnetischen Verfahren stellt das elektro-
mechanische Motion Capturing dar. Zur Bewegungserfassung wird der Akteur mit ei-
nem Außenskelett ausgestattet (siehe Abb. 5). Winkelmesser, welche meist an den
Gelenken befestigt werden, messen während der Aufnahme die Ausrichtung der Ge-
lenke, um daraus die Körperbewegung zu errechnen.
Abb. 5 Exo-Skelett (e. Abb.)
Nach Eduard Horber [4] arbeiten die Winkelmesser mit Potentiometern. Potentiome-
ter messen elektrische Widerstände, wobei die Messwerte durch mechanische Ein-
flüsse, unter anderem durch Drehung, verändert werden können [11]. Die durch Kör-
perbewegungen verursachten Widerstände werden auf diese Weise gemessen und
in Bewegungsdaten umgewandelt. Vorteil: Der Aufnahmeraum muss hierfür weder
mit Kameras noch mit Transmittern ausgestattet werden [2]. Hieraus ergibt sich ein
weiterer Vorteil. Da keine externen Aufnahmegeräte zum Einsatz kommen, fällt auch
bei den mechanischen Verfahren das Verdeckungsproblem weg. Ebenso kann die
Erfassung nicht durch Interferenzen gestört werden, wie sie bei magnetischen Sys-
temen auftreten können. Ferner können Bewegungen mehrerer Personen gleichzei-
tig und in Echtzeit aufgezeichnet werden, ohne dass fremde Marker oder Sensoren
eine Messung erschweren [4]. Von Nachteil ist hingegen, dass das Exo-Skelett, wie
auch die Sensoren der magnetischen Systeme, eine Einschränkung der Bewegungs-
freiheit mit sich bringt [3]. Zudem ist es laut Martin Giese nur in Kombination mit an-
deren Verfahren möglich, die Position des Körpers im Raum zu ermitteln. „Die Bewe-
3. Motion Capture-Systeme 10
gung im dreidimensionalen Raum ist folglich in den ersten beiden Systemtypen bes-
ser integriert.“ (Verweis auf optische und magnetische Systeme) [4].
3.4 Akustische Verfahren
Motion Capture-Umsetzungen durch akustische Systeme funktionieren über Ultra-
schallmessung. Hierbei dienen Ultraschallsender als Marker auf dem Körper des Ak-
teurs. Diese Senden ein Signal aus, welches von mehreren Ultraschallempfängern
im Raum ausgewertet wird [5]. Nach Jackél, Neunreither und Wagner sind hierfür
mindestens drei Empfänger erforderlich. „Aus den Laufzeiten des Schalls […] lässt
sich die Position des jeweiligen Senders […] ermitteln.“ [5]. Es sei jedoch, wie bei op-
tischen Technologien, mit verdeckungsbedingten Messungsfehlern zu rechnen.
3.5 Performance Capture
Eine Erweiterung des Motion Capturing ist das sogenannte Performance Capturing.
Hierbei beschränkt sich die Bewegungserfassung nicht auf Gestik, sondern umfasst
auch die Erfassung der Mimik [12]. Performance Capturing arbeitet nach dem opti-
schen Motion Capture-Prinzip. Marker werden im Gesicht eines Akteurs angebracht,
welche über Kameras erfasst werden. Auf diese Weise werden Gesichtsbewegungen
extrahiert und auf einen virtuellen Darsteller übertragen.
4. Nachbearbeitung / Anpassung 11
4. Nachbearbeitung / Anpassung
Bevor eine mittels Motion Capture erfasste Bewegungssequenz auf ein virtuelles
Modell übertragen werden kann, sind - je nachdem, wie stark die Übereinstimmung
zwischen den erfassten Daten und der tatsächlich ausgeführten Bewegung ist -
Nachbearbeitungsschritte und/oder Anpassungen erforderlich. „Eine Nachbearbei-
tung ist trotz eines optimalen Kalibrierungsverlaufs unumgänglich.“ [3]. Im Folgenden
sollen einige Verfahren zur Nachbearbeitung, bzw. Anpassung von Motion Capture-
Daten vorgestellt werden.
4.1 Motion Editing
In einer abgeschlossenen Filmsequenz folgt die animierte Figur einem festen Bewe-
gungsablauf. Je nachdem, für welches Produkt das Motion Capture-Verfahren einge-
setzt wird, ist es jedoch erforderlich, dass Bewegungen virtueller Charaktere von vor-
gefertigten Bewegungsfolgen abweichen. Zu diesem Zweck dient das sogenannte
Motion Editing. An bestimmten Schlüsselpunkten der Figur, z.B. an Ellbogen, wird ei-
ne Neujustierung des Körpers, abhängig von verschiedenen Einflussfaktoren, erlaubt
(siehe Abb. 6). Ein mögliches Einsatzgebiet des Motion Editing sind Videospiele [5].
Abb. 6 Motion Editing (e. Abb.)
Als Beispiel sei eine Kletteranimation genannt. Je nach Umfang des Spiels muss es
der Spielfigur möglich sein, zahlreiche Klippen, Bäume oder Türme zu erklimmen.
Das Motion Editing ermöglicht dem Programmierer, die Arme der Spielfigur nach
Vorsprüngen und Felsen greifen zu lassen, ohne das die zugrunde liegende Kletter-
animation auf den konkreten Kletterabschnitt zugeschnitten sein muss.
4. Nachbearbeitung / Anpassung 12
4.2 Motion Blending
„Mit dem Motion Blending wird der Übergang von zwei unterschiedlichen Bewe-
gungsabläufen interpoliert.“ [5]. Das Verfahren ermöglicht, Lücken zwischen zwei
aufeinanderfolgenden Animationen/Animationsabschnitten zu schließen, um den
Animationswechsel vor dem Betrachter zu verbergen.
Es sei nochmals die Kletteranimation eines Videospiels als Beispiel aufgeführt. Wird
kein Verfahren zur Bewegungssequenzverbindung eingesetzt, hat ein Wechsel vom
Laufen zum Klettern ein unnatürliches, abruptes Stoppen der Laufanimation zur Fol-
ge. Mit Motion Blending wird, angepasst an das Spielgeschehen, eine Zwischense-
quenz erzeugt, die den Wechsel in einem fließenden Übergang kaschiert.
4.3 Motion Retargeting
Sind Unterschiede zwischen den Körperproportionen des realen Akteurs und des vir-
tuellen Charakters so gravierend, dass die vom Akteur extrahierten Bewegungen,
ausgeführt von der digitalen Figur, ihren natürlichen Eindruck verlieren, ist eine
Nachbearbeitung mittels Motion Retargeting erforderlich. Als Beispiel sei ein Akteur
genannt, welcher während der Aufnahme seine Hände über seinen Kopf greifen
lässt, das virtuelle Modell aufgrund kürzerer Arme jedoch nicht in der Lage ist, diese
Bewegung nachzuahmen. Um proportionsbedingte Unnatürlichkeit in der Bewegung
zu korrigieren, muss wie beim Motion Editing eine Anpassung der Bewegung an ein
oder mehr Schlüsselpositionen vorgenommen werden.
5. Motion Capture-Programm 13
5. Motion Capture-Programm
Im Folgenden soll eine eigene Umsetzung des Motion Capturing vorgestellt werden.
Die Umsetzung basiert auf optischen Motion Capture-Systemen. Das Rahmenprog-
ramm soll es ermöglichen, computeranimierte Trickfilme mittels Motion Capturing zu
erstellen und diese als Videodatei zu exportieren. Die Kern-Idee hinter dem Prog-
ramm ist es, hierbei auf einfache Mittel zurückzugreifen, um das Motion Capture-
Verfahren auch für Privatnutzer ohne weitere Vorkenntnisse zugänglich zu machen.
Zum Erstellen einer Szene durchläuft der Nutzer mehrere Arbeitsschritte. Im ersten
Schritt bereitet der Nutzer eine Kulisse, bestehend aus verschiedenen 3D-Modellen
vor, in welcher die Szene gedreht werden soll. Im darauffolgenden Schritt wird die
Szenerie mit Darstellern (im Folgenden auch als Avatar bezeichnet) besetzt. Über ei-
nen speziellen Editor bekommt der Anwender die Möglichkeit, eigene Avatare zu
kreieren und diese für seine Szene einzusetzen. Es folgt das Motion Capturing (sie-
he: Abb. 7). Nach einer kurzen Kamerakalibrierung können die Avatare einzeln per
Körperbewegung animiert werden. Ferner soll der Nutzer in der Lage sein, die Mimik
der Darsteller zu bearbeiten, sowie das Aufgezeichnete zu vertonen. Die Anwendung
ist in C++ geschrieben. Hierfür greife ich auf das Microsoft Windows SDK v6.1 unter
der Entwicklungsumgebung Code::Blocks zurück. Das Anzeigen dreidimensionaler
Objekte erfolgt mittels DirectX 9. Bei den Avataren handelt es sich programmintern
um eine Zusammenstellung mehrerer 3D-Objekte. In der Regel werden CG-
Charaktere mittels des sogenannten Skinning mit einem Skelettmodell verknüpft. Ei-
ne Bewegung im Skelett hat eine Verformung des Charaktermodells zur Folge. Die
Verwaltung als 3D-Objekt-Gruppe dient dem Zweck, dem Nutzer das einfache Zu-
sammenstellen eines Avatars aus vorgefertigten Körperelementen zu ermöglichen.
Abb. 7 Programm: Benutzeroberfläche (e. Abb.)
6. Algorithmus 14
6. Algorithmus
Mein Algorithmus zur Bewegungserfassung beruht auf dem Prinzip optischer Motion
Capturing-Systeme. Zwei Webcams werden hierzu jeweils in einem Abstand von ca.
drei Metern von dem Punkt entfernt aufgestellt, an dem der Darsteller steht. Die erste
Kamera steht frontal vor dem Akteur, die Zweite wird orthogonal zur ersten Webcam
platziert, sodass sie den Darsteller von links filmt. Dieser trägt einen mit Markern
ausgestatteten Anzug. Da die von Alberto Menache erwähnte Mindestanzahl von vier
Kameras [7] um zwei unterschritten wird, werden für die Aufnahmen gut sichtbare,
farblich unterscheidbare Marker verwendet. Diese werden an Knien, Ellbogen,, Fü-
ßen, Händen, Schultern, Oberschenkeln, sowie am Kopf, Hals, Bauch und der Hüfte
befestigt. Hierzu eignen sich beispielsweise neonfarbende breite Bänder oder dicke
Schlaufen, welche vom Akteur übergezogen werden (siehe Abbildung 8).
Abb. 8 Allgemeiner Aufbau (e. Abb.)
Zunächst fertigt der Nutzer eine Aufnahme an, die einen Akteur in Bewegung zeigt.
Der Bewegungsablauf wird simultan von beiden Kameras aufgezeichnet. Vor der
Verarbeitung einer Aufzeichnung durch die Software muss der Nutzer einige Analy-
separameter bestimmen. Sind die Einstellungen komplett, wird die Aufnahme Bild für
Bild an den Motion Capture-Algorithmus übergeben. Dieser ermittelt erst einmal alle
Pixel innerhalb des zu untersuchenden Bildes, welche zu einem Marker gehören
könnten. Die auf diese Weise ermittelten Flächen werden in einem zweiten Schritt
auf gemeinsame Mittelpunkte reduziert. Bei Diesen handelt es sich um im Bild ge-
6. Algorithmus 15
fundene Marker, wobei auch fälschlich als Marker erkannte Flächen auftreten kön-
nen, zum Beispiel wenn ein Gegenstand im Hintergrund aufgrund seiner Größe und
Farbe für einen Marker gehalten wird. Daher besteht der nächste Verarbeitungs-
schritt darin, die im Bild gefundenen Flächen und die Marker auf dem Körper des Ak-
teurs einander zuzuordnen. Abschließend werden die finalen Markerpositionen ge-
speichert und es wird mit dem nächsten Aufnahmebild fortgefahren. Wurden auf die-
se Weise beide Kameraaufnahmen ausgewertet, werden die Ergebnisse beider Ana-
lysen kombiniert.
6.1 Verarbeitungsschritte
Die im Folgenden beschriebenen Bildverarbeitungsschritte werden für die Aufnah-
men beider Webcams separat durchgeführt.
6.1.1 Analyseparameter
Für die Bildanalyse ist eine Kalibrierung erforderlich. Festzulegen sind die Farbwerte
der zu suchenden Marker, sowie ein Toleranzwert, welcher - je nachdem, wie hoch
er eingestellt ist - eine mehr oder weniger starke Abweichung von den festgelegten
Farbwerten erlaubt. Würde der Algorithmus bei der Pixelsuche nur jene Bildpunkte
berücksichtigen, deren Färbung genau einer der festgesetzten Farben entspricht, so
hätten kleinste Veränderungen der Lichtverhältnisse zur Folge, dass andere oder fal-
sche Bildpunkte als Marker-Pixel identifiziert werden würden. Desweiteren muss der
Nutzer eine Mindestgröße für Marker als weiteres Erkennungskriterium definieren.
Abbildung 9 zeigt die Auswirkungen einer Farbtoleranzwertveränderung (Bildab-
schnitt Eins und Zwei), sowie das Ergebnis einer Markersuche (Bildabschnitt Drei).
Abb. 9 Farbabweichung und Marker-Erkennung (e. Abb.)
6. Algorithmus 16
6.1.2 Pixelklassifizierung
Im ersten Verarbeitungsschritt des Algorithmus müssen jene Pixel, die Teil eines
Markers sein könnten, gegenüber den restlichen Bildpunkten abgegrenzt werden.
Die Funktion iteriert hierzu über das Bild. Jeder Pixel besitzt einen RGB-Wert (Rot
Grün Blau), dessen Ähnlichkeit zu den eingestellten Markerfarben, unter Berücksich-
tigung der zulässigen Farbabweichung, berechnet wird. Bei Übereinstimmung wer-
den die untersuchten Bildpunkte ihrer Kolorierung entsprechend markiert. Alle ande-
ren Pixel werden als nicht Marker-zugehörig gekennzeichnet.
6.1.3 Pixelgruppierung
Als nächstes müssen aus den ermittelten Pixeln die Positionen potentieller Marker
abgeleitet werden. Hierzu müssen die Pixelansammlungen aus dem letzten Schritt
auf einen gemeinsamen Mittelpunkt reduziert werden. Dazu dient ein rekursiver
Hilfsalgorithmus, welcher zu einem bestimmten Punkt alle markerzugehörigen Nach-
barpixel, also jene mit derselben Kennzeichnung, durchläuft und dabei die Summe
ihrer x- bzw. y-Werte bildet. Um Doppelzählungen zu vermeiden, wird jeder bereits
besuchte Pixel hinreichend gekennzeichnet (Abb. 10). Beide Summen, geteilt durch
die Anzahl der Punkte, aus denen sie gebildet wurden, ergeben den Flächenmittel-
punkt und somit die Position eines möglichen Markers. Abschließend entscheidet die
Funktion mittels des vom Anwender festgelegten Flächenmindestgrößenwertes, ob
es sich bei dem ausgerechneten Punkt um einen echten Marker handeln kann.
Abb. 10 Funktionsprinzip: Pixelgruppierung (e. Abb.)
6. Algorithmus 17
6.1.4 Markerzuordnung
Der dritte Schritt besteht darin, die zuvor berechneten eventuellen Marker, im Fol-
genden auch Markerkandidaten genannt, mit bestimmten echten Markern auf dem
Körper des Darstellers zu assoziieren. Das Programm iteriert hierzu über sämtliche
Markerkandidaten und entscheiden anhand zweier Bestimmungskriterien über eine
mögliche Zugehörigkeit. Erstes Entscheidungsmerkmal sind die Färbungen. Bei ei-
nem Markerkandidaten kann es sich nur dann um einen realen Marker handeln,
wenn die Farbwerte von Marker und Kandidat übereinstimmen. Für eine tatsächliche
Zuordnung berechnet der Algorithmus die Abstände zwischen der Position des Mar-
kerkandidaten zu den letzten bekannten Positionen aller, nach dem Farbvergleich
noch übrigen echten Marker. Der Markerkandidat wird jenem konkreten Marker mit
dem kleinsten Abstand zugeordnet.
6.1.5 Auflösen von Mehrfachassoziationen
Innerhalb des letzten Schrittes wurde jeder Markerkandidat dem für ihn wahrschein-
lichsten Marker auf dem Körper des Akteurs zugeteilt. Infolgedessen können jedoch
mehrere Kandidaten mit dem gleichen Marker assoziiert worden sein. Gleicherma-
ßen können Marker existieren, welchen kein Kandidat zugeordnet wurde. Als Beispiel
sei ein Marker genannt, welcher während der Aufzeichnung kurzzeitig verdeckt wird
und auf der anderen Seite des Bildes wieder erscheint. Aufgrund des großen Ab-
standes zur letzten bekannten Position wird der nun gefundene Markerkandidat
eventuell einem anderen Marker derselben Färbung zugeordnet. Im Falle einer sol-
chen Mehrfachzuordnung wird der Markerkandidat mit dem geringsten Abstand zum
Marker, beziehungsweise zu dessen letzter bekannter Position, endgültig mit diesem
assoziiert. Hierbei handelt es sich um einen iterativen Prozess. Die überzähligen Zu-
ordnungen werden entfernt. Die entsprechenden Markerkandidaten müssen mit an-
deren Markern verknüpft werden, vorausgesetzt, es existieren noch Marker ohne
Kandidat-Assoziation. Abschließend aktualisiert die Funktion die Positionen der Mar-
ker mit den Koordinaten der ihnen zugeordneten Markerkandidaten.
In Abbildung 11 wird der Prozess der Assoziation dargestellt. Zunächst werden beide
gefundenen Markerkandidaten (dunkelgrau) mit dem Marker verknüpft, dessen letzte
bekannte Koordinate (hellgrau) am nahesten liegt. Es folgt die Auflösung der ent-
standenen Mehrfachassoziation und eine Neuzuordnung des Markerkandidaten.
6. Algorithmus 18
Abb. 11 Marker-Assoziation (e. Abb.)
6.1.6 Nachbearbeitung
Die Software arbeitet unter verschiedenen Einschränkungen, welche eine mehr oder
weniger aufwändige Nachbearbeitung der errechneten Daten erforderlich machen
können, bevor diese für eine CG-Animation brauchbar werden. Wird ein Marker zeit-
weise von einer Kamera nicht erkannt, so weisen die Animationsdaten Lücken auf.
Derartige Lücken lassen sich über eine Autokorrekturfunktion schließen. Die Funktion
errechnet hierfür die mittlere Positionsverschiebung eines Markers anhand seiner
letzten und nächsten bekannten Position. Ein weiteres Problem: Tritt ein Verde-
ckungsproblem im ersten Bild der Aufzeichnung auf, so arbeitet der Algorithmus im
weiteren Analyseverlauf ohne den betroffenen Marker. Erscheint dieser in späteren
Bildern, wird er als überflüssiger Marker erkannt und ignoriert. Um dieses Problem zu
umgehen, kann der Nutzer Marker manuell eingeben. Zudem kann es passieren,
dass Marker ab einem bestimmten Zeitpunkt der Analyse vom Programm verwech-
selt werden. Dies passiert in der Regel dann, wenn sich Marker gleicher Farbe zeit-
weise überschneiden. Das Programm assoziiert die zusammenhängende Fläche mit
einem der Marker und kennzeichnet den Anderen als verschwunden. Daher können
die Positionen zweier falsch verfolgter Marker ab einem selbst definierten Zeitpunkt
der Animation nachträglich vertauscht werden. Eine Möglichkeit, das Verwech-
slungsproblem von Anfang an auszuschließen, ist die Erkennung komplett farbbasiert
zu konzipieren. Das Problem bei dieser Herangehensweise ist jedoch, dass es je
nach Marker-Anzahl schwierig wird, unter Normallichtbedingungen gut unterscheid-
bare Farben zu finden. Weitere Erkennungsfehler lassen sich für jeden Marker per
Hand korrigieren.
6. Algorithmus 19
6.2 z-Komponenten
Aus der Auswertung der Kameraaufnahmen resultieren zwei getrennte zweidimen-
sionale Animationen, jeweils bestehend aus den Bildkoordinaten aller gefundenen
Marker zu jedem Zeitpunkt der Aufzeichnung. Die Ergebnisse werden nun zu einer
dreidimensionalen Animation zusammengefasst. Hierzu stellt die Software eine spe-
zielle Skelettstruktur zur Verfügung (Abb. 12).
Abb. 12 Skelettstruktur (e. Abb.)
Per Hand werden die Marker beider Animationen mit einem Schlüsselpunkt innerhalb
des Skelettmodells verknüpft. Durch die Zuweisung gemeinsamer Schlüsselpunkte
werden die Marker der ersten Animation mit je einem Marker der Zweiten assoziiert.
So errechnet das Programm aus zwei einander zugehörigen Markern eine gemein-
same dreidimensionale Koordinate. Für x und y werden die x-y-Marker-Koordinaten
der frontalen Aufnahme verwendet. Die z-Komponente entspricht der x-Marker-
Koordinate der seitlichen Animation. Abschließend werden anhand der bestimmten
Punkte die Orientierungen der jeweiligen Gliedmaßen des Skelettmodells errechnet.
Ein früherer Ansatz bestand darin, die Animationsdaten gänzlich aus der Aufzeich-
nung einer einzigen Kamera zu erheben. Der Grundgedanke war, die Tiefenbewe-
gung über die Größe der Marker im Bild festzustellen, welche im Rahmen der Mar-
ker-Mindestgrößen-Abfrage bereits ermittelt wird. Hieraus resultiert jedoch eine wei-
tere Beschränkung des Sichtbarkeitsbereiches und somit eine Vergrößerung des
Verdeckungsproblems.
7. Experiment – Praktischer Test des Algorithmus 20
7. Experiment – Praktischer Test des Algorithmus
Im Folgenden soll ein Experiment mit der im zweiten Abschnitt vorgestellten Software
durchgeführt werden. Es besteht in einem praktischen Test des Motion Capture-
Algorithmus. Mehrere Bewegungsabläufe unterschiedlicher Schwierigkeit sollen auf-
genommen, vom Programm ausgewertet und auf ein dreidimensionales Computer-
Modell übertragen werden. Eine qualitative Analyse der Ergebnisse soll die Frage
beantworten, inwieweit meine Umsetzung des Verfahrens als Funktionsbereit be-
trachtet werden kann und wo die Grenzen des Programmes liegen. Hierzu werden
die Aufnahmen unter wechselnden Aufnahmebedingungen durchgeführt. Zum Einen
wird die Anzahl und Größe der verwendeten Marker variieren, zum Anderen soll die
Bewegung von verschiedenen Kameramodellen erfasst werden. Desweiteren wird
das Experiment unter wechselnden Lichtverhältnissen ausgeführt. Um repräsentati-
ve Resultate zu erhalten, werden die Versuche mehrere Male wiederholt.
Die qualitative Ergebnisanalyse setzt sich aus dem Zeitaufwand einer möglichen
Nachbearbeitung und den Fehlerquoten der Marker-Erkennung zusammen. Relevant
ist hierbei, wie oft Marker verloren gegangen sind oder mit anderen Markern ver-
wechselt wurden. Darüber hinaus sollen in der Analyse weitere Beobachtungen do-
kumentiert werden. Eine abschließende Gegenüberstellung der Versuche soll Auf-
schluss darüber geben, unter welchen Bedingungen der Algorithmus das beste Er-
gebnis erzielt, wo eventuelle Schwachstellen liegen und wie diese zu erklären sind.
7.1 Versuchsaufbau
Für die Durchführung des Experimentes werden folgende Geräte und Gegenstände
verwendet: Die vorgestellte Software, zwei Webcams (Modelle: Speedlink SL-6826-
SBK und Speedlink Snappy SL-6825-BK), desweiteren verschiedene Marker: Sechs
neongrüne und sechs neonorange Stoffstücke, je zwei schwarze Knie- und Ellbo-
genschoner und 16 farbige Tischtennisbälle. Zudem werden Klebeband, weiße Klei-
dung, zwei Lampen (Lichtstärke: 400 Lumen) und zwei weiße Laken verwendet. Das
Experiment ist in zwei Teile gegliedert, welche sich durch ihre Aufnahmebedingun-
gen unterscheiden. Beide Versuchsabschnitte finden innerhalb eines geschlossenen
Raumes statt. Der erste Durchlauf wird tagsüber durchgeführt, sodass Tageslicht
durch ein Fenster in den Raum scheint (im Folgenden auch als Tageslichtversuch
bezeichnet). Im zweiten Versuchsteil (nachfolgend auch Normallichtversuch genannt)
7. Experiment – Praktischer Test des Algorithmus 21
sind die Lampen die einzigen Leuchtquellen. Vor der Aufnahme wird der Aufnahme-
raum vorbereitet. Zunächst werden die beiden Kameras entsprechend der Abbildung
platziert (siehe: Abb.13). Um mögliche Interferenzen mit dem Hintergrund während
der Analyse zu vermeiden, wird jeweils der Hintergrund beider Webcams mit einem
weißen Laken verhangen. Als nächstes wird das Programm gestartet. Anhand der
Webcam-Vorschaubilder werden eventuell verbliebene Störquellen im Bild entfernt.
Für die Normallichtversuche wird zusätzlich hinter jeder Kamera jeweils eine Lampe
aufgestellt, welche auf die Aufnahmeposition des Darstellers gerichtet ist.
Abb. 13 Versuchsaufbau (e. Abb.)
Der Akteur wird entsprechend den verwendeten Marker eingekleidet. Der erste Mar-
ker-Satz besteht aus den neonfarbenden Stoffstücken und der Schutzkleidung, wel-
che wie zu Beginn von Kapitel 6 beschrieben angelegt werden. Wichtig ist hierbei,
dass für zwei nahe beieinanderliegende Schlüsselpunkte nicht zwei Stoffstücke der
gleichen Farbe verwendet werden, zum Beispiel für den Hüftmarker und die Ober-
schenkel. Für die zweite Marker-Bekleidung werden anstatt der Stoffstücke und
Schoner die farbigen Tischtennisbälle mithilfe des Klebebandes an den genannten
Schlüsselstellen befestigt. Zudem soll der Algorithmus gänzlich ohne Marker getestet
werden. Hierbei sollen Punkte am Körper des Akteurs selbst, beziehungsweise an
seiner Kleidung, als Orientierungspunkte dienen, beispielshalber Hände, Kopf oder
Ärmel.
7. Experiment – Praktischer Test des Algorithmus 22
7.2 Versuchsdurchführung
Nach der Vorbereitung des Aufnahmeraumes und dem Einkleiden des Schauspielers
werden die Versuchsdurchläufe gestartet. Diese bestehen aus vier Bewegungsabläu-
fen, wobei sich der Akteur immer mit dem Gesicht zur frontal platzierten „Webcam
1“ hin ausrichtet. Begonnen wird mit einfachem Winken. Bewegung zwei besteht in
einem frontal ausgeführten Sprungtritt. Als Drittes geht der Darsteller in die Hocke.
Zuletzt soll mit einer flügelschlagartigen Bewegung der Arme erprobt werden, wie gut
sich die erfassten Daten auf ein nichtmenschliches Modell, in diesem Fall das 3D-
Modell eines Vogels, abbilden lassen. Für letztere Bewegung wird lediglich „Webcam
1“ verwendet. Jede Bewegung wird separat aufgezeichnet und nachbearbeitet.
7.2.1 Einzelschritte
Zunächst wird eine fünf Sekunden lange Aufnahme des auszuführenden Bewe-
gungsablaufes gemacht. Nach Abschluss der Aufnahme wird dem Anwender auto-
matisch jeweils das erste Bild beider Aufnahmen angezeigt. Hierauf werden nun die
Pixel ausgewählt, deren Farbwerte für die spätere Motion Capture-Analyse relevant
sind. Per Scroll-Leiste werden anschließend der Farbtoleranzwert und die Marker-
Mindestgröße eingestellt. Darauffolgend wird der Motion Capture-Algorithmus gestar-
tet.
Im Folgenden werden die vom Algorithmus berechneten Marker-Daten nachbearbei-
tet. Der Anwender iteriert hierzu über die fertige Aufnahme. Farblich markierte Punk-
te innerhalb des Vorschaubildes - platziert auf den Marker-versehenen Schlüsselpo-
sitionen des Darstellers - zeigen die Positionen der gefundenen Marker zum jeweili-
gen Zeitpunkt der Aufzeichnung. Erkennungsfehler werden mit den entsprechenden
Nachbearbeitungsfunktionen berichtigt. Ist ein Marker nur kurzzeitig gänzlich ver-
schwunden, so ist eine Korrektur nicht notwendig. Abschließend werden eventuell
entstandene Erkennungslücken mittels Autokorrektur geschlossen. Hierbei ist darauf
zu achten, dass jeder Marker im letzten Bild auf seiner Schlüsselposition liegt. Nach
Abschluss der Analyse werden die Daten auf die Skelettstruktur transferiert. Jedem
Marker wird nun seinem Pendant innerhalb der Skelettstruktur zugeordnet. Dabei
wird der momentan zuzuordnende Marker blau markiert, die Übrigen erscheinen
gelb.
7. Experiment – Praktischer Test des Algorithmus 23
7.3 Ergebnisse
Im Folgenden werden die Beobachtungen und Ergebnisse des Experimentes aufge-
führt. Zunächst wird auf die Resultate des Tageslichtversuchsdurchlaufes eingegan-
gen. Hierauf folgt die Versuchsreihe unter Normallichtbedingungen.
7.3.1 Tageslichtversuche
Die nachfolgende Tabelle (Tab. 1) veranschaulicht die Messungen zu den ausgeführ-
ten Versuchen unter Verwendung des ersten Marker-Satzes (siehe: Abschnitt 7.1).
Die Messwerte entsprechen dem Durchschnitt von bis zu zehn erfolgreich ausgeführ-
ten Motion Capture-Analysen der gleichen Bewegung. Hierbei beinhaltet je die erste
Zeile die Ergebnisse für „Webcam 1“. Die andere Zeile enthält folglich die Resultate
aus der zweiten Kamera.
Bewegung
Farbtoleranz
(Abweichung
von R, G, B)
Marker-
Mindestgröße (in
Pixeln)
Marker ver-
schwunden (pro
Aufnahme)
Marker falsch
platziert (pro
Aufnahme)
Marker ver-
tauscht (pro
Aufnahme)
Benötigte
Zeit (min)
Winken 56 540 2.1 0.8 0.1 2:25
38 480 0.8 0.1 0.1 1:37
Sprung-
Tritt
60 750 1 2 0 3:16
38 540 1 4 2 12:20
Hocke 65 600 0 0 0 1:40
45 750 2.2 1 0 7:42
Tab. 1 Ergebnisse Tageslicht – Stoffmarker: Bewegung 1-3
Die Wink-Bewegung besitzt die niedrigste Komplexität innerhalb des Experimentes.
In allen zehn Durchführungen wurde erfolgreich eine Animation erstellt. Auffällig ist
die geringere Fehlerquote der zweiten Webcam gegenüber der Frontalkamera. Im
Durchschnitt konnte etwa drei Mal pro Analyse die Position eines Markers nicht
nachvollzogen werden. In der Regel war hiervon der Ellbogenmarker betroffen, auf
welchen mehrfach der Schatten des Unterarmes geworfen wurde. Entstandene Ani-
mationslücken konnten durch den Autokorrekturalgorithmus geschlossen werden.
Durchschnittlich ein Mal pro Versuch musste die Position eines Markers geringfügig
korrigiert werden. Desweiteren kam es zwei Mal zu einer Verwechslung des Hand-
7. Experiment – Praktischer Test des Algorithmus 24
und des Schultermarkers. Zudem zeigte sich ein nach hinten hin abnehmender Zeit-
aufwand. Die letzten vier Wink-Animationen erforderten im Durschnitt 2:28 Minuten.
Der Sprungtritt ist in seiner Ausführung komplexer als das Winken (siehe: Abb. 14).
Für ihn ist eine Ganzkörpererfassung unerlässlich. Die erfolgten Messungen zeigen
hierbei einen deutlichen Unterschied zwischen den beiden zu analysierenden Auf-
nahmeperspektiven. Bei der Untersuchung der Frontalaufnahmen wurden im Schnitt
drei Mal Marker geringfügig falsch gesetzt oder zeitweise nicht gefunden. Eine Mar-
ker-Verwechselung trat nicht auf. Die Erkennung der Tiefenbewegung erforderte hin-
gegen einige Korrekturen. In der Ausführung des Trittes wird das hintere Bein zu
zwei Zeitpunkten ganz oder zumindest teilweise vom vorderen Bein verdeckt. Nach
der Verdeckung sind mehrfach falsch platzierte, ferner durchschnittlich zwei ver-
tauschte Marker zu beobachten. Dies spiegelt sich in der erforderlichen Bearbei-
tungszeit der beiden Kamerabilder wider. Von den im Mittel 15:36 Minuten entfallen
auf die Analyse der Frontalaufnahme lediglich 3:16 Minuten.
Abb. 14 Vergleich: Skelettstruktur - 3D-Modell (e. Abb.)
Ein ähnliches Problem zeigt sich in der Untersuchung der Hocke. In dem Moment, in
dem der Akteur die Knie beugt, wird der hintere Hüftmarker vom vorderen, sich vor-
beugenden Bein verdeckt. Etwa drei Male innerhalb eines Versuches verschwindet
im Analyseergebnis der zweiten Kamera ein Marker oder muss zurechtgerückt wer-
den. Die Aufnahmen der ersten Webcam konnten demgegenüber ohne Nachbearbei-
tung verwendet werden. So erforderten die Analysen der frontalen Bilder nur 1:40 der
insgesamt durchschnittlichen 9:22 Minuten.
7. Experiment – Praktischer Test des Algorithmus 25
Bewegung
Farbtoleranz
(Abweichung
von R, G, B)
Marker-
Mindestgröße (in
Pixeln)
Marker ver-
schwunden (pro
Aufnahme)
Marker falsch
platziert (pro
Aufnahme)
Marker ver-
tauscht (pro
Aufnahme)
Benötigte
Zeit (min)
„Flügel-
Schlag“ 60 600 0 0 0 1:59
Tab. 2 Ergebnisse Tageslicht – Stoffmarker: Bewegung 4
Die vierte Bewegung wurde lediglich für eine Animation im zweidimensionalen Raum
aufgezeichnet. Der Akteur stellte mit seinen Armen den Flügelschlag eines Vogels
nach. Entsprechend wurden keine Bein- und Hüftmarker genutzt. Bei der Analyse der
Flügelschläge wurden alle Markerbewegungen korrekt nachvollzogen (siehe: Tabelle
2). Im Schnitt kostete das Erstellen einer Flügelanimation 1:59 Minuten.
Der nächste Schritt der ersten Versuchsreihe bestand darin, die Aufnahmen unter
Verwendung von Tischtennisbällen zu wiederholen. Hierbei waren lediglich die Ka-
merabilder der Wink-Bewegung, welche im Wesentlichen aus einer Bewegung des
Armes bestand, für eine dreidimensionale Analyse verwertbar. Die zugehörigen Mes-
sungen sind in der nachfolgenden Tabelle zusammengefasst.
Bewegung
Farbtoleranz
(Abweichung
von R, G, B)
Marker-
Mindestgröße (in
Pixeln)
Marker ver-
schwunden (pro
Aufnahme)
Marker falsch
platziert (pro
Aufnahme)
Marker ver-
tauscht (pro
Aufnahme)
Benötigte
Zeit (min)
Winken 63 150 2.4 0.6 0.4 2:40
46 150 0.6 1.6 1 3:16
Sprung-
Tritt
56 180 2.5 0 0.5 5:21
- - - - - -
Hocke 56 210 0.2 0 0 1:50
- - - - - -
Tab. 3 Ergebnisse Tageslicht – Tischtennisbälle
Der durchschnittliche Zeitaufwand beim Erstellen einer Wink-Animation mittels Tisch-
tennisbälle lag 1:54 Minuten über jenem unter Einsatz des ersten Marker-Satzes.
Zudem hat sich die Anzahl an Marker-Verwechselungen gegenüber dem vorange-
gangenen Wink-Test für „Webcam 1“ vervierfacht und für Kamera Zwei verzehnfacht.
Ebenso wurden im Schnitt mehr Marker falsch platziert oder verloren. Ein direkter
7. Experiment – Praktischer Test des Algorithmus 26
Vergleich der Analysekonfigurationen zeigt, dass zum Erfassen der Tischtennisbälle
die mittlere Marker-Mindestgröße deutlich herabgesetzt werden musste. Die Farbto-
leranz wurde hingegen leicht erhöht.
Die Aufnahmen des Sprungtrittes und der Hocke waren nur teilweise für eine Analyse
geeignet. Hier zeigte sich die Problematik des Verdeckungsproblems. Im Bild der
zweiten Kamera waren mehrere für den Animationsverlauf unerlässliche Marker nicht
sichtbar. Ihre Tiefenbewegung konnte nicht nachvollzogen werden. Bei der Analyse
der Frontalaufnahme des Trittes zeigte sich ein weiteres Problem. Während das Bein
nach vorne schnellt, erscheinen die Tischtennisbälle in der Aufnahme unscharf. Ihre
Positionen wurden hierbei nicht erkannt. Selbiges Problem tritt beim Flügelschlag
auf, wenn dieser schnell ausgeführt wird. Die mittlere Fehlerquote bei der frontalen
Erkennung der Hocke blieb ähnlich niedrig wie unter Anwendung der Stoffmarker.
Aufnahmen gänzlich ohne Marker waren zur Auswertung durch den Algorithmus un-
geeignet. So ließen sich beim Test keine Analyseparameter einstellen, unter denen
etwa Hände, Kopf oder Ärmel des Akteurs als zusammenhängende Fläche, deutlich
gegeneinander und gegenüber dem Hintergrund abgegrenzt erkannt wurden.
7.3.2 Normallichtversuche
Im Vergleich zu den Tageslichtaufnahmen waren Aufzeichnungen unter Normallicht-
bedingungen nur eingeschränkt durchführbar. Nur wenige Versuche wurden erfolg-
reich in eine - zudem nur zweidimensionale - Animation umgewandelt. Die Ergebnis-
se des zweiten Versuchsdurchlaufes werden im Folgenden tabellarisch aufgeführt.
Bewegung
Farbtoleranz
(Abweichung
von R, G, B)
Marker-
Mindestgröße (in
Pixeln)
Marker ver-
schwunden (pro
Aufnahme)
Marker falsch
platziert (pro
Aufnahme)
Marker ver-
tauscht (pro
Aufnahme)
Benötigte
Zeit (min)
Winken 46 780 2 1.4 1 2:22
- - - - - -
Sprung-
Tritt
- - - - - -
- - - - - -
Hocke 60 420 2 0 0 2:16
- - - - - -
Tab. 4 Ergebnisse Normallichtversuche – Stoffmarker
7. Experiment – Praktischer Test des Algorithmus 27
Ein direkter Vergleich der Wink-Ergebnisse zu den Resultaten unter Tageslichtbedin-
gungen, bezogen auf die Frontalaufnahmen, zeigt eine Zunahme der Fehlerquote um
46.6 %. Zehn Mal häufiger wurden Marker vertauscht. Hingegen ist die Anzahl ver-
schwundener Marker leicht zurückgegangen. Der Versuch, eine Sprungtrittanimation
zu erstellen, blieb erfolglos. Aus keinem der ausgeführten Tritte konnte eine Animati-
on extrahiert werden. Bei der Erkennung der Hocke wurde wie beim Winken eine
Steigerung der Fehlerquote beobachtet. Während die Aufzeichnung der frontal auf
den Akteur ausgerichteten Kamera im Tageslicht ohne Fehler ausgewertet werden
konnte, wurden im Raum-Licht durchschnittlich zwei Mal pro Aufnahme Marker nicht
gefunden. Hierbei handelt es sich um die Kniemarker, welche während der Beugung
kurzzeitig nicht erkannt wurden. Desweiteren ließ sich beobachten, dass die fertigen
zweidimensionalen Animationen ruckeln und in ihrer Framerate variieren. Bei der
Wiederholung der Aufnahmen unter Verwendung von Tischtennisbällen, beziehung-
sweise ohne Marker, ließen sich aus den Bewegungen keine Animationen extrahie-
ren.
7.4 Auswertung
In der Motion Capture-Analyse der verschiedenen Bewegungen wurden unterschied-
liche Resultate erzielt und Schwierigkeiten festgestellt. Im nachfolgenden Abschnitt
sollen mögliche Erklärungen für die gemachten Beobachtungen gefunden werden.
Mehrfach wurden Marker vom Algorithmus in ein oder mehreren Bildern nicht gefun-
den. Dies lässt sich auf verschiedene mögliche Fehlerquellen zurückführen. Zum Ei-
nen verschwinden Marker, wenn sie von Gegenständen oder Körperteilen des Dar-
stellers verborgen werden. Das Verdeckungsproblem wurde mehrfach während der
Analyse der seitlichen Aufnahmen des Sprungtrittes und der Hocke bemerkt. Deswei-
teren kam es beim Winken mehrere Male zum Verschwinden des Ellbogenmarkers,
während dieser im Schatten des Unterarmes lag. Dies lässt den Schluss zu, dass der
gewählte Farbtoleranzwert nicht ausreichend hoch festgelegt wurde, um die im
Schatten dunkler erscheinenden Färbung des Markers zu kompensieren. Eine weite-
re mögliche Ursache ist bedingt durch die verwendete Technik. Bei schnellen Bewe-
gungen, wie dem Sprungtritt, entsteht im Kamerabild oftmals eine Bewegungsun-
schärfe, da nicht genügend Bilder pro Sekunde aufgezeichnet werden. Infolgedessen
7. Experiment – Praktischer Test des Algorithmus 28
werden betroffene Marker nicht korrekt erkannt. Desweiteren trat in mehreren Tests
das im Abschnitt 6.1.6 beschriebene Verwechslungsproblem auf.
Die Häufigkeit der genannten Erkennungsfehler variierte in Abhängigkeit von der
Markerwahl. Stoffmarker wurden vom Algorithmus deutlich sicherer verfolgt als es bei
Tischtennisbällen der Fall war. Im Gegensatz zu den Stoffstücken, welche wie ein
Schal um Arme und Beine herum liegen, sind die Tischtennisbälle punktuell am Kör-
per befestigt und werden bereits durch leichte Drehungen verdeckt. Zudem bieten
Tischtennisbälle aufgrund ihrer geringen Größe eine vergleichsweise nur kleine Er-
kennungsfläche. Dies spiegelt sich in der durchschnittlichen Mindest-Marker-Größe
beider Marker-Typen wider. Hieraus resultiert vermutlich eine höhere Anfälligkeit des
Algorithmus gegenüber Abstands- also Größenveränderungen und Bewegungsun-
schärfe.
Das Experiment verdeutlicht besonders die Bedeutung des Aufnahmeraumes. Unter
Normallichtbedingungen waren die meisten Aufnahmen für eine Weiterverarbeitung
unzweckmäßig. Zum Einen haben die Lampen zu einer Veränderung der Farbwahr-
nehmung geführt. Zum Anderen war eine Arbeit mit den genutzten Kameras nur ein-
geschränkt möglich. Das Bild der Speedlink SL-6826-SBK war im zweiten Versuchs-
durchlauf so dunkel, dass keine klare Pixelklassifizierung möglich war. Zudem wurde
mit abnehmendem Licht die Framerate der Speedlink Snappy SL-6825-BK zuneh-
mend niedriger. Hierdurch lassen sich das Ruckeln und die inkonstante Framerate
einiger Normallichtanimationen erklären. Ebenso verstärkte die geringere Bildrate
das Problem der Bewegungsunschärfe.
Das Experiment hat gezeigt, dass mithilfe kostengünstiger Mittel dreidimensionale
Motion Capture-Sequenzen aufgenommen werden können, sofern der Anwender gut
sichtbare, unterscheidbare Marker verwendet und auf eine ausreichend gute Aus-
leuchtung des Aufnahmeraumes achtet.
8. Fazit 29
8. Fazit
Das Ziel dieser Arbeit bestand darin, das Motion Capture-Verfahren zu rekapitulieren
und eine eigene Umsetzung des Verfahrens mit kostengünstigen Mitteln zu prog-
rammieren.
Der erste Abschnitt sollte den Leser an das Thema der Arbeit heranführen. Hierzu
wurde ein Überblick über die Entwicklungsgeschichte des Motion Capturing gegeben,
angefangen bei der Analyse realistischer Bewegungen, bis zur ersten mittels des Mo-
tion Capture-Verfahrens angefertigten 3D-Animation. Zudem wurde auf die Bedeu-
tung des Verfahrens für die heutige Unterhaltungsindustrie hingewiesen. Desweite-
ren wurden die Funktionsweisen der unterschiedlichen Motion Capture-Systeme, so-
wie die Möglichkeiten der Nachbearbeitung und Animationsanpassung vorgestellt.
Anschließend wurde dem Leser eine im Rahmen dieser Arbeit entwickelte Software
zur Umsetzung des Motion Capturing vorgestellt. Hierbei wurde der Erkennungs-
Algorithmus in seinen einzelnen Verarbeitungsschritten erläutert. Ein abschließendes
Experiment führte die Stärken und Schwächen des geschriebenen Algorithmus auf.
In dieser Arbeit wurde verdeutlicht, dass es durchaus möglich ist, ein Motion Captu-
re-System mit kostengünstigen Mitteln zu entwickeln. Das Experiment hat gezeigt,
dass aus einfachen Bewegungen in einem relativ kurzen Zeitraum eine Animation ex-
trahiert werden kann. Zugleich offenbarte der Versuch jedoch Schwierigkeiten in der
Analyse komplexer Sprünge oder schneller Drehungen, in Form hoher Fehlerquoten,
was gegenüber professionellen Systemen einen grundlegenden Nachteil darstellt.
8.1 Weitere Entwicklung
Ein Großteil der im Versuch aufgetretenen Erkennungsfehler war ganz oder teilweise
auf Marker-Verdeckung zurückzuführen. Somit untermauert der Versuch die Aussage
von Alberto Menache über die Mindestanzahl von vier einzusetzenden Kameras in-
nerhalb optischer Motion Capture-Systeme [7]. In Zukunft ließe sich diesem Problem
durch den Einsatz weiterer Kameras entgegenwirken.
Zudem sollte der Anwender mehr Möglichkeiten erhalten, die Parameter für die Bild-
analyse zu spezifizieren, um eventuelle Erkennungsfehler bereits vor der Analyse
8. Fazit 30
durch den Algorithmus zu beheben. So könnte das Programm um eine Funktion er-
weitert werden, die es dem Nutzer erlaubt, bestimmte Farbwerte oder gewisse Bild-
bereiche von der Pixelklassifizierung (siehe: Abschnitt 6.1.2) auszuschließen.
Ferner könnte eine Performance Capture-Funktion die Erkennung einfacher Ge-
sichtsbewegungen ermöglichen. Hierzu würde der Akteur kleine Marker an Schlüs-
selpositionen seines Gesichtes, zum Beispiel an den Lippen oder den Augenbrauen
befestigen. Aus den gesammelten Daten ließe sich eine Textur für die Miene des 3D-
Modells berechnen.
Literaturverzeichnis
VI
Literaturverzeichnis
[1] dinopark. (2009). Abgerufen am -. Juni 2012 von
http://www.dinopark.de/ice/incoming/www.dinopark.de/extarticle/asset_1/Dino
saurier%20Pressetext%20XL%202010.pdf
[2] Giese, M. (10. Januar 2005). uni-tuebingen. Abgerufen am -. Mai 2012 von
http://www.uni-tuebingen.de/uni/knv/arl/courses/Course-CAL/Vorlesung7.pdf
[3] Härtel, S. E. (2011). Motion Capture vs. Animation: in theoretischer
Gegenüberstellung und praktischer Anwendung. VDM Verlag Dr. Müller.
[4] Horber, E. (2002). Motion Capturing. Abgerufen am -. Mai 2012 von uni-ulm:
http://graphics.uni-ulm.de/lehre/courses/ss02/ModellingAndRendering/07-
motion-capturing.pdf
[5] Jackèl, D., Neunreither, S., & Wagner, F. (2006). Methoden der
Computeranimation. Springer Berlin Heidelberg.
[6] Kitagawa, M., & Windsor, B. (2008). MoCap for Artists: Workflow and
Techniques for Motion Capture. Elsevier Science.
[7] Menache, A. (1999). Understanding Motion Capture for Computer Animation
and Video Games. Morgan Kaufmann.
[8] Parent, R., Menache, A., Ebert, Gould, Gross, Kazmier, et al. (2009).
Computer Animation Complete: All-in-One: Learn Motion Capture,
Characteristic, Point-Based, and Maya Winning Techniques. Morgan
Kaufmann.
[9] Roman, J.-P. (2010). Bildverarbeitung in der Medizin. Digitalkameras
etablieren sich in immer mehr . Weinheim: Wiley-VCH Verlag GmbH & Co.
KGaA.
[10] Wikipedia. (11. April 2012). Abgerufen am -. Juni 2012 von
http://de.wikipedia.org/wiki/Rotoskopie
[11] Wikipedia. (2012). Abgerufen am -. Juni 2012 von
http://de.wikipedia.org/wiki/Potentiometer
[12] Wikipedia. (13. Mai 2012). Abgerufen am -. Mai 2012 von
http://de.wikipedia.org/wiki/Performance_Capture#Performance_Capture
Recommended