3D Avatare durch Echtzeitrekonstruktion zur Unterstützung …ubicomp/... · 2015-03-01 · [Mor70]. Ein Verfahren zum Erfassen der aktuellen äußeren Erscheinung von Menschen welches

3D Avatare durch Echtzeitrekonstruktion zur Unterstützungkollaborativer Szenarien in verteilten Mixed-Reality Systemen

Iwer Petersen

HAW Hamburg, Technik und Informatik,Berliner Tor 7, Hamburg, [email protected]

http://www.haw-hamburg.de

1 Einleitung

Wenn Menschen zusammen im realen Raum agieren, ermöglicht die visuelle Wahrnehmung eines Gegenübers seineAbsichten besser einzuschätzen, und so Konfliktsituationen zu vermeiden. Bildschirm-basierte Kollaborationssytemearbeiten hier gerne mit einem in Echtzeit übertragenen Bild der Teilnehmer. In Virtual-Reality Umgebungen musseine solche visuelle Erscheinung aber künstlich erzeugt werden. Auch in Mixed-Reality Umgebungen, bei denenTeilnehmer von einem entfernten Ort mit dem System arbeiten, muss ein Präsenzsystem eine solche visuelleRepräsentation erzeugen. Ohne ein solches Präsenzsystem ist es schwer bis unmöglich, kollaborative Handlungendurchzuführen, da die Intention anderer Akteure nicht mittelbar zu erkennen ist.

Frühe Versuche diesem Problem zu begegnen stellten Teilnehmer als geometrische Primitive dar. Somit istzumindest die Lokation sowie die Bewegung im Raum für andere Teilnehmer wahrnehmbar. Im weiteren wurdenanimierte dreidimensionale Charaktere verwendet, welche weitergehend mit Hilfe von Motion-Capturing Technikenzu so genannten selbstanimierten Avataren entwickelt wurden. Mit Hilfe dieser Techniken konnte nachgewie-sen werden, dass die Kommunikation zwischen Teilnehmern sowie Koordination von Handlungen in virtuellen,kollaborativen Umgebungen verbessert wird ([MBS+11],[DMB11]).

Abb. 1. Unrealistische Verformung eines statischen Charaktermodells bei starker Handdrehung

Selbstanimierte Avatare sind allerdings nicht beliebig detailierbar. Um zum Beispiel Gesichtsausdrücke zuanimieren, ist eine detailliertere Auflösung des Skelettes notwendig. Dadurch steigt die Gefahr, dass bei bestimmtenBewegungen Fehler bei der Verformung des statischen Charaktermodells entstehen. Ein Beispiel dafür ist in Abbil-dung 1 dargestellt. Durch die Gelenkdrehung bis an die Grenze der Bewegungsfreiheit wird das Charaktermodelldeutlich unrealistisch verformt, und wird dadurch von Menschen kaum noch als real akzeptiert. Das Phänomendes plötzlichen Abfallen der Akzeptanz bei steigendem Realismusgrad ist als Uncanny-Valley Phänomen bekannt[Mor70].

Ein Verfahren zum Erfassen der aktuellen äußeren Erscheinung von Menschen welches hinreichend schnellarbeitet, könnte den Realismusgrad eines Avatars deutlich erhöhen, ohne auf oben genannte Probleme zu stoßen.

2 Iwer Petersen

2 Ziel & Motivation

2.1 Ziel

Ziel der Masterarbeit ist, ein System zu entwickeln welches in der Lage ist 3D Modelle von Menschen in Echtzeitzu erstellen, um sie einer verteilten Mixed-Reality Anwendung zur Verfügung zu stellen. Das rekonstruierte Modellsoll über eine Netzwerkkomponente an das darstellende System versendet werden. Sollten bis dahin die technischenHürden überwunden sein, soll dieses System einen qualitativen Vergleich mit einem Verfahren zu Selbstanimationermöglichen.

2.2 Motivation

Abb. 2. Visualisierung Projektziel: zwei Personen konstruieren von unterschiedlichen Standorten aus gemeinsam ein 3D Modellaus Bauelementen.

Das Ziel des Forschungsprojekts Immersive Interactive Environments (I2E) besteht in der Entwicklung einerverteilten Mixed-Reality Umgebung, die es mehreren verteilten Benutzern ermöglicht, gemeinsam - also kollaborativ- an dreidimensionalen Modellen zu arbeiten. Hierbei sollten Benutzer des Systems möglichst wenig durch zutragende Sensoren und Geräte in ihrer Bewegungsfreiheit eingeschränkt werden. Aus diesem Grund setzt das Projekthauptsächlich auf visuelle Sensorik und tragbare Augmented-Reality (AR) Brillen.

Das Szenario des zu entwickelnden Systems ist in Abbildung 2 dargestellt. Zwei Personen an zwei Standortenarbeiten gemeinsam an einem 3D Modell einer Murmelbahn. Die jeweils entfernte Person ist als 3D Modell durchdie AR Brillen sichtbar. Zur Interaktion mit dem zu konstruierenden Modell werden Tangibles sowie Gestenverwendet.

3D Avatare durch Echtzeitrekonstruktion 3

Abb. 3. Präsenzsystem von Mirage-Table [BJW12].

Da sich die Personen frei im Raum bewegen können sollen, ist es notwendig ein vollständiges Modell derentfernten Person zur Verfügung zu haben. Ein Präsenzsystem wie zum Beispiel [BJW12] implementiert (sieheAbbildung 3), bei dem lediglich eine frontale Ansicht rekonstruiert wird ist daher unzureichend. Bisher realisierteEchtzeit-Rekonstruktionsverfahren wie [AZD13] erzeugen 3D-Modelle, welche eine sehr hohe Vertizenanzahlerreichen, und sind angesichts des Datenvolumens für eine Netzwerkübertragung des Modell eher ungeeignet.

3 Konzept

Ähnlich wie das Echtzeitrekonstruktionsverfahren von Alexiadis et. al. [AZD13] werden die benötigten Daten fürdie Rekonstrukion mit Hilfe mehrerer Tiefenbild- und RGB-Kameras gewonnen.

Wie in Abbildung 4 dargestellt werden die Kameras stationär um den zu scannenden Bereich platziert, so dassBilddaten von allen Seiten der zu rekonstrierenden Person erhalten werden, wie in Abbildung 5 dargestellt. Aufdiese Weise soll ein möglichst vollständige Abdeckung durch Tiefeninformationen erreicht werden.

4 Iwer Petersen

3.1 Aufbau

Abb. 4. Aufbau des Scansystems um die zu rekonstruierende Person

Abb. 5. Resultierende Tiefenbilder aus dem in Abbildung 4 dargestellten Aufbau

3.2 Kalibrierung

Um eine räumliche Relation zwischen den Kameras herzustellen wird zunächst ein Koordinatenursprung mitHilfe eines AR-Tags festgelegt. Ein Kalibrierungsverfahren ähnlich zu [Zha00] wird dann angewendet um ausPunktkorrespondenzen in den Bildern mehrerer Kameras die Position und Orientierung jeder Kamera in Relationzum festgelegten Koordinatenursprung berechnet.


3.3 Verabeitungspipeline

Die so gewonnenen Daten werden dann in einer Pipeline welche in Abbildung 6 dargestellt ist verarbeitet. Zunächstwerden die dynamischen Elemente in den Tiefenbildern durch Hintergrundseparierung freigestellt. Die so vorbe-reiteten Tiefenbilder werden dann mit Hilfe der Kamerageometrie und den durch die Kalibrierung gewonnenenTranformationsmatrizen in Punktwolken umgewandelt, in ein gemeinsames Koordinatensystem transformiert, undschließlich vereinigt.

Abb. 6. Verarbeitungspipeline in der Übersicht

Die resultierende Punktwolke, sowie die RGB-Bilder der einzelnen Kameras werden nun in einem Vorverarbei-tungsschritt welcher in Abbildung 7 dargestellt ist, auf die Meshtriangulation vorbereitet.

RGB-Bild-Vorverarbeitung

Die RGB-Bilder der einzelnen Kameras werden zunächst in der Auflösung reduziert, und anschließend zueinem Bild zusammengesetzt. Über die Auflösungsreduzierung wird hauptsächlich die zu streamende Datenmengebeeinflusst. Die Vereinigung der Bilder dient der Vereinfachung beim Rendern, da so lediglich eine Textur für ein3D Modell benötigt wird.

Punktwolken-Vorverarbeitung

Auch die Punktwolken werden, um die Datenmenge zu beeinflussen in der räumlichen Auflösung reduziert. Diesgeschieht durch Mittelwertbildung aller Punkte in einem Voxel bestimmbarer Größe. Auf diese Weise werdenauch überlappende Punkte eliminiert, welche durch die Vereinigung der Daten mehrerer Kameras entstehen.Anschließend werden die Oberflächennormalen für jeden Punkt berechnet und für eine Moving-Least-SquareGlättung der Punktwolke verwendet. Durch Transformation der einzelnen Punkte in die Kamerakoordinatensysteme,werden anschließend Texturkoordinaten erzeugt, welche auf die kombinierte RGB-Textur mappen.Außerdem wirdfür den nachfolgenden Meshtriangulationsschritt eine KD-Tree Repräsentation der Punktwolke generiert.

Abb. 7. Verarbeitungsschritte von RGB-Bildern und Punktwolke zur Vorbereitung der Meshtriangulation

6 Iwer Petersen

3.4 Mesh-Triangulation

Vergleichbare Rekonstruktionsverfahren nutzen oftmals die zweidimensionale Natur von Tiefenbildern aus, bei denenbenachbarte Punkte wohl bekannt sind, und nutzen einen 2D Triangulationsalgorithmus. Diese sind in der Regelschneller als die meisten 3D Triangulationsalgorithmen. Die Forschung im Bereich der Punktwolken Verarbeitungin den letzten Jahren hat allerdings viel versprechende Triangulationsalgorithmen hervorgebracht. Einer dieserAlgorithmen ist die von [MRB09] beschriebene Greedy-Projection Triangulation. Dieser Algorithmus verwendeteine KD-Tree Repräsentation der Punktwolke, um lokal, von Stützstellen ausgehend, benachbarte Punkte zu finden.Diese auf eine tangentiale Ebene projiziert, welche die Oberfläche in der lokalen Nachbarschaft approximiert.Innerhalb dieser Ebene werden nun Punkte, eingeschränkt unter anderem durch eine Maximaldistanz zwischen zweiPunkten sowie Maximal- und Minimalwinkeln zwischen zwei Kanten, verbunden und so Kanten geformt welche imweiteren Verlauf Dreiecke bilden. Durch seine Arbeitsweise ist dieser Algorithmus in der Lage kleinere Löcher zufüllen, und kann vergleichsweise gute Ergebnisse aus großen und verrauschten Punktwolken gewinnen. Weiterhinkönnen mit Hilfe dieses Algorithmuses auch sukzessive, sich teilweise überlappende Punktwolken in ein bereitstrianguliertes Mesh integriert werden, was allerdings vor allem für statische Objekte relevant ist, welche aus zeitlichaufeinander folgenden Punktwolken rekonstruiert werden.

3.5 Mesh Streaming

Zu guter Letzt muss das rekonstruierte Mesh an die darstellende Komponente gesendet werden. Im Falle einerMixed-Reality Anwendung gibt es für eine Darstellung lokal anwesender Teilnehmer zunächst keinen Grund. FürTeilnehmer die aufgrund Ihrer Entfernung als 3D Modell dargestellt werden sollen, sind allerdings rekonstruierendeund darstellende Komponente ebenso weit entfernt, und erfordern so eine Datenübertragung über ein Netzwerk.Übertragen werden muss, wie in Abbildung 8 dargestellt, die kombinierte Textur, sowie das Polygonmesh.

Abb. 8. RGB-Bild sowie rekonstruiertes Mesh werden über ein Netzwerk an eine darstellende Komponente gestreamt.

Für Bilddaten sind inzwischen viele verschiedene Lösungen gefunden worden und im Einsatz. Die Übertragungvon dynamischen Polygonmeshes hingegen ist nach wie vor Gegenstand aktueller Forschung. Grundlegende Arbeitzu dem Thema Komprimierung und Übertragung von Polygonmeshes wurde von Martin Isenburg [IL05] geleistet.Unter Betrachtung von Echtzeit Aspekten wurde diese Arbeit unter anderem von [GMB+11] fortgesetzt. Füreine Realisierung eines solchen Streamingsystems ist allerdings weitere Recherche im Rahmen der Masterarbeitnotwendig. Kritisch bei diesem Schritt ist die Anzahl der Vertizen aus denen das Polygonmesh besteht. Aus diesemGrund ist der Downsampling Schritt in der Pipeline der wirksamste Justierungsparameter.

4 Evaluierung

Bevor eine Evaluierung hinsichtlich der Vermutung, dass ein rekonstruiertes 3D Modell eine einfachere Interaktionund Kommunikation zwischen Teilnehmern ermöglicht als selbstanimierte Avatare, durchgeführt werden kann,muss zunächst eine Machbarkeitsstudie durchgeführt werden. Die Frage die hierbei zu erörtern ist, ist ob es mit demoben beschriebenen Verfahren möglich ist. EIne hinreichend schnelle Rekonstruktion durchzuführen. Die relevantenMetriken sind hierbei die erreichbare Framerate bei der Rekonstruktion sowie bei der Übertragung und die Latenz.Beide Faktoren sind in diesem Fall kritisch. Ist die erreichbare Framerate nicht hoch genug, wird keine flüssigeDarstellung der 3D Repräsentation bei der Visualisierung möglich sein. Dadurch wird der gegenteilige Effekt einernatürlicheren Darstellung erreicht. Die Latenz ist ebenso ein kritischer Faktor, da eine hohe Latenz es sehr schwierigmacht, konkurrierende Handlungen abzustimmen. Der Effekt hierbei dürfte dabei ähnlich störend wirken, wie einehohe Latenz bei Sprachübertragungen, wo ein “Ins Wort fallen” durch gefühlt lange Pausen regelrecht provoziertwird.

Sollte die Machbarkeitsstudie erfolgreich sein, ist es wünschenswert die rekonstruierten Avatare und ein Verfah-ren zur Selbstanimation in einer Nutzerstudie gegeneinander zu evaluieren. Dabei geht es vor allem um die Frage,


ob die Kommunikation mit einem virtuellen Gegenüber durch die realistischere Darstellung tatsächlich verbessertwird. Dazu würden verschiedene hinreichend komplexe Kommunikationssituationen jeweils als SelbstanimierterAvatar und als rekonstruierter Avatar von Testpersonen beurteilt werden. Die Kommunikationssituationen solltenauf dem Szenario basiert werden, welches in der I2E Forschungsgruppe verfolgt wird, und an eine Diskussion übermögliche Zusammenstellungen des zu konstruierenden 3D Modells angelehnt sein.

5 Risiken

Die Risiken in diesem Projekt lassen sich im Wesentlichen durch die Evaluierungsschritte unterteilen. Während derMachbarkeitsstudie bestehen zunächst technische Risiken. Während einer möglichen darauf folgenden Nutzerstudiesind vor allem konzeptuelle Risiken zu erwarten.

5.1 Technische Risiken

Damit das Projekt überhaupt für eine Nutzerstudie verwendbar ist, müssen vor allem zeitliche Grenzen eingehaltenwerden. Wie schon im Abschnitt 4 angemerkt, ist sowohl die erreichbare Framerate sowie die Latenz von Erfas-sung bis Darstellung kritische Faktoren, um die Machbarkeitsstudie zum Erfolg zu bringen. In der Regel wirdangenommen, dass eine Frequenz von 25− 30Hz für das menschliche Auge nicht mehr wahrnehmbar ist. Diekritische Schwelle für die Framerate wird daher zum jetzigen Zeitpunkt mit 20Hz angenommen. Ein Richtwertfür eine vertretbare Latenz konnte bisher bei Literaturrecherchen noch nicht gefunden werden. Auf Basis vondurchschnittlicher menschlicher Reaktionszeit sollte diese allerdings 100ms nicht überschreiten.

5.2 Konzeptuelle Risiken

Sollten die oben genannten technischen Risken überwunden werden können, besteht immer noch das Risiko, dass inden Nutzerstudien das vorgeschlagene System weniger akzeptiert wird als das alternative System. Die Gründe dafürmüssten im Rahmen der Nutzerstudie abgefragt werden. Denkbar ist auch, dass die in den technischen Risikengenannten Richtwerte nicht durchgängig ausreichend sind.

6 Die nächsten Schritte

Die in Projekt I entwickelte Rekonstruktionspipeline wurde in Projekt II weiter verfeinert und der Triangulati-onsschritt von einer 2D Triangulation auf den viel versprechenden Greedy Projection Triangulationsalgorithmusumgestellt. Weiterhin wurde die Implementierung des Kalibrierungsverfahren vorangetrieben, welches allerdingsnoch nicht funktionstüchtig. Da dies aber der kritische Schritt auf dem Weg von der Einzelkamera- zur Multikamera-rekonstruktion ist, muss dieser Schritt zunächst abgeschlossen werden. Die Integration der Daten mehrerer Kamerasist in der Rekonstruktionspipeline schon vorgesehen, und sollte nach Implementierung des Kalibrierungsverfahrensin kurzer Zeit möglich sein. An diesem Punkt können die ersten Test hinsichtlich der technischen Risiken unter-nommen werden. Je nach Ergebnis muss dann die Pipeline optimiert, oder aber die Meshstreaming-Komponenteentwickelt werden. Wenn das System dann wie erwartet funktioniert, beginnt die Integration in das Gesamtsystemdes I2E Projekts, sowie die Konzipierung der Nutzerstudie.

8 Iwer Petersen

Literatur

[AZD13] ALEXIADIS, Dimitrios S. ; ZARPALAS, Dimitrios ; DARAS, Petros: Real-time, full 3-D reconstruction of movingforeground objects from multiple consumer depth cameras. In: IEEE Transactions on Multimedia 15 (2013), Nr. 2, S.339–358

[BJW12] BENKO, Hrvoje ; JOTA, Ricardo ; WILSON, Andrew: MirageTable: Freehand Interaction on a Projected AugmentedReality Tabletop. In: Proceedings of the SIGCHI Conference on Human Factors in Computing Systems. New York,NY, USA : ACM, 2012 (CHI ’12). – ISBN 978–1–4503–1015–4, S. 199–208

[DMB11] DODDS, Trevor J. ; MOHLER, Betty J. ; BÜLTHOFF, Heinrich H.: Talk to the virtual hands: Self-animated avatarsimprove communication in head-mounted display virtual environments. In: PloS one 6 (2011), Nr. 10, S. e25759

[GMB+11] GASPARELLO, Paolo S. ; MARINO, Giuseppe ; BANNÒ, Filippo ; TECCHIA, Franco ; BERGAMASCO, Massimo:Real-Time Network Streaming of Dynamic 3D Content with In-frame and Inter-frame Compression. In: Proceedingsof the 2011 IEEE/ACM 15th International Symposium on Distributed Simulation and Real Time Applications.Washington, DC, USA : IEEE Computer Society, 2011 (DS-RT ’11). – ISBN 978–0–7695–4553–0, 81–87

[IL05] ISENBURG, Martin ; LINDSTROM, Peter: Streaming meshes. In: Visualization, 2005. VIS 05. IEEE IEEE, 2005, S.231–238

[MBS+11] MCMANUS, Erin A. ; BODENHEIMER, Bobby ; STREUBER, Stephan ; ROSA, Stephan de l. ; BÜLTHOFF, Heinrich H.; MOHLER, Betty J.: The Influence of Avatar (Self and Character) Animations on Distance Estimation, ObjectInteraction and Locomotion in Immersive Virtual Environments. In: Proceedings of the ACM SIGGRAPH Symposiumon Applied Perception in Graphics and Visualization. New York, NY, USA : ACM, 2011 (APGV ’11). – ISBN978–1–4503–0889–2, 37–44

[Mor70] MORI, Masahiro: The uncanny valley. In: Energy 7 (1970), Nr. 4, S. 33–35[MRB09] MARTON, Zoltan C. ; RUSU, Radu B. ; BEETZ, Michael: On Fast Surface Reconstruction Methods for Large and

Noisy Datasets. In: Proceedings of the IEEE International Conference on Robotics and Automation (ICRA). Kobe,Japan, May 12-17 2009

[Zha00] ZHANG, Z.: A flexible new technique for camera calibration. In: IEEE Transactions on Pattern Analysis andMachine Intelligence 22 (2000), Nr. 11, S. 1330–1334

Abbildungsverzeichnis

1 Unrealistische Verformung eines statischen Charaktermodells bei starker Handdrehung . . . . . . . . . . . . . . . 12 Visualisierung Projektziel: zwei Personen konstruieren von unterschiedlichen Standorten aus

gemeinsam ein 3D Modell aus Bauelementen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Präsenzsystem von Mirage-Table [BJW12]. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 Aufbau des Scansystems um die zu rekonstruierende Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 Resultierende Tiefenbilder aus dem in Abbildung 4 dargestellten Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 Verarbeitungspipeline in der Übersicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Verarbeitungsschritte von RGB-Bildern und Punktwolke zur Vorbereitung der Meshtriangulation . . . . . . 58 RGB-Bild sowie rekonstruiertes Mesh werden über ein Netzwerk an eine darstellende Komponente

gestreamt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

Documents

3D Avatare durch Echtzeitrekonstruktion zur Unterstützung …ubicomp/... · 2015-03-01 · [Mor70]. Ein Verfahren zum Erfassen der aktuellen äußeren Erscheinung von Menschen welches